Как банк «Санкт-Петербург» новый мониторинговый центр запускал

18.01.2021 Best-practice FinTech

Как банк «Санкт-Петербург» новый мониторинговый центр запускал

Устранить неполадки в работе банковского приложения желательно до того, как с ними столкнется клиент. Для этого банк «Санкт-Петербург» запустил новый мониторинговый центр

Алексей Тутуков

Руководитель управления мониторинга и реагирования дирекции по информационным технологиям банка «Санкт-Петербург»

Мониторинг в IT существовал в банке и раньше, но не был централизованным: разрозненный мониторинг компонентов IT-системы частично охватывал банковские приложения. На старте проекта мы с командой провели аудит существующего процесса и получили следующую картину: в основном преобладал мониторинг на уровне IT-инфраструктуры, отслеживающий работоспособность компонента без привязки к уровню приложения. Не было инструментов для оценки производительности, практически отсутствовал мониторинг клиентского опыта, а точнее — цифрового опыта, опыта взаимодействия клиента с IT-системами. А это серьезная точка роста в цифровую эпоху: мы должны понимать, все ли хорошо у клиента при работе с нашими приложениями, ведь наша основная цель — не допустить ухудшения качества обслуживания. От высокого уровня качества работы систем зависят лояльность наших клиентов и в итоге — рост клиентской базы. Система мониторинга должна помогать решать задачи в части увеличения показателей доступности и надежности IT-систем. Одно из основных требований к мониторингу — проактивное обнаружение проблем и реакция на них, т.е. мы должны устранять проблему до того, как она окажет влияние на клиентов. Если возникают какие-то ошибки или деградация работоспособности приложения, мы должны понять, у какой группы клиентов это происходит, чтобы отработать негатив, дать sorry-message, тем самым повысив лояльность.

После проведенного аудита мы наметили ряд направлений построения нового процесса мониторинга:

мониторинг работоспособности приложений и клиентского опыта;
создание и внедрение централизованной зонтичной системы;
обеспечение оперативной реакции на события системы мониторинга.

По задаче внедрения мониторинга работоспособности приложений и клиентского опыта мы находимся в середине пути и планируем закончить внедрение в 2021 году. Решение данной задачи позволит нам осуществлять мониторинг работы приложений со стороны клиента, оценивая опыт взаимодействия с нашими приложениями, а также проводить мониторинг наиболее важных бизнес-процессов.

Зонтичная система мониторинга

По второму пункту — создание и внедрение централизованной зонтичной системы мониторинга — мы внедрили функционал зонтичной системы мониторинга, разработали единый портал мониторинга и сделали сводные панели для определения «здоровья» IT-систем. Теперь в наш «зонтик» собираются метрики с различных систем мониторинга, далее они обрабатываются, обогащаются, «коррелируются» и затем выводятся на панель мониторинга и отправляются в виде предупреждений (алертов) администраторам.

Сейчас централизованная система мониторинга — это:

единое окно контроля работоспособности IT-систем, динамическая панель, которая в режиме реального времени показывает, какие есть проблемы, подкрашивая их по уровню критичности;
централизованная рассылка алертов (функционал собственной разработки, позволяющий гибко настраивать рассылки по системе, серверу, триггеру);
единое хранилище метрик для проведения аналитики трендов и просмотра состояния системы в прошлом (период хранения — 90 дней для подробных данных и один год — для агрегированных);
аналитика метрик (отчетность по топам срабатывания мониторинга, потребления ресурсов и т.д.).

Архитектура системы мониторинга

Архитектура зонтичной системы мониторинга включает в себя весь необходимый функционал для мониторинга всех уровней IT-системы: инфраструктуры, приложения, интеграционного взаимодействия, бизнес-процесса.

Если «верхнеуровнево» разделить архитектуру системы мониторинга на компоненты, то получим следующую структуру: компоненты сбора и обработки метрик, компоненты сбора и обработки алертов, компоненты визуализации и компоненты отчетности. Причем находятся они на одном уровне.

В своих решениях мы не используем одну монолитную систему — зонтичная система мониторинга собирается в единую экосистему с использованием разных решений. Так сказать, берем лучшее от каждого. Например,

на уровне сбора и обработки метрик мы используем следующие системы для мониторинга: Zabbix, OpenSCADA, Cisco AppDynamics, Elasticsearch.

AppDynamics применяется для мониторинга работоспособности и производительности самых критичных систем банка, таких как интернет-банк, CRM, ABC. Также с помощью AppDynamics мы сейчас внедряем мониторинг цифрового опыта наших клиентов при взаимодействии с IT-системами банка, чтобы детально видеть проблемы каждого клиента и проактивно на них реагировать.

Zabbix используем для мониторинга систем меньшей критичности — там, где нет необходимости отслеживать напрямую пользовательский опыт и мониторить транзакции приложений. В Elasticsearch собираются логи, требуемые для аналитики и мониторинга на предмет ошибок. OpenSCADA используется для мониторинга оборудования в ЦОД.

Все алерты, которые срабатывают в системах мониторинга, поднимаются на уровень сбора и обработки алертов — «зонтик». Это самостоятельная разработка, которая собирает алерты от систем мониторинга и по заданным правилам обрабатывает их: проводит корреляцию алертов, информирует всех причастных специалистов, инициирует автоматическую реакцию.

Все метрики выводятся в единую панель визуализации на базе Grafana, с которой работают пользователи системы мониторинга. А решением третьей задачи как раз и стал запуск нового мониторингового центра.

Новый мониторинговый центр

В первую очередь мы ввели принцип системности: любой компонент IT-системы должен быть поставлен на мониторинг. Каждую неделю команда сверяет сбои: если система мониторинга какие-то из них не зарегистрировала, добавляем агенты туда, где этот сбой произошел. Так мы дорабатываем систему и увеличиваем охват, чтобы в итоге в нее вошли все существующие в банке IT-системы.

Наша основная цель — проактивный мониторинг, то есть устранение проблемы до того, как клиент может с ней столкнуться. Для этого мы сами разработали и собрали специальный портал, куда сливаются все алерты от различных систем. События обрабатываются системой мониторинга, происходит их корреляция. Это нужно, чтобы видеть корневую причину сбоя и заранее подавлять его. Сейчас мы налаживаем интеграцию системы мониторинга с системой IT Service Manager, там все сбои будут автоматически фиксироваться и направляться в рабочие группы для устранения. Эти решения позволяют нам осуществлять эффективный и прозрачный контроль работоспособности всех IT-систем.

Контроль — это хорошо, но что же дальше? Необходимо правильно реагировать на сбои и не допускать аварий. Для этого в IT-блоке создан Центр мониторинга. Мы сформировали группу, работающую по сменам в режиме 24/7, и реагирующую на алерты от системы мониторинга. Мы сделали для круглосуточной смены видеостену, на которой собрали все панели, отражающие работоспособность IT-систем и IT-инфраструктуры в банке. Сформировали процесс создания run-book — инструкции, где подробно описано, как реагировать на те или иные ситуации. На каждое событие администратор пишет специальную инструкцию для дежурных, чтобы они сразу понимали, как им действовать: устранять сбой, собрать информацию, провести диагностику, позвонить администратору и т.д. Мы работаем над тем, чтобы система мониторинга сама предлагала такую инструкцию при определенном сбое. В одну смену в Центре мониторинга работают два оператора, у которых есть все необходимое оборудование для круглосуточного централизованного контроля.

Проделана большая работа. Новый мониторинговый центр позволяет сократить время реакции, а значит, время восстановления работоспособности систем. Но наша главная задача — сократить количество сбоев. В идеале мы должны устранять любой сбой до его появления. К этой цели мы и будем стремиться.

#UX/CX #Дистанционные каналы

Подписывайтесь на канал «Банковское обозрение» в Телеграм

Алексей Тутуков

Новости Новости

В 2023 году было оформлено 248 тысяч полисов ОСАГО для легковых такси

23.04.2024

Правительство не поддержало идею МВД о смягчении ответственности за утечку данных

23.04.2024

В Госдуму внесена новая редакция законопроекта о международных расчетах в криптовалютах

23.04.2024

Разработчик платформы сбора и хранения данных Arenadata готовится к IPO

23.04.2024

Релизы

Голосовой помощник обработал 1,5 миллиона обращений в медучреждения Башкортостана

23.04.2024

Новикомбанк расширяет взаимодействие с ВРО «СоюзМаш»

23.04.2024

Компания BSS приняла участие в «Мобильных финансах-2024»

23.04.2024

В центре «Мой бизнес» предпринимателям расскажут о краудфандинге

23.04.2024

Все новости и релизы

ВСЕ ПУБЛИКАЦИИ

Сейчас на главной

Колыбель для селлера, или Как преуспеть на маркетплейсах

МТС Банк придумал продукт «Бизнес на маркетплейсах», и всего за полгода число его клиентов-селлеров выросло в 2,2 раза. Что за продукт и как он работает?

Юлия Полякова 23.04.2024

Российские участники ВЭД адаптируются к санкционным ограничениям

О финансовых продуктах, предоставляемых РОСЭКСИМБАНКом в рамках мер господдержки экспортеров, «Б.О» рассказала исполняющая обязанности председателя правления банка Татьяна Сахарова

Татьяна Сахарова Екатерина Кац 22.04.2024

Банки на выезде

Уход западных IT-вендоров стал не только вызовом, но и стимулом: импортозамещение ускоряется и охватывает все больше сегментов рынка. В авангарде — финансовый сектор: в банках уже появляются надежные программно-аппаратные комплексы на базе российских решений

Екатерина Бурчина 22.04.2024

ПЕРЕЙТИ НА ГЛАВНУЮ

ЭВЕНТЫ