Финансовая сфера

Банковское обозрение


  • Как банк «Санкт-Петербург» новый мониторинговый центр запускал
18.01.2021 Best-practiceFinTech
Как банк «Санкт-Петербург» новый мониторинговый центр запускал

Устранить неполадки в работе банковского приложения желательно до того, как с ними столкнется клиент. Для этого банк «Санкт-Петербург» запустил новый мониторинговый центр


Мониторинг в IT существовал в банке и раньше, но не был централизованным: разрозненный мониторинг компонентов IT-системы частично охватывал банковские приложения. На старте проекта мы с командой провели аудит существующего процесса и получили следующую картину: в основном преобладал мониторинг на уровне IT-инфраструктуры, отслеживающий работоспособность компонента без привязки к уровню приложения. Не было инструментов для оценки производительности, практически отсутствовал мониторинг клиентского опыта, а точнее — цифрового опыта, опыта взаимодействия клиента с IT-системами. А это серьезная точка роста в цифровую эпоху: мы должны понимать, все ли хорошо у клиента при работе с нашими приложениями, ведь наша основная цель — не допустить ухудшения качества обслуживания. От высокого уровня качества работы систем зависят лояльность наших клиентов и в итоге — рост клиентской базы. Система мониторинга должна помогать решать задачи в части увеличения показателей доступности и надежности IT-систем. Одно из основных требований к мониторингу — проактивное обнаружение проблем и реакция на них, т.е. мы должны устранять проблему до того, как она окажет влияние на клиентов. Если возникают какие-то ошибки или деградация работоспособности приложения, мы должны понять, у какой группы клиентов это происходит, чтобы отработать негатив, дать sorry-message, тем самым повысив лояльность.

После проведенного аудита мы наметили ряд направлений построения нового процесса мониторинга

  • мониторинг работоспособности приложений и клиентского опыта;
  • создание и внедрение централизованной зонтичной системы;
  • обеспечение оперативной реакции на события системы мониторинга.

По задаче внедрения мониторинга работоспособности приложений и клиентского опыта мы находимся в середине пути и планируем закончить внедрение в 2021 году. Решение данной задачи позволит нам осуществлять мониторинг работы приложений со стороны клиента, оценивая опыт взаимодействия с нашими приложениями, а также проводить мониторинг наиболее важных бизнес-процессов. 

Зонтичная система мониторинга

По второму пункту — создание и внедрение централизованной зонтичной системы мониторинга — мы внедрили функционал зонтичной системы мониторинга, разработали единый портал мониторинга и сделали сводные панели для определения «здоровья» IT-систем. Теперь в наш «зонтик» собираются метрики с различных систем мониторинга, далее они обрабатываются, обогащаются, «коррелируются» и затем выводятся на панель мониторинга и отправляются в виде предупреждений (алертов) администраторам. 

Сейчас централизованная система мониторинга — это:

  • единое окно контроля работоспособности IT-систем, динамическая панель, которая в режиме реального времени показывает, какие есть проблемы, подкрашивая их по уровню критичности;
  • централизованная рассылка алертов (функционал собственной разработки, позволяющий гибко настраивать рассылки по системе, серверу, триггеру);
  • единое хранилище метрик для проведения аналитики трендов и просмотра состояния системы в прошлом (период хранения — 90 дней для подробных данных и один год — для агрегированных);
  • аналитика метрик (отчетность по топам срабатывания мониторинга, потребления ресурсов и т.д.).

Архитектура системы мониторинга

Архитектура зонтичной системы мониторинга включает в себя весь необходимый функционал для мониторинга всех уровней IT-системы: инфраструктуры, приложения, интеграционного взаимодействия, бизнес-процесса. 

Если «верхнеуровнево» разделить архитектуру системы мониторинга на компоненты, то получим следующую структуру: компоненты сбора и обработки метрик, компоненты сбора и обработки алертов, компоненты визуализации и компоненты отчетности. Причем находятся они на одном уровне. 

В своих решениях мы не используем одну монолитную систему — зонтичная система мониторинга собирается в единую экосистему с использованием разных решений. Так сказать, берем лучшее от каждого. Например,

на уровне сбора и обработки метрик мы используем следующие системы для мониторинга: Zabbix, OpenSCADA, Cisco AppDynamics, Elasticsearch. 

AppDynamics применяется для мониторинга работоспособности и производительности самых критичных систем банка, таких как интернет-банк, CRM, ABC. Также с помощью AppDynamics мы сейчас внедряем мониторинг цифрового опыта наших клиентов при взаимодействии с IT-системами банка, чтобы детально видеть проблемы каждого клиента и проактивно на них реагировать.  

Zabbix используем для мониторинга систем меньшей критичности — там, где нет необходимости отслеживать напрямую пользовательский опыт и мониторить транзакции приложений. В Elasticsearch собираются логи, требуемые для аналитики и мониторинга на предмет ошибок. OpenSCADA используется для мониторинга оборудования в ЦОД. 

Все алерты, которые срабатывают в системах мониторинга, поднимаются на уровень сбора и обработки алертов — «зонтик». Это самостоятельная разработка, которая собирает алерты от систем мониторинга и по заданным правилам обрабатывает их: проводит корреляцию алертов, информирует всех причастных специалистов, инициирует автоматическую реакцию. 

Все метрики выводятся в единую панель визуализации на базе Grafana, с которой работают пользователи системы мониторинга. А решением третьей задачи как раз и стал запуск нового мониторингового центра. 

Новый мониторинговый центр

В первую очередь мы ввели принцип системности: любой компонент IT-системы должен быть поставлен на мониторинг. Каждую неделю команда сверяет сбои: если система мониторинга какие-то из них не зарегистрировала, добавляем агенты туда, где этот сбой произошел. Так мы дорабатываем систему и увеличиваем охват, чтобы в итоге в нее вошли все существующие в банке IT-системы.

Наша основная цель — проактивный мониторинг, то есть устранение проблемы до того, как клиент может с ней столкнуться. Для этого мы сами разработали и собрали специальный портал, куда сливаются все алерты от различных систем. События обрабатываются системой мониторинга, происходит их корреляция. Это нужно, чтобы видеть корневую причину сбоя и заранее подавлять его. Сейчас мы налаживаем интеграцию системы мониторинга с системой IT Service Manager, там все сбои будут автоматически фиксироваться и направляться в рабочие группы для устранения. Эти решения позволяют нам осуществлять эффективный и прозрачный контроль работоспособности всех IT-систем. 

Контроль — это хорошо, но что же дальше? Необходимо правильно реагировать на сбои и не допускать аварий. Для этого в IT-блоке создан Центр мониторинга. Мы сформировали группу, работающую по сменам в режиме 24/7, и реагирующую на алерты от системы мониторинга. Мы сделали для круглосуточной смены видеостену, на которой собрали все панели, отражающие работоспособность IT-систем и IT-инфраструктуры в банке. Сформировали процесс создания run-book — инструкции, где подробно описано, как реагировать на те или иные ситуации. На каждое событие администратор пишет специальную инструкцию для дежурных, чтобы они сразу понимали, как им действовать: устранять сбой, собрать информацию, провести диагностику, позвонить администратору и т.д. Мы работаем над тем, чтобы система мониторинга сама предлагала такую инструкцию при определенном сбое. В одну смену в Центре мониторинга работают два оператора, у которых есть все необходимое оборудование для круглосуточного централизованного контроля.

Проделана большая работа. Новый мониторинговый центр позволяет сократить время реакции, а значит, время восстановления работоспособности систем. Но наша главная задача — сократить количество сбоев. В идеале мы должны устранять любой сбой до его появления. К этой цели мы и будем стремиться.