Ускорение невозможно без аналитики

10.05.2018 Аналитика

Ускорение невозможно без аналитики

Светлана Бова, директор департамента аналитических систем Росбанка, в интервью «Б.О» рассказала о роли аналитики в развитии бизнеса

Вадим Ференец

Обозреватель «Б.О»

Светлана Бова

Директор департамента аналитических систем

— Светлана, какова, на ваш взгляд, качественная динамика развития аналитики в банках? Приходится ли доказывать ее важность?

— В текущих условиях рынка в банковской сфере уже не нужно убеждать бизнес-подразделения в важности наличия проверенных консистентных данных и той пользе, которую приносит их качественный анализ. В банках накоплен огромный пласт внутренней информации: истории взаимоотношений с клиентами, профиль продуктов, которые пользуются популярностью у потребителей, данные клиентов и так далее. Вместе с тем растет интерес к данным, внешним по отношению к периметру банка, например к данным из соцсетей, различном видеоконтенте.

Потребность бизнеса в анализе, в свою очередь, порождает необходимость пересматривать классические, ставшие традиционными подходы в построении IT-ландшафта аналитических систем и набор используемых программно-аппаратных средств. Так, в дополнение к корпоративному хранилищу данных появляются аналитические приложения с выделенной функциональностью по планированию и прогнозированию и многочисленные sandboxes, так называемые песочницы — области данных для моделирования и экспериментов.

Новый стек технологий Big Data уже опробован во многих банках. При этом периметр его функционального применения очень разнороден: от задач по архивному хранению редко используемых данных (DWH — off-loading) в целях удешевления владения инфраструктурой до усовершенствования скоринг-моделей оценки рисков. Меняются также требования к скорости проведения анализа и доставки данных, используемых для принятия решений. Во многом от скорости принятия решения в условиях высокой динамики изменений зависят успешность и маржинальность бизнеса.

— Какие драйверы развития аналитических систем можно выделить?

— Среди драйверов развития аналитики в банках необходимо выделить повышение уровня конкуренции на банковском рынке, усиление борьбы за клиента и повышение требований к надежности систем аналитики, от которых начинают реально зависеть критичные бизнес-процессы. Данных становится много, и чаще всего они разнородные. Одновременно с удовлетворением потребностей бизнеса достаточно большое значение имеют требования регулятора банковского рынка, которые нацелены на получение информации в детальном виде. Это накладывает очень жесткие ограничения на процессы подготовки и валидации данных, порождает необходимость внедрения многоуровневых автоматизированных процедур проверки качества данных на атомарном сделочном уровне.

— Получается, что аналитика становится реальным бизнес-инструментом и топ-менеджмент готов инвестировать в команду аналитиков?

— Абсолютно верно. Более того, мы видим на рынке труда повышение спроса на специалистов, которые обладают компетенцией data scientist и аналитика в одном лице, так называемых универсальных аналитических солдат. Эти люди имеют сильные навыки программирования, знание бизнес-процессов и аналитической отчетности, а также хорошо ориентируются в бизнесе банка.

Такой специалист способен, получив требования от бизнеса в бизнес-терминологии, самостоятельно найти источники данных, спроектировать оптимальную модель для расчета витрины данных, загрузить данные, разработать отчет и предложить отображение необходимых показателей в визуально удобном формате дашборда, а также, проведя дополнительные анализ и профилирование данных, сформировать гипотезы по созданию новых продуктов, спрогнозировать их эффективность, востребованность на рынке и создать модель оценки рисков для предложения бизнесу с последующим внедрением в жизнь.

Потребность бизнеса в анализе порождает необходимость пересматривать классические подходы в построении IT-ландшафта аналитических систем и набор используемых программно-аппаратных средств

При таком подходе не требуется проходить стандартную цепочку разработки, привлекая несколько сотрудников для реализации задачи от начала до конца: заказчик, project-менеджер, аналитик, разработчик, тестировщик, project-менеджер, заказчик. Взаимодействие становится прямым и быстрым: заказчик, data scientist. Как показывает практика, результатом заказчик при таком построении процесса разработки в большинстве случаев остается удовлетворен.

Конечно, такие специалисты — редкий профиль, и в основном они вырастают, участвуя в проектах построения реляционных хранилищ данных, аналитических систем, Data Lake («озера данных»), причем как в роли разработчика, так и в роли аналитика. Большинство хороших кандидатов на рынке приходят из компаний-интеграторов, так как именно там есть возможность за максимально короткий срок (один-два года) принять участие в нескольких проектах с гибким перераспределением между проектными ролями.

— Вы упомянули о Data Lake. Что вы вкладываете в это понятие?

— Data Lake — это логический термин, описывающий область хранения данных, больших данных. Классическое хранилище данных (Data Warehouse) основано на реляционной СУБД, базируется на модели данных, загрузка производится с использованием ETL-инструментария (extract, transformation, loading), и в качестве пользовательского слоя публикации данных применяются различные приложения BI (business intelligent). У каждого крупного вендора IBM, SAP, Oracle, SAS, Terradata данная линейка продуктов представлена и широко используется на российском банковском рынке. Основная особенность Data Lake — это возможность хранения неструктурированных данных, данных «в сыром виде». Здесь широко используется стек Bid Data технологий, в основном open source.

Но чтобы Data Lake («озеро данных») не превратилось в Data Swamp («болото данных»), важно выстроить единый процесс управления данными, создать репозиторий данных и карту потоков данных data lineage. Эту «картину мира» необходимо постоянно содержать в актуальном и консистентном состоянии. Только при таком условии концепция Data Lake будет приносить реальную пользу потребителям ежедневно растущего массива данных.

— Можно ли назвать некоторые цифры, характеризующие обрабатываемую информацию?

— Мы только начинаем создавать Data Lake, а корпоративное хранилище данных сейчас содержит в себе больше 70 терабайт. Это больше 350 млрд записей. Необходимо отметить, что у нас около 15 тыс. процедур по загрузке, обработке и трансформации данных. Каждый день в хранилище поступает на вход более 7 млн новых записей. Реализованные витрины данных исчисляются десятками, а отчеты — тысячами.

При этом сотрудников, занимающихся развитием и сопровождением аналитических систем, в департаменте аналитических систем всего 50, а количество проектов и заявок на работы по наращиванию функциональности хранилища и аналитических приложений всегда превышает наши ресурсы в несколько раз. Многим заказчикам приходится стоять в очереди, и, конечно, это не может нравиться пользователям. Поэтому мы ввели в практику для особо «продвинутых» аналитиков из бизнес-подразделений услугу «self-service analytics», или, иными словами, «сервисную модель использования данных». Суть заключается в том, что у пользователей с навыками программирования есть возможность самостоятельно исследовать данные хранилища, выбирать только те, которые необходимы им для генерации своей отчетности или создания моделей, и производить выгрузки данных из КХД в sandboxes. Это позволяет не стоять в очереди на реализацию запроса силами IT, а самостоятельно оперировать данными.

Безусловно, в рамках такого подхода предъявляются определенные требования к организации релизного процесса установки обновлений КХД и информирования пользователей об изменениях модели и структуры данных КХД.

Чтобы все пользователи хранилища данных были в едином информационном пространстве, мы разработали единый бизнес-глоссарий терминов/атрибутов, а также разместили логическую модель хранилища на внутреннем портале Банка. Каждый при желании может в любой момент времени узнать, какие атрибуты и показатели содержатся в хранилище, что с чем связано, и «опуститься» до физической реализации в базе данных.

Светлана Бова, Росбанк. Фото: Росбанк

Профиль сотрудников сильно меняется не только в IT, но и в бизнесе. Все больше отдается предпочтение «универсалам», специалистам, которые умеют обращаться с данными и одновременно понимают и развивают бизнес. Поэтому, на мой взгляд, подход «self-service analytics» так хорошо прижился в нашем ландшафте.

Граница между IT-специалистом и аналитиком в бизнесе размывается. За последние несколько лет на рынке резко увеличилось количество востребованных вакансий по профилю data scientist. Это уже устойчивый показатель интеграции IT-компетенций в бизнес-профиль.

— Давайте дадим определение профессии data scientist.

— Если говорить простым языком, то это специалист, который хорошо понимает структуру хранения данных, хорошо профилирует данные, выявляя закономерности, тренды, обладает навыками математического моделирования и статистического анализа данных. При этом он глубоко понимает задачи бизнеса и может сгенерировать идею, знает, каким образом грамотно использовать данные для получения прибыли, улучшения сервиса для клиента и т.д. Иными словами, это креативный дизайнер, создающий ценность для бизнеса из всех доступных ему в данный момент данных.

Data scientist — это проактивный человек, который, имея опыт, знания и умение буквально «выцарапывать» данные, может сформулировать топ-менеджменту такое предложение, которое пойдет на пользу бизнесу.

Часто задают вопрос: «Слышит и понимает ли бизнес то, что предлагают data scientists?» Слышит, и еще как! Сейчас топ-менеджеры, как правило, глубоко вовлечены в процессы генерации идей, сбор предложений от молодежи, стартапов и финтехов, создание более привлекательных продуктов. Но мало иметь продукт, нужны каналы его продвижения, красивая «обертка» для предложения и т.д. Все это можно почерпнуть из моделей data scientists. Сейчас бизнес — это командная работа.

— Как обучить таких «универсальных солдат»?

— У нас, естественно, выстроена целая система обучения внутри Банка. Наш центр компетенций, департамент аналитических систем создали внутренний курс обучения нашему BI-инструменту SAP Business Objects с практическими примерами и упражнениями с учетом рекомендаций вендора. Все это мы транслируем пользователям, несколько раз в год проводим обучающие сессии. Кроме того, мы разместили на общем корпоративном портале информацию, благодаря которой любой сотрудник Банка может самостоятельно удаленно пройти курс.

Сотрудники также постоянно повышают свой уровень знаний, участвуя в профильных конференциях, форумах, обучающих программах от вендоров.

Чтобы Data Lake не превратилось в Data Swamp, важно выстроить единый процесс управления данными, создать репозиторий данных и карту потоков данных data lineage

По моему мнению, появление новых профессий — прекрасный драйвер для роста тех людей, которые умеют и любят познавать что-то новое.

С другой стороны, стремительная динамика появления новых профессий, таких как data scientist, вскрыла проблему неготовности к таким быстрым изменениям наших высших учебных заведений. Data scientists — очень востребованная и интересная профессия, но сейчас все люди в ней, что называется, из разряда обученных путем «проб и ошибок». Мало кто из них имеет многолетний опыт практического использования технологий Big Data, так как технология для российского рынка достаточно «молодая». Специалистов по практическому построению Data Lake вообще единицы. Большинство специалистов-практиков в этой области находятся за пределами России. Поэтому у людей есть мощный стимул для саморазвития, перспектив у высококлассных аналитиков много.

— Как вы относитесь к искусственному интеллекту? Может ли он восполнить дефицит кадров?

— Я пока весьма скептически отношусь к искусственному интеллекту. Меня смущает вопрос проверки достоверности произведенных расчетов самообучающимися алгоритмами. В больших организациях весьма разрозненный IT-ландшафт, поэтому всегда есть проблемы с синхронизацией данных, их полнотой и связанностью, особенно в историческом массиве данных. Да и условия рынка 10-летней давности и данные, порожденные в то время, сильно отличаются от современных потребностей. Модели, разработанные на массиве глубиной даже в пять лет, могут оказаться нерелевантными на текущих данных в текущих условиях рынка и профиля потребителей услуг.

Всегда есть вероятность ошибок: при ручной обработке — это человеческий фактор, а у машины — это так называемая массовая ошибка. Соответственно, прежде чем начать использовать искусственный интеллект в каком-то реальном бизнес-процессе, в выработке конкретных решений, необходимо провести тестирование и постфактум-анализ с использованием естественного интеллекта. Затем необходимо сравнить итоги принятия решения человеком и машиной в некоторый исторический период. Какой продолжительности должен быть этот период? Все зависит от критичности процесса, в который вы планируете внедрить шаг принятия решения «машиной». Статистика показывает, что пока победа далеко не всегда на стороне искусственного интеллекта.

— В каких бизнес-процессах искусственный интеллект мог бы пригодиться?

— Опираясь на технологии машинного обучения, можно пробовать элементы искусственного интеллекта в области прогнозирования поведения и формирования профиля клиента, для того чтобы иметь возможность сделать ему привлекательное предложение в нужный момент. Рассматриваемая область находится на стыке психологии и программирования, поэтому тут возможен, например, автоматизированный анализ страничек в социальных сетях, которые посещает наш потенциальный клиент. В данном контексте также представляет интерес его собственный профиль с фото- и видеоматериалами, предпочтениями, вкусами и т.д.

Развитие этой технологии приводит к тому, что изучение поведения и основанный на этом маркетинг — это безрисковая зона для первых шагов применения искусственного интеллекта.

Клиентская база банков, по большому счету, фиксированная, продукты более или менее выравнены. Все, по большому счету, занимаются калибровкой схожих параметров (потребительский кредит, кредит под залог, ипотека), а также работают над каналами удобной доставки предложений. Поэтому маркетинг уходит в сторону воздействия на клиента на уровне подсознания и формирования у него потребности, которую компания тут же может удовлетворить предложенной услугой.

— Что вы ожидаете от SAP-форума? Выступаете ли здесь с докладами и кейсами?

— Перед этим интервью я выступала в одной из сессий. Я рассказывала о том, как мы в Росбанке выстраиваем процесс управления данными, как создаем саму фундаментальную систему Data Governance Catalog, какова роль Chief Data Officer (директора по данным), какие новые функции требуют внимания при выстраивании процесса управления данными и какова роль в этом процессе корпоративного хранилища данных. Я не ожидала такого количества вопросов из зала. Представители разных сфер промышленности, не только банковского сектора, выказали огромный интерес к этой тематике, окружив меня в фойе после выступления.

Почему SAP-форум? Потому что в качестве одного из основных инструментов мы используем SAP Business Objects, и мы хотели обменяться опытом с другими пользователями этого решения. Мне же персонально интересно посмотреть новинки в области визуализации и больших данных, потому что Росбанк сейчас активно рассматривает различные варианты применения Big Data. Лучшее понимание клиента Банком — это наш фокус, и мы будем развиваться в этом направлении.

— Какими наблюдениями с Форума вы можете поделиться сегодня?

— Наибольший интерес у гостей Форума вызвали стенды, где был представлен функционал по виртуальной дополненной реальности, интерактивные дашборды с красивой, поистине «голливудской», графикой для топ-менеджмента и продемонстрирован инструментарий для работы с большими данными SAP HANA и искусственного интеллекта.

Ну и, конечно, аншлаг обеспечил Иван Ургант, который блестяще, с присущей только ему легкостью и виртуозностью, говорил о сложных технологиях простым языком с экспертами компании SAP.

№5 май (232)/2018

Подписывайтесь на канал «Банковское обозрение» в Телеграм