Финансовая сфера

Банковское обозрение


  • Непознанное
13.05.2013

Непознанное

«Большие данные» или big data будоражат умы банковских менеджеров уже не первый год. IT-компании обещают, что с их помощью банк сможет узнать о себе и других то, чего иначе никогда бы не узнал, и в результате вывести бизнес на новый уровень. Но как именно это сделать?


«Какие «большие данные»? Зачем? Ведь жили прекрасно без этого раньше», — как правило, говорят банкиры. Чтобы ответить на эти вопросы, полезно совершить небольшой экскурс в историю.

Как рассказывает Джош Уилс (Josh Wills), старший директор по Data Science компании Cloudera, в 2001 году у компании Google просто было не так много денег, чтобы покупать мощные и отказоустойчивые сервера и системы хранения, в то время как данных накапливалось все больше — ведь им нужно было фактически хранить несколько копий Интернета. Чтобы обеспечить сохранность данных на случай отказа одного из серверов, приходилось просто вручную «размножать» файлы на несколько компьютеров. Как часто бывает, лень стала двигателем прогресса, и программисты компании решили автоматизировать этот процесс. Так родилась распределенная система Google, которая позже легла в основу Hadoop Distributed File System (HDFS) — файловой системы для хранения файлов больших размеров, блоки которых разделены между разными серверами (узлами), связанными в один большой набор (кластер). Чтобы работать с этими данными, была создана технология Map/Reduce, которая разбивает их на большое количество фрагментов и присваивает им пары ключ/зна­чение, с помощью которых можно обрабатывать информацию.

Таким образом, технология объединяет преимущества традиционных баз данных и обычных файловых хранилищ. Как и в случае с реляционными (SQL) СУБД, данные обрабатываются там же, где хранятся. С другой стороны, можно хранить, что угодно — текст, изображения, видео и т.д. Плюс такой системы в том, что она легко масштабируется — чтобы получить больше места и производительности, достаточно просто добавить компьютеры в кластер.

Так был создан набор инструментов для работы с большими объемами данных или просто «большими данными» под названием Hadoop. Причем, что интересно, разработчики открыли код, чтобы парадигма развивалась и с «большими данными» мог работать каждый.

Но зачем это каждому, и, в том числе, банку? По сути, технология позволяет извлечь «эссенцию» из большого объема данных, единичный фрагмент которых, может быть, не важен, но на основе анализа их всех вместе можно сделать интересные и важные выводы. Так, например, один чек клиента ничего не дает, но имея тысячи чеков, можно выявить закономерности, понять, что человеку нравится, и создать систему рекомендаций.

Другое важное преимущество подхода big data — с данными можно работать быстро. При работе с традиционными базами данных долго разрабатывается совершенная модель, затем данные долго обрабатываются, и выдаются некие результаты, которые, может быть, будут полезны. Подход big data иной — начальная модель может быть не столь точной, но ее можно проверять гораздо быстрее: не понравились результаты — доработал модель, посмотрел снова, и снова, и снова. Джош Уилс сравнивает это с конструированием самолета: вместо того, чтобы создавать «идеальный» прототип около года с тем, чтобы при запуске он упал через 20 секунд, лучше разработать прототип, который можно быстро снова собрать, немного доработать, а затем запустить снова. Может быть, он упадет через 5 секунд, но эксперименты можно проводить каждый день или даже несколько раз в день. Таким образом, за полгода можно опробовать огромное количество идей — больше, чем традиционным методом за 10 лет, и, в конце концов, самолет полетит.

«Терьеры» данных

Одно из основных препятствий для использования «больших данных» в России — с ними просто некому работать. Экспертов по big data в банках нет; неясно, с какой стороны даже начать. На Западе для людей, выискивающих «крупицу золота в море песка», уже довольно давно придуман специальный термин — data scientist. На русский язык его можно перевести приблизительно как «ученый по данным». На вопрос, что делает data scientist, Джош Уилс отвечает, что людям обычно рисуется образ героя фильма, передвигающего пальцами голограммы в воздухе, накладывая их одна на другую и легким движением руки отбрасывая ненужное; он сам склонен думать о себе, как о математике, выводящем сложные формулы, а на самом же деле его работа больше напоминает попытки очистить пол зубной щеткой — в попытках найти нужное приходится «очищать» множество данных. Выведенное им определение data scientist можно перевести на русский язык примерно так: «Это человек, который понимает в статистике больше, чем любой разработчик ПО, и понимает в разработке ПО больше, чем любой эксперт по статистике».

Однако Джош Уилс замечает, что data scientist не должен сам себе ставить задачу и сам же ее решать. «Нет ничего хуже, когда бизнес приходит ко мне и говорит: “Вот тебе данные, найди мне какие-нибудь закономерности”», — говорит он. — Дайте мне проблему — будь то привлечение клиентов, уменьшение затрат или обнаружение нетипичных событий — и давайте поговорим о том, как ее решить с помощью имеющихся данных, развернем системы для работы с ними. И я гарантирую: в процессе решения проблемы мы найдем определенные закономерности».

Где же взять таких людей? Понятно, что они не появляются из ниоткуда, а в университетах (по крайней мере, российских) пока не обучают такой специальности, как data scientist. Судя по опыту Джоша Уилса, лучшими «учеными по данным» становятся все те же аналитики, которые раньше занимались выстраиванием моделей для реляционных СУБД — все-таки в основном работа похожа — выстраивание моделей данных и формирование запросов. Конечно, при этом нужны дополнительные навыки — понимание основ Hadoop и программирования. Хорошо, если программист знает Java, но ему все-таки придется овладеть такими языками, как Python и R.

Документация по Hadoop открыта, и всему, при наличии желания и времени, можно научиться самостоятельно. На странице «Чем Hadoop не является», впрочем, сказано, что Hadoop «не место» для изучения программирования на Java, сообщений об ошибках телекоммуникационной сети и управления Linux- и Unix-серверами. Подразумевается, что все эти знания у «адепта» есть. Видимо, по этой причине на данный момент для data scientist созданы и специализированные курсы — в основном, компаниями, продающими решения для работы с big data.

Есть ли место для слона в банке

Хотя скептиков все еще больше, интерес к big data среди российских банков, безусловно, есть. «Еще месяц назад я думал, что big data — это “маркетинговый жупел”», — так начал свое выступление на конференции «Big Data: возможность или необходимость», организованной CNews, Кирилл Лядов, руководитель центра BI ХКФ Банка. Но, по его словам, изучение информации по этой тематике и общение с коллегами заставили изменить мнение. Да, бизнес-кейс, подтверждающий, что применение big data экономически выгодно, построить сложно, однако, как поэтично выразился Кирилл Лядов, стоит «целовать лягушек», чтобы одна из них, наконец, превратилась в царевну. До дела, впрочем, в ХКФ Банке пока не дошли.

Скептики в то же время приводят весьма весомые аргументы «против». Начальник IT-департамента Росэнергобанка Леонид Белышков считает, что в российских банках объем бизнеса все еще не таков, чтобы инструменты для работы с «большими данными» стали действительно необходимы. По его мнению, «не бывает больших данных, бывают плохие процессы и инфраструктура». Если данных стало слишком много и нагрузка на серверы слишком высока — надо просто отказаться от централизации.

Однако в России уже есть банки, которые проводят эксперименты с «большими данными». Как мы писали ранее, в Сбербанке, по словам директора центра технологических исследований Мирчи Михаэску, уже сейчас ведется около десяти проектов с использованием технологий big data, которые могут быть потенциально полезны бизнесу. Под эти задачи выделены восемь человек, которые строят Hadoop-кластер. Кроме того, Сбербанк привлекает внешних консультантов — лидирующую в области применения «больших данных» компанию из США, чтобы ускорить процесс. Можно сказать, «зеленый слон» танцует с «желтым слоном» — ведь именно желтый слон стал символом Hadoop.

«Пилот» по использованию «больших данных» ведется и в ВТБ24. Как рассказал на конференции CNews Сергей Анохин, вице-президент и заместитель директора финансового департамента ВТБ24, банк тестирует возможности анализа клиентской базы с помощью решения SAS Visual Analytics. Эта работа ведется в рамках перехода к клиентоориентированной стратегии. «Нужно смотреть на конкретный продукт и конкретного клиента», — замечает Сергей Анохин. Собрав «низковисящие фрукты», для повышения эффективности бизнеса приходится переходить на новый уровень анализа данных. Массив данных анализируется по 70 категориям и 80 показателям. Под эти задачи выделены четыре брейд-сервера, на которых установлено 100 Гб оперативной памяти. В результате, если ранее любая новая итерация по изменению модели данных занимала как минимум неделю, то теперь банк может менять модели «на лету». По словам Сергея Анохина, ВТБ24 уже готовится к внедрению технологии в продуктивную эксплуатацию.

В то же время в России бытуют некоторые заблуждения насчет применения big data на Западе. С одной стороны, считается, что там с этими технологиями давно разобрались, с другой, почему-то, многие полагают, что крупнейшие американские банки «прекрасно живут» и без них. Однако, если почитать западную прессу, можно заметить, что у них до сих пор ставятся те же вопросы, что и у нас — о границах применимости big data, о подходах и технологиях, позволяющих использовать «большие данные».

Что касается банков — Cloudera заявляет, что три из «первой пятерки» используют ее решения. JPMorgan Chase использует Hadoop для борьбы с фродом, управления рисками IT и в каналах самообслуживания, а Morgan Stanley — для анализа портфолио. К сожалению, американские банкиры не очень охотно делятся информацией о том, для каких именно целей они применяют эти технологии, но отмечают, в частности, что Hadoop помогает им существенно снизить стоимость хранения данных. Кроме того, уже созданы отдельные компании, предоставляющие банкам услуги скоринга на основе big data — например, ZestFinance.

Присутствовавший на конференции CNews заместитель председателя правления и глава IT-департамента ЦБ РФ Михаил Сенаторов отметил отсутствие готовых шаблонов применения технологий big data, в результате чего каждый банк должен сам решать, зачем они ему, и строить из этого «конструктора» свои собственные решения. Вопрос необходимости применения big data, по его мнению, зависит от ответа на вопрос «хотим ли мы предоставлять лучший сервис?».

Джош Уилс (Cloudera) считает, что в следующие несколько лет BI-менеджеры, наконец, оценят возможности предиктивной (предсказательной) аналитики, поскольку количество отчетов, которые им приходится просматривать для принятия решений, огромно, и все растет. Кроме того, по его мнению, будут развиваться решения для вычислений в оперативной памяти, поскольку только загрузив модели данных в оперативную память можно работать с ними достаточно быстро.






Новости Новости Релизы