Банковское обозрение

Сфера финансовых интересов

  • Транзакционная аналитика в действии: Diners Club Italy
05.04.2018 Best-practice
Транзакционная аналитика в действии: Diners Club Italy

В последнее время финансовые организации все чаще используют внешние источники данных для прогнозирования рисков, создания маркетинговых кампаний, продуктовых решений и рекомендательных систем — будь то данные из Интернета (социальные сети, медиа, текстовые документы) или государственные реестры и справочники, данные телекоммуникационных компаний, кредитных бюро и прочих агрегаторов



Вместе с тем внутренние, уже имеющиеся в организации источники могут оказаться не задействованными на полную мощность — например, иногда забывают или уделяют недостаточное внимание таким полезным данным, как транзакционные. Именно о транзакционной аналитике и пойдет речь в статье — на примере проекта с Diners Club Italy будет показано, как с помощью несложных аналитических методов получить значимые, ценные для бизнеса результаты.

 

СПРАВКА Б.О
Diners Club Italy — часть международной группы Diners Club International, платежная система, представленная в Италии более чем в 350 тыс. аффилированных предприятий и более 50 тыс. банкоматов. Всего в стране она насчитывает свыше 150 тыс. держателей карт, к каждому из которых компания ищет индивидуальный подход, стараясь удовлетворить возникающие потребности и обеспечить максимально комфортное пользование картой. По этой причине для компании Diners всегда остаются приоритетными такие задачи, как индивидуальный маркетинговый анализ клиентов и предприятий-партнеров, предотвращение мошенничества и обеспечение безопасности транзакций.

 

Постановка задачи

Мировая индустрия кредитных карт продолжает демонстрировать стабильный рост, потребители охотно используют карты с высокими кредитными лимитами. Вместе с тем усиление давления регуляторов и ужесточение кредитных стандартов создает финансовым организациям дополнительную нагрузку.

Кроме того, растет конкуренция между компаниями, вынуждая их быть более гибкими, учитывать пожелания и потребности своих клиентов, предугадывать действия конкурентов и быть готовыми к разработке новых продуктов для обеспечения роста прибыли и доли на рынке.

В данной ситуации появляется потребность в использовании новаторских подходов для удержания клиентов, повышения их лояльности и увеличения суммы используемых ими кредитных средств. Именно для решения такой задачи Diners Club Italy выбрал Experian в качестве партнера: в 2017 году был реализован проект, раскрывший новые возможности компании в области обеспечения удовлетворенности клиентов и повысивший эффективность проводимых маркетинговых кампаний.

Основные цели проекта:

• увеличение объема клиентских транзакций;

• снижение уровня оттока клиентов;

• проведение маркетинговых кампаний, основанных на закономерностях в транзакционных данных;

• оптимизация маркетинговых ресурсов;

• ориентация как на держателей карт, так и на торговые предприятия-партнеры.

Решение

Решение строится одновременно для двух задач — предотвращения оттока клиентов и стимулирования клиентских транзакций. Таким образом, необходимо своевременно промаркировать тех клиентов, которые собираются закрыть карту, дав компании возможность принять превентивные меры по их удержанию, а также определить наилучшие средства воздействия и предложения для неактивных клиентов, редко пользующихся кредитным лимитом, для увеличения суммы их транзакций.

В качестве входных данных компания Diners предоставила подвыборки из двух систем: транзакционной и маркетинговой. Для основного этапа анализа были выбраны клиенты с заполненными данными сразу в обеих системах. Период наблюдения составил два года (2015-2016), тесты проводились на данных 2017 года. Всего было проанализировано несколько десятков миллионов транзакций.

В созданном решении можно выделить три основные части:

• сегментация;

• создание рекомендаций;

• уведомления.

Сегментация

Первый шаг — сегментация портфеля клиентов на основе совершенных ими транзакций, определение типичных паттернов транзакционного поведения, стиля жизни и предпочтений. В результате сегментации становится проще охарактеризовать портфель, появляется наглядное представление о его составных частях — группах клиентов со схожими интересами, а также об их численности. Эта информация позволяет подобрать для клиентов более релевантные предложения. Таким образом, результаты сегментации используются на последующих этапах — при создании рекомендаций и уведомлений.

Иллюстрация процесса представлена на рис. 1.

Рис. 1. Сегментация: LDA, K-means

Рис. 1. Сегментация: LDA, K-means

Немного углубимся в детали. Посмотрим, какими параметрами мы располагаем для анализа. Каждый, кто хотя бы раз заглядывал в транзакционную базу данных, мог видеть, что набор известных переменных не так уж и велик: идентификатор клиента, идентификатор счета, дата, время и сумма транзакции, код торговой точки и ее наименование, а также категория транзакции (MCC-код). Несмотря на ограниченный набор параметров, из него можно извлечь огромное количество полезных сведений.

Пусть каждый MCC-код (или наименование торговой точки) — это слово в нашем специально созданном словаре. Тогда цепочка исторических транзакций клиента — это набор слов, т.е. текстовый документ. Коллекция таких документов (историй транзакций) всех клиентов составляет корпус. Теперь у нас есть все необходимое для построения тематической модели, которая определит, к каким темам относится каждый из документов и какие слова образуют ту или иную тему.

Другими словами, на выходе модели мы получим для каждого клиента вектор вероятностей принадлежности его транзакционной истории элементам найденного набора изначально скрытых тем (сфер деятельности), а также список ключевых MCC-кодов (или наименований торговых точек), формирующих каждую тему: «идентификатор счета; тема 1: вероятность принадлежности транзакций к теме 1;…; тема N: вероятность принадлежности транзакций к теме N».

В терминах обработки естественного языка такой процесс нахождения вероятностного распределения документа на множестве тем называется семантическим описанием документа, а тип кластеризации, когда каждое слово и каждый документ относятся к нескольким темам одновременно с определенными вероятностями, называется мягкой кластеризацией (soft clustering).

Приведем пример. Пусть в результате анализа на корпусе определены семь тем. Транзакции клиента «А» относятся только к трем из них: развлечения (40%), образование (40%), ежедневные покупки (20%). С каждой из этих областей связан список категорий торговых точек, наиболее вероятных к посещению клиентом. Для области «развлечения» — это видеоигры, бары и рестораны, развлекательные центры, кинотеатры, СПА-салоны. Поэтому, скорее всего, клиент «А» отнесется лояльнее к предложениям, связанным, например, со скидками на тренировки CS:GO и Dota 2, чем к предложению купить детское питание по более низкой цене.

В решаемой Experian задаче в качестве алгоритма тематического моделирования был использован метод латентного размещения Дирихле (latent Dirichlet allocation, LDA). Ниже приведен список тем, выявленных моделью на анализируемой выборке, и даны примеры описания конкретных сегментов:

 

Рис. 2. Темы транзакций на выборке Diners Club Italy

Рис. 2. Темы транзакций на выборке Diners Club Italy

Теперь, когда мы сопоставили каждому клиенту/счету вектор-результат LDA-анализа, можно посчитать расстояние между этими векторами и объединить «близких», похожих друг на друга по поведению клиентов в кластеры. Для этого может быть использован метод K-means.

На рис. 3 для наглядности приведен абстрактный пример нескольких кластеров. Из рисунка видно, что темы могут пересекаться.

 

Рис. 3. Примеры сегментов-кластеров, отвечающих различным стилям жизни

Рис. 3. Примеры сегментов-кластеров, отвечающих различным стилям жизни
(Стрелки вверх/вниз обозначают увеличение/уменьшение объема транзакций каждой категории)

Сегменты, полученные с помощью K-means, дают верхнеуровневое представление о клиентах, их стиле жизни и поведении, раскрывают неочевидные закономерности в данных. Отметим, что эти сегменты могут существенно отличаться от категорий транзакций (MCC-кодов), имеющихся в исходных данных. Поэтому основной плюс подобного анализа заключается в появлении дополнительных сведений о держателях карт, которые трудно заметить невооруженным глазом.

Результатов, полученных на данном этапе, уже вполне достаточно для того, чтобы приступить к созданию новых или корректировке имеющихся таргетированных предложений.

Возвращаясь к нашим основным целям — увеличению суммы транзакций неактивных клиентов и уменьшению уровня оттока, вполне естественно построить модель регрессии для задачи бинарной классификации, где в качестве предсказываемых классов будут рассмотрены следующие:

• churn — клиенты, которые совершали попытки закрыть счет хотя бы один раз, включая удержанных;

• spending — клиенты, у которых в течение последующего года увеличились средние объемы транзакций по счетам.

Заметим, что определение может быть выбрано как на уровне счета, так и на уровне клиента. Это зависит от поставленных вопросов и имеющихся данных (например, для платежных систем агрегация всех счетов/номеров карт на уровне клиента может стать отдельной большой задачей, в то время как во многих банках эта информация уже доступна).

В качестве переменных для анализа использовались различные характеристики, посчитанные на транзакционных данных, включая полученные описанным выше способом идентификаторы кластеров. В результате моделирования клиенты были разделены по диапазонам скорингового балла на группы, каждая из которых отвечает определенному уровню риска оттока (рис. 4, ранжированы от низкого риска к высокому).

 

Рис. 4. Скоринговые интервалы vs шансы churn-spending

Рис. 4. Скоринговые интервалы vs шансы churn-spending

Помимо модели churn-spending, портфель клиентов анализируется в разрезе прибыльности, риска задолженности, средней суммы совершаемых транзакций и других факторов. Все это понадобится на следующем этапе.

Создание рекомендаций

Когда все необходимые модели построены, можно переходить к непосредственному их использованию для решения поставленных задач.

Напомним, что в проекте участвовали данные из транзакционной и маркетинговой систем. При этом у части клиентов:

• информация заполнена в обеих базах — I группа;

• есть только транзакционная информация — II группа;

• отсутствует транзакционная информация за последние три года — III группа.

С группой I дело обстоит проще всего. Этих клиентов просегментировали по среднемесячной сумме транзакций. Установили, менялись ли для них полученные сегменты с течением времени и, если менялись, то как (рис. 5). На выявленное поведение наложили соответствующие скоринговые интервалы, полученные из модели churn-spending. Пользуясь результатами транзакционного анализа (вычисленными кластерами), сформировали предложения для удержания клиентов и стимулирования транзакций.

 

Рис. 5. Схематичный пример использования сегментации для приоритизации работы с клиентами

Рис. 5. Схематичный пример использования сегментации для приоритизации работы с клиентами

Довольно часто клиентам рекомендуют посещение определенных торговых точек, с которыми банк/платежная система состоит в партнерских отношениях. От такого взаимодействия все обычно выигрывают: клиент получает скидки и специальные предложения, расширяется список наиболее посещаемых им мест, торговая точка получает плату за услуги, а банки/платежные системы — комиссию от точек и увеличение оборота карточных транзакций, то есть дополнительную прибыль. Но как финансовой организации определить, какие именно торговые точки из всего их многообразия предложить клиенту, чтобы он наверняка воспользовался предложением, и с какими из торговых точек стоит установить партнерство?

Решений может быть много. Первое, самое простое, — использовать те точки, которые и так часто посещаются. Но этот способ больше подходит для удержания клиента в портфеле, чем для увеличения оборота его транзакций. Пример: предложения кредитных карт с кэшбэком на АЗС владельцам транспортных средств.

Еще один подход — рекомендовать торговые точки, похожие на те, что клиент уже посетил, или те, что посетили другие клиенты, похожие на рассматриваемого. Для этого построим матрицу «торговые точки vs клиенты», элементами aij которой являются частоты посещения клиентом i торговой точки j.

Теперь, когда и клиентам, и торговым точкам соответствуют векторы, можно получить численное выражение похожести торговых точек (или клиентов) между собой, используя разные меры. Мы будем пользоваться косинусной мерой — косинусом угла между векторами. Провалидировать полученные значения схожести можно, обратившись к открытым источникам: например, почитать отзывы о схожих в нашей метрике ресторанах на TripAdvisor и обрадоваться, увидев, что все они имеют похожий рейтинг (количество звезд) и во всех из них хвалят, например, фейжоаду.

Далее, если мы хотим учесть в рекомендациях рассматриваемому клиенту оценки похожих на него клиентов, то воспользуемся коллаборативной, или совместной, фильтрацией. Это метод построения рекомендаций, который использует известные предпочтения группы пользователей для определения неизвестных предпочтений другого пользователя. Таким образом, метод основан на предположении, что те, кто одинаково оценивали какие-то предметы в прошлом, будут давать похожие оценки и в будущем. Прогнозы строятся индивидуально для каждого пользователя. В нашем случае оценка равносильна частоте посещения торговой точки. Опуская вычислительные детали этого метода, на выходе получим список из топ-N торговых точек, которые можно порекомендовать клиенту (из него исключаются те точки, которые клиент уже посещает).

Если же планируется предлагать клиенту новые точки на основе его прошлых посещений/транзакций, то тут Experian использует специальный рекомендательный скоринг, оценивающий полезность рекомендации торговой точки M интересующему нас клиенту. Подсчет значения скоринга для всех торговых точек по отношению ко всем клиентам будет вычислительно избыточным, поэтому полезность рекомендации рассчитывается только для ограниченного набора торговых точек, наиболее схожих (по матрице схожести) с предыдущими транзакциями клиента. Сколько исторических транзакций клиента использовать, все ли из них учитывать — это открытые вопросы, требующие настройки в процессе моделирования.

В описанной выше методике, разработанной Experian под названием RFM (Recency-Frequency-Monetary), используются также поправочные весовые коэффициенты, учитывающие давность, суммы, частоты транзакций, предыдущие посещения торговых точек и другие факторы. Итогом применения метода для клиента является список топ-N рекомендованных торговых точек, который пересчитывается на регулярной основе в зависимости от совершаемых клиентом транзакций.

Помимо указанных выше способов создания рекомендаций могут быть задействованы ассоциативные правила. Так, можно выявить связанные и взаимозаменяемые товары. Например, если клиентка купила свадебное платье, то ей вскоре могут понадобиться туфли, ювелирные украшения, услуги стилистов и парикмахеров. Не стоит забывать и о таких сверхважных данных, как геоданные (география транзакций).

Вряд ли клиент, ежедневно перемещающийся из Бутово в центр Москвы и обратно, будет рад скидкам в магазинах, находящихся в Долгопрудном. В то же время, если вы видите, что клиент оказался в нетипичной для него геопозиции, то самое время предложить ему что-то новое в еще не изученном им месте. Последний пример относится к третьей части решения — уведомлениям, но их мы коснемся чуть позже.

Помимо транзакционных данных для I группы есть в наличии и маркетинговые данные, позволяющие учитывать информацию о прошлых откликах клиентов на предложения и корректировать создаваемые рекомендации. Следующим шагом, помимо тестирования и оценки результатов, может стать оптимизация стратегии, дающая ответы на вопросы, что, когда и как часто предлагать клиентам для получения более высоких результатов.

Что касается II и III групп (с недостающими данными), то в этом случае рекомендуется либо повторить сбор данных по мере наполнения, либо обратиться к внешним источникам, либо попытаться заполнить пропуски экспертными оценками или методами прогнозирования/аппроксимации. Например, для счетов с низкой транзакционной активностью, о предпочтениях которых в данный момент ничего не известно, применяется подход, похожий на коллаборативную фильтрацию, учитывающий известное поведение клиентов в прошлом.

Заметим, что в процессе решения основной задачи появлялись все новые и новые подзадачи, также требующие внимания. К сожалению, нет универсального метода, который подходил бы сразу всем компаниям, — каждую ситуацию стоит рассматривать индивидуально в соответствии со спецификой организации и ее клиентов.

Но в любом случае нельзя забывать о сохранении баланса между сложностью используемых методов и эффективностью получаемых результатов. Прежде чем громоздить сложную модель, требующую от создателей много времени и сил, пусть даже и суперинновационную, лучше протестировать простые методы, оценить результаты, понять особенности той сферы, в которой приходится работать. Это даст видение, в каком направлении двигаться и что можно улучшить, а далее уже можно наращивать сложность моделей по мере необходимости.

Уведомления

Пересмотр и расширение системы уведомлений (триггеров) входят в будущие планы компании Diners Club Italy. Осветим лишь основные идеи данного решения.

Строится множество моделей по прогнозированию транзакций клиента в последующие интервалы времени (например, 7, 14 или 30 дней). Можно прогнозировать как полный набор транзакций, так и отдельные их категории. Анализируются точки концентрации, сезонные изменения и другие поведенческие характеристики, позволяющие построить предсказание, максимально близкое к реальному поведению клиента. Далее, если в поведении клиента появляются отклонения (всплески, выбросы, нетипичные паттерны транзакций), то срабатывают триггеры и заинтересованным подписчикам направляются соответствующие уведомления.

Уведомления — очень мощный инструмент, позволяющий быстро реагировать на то, что происходит с клиентами.

Пример: если транзакция не случается в ожидаемый, рассчитанный моделью период, то в банк отправляется сообщение, позволяющее своевременного предупредить отток клиента. Уведомления могут отправляться и в случае, когда у пользователя меняются предпочтения, появляются новые возможности — рождение ребенка, переезд и прочее.

Разумеется, такое решение требует поддержки на регулярной основе — необходимо учитывать новые появляющиеся транзакции клиентов и вовремя пересчитывать вероятности. Обычно период обновления выбирают исходя из задачи и доступности данных.

Таким образом, все три части решения описаны, и пришло время рассказать о результатах, полученных компанией Experian в проекте с платежной системой Diners Club Italy.

Результаты

Специалисты Diners Club Italy провели маркетинговую кампанию на основе созданного Experian решения, направленного на увеличение объема используемого клиентами карточного лимита в течение заданного периода времени, и сравнили результаты с полученными ранее показателями (до применения новой стратегии). Удалось достичь следующих улучшений:

• на 11,5% увеличены суммы трат по картам для клиентов, которым было отправлено e-mail-сообщение;

• на 56% увеличены суммы средних трат для неактивных клиентов (с низким уровнем расходов);

• на 35% увеличены суммы общих расходов по картам для клиентов из сегмента Urban shoppers;

• при создании маркетинговых кампаний осуществлен переход с экспертного анализа на аналитический, статистический подход;

• оптимизация маркетинговых ресурсов, автоматизация;

• учет интересов как торговых точек, так и отдельных клиентов — держателей карт.