Финансовая сфера

Банковское обозрение


  • Знать бы прикуп…
06.09.2023 FinCorpFinRegulationFinRetailFinTechАналитика

Знать бы прикуп…

Кредитный скоринг благодаря искусственному интеллекту (ИИ) и современным датасетам для его обучения показывает выдающиеся результаты как по точности, так и по скорости. Но что делать с модельным риском — пока вопрос


Кредитный (и не только) скоринг базируется на данных, причем качественных. Чем их больше, тем репрезентативнее датасет, необходимый для обучения моделей, а также точнее предсказательная сила полученных моделей. Но при этом сами модели должны быть готовы и протестированы еще до появления на их входе новых данных. Образуется некий замкнутый круг, который удается отчасти разорвать благодаря технологиям AutoML и MLOps, являющимся в некоторой степени аналогом DevOps в мире IT. Однако возникают проблемы иного рода, в частности необходимость минимизации модельного риска.

С точки зрения бизнеса развитие скоринговых моделей приводит к тому, что у представителей топ-10 банков, которые имеют примерно одинаковый набор источников данных и технологий их обработки, налицо перспектива получения схожих скоринговых баллов как для своих, так и для потенциальных клиентов, желающих взять кредит. Поэтому все чаще слышны не радующие регулятора предложения о «запирании» клиентов крупных банков в собственных экосистемах. Кроме того, уже видны первые успешные попытки «переиспользовать» результаты работы скорингового ИИ для расширения воронки продаж путем создания персонифицированных маркетинговых акций.

Источники данных

Эксперты считают данные по транзакциям одним из самых надежных источников информации для нужд кредитного скоринга. С данными подобного типа неплохо работают такие алгоритмы ИИ, как логистическая регрессия и градиентный бустинг, хотя и нейросети отвоевывают здесь свое место под солнцем.

НБКИ также предлагает весьма информативные результаты обработки кредитных историй. Например, в середине 2023 года Бюро представило семейство прогнозных моделей, предсказывающих вероятность получения частным клиентом необеспеченного кредита в ближайшем будущем; в них используется анализ обязательств около 100 млн заемщиков, информация о которых содержится в базе НБКИ.

Полезные сведения о потенциальных заемщиках можно получить у телеком-операторов, крупных ретейлеров, интернет-провайдеров и т.д. Этим способом довольно давно пользуются финансисты для обогащения своих данных.

Однако тут есть несколько проблем. Во-первых, все эти источники — платные. Во-вторых, далеко не всегда они отражают реальную картину поведения человека, ведь он может активно использовать одни сервисы, игнорируя другие. В итоге, приобретая данные, например, только у одного телеком-оператора, можно купить кота в мешке.

Это привело когда-то к появлению компаний-агрегаторов, а в последнее время — к практической реализации различных технологий безопасного объединения данных. В середине 2023 года стартовал пилотный проект Тинькофф Банка, Экспобанка и Уральского банка реконструкции и развития (УБРиР) по обмену обезличенными данными о сумме средств на всех счетах клиентов, желающих взять кредитный продукт одного из участников «пилота». Что-то аналогичное запустил Альфа-Банк в рамках межбанковской платформы обмена данными «Голограмма».

В конце июля 2023 года в ходе конференции ScorFest Борис Белов, заместитель начальника управления моделирования РБ департамента анализа данных и моделирования банка ВТБ, раскрыл некоторые детали практической реализации концепции Data Fusion и ее технологической компоненты — «криптоанклава». В частности, приступила к работе дочерняя компания ВТБ и Ростелекома «Платформа больших данных». По словам Бориса Белова, для нужд скоринга на платформе собрана «звонковая и интернет-активность». Кроме того, Ростелеком контролирует примерно 40% СМС-рассылок в России, а значит, эмбеддинги и обезличенные данные по СМС уже есть в хранилище. Это крайне интересные данные, отражающие самые последние тренды, например, в области интернет-заказов, их выкупа и доставки.

Практически все участника рынка высоко оценивают качество и объем государственных источников данных, доступных, в частности, благодаря сервису Банка России «Знай своего клиента». А в июле 2023 года на встрече президента РФ с членами правительства глава Минцифры Максут Шадаев доложил, что совместно с комитетом Госдумы по информполитике подготовлены изменения в Закон об обезличивании данных.

Для организации работы с большими данными Минцифры предлагает создать государственную информационную систему (ГИС). Обезличенные датасеты нельзя будет выгрузить и забрать из ГИС, однако на них будет можно тестировать и обучать свои модели.

Как будет работать скоринг?

Что представляют собой ИИ-модели скоринга сегодня и что можно ожидать завтра? Наиболее отчетливо выделяются следующие векторы развития.

Во-первых, использование большого количества внешних и внутренних источников данных привело к усложнению моделей. В частности, уже сегодня аналитики вынуждены применять ансамблевые модели нейросетей — использование нескольких моделей вместо одной. При этом раздельно обучается каждая из них по своим датасетам, а все вместе они образуют метамодель, которая уже обучается на предсказаниях других сетей и ML-алгоритмов. На практике это означает, что метамодель учитывает опыт всех моделей, что позволяет уменьшить вероятность появления ошибок.

Во-вторых, поскольку метамодели представляют собой довольно сложный «IT-монстр», в мир ИИ транслируются все те риски, которые присущи сложным IT-системам, в частности спектр операционных рисков, минимизацию которых предписывают Банк России и международные регуляторы, например, в соглашениях Basel.

В-третьих, каждый банк в соответствии с собственным аппетитом к риску будет искать баланс между уменьшением времени вывода моделей в промышленную среду и так называемым модельным риском, связанным с вероятностью возникновения убытков в результате использования недостаточно точных моделей для принятия решений. Time to market можно уменьшить за счет технологий автоматического машинного обучения (AutoML) — автоматизации сквозного процесса применения машинного обучения к задачам скоринга, а также MLOps — набора практик, нацеленных на надежное и эффективное развертывание и поддержание ML-моделей в банках. Но как управлять модельным риском — прямым следствием и специфическим ИИ-риском этих двух технологий?

Алексей Чебыкин, руководитель направления валидации моделей и рейтинговых систем Росбанка, в рамках ScorFest применительно к скоринговым моделям был честен: «У меня нет ответа на этот вопрос».

В ИИ-моделях иных бизнес-систем, не несущих прямых убытков банкам (например, в области CRM или маркетинга), можно заложить некую дельту на риски. А вот в скоринге или антифроде этого делать категорически нельзя. В преферансе этот риск-эффект описан достаточно образно: «Знал бы прикуп, жил бы в Сочи». Поэтому пока «без человека» и тотального мониторинга работы моделей в скоринге не обойтись.

Наконец, прямо сейчас как в России, так и во всем мире вырабатываются регуляторные нормы, которые самым непосредственным образом скажутся на технологиях. Связаны они будут и с проблематикой обезличивания данных, включая биометрические, и с безопасностью технологий обмена банковскими данными, и с необходимостью либерализации облачных вычислений для обработки гигантских датасетов финансистами. Все эти меры должны приблизить новую эру ИИ — Federal Learning, методику заключения модели в защищенную среду и ее обучения без перемещения данных куда-либо.   






Новости Новости Релизы
Сейчас на главной

ПЕРЕЙТИ НА ГЛАВНУЮ