Банковское обозрение (Б.О принт, BestPractice-онлайн (40 кейсов в год) + доступ к архиву FinLegal-онлайн)
FinLegal ( FinLegal (раз в полугодие) принт и онлайн (60 кейсов в год) + доступ к архиву (БанкНадзор)
Одним из стимулов развития моделей машинного обучения в сфере оценки и управления кредитным риском стала практика применения внутренних рейтинговых моделей российскими банками, в том числе в рамках IRB-подхода к оценке кредитных рисков. Из-за заблуждения об избыточной ресурсоемкости и себестоимости разработки подобных моделей они пока не получили достаточного распространения, особенно среди небольших кредитных организаций
Модели машинного обучения могут значительно упростить такие процедуры, связанные с принятием риска, как:
Типовые целевые переменные для оценки — это вероятность дефолта (PD) заемщиков и иных контрагентов, уровень потерь при дефолте контрагента (LGD), производные от них ожидаемые потери (EL) — величина, в абсолютном или относительном выражении представляющая собой математическое ожидание потерь банка-кредитора по отдельному кредиту или целому пулу активов. Указанным целевым переменным в отличие от простой классификации или ранжирования сопоставляется точная величина, как того требуют, в частности, стандарты Базельского комитета по банковскому надзору, последовательно имплементируемые в регулирование российского банковского сектора.
Машинное, или индуктивное, обучение основано на выявлении эмпирических закономерностей в данных и тем самым противопоставляет разработанные с его применением модели экспертным системам, созданным на основе накопленных знаний, экспертных наблюдений и суждений. Дилемма «что эффективнее» в принципе не возникает, поскольку различные модели имеют разное целевое назначение и, более того, могут органично дополнять друг друга. Простейший пример — проведение первичного скоринга заемщиков, отсечение заявок с минимальным скоринговым баллом и последующий андеррайтинг прошедших заданный критерий заявок, в ходе которого эксперты принимают во внимание результаты скоринга и выявленные машинными методами факторы риска.
Активному распространению моделей машинного обучения в области риск-менеджмента препятствуют опасения чрезмерных трудозатрат и материальных издержек, связанных с их внедрением и поддержкой. В действительности наиболее эффективные и популярные среды разработки, как и функциональные библиотеки для применяемых языков программирования, распространяются на бесплатной основе, а для разработки и даже последующего применения стандартной модели достаточно одной не самой новой рабочей станции. Самый сложный и трудоемкий этап создания модели — это подготовка массива данных для ее обучения. Условимся понимать под обучающей выборкой наблюдений и параметров статистику дефолтов заемщиков (например, корпоративных) за определенный период времени, а также параметры и характеристики этих заемщиков (общую информацию, исходные и производные финансовые показатели, платежную дисциплину, данные о структуре собственности и органах управления и так далее) и выданных им кредитов (суммы, ставки, срочность, обеспеченность, факты реструктуризации и другие условия). Обучающая выборка одновременно должна отвечать целому ряду требований, в числе которых:
С учетом перечисленных требований при формировании выборки средние и небольшие с позиции клиентской базы, объема и гранулированности активных операций кредитные организации могут сталкиваться со следующими проблемами.
Во-первых, банк может просто не располагать однородной статистикой дефолтов и массивом характеристик объектов кредитного риска за существенное число завершившихся периодов в силу работы в небольшой рыночной нише с ограниченной клиентской базой или волатильности объемов активных операций.
Во-вторых, накопленная статистика может быть нерелевантна для обучения модели в соответствии с поставленными задачами. С такой сложностью может столкнуться кэптивный банк, решивший переориентировать политику на рыночных заемщиков, банк с неокончательно сформированной географической структурой деятельности или кредитная организация, претерпевающая изменение отраслевой или размерной структуры кредитного портфеля.
В-третьих, может возникнуть неоднозначность при классификации наблюдений, даже в случае такого простого признака, как факт дефолта. Многие кредитные организации прибегают к практике реструктуризации потенциально проблемных кредитов во избежание моментального дефолта заемщика и с целью его отсрочки на период, когда банк с позиции своих финансовых показателей будет готов абсорбировать стресс капитала и финансового результата при отражении потерь. В отчетности наблюдение из приведенного примера по умолчанию не будет классифицировано как дефолт. Однако очевидно, что в будущем сложности с погашением обязательств нужно заблаговременно предсказать. Это говорит о том, что правила фиксации дефолтов должны быть расширены относительно применяемых для формирования отчетности и в приведенном примере как минимум учитывать в качестве дефолтов вынужденные реструктуризации.
Накопленная статистика может быть нерелевантна для обучения модели в соответствии с поставленными задачами. С такой сложностью может столкнуться кэптивный банк, решивший переориентировать политику на рыночных заемщиков
В-четвертых, при отсутствии соответствующего опыта и инструментов задача обработки, систематизации и интерпретации накопленных данных может представляться сложно реализуемой, а при использовании необработанных данных результат может оказаться столь неожиданным, что демотивирует инициаторов разработки. Далее разработанная модель должна пройти процедуру валидации на тестовой выборке, отличной от обучающей выборки, в ходе чего заново возникают все перечисленные выше сложности. Зачастую валидация осуществляется не только в практических внутренних, но и в регулятивных целях в случаях, если применение модели и ссылающиеся на нее внутренние документы должны быть согласованы Банком России. Наконец, процедуры разработки и валидации должны быть автоматизированы в достаточной степени, для того чтобы по завершении очередного периода и аккумулирования соответствующего объема наблюдений модель могла быть легко дообучена с учетом актуальной статистики.
Описанные сложности формирования выборки и разработки моделей не означают, что они останутся по большей части недоступными для небольших кредитных организаций. Обучающая выборка не обязательно должна быть сформирована на основе собственной статистики. Огромные массивы данных о заемщиках, по крайней мере корпоративного сектора, могут быть получены из открытых источников. Кроме того, сейчас начинает формироваться рынок разработки моделей внешними контрагентами, работающими с банковским сектором и располагающими историческими и актуальными данными по кредитным портфелям российских банков. Статистика обезличивается и используется для разработки и валидации моделей. Заказчик не получает доступа к обучающей выборке, что устраняет риск распространения конфиденциальной информации. Затем подрядчик сопровождает разработанные модели и актуализирует их по мере обновления рыночных данных. Важнейший аспект для заказчика при подобном взаимодействии — получить результаты валидации моделей не только на данных исполнителя, но и на собственных данных, даже если их выборка мала и непригодна для разработки. Если аутсорсинг функций по разработке моделей оценки кредитного риска укоренится и сформируется прозрачный рынок с разработчиками, имеющими устойчивые позиции и признанную деловую репутацию, то планы небольших банков по внедрению моделей машинного обучения даже в целях применения IRB-подхода перестанут казаться сверхамбициозными и невыполнимыми.
На форуме FinMachine 2019 СХ топ-менеджеры и руководители отделов data science банков, страховых компаний, сотовых операторов и ретейлеров обсудили, может ли искусственный интеллект сделать клиента счастливее и что для этого нужно
Кадровый голод в РФ касается всех без исключения секторов и нанимателей. И, конечно, стремительно диджитализирующийся финансовый сектор с его потребностью в специалистах высокой квалификации находится в зоне повышенных рисков — и «ситуационных», и долгосрочных