Финансовая сфера

Банковское обозрение


  • Голосовые технологии должны решать насущные задачи
30.03.2021 FinTechАналитикаРазговоры финансистов

Голосовые технологии должны решать насущные задачи

Голосовые технологии превращаются в необходимую часть банковского бизнеса. Как и почему происходит этот перелом, что дают голосовые технологии, какие ресурсы требуются для их внедрения сегодня — об этом финансовые эксперты Ян Арт и Эльман Мехтиев беседуют с генеральным директором компании BSS Георгием Кравченко


Георгий Кравченко, Генеральный директор компании BSSГеоргий Кравченко: Голосовые технологии развиваются больше 20 лет, но реальный прорыв произошел около 10 лет назад, когда для голосового распознавания начали использовать нейросетевые технологии. До этого технологии речевой аналитики развивались обособленно, в разных RnD-коллективах, компаниях, и было это наукоемким, требовались сложные математические решения. Голосовые технологии развивались медленно, потому что, с одной стороны, не было глобального комьюнити, которое этим занимается, а с другой, технологии требовали очень больших вычислительных мощностей. Это ограничивало и объем словаря для распознавания речи, и возможности поддержки онлайн-распознавания.

Первые эксперименты и научные работы, доказывающие или предполагающие возможность более эффективной работы на нейросетях, породили несколько революционных вещей. Выяснилось, что технология на нейросетях работает эффективнее — резко снизились требования к инфраструктуре и минимум на два порядка увеличился объем словаря — от 100 слов до 10 тыс. Сейчас голосовые помощники «Яндекса» и Google в состоянии поддерживать гораздо больший объем, я даже не могу сказать, какой; думаю, больше 100 тыс. слов. А все вместе это позволило использовать онлайн-распознавание для свободной речи.

Ян Арт: Разговор с Алисой или Siri — это возможность понять, какой объем словаря сегодня поддерживается?

Георгий Кравченко: То, о чем я говорил, — это скорее предел технологии: сколько слов в целом может поддерживаться. А разговаривая с Алисой или Siri, вы тестируете, на каком датасете она обучена. Если она какого-то слова не знает, то она его и не распознает, но это не значит, что у нее память закончилась.

Ян Арт: То есть сегодня в речевых технологиях потенциальная емкость словаря для распознавания не лимитирована?

Георгий Кравченко: Категорично я бы утверждать не стал, но емкости словаря на нынешнем уровне развития технологий достаточно для поддержания практически любого разговора.

Эльман Мехтиев: Я не помню, чтобы в банковской сфере 2010 год был революционным прорывом речевых технологий. Когда и где в банковской сфере произошел такой перелом? Когда все осознали, что это необходимо — если не сегодня, то завтра?

Георгий Кравченко: Когда все перешли на нейросети, изменилась парадигма: международные технологические гиганты превратили эту индустрию в глобально развивающуюся: все модели, все фреймворки для голосового распознавания доступны. И я предполагаю, что многократно возросло количество людей, использующих эти технологии методом проб и ошибок. Соответственно они стали быстрее развиваться, и, конечно, начали возникать разнообразные варианты их практического применения.

Первые три-четыре года вариантов применения речевых технологий было немного. Сначала распространение получили речевые запросы в Google и «Яндексе». Они прекрасно работали. Помню, когда я их обнаружил, был поражен, до какой степени можно сделать удобным для водителя управление навигатором, если использовать голос, а не набирать нужный адрес на клавиатуре. Это было, наверное, первое практическое применение голосовых технологий. С точки зрения привлечения пользователей это стало огромным шагом вперед.

Далее развитие речевых технологий ускорялось, начали появляться технологии прикладного характера, которые приносили практическую пользу. По мере того как точность распознавания речи повышалась, появлялись возможности извлекать данные (имена и числа, анализировать и систематизировать голосовую информацию), возникали и способы практического применения таких технологий. С этого и начался прорыв. В России, на мой взгляд, драйвером развития речевых технологий стали крупные банки, давно оценившие пользу цифровых технологий.

Ян Арт: Банки и финансовые организации заменили речевыми технологиями живых людей, чтобы делать холодные звонки. А где и для чего они еще используются? Nemesysco предлагала свои технологии для распознавания голоса как часть биометрии, для идентификации. А если я простудился, сбоя не будет? Насколько вообще голос уникален — как отпечатки пальцев?

Георгий Кравченко: Даже если вы простыли и кашляете, система ваш голос распознает, это не проблема. Сегодня идентификация голоса менее точна, чем идентификация по радужной оболочке глаза или по лицу, но минимальный риск ошибки для такой системы составляет 1%. То есть всего 1% риска, что систему обманет мошенник, который подделает ваш голос, или что система не сможет вас идентифицировать, не распознает ваш голос. Наука не стоит на месте, и уже существуют технологии синтеза речи на тех же нейросетях, имитирующие голоса с высокой степенью сходства. Однако голосовая биометрия использует для идентификации очень много параметров, около 100, так что обмануть ее сложно.

Ян Арт: Голосовая биометрия не может служить единственным средством идентификации для клиента банка. Ее можно использовать только в сочетании с другим способом идентификации, чтобы максимально исключить риск мошенничества?

Георгий Кравченко: Учитывая, сколько усилий прикладывают на изобретение способов взлома электронных систем, я думаю, что для обеспечения безопасности и культуры обращения с данными надо всегда использовать несколько параметров идентификации. Это либо уменьшит опасность взлома, либо увеличит усилия, которые придется прикладывать взломщикам.

Эльман Мехтиев: Когда банки осознали, что с человеком надо работать не только через операторов, но и через голосовые технологии?

Георгий Кравченко: Перелом начался два года назад, а искать действительно привлекательные бизнес-кейсы мы начали в 2015 году. Но только сейчас начали нащупывать удобные, интересные решения, а не то, что принято называть красивой фичей. «Красивую фичу» мы сделали сразу: можно было сказать в телефон «Переведи жене деньги», и приложение, распознав голос, переводило деньги. Но это не самый притягательный кейс.

Ян Арт: А почему не самый притягательный? Если человеку понравилось спрашивать: «Алиса, какая погода?», думаю, ему рано или поздно захочется и сказать: «”Сбер”, дай денег», чтобы оформить кредит.

Георгий Кравченко: Голосовые технологии должны решать насущные для потребителя задачи. И плюс к тому люди должны привыкнуть к новым возможностям. Я видел интересное исследование зависимости частоты голосовых запросов от возраста — представители молодого поколения предпочитают именно голосовые запросы. Думаю, что мало-помалу будут нарабатываться кейсы, которые действительно удобны, а не служат просто демонстрацией технических достижений.

Ян Арт: На банковском рынке это уже ощущается: в «тучные» годы очень многое внедряется просто потому, что модно, пусть даже и не особо нужно. А потом нередко возникает обратная ситуация — уже по-настоящему нужно, но у нас кризис и нет на это денег. И тут 2020 год перевел нас всех на «дистанционку», и наверняка повысился запрос на то, что вы делаете. При этом, наверное, теперь всем надо «срочно»?

Георгий Кравченко, Генеральный директор компании BSS

Георгий Кравченко: Это так. И это проблема, потому что срочно что-либо делать всегда тяжело. Любая кастомная разработка занимает много времени. Единственный способ сделать что-то быстро — это иметь некое коробочное решение, нечто, что можно быстро развернуть в периметре заказчика. К счастью, такое решение у нас уже было. Мы заметили спрос и сумели адекватно ответить на него.

Ян Арт: А «быстро» — это сколько? Я помню, что было время, когда на реализацию IT-проекта в банках уходило от полутора лет до года, потом срок сократился примерно до полугода. А как сейчас?

Георгий Кравченко: Если говорить о голосовой аналитике, это один день, а если необходимо настроить специфические метрики, то до трех недель. Если говорить о виртуальном консультанте, то могу привести пример, когда от момента получения заявки до запуска в эксплуатацию прошло 48 часов. Этот робот принимал и обрабатывал по 10 тыс. звонков в день. Конечно, это нетипичная история, но так можно сделать.

Эльман Мехтиев: Я приведу простой пример: коллекторы обязаны записывать все телефонные разговоры с должниками. Мы надеемся, что скоро будет принят закон, устанавливающий единые правила деятельности по взысканию долгов для всех — как для коллекторов, так и для банков и для микрофинансовых организаций. Сейчас коллекторы обязаны хранить записи телефонных разговоров с должниками в течение трех лет, МФО — шесть месяцев, банки не обязаны хранить их вообще… Вот завтра примут закон — это будет как пандемия, внезапно МФО и банкам надо будет организовать запись и хранение разговоров. Дальше начинается новый рынок и приходит та самая речевая аналитика. Как вы думаете, как скоро в банках поймут, что им нужна речевая аналитика?

Георгий Кравченко: Мне кажется, многие уже поняли, и мы это чувствуем. Вообще, речевой аналитикой все так или иначе занимаются, но не так эффективно, как это можно делать с помощью систем на базе ИИ. Например, чтобы колл-центр функционировал нормально, нужна большая организационная работа: нанять операторов, составить для них скрипты, обучить работать с возражениями, объяснить, какая лексика приемлема, а какая нет, отучить их «мекать» и «бекать». Потом надо контролировать, насколько они соблюдают правила, поскольку эти правила созданы, чтобы вы получили определенный результат — привлечь клиента, продать продукт. Если желаемого результата нет, вы захотите разобраться, почему процесс не работает так, как задумано, что можно улучшить...

Ян Арт: И речевая аналитика позволяет проводить такой аудит колл-центра?

Георгий Кравченко: Разумеется. Обычно для оценки работы колл-центра проводят аудит примерно 10% звонков, чтобы получить статистически достоверную картину — все 100% звонков, как вы понимаете, прослушать невозможно, для этого пришлось бы нанимать еще один колл-центр. Надо прослушать разговоры, извлечь из них информацию, проанализировать ее — это серьезная задача.

Голосовые технологии позволят провести аудит всех 100% звонков колл-центра. Такие данные и есть Big Data, которые можно собрать и дополнить другими сведениями. Допустим, если речь идет о клиенте банка, то известно, какие транзакции он совершает, если о клиенте оператора мобильной связи — известно, где он бывает, какими мобильными приложениями пользуется и так далее. С помощью речевой аналитики вы получаете массив данных, из которого можете выбирать информацию, интересную вам. Можно, например, анализировать, что говорят операторы колл-центра, какие модели общения были успешными с точки зрения достижения желаемой цели, а какие нет, можно выстраивать систему мотивации операторов.

Ян Арт: Вы рассказали, как с помощью технологий речевой аналитики можно оценить эффективность работы колл-центра. А как измерить эффективность самих технологий речевой аналитики? Например, для банка или финансовой организации внедрение таких технологий — это вопрос повышения КПД при существующем положении дел или внедрение технологии позволяет еще и снизить издержки? Как измерить КПД?

Георгий Кравченко: Если вы используете технологию речевой аналитики, КПД, безусловно, повышается, потому что люди начинают работать лучше, меньше ошибаются.

Если мы знаем, чего хотим достичь, то можно измерить эффективность технологии, которую используем для достижения цели. Если это колл-центр, то показателями эффективности голосового робота будет количество обращений, которое он способен обработать, и стоимость обработки обращений при сопоставимом качестве.

Возьмем пример с пандемией, когда чрезвычайно возрос поток обращений в колл-центры. Вручную такой объем информации никак не обработать. Кто и сколько при этом потеряет, будет зависеть от бизнеса, но потери могут быть значительными. Если поставить себе задачу обрабатывать этот поток вручную, придется набрать новых операторов, обучить их, наладить за ними контроль. А если у вас внедрена автоматизированная система, построенная на речевых технологиях, то будет несложно быстро масштабировать ее в ответ на любой вызов. Обладая достаточными вычислительными мощностями, вы можете практически мгновенно отреагировать на подобную ситуацию. Вот вам пример экономии, которая пришла из ниоткуда.

Один из наших первых клиентов — страховая компания — как раз открыла для себя возможность преодолеть временный наплыв клиентов в результате стихийных бедствий, когда, например, после града приходится принимать множество заявлений о понесенных убытках. Для обработки звонков нужен большой штат. Мы развернули систему, которая все это собирает, записывает, ставит тикеты куда надо — и вопрос решен, затраты снизились. Это стало одним из первых увиденных нами драйверов спроса.

Ян Арт: Нередко приходится слышать такой расхожий аргумент в пользу автоматизации: роботы не берут больничный. Однако еще говорят об IT-зависимости финансовых организаций: программы и IT-решения надо апгрейдить, платить вендорам за обновления. То есть, по сути, роботы тоже «выходят на больничный»...

Георгий Кравченко: Я не считаю этот упрек справедливым, потому что все системы постоянно развиваются. Люди, которые решили развивать IT-системы своих компаний самостоятельно, я думаю, про упреки такого рода забыли полностью…

Ян Арт: Потому что потеряли больше денег?

Георгий Кравченко: Намного больше денег, но я не думаю, что они этим обеспокоены, потому что все постоянно участвуют в гонке за эффективностью, чтобы не отставать от конкурентов и первыми ввести новую «фичу». Еще ЦБ как регулятор финансового рынка генерирует огромное количество работы для таких компаний, как наша. Сложно упрекать людей за то, что они хотят развиваться, становиться лучше и получать за это деньги.

Людям иногда кажется, что можно взять модель речевой технологии из Open Access, «натренировать» ее и получить вполне приемлемое распознавание голоса за одну-две недели. На самом деле тут и начинается основная работа. Теперь нужно сделать так, чтобы это все работало в действительно продуктивной среде, в условиях высокой нагрузки, когда требуется повышенная надежность, а главное — чтобы с этим могли работать не дата-сайентисты, а люди, не обладающие специальными знаниями, высокой квалификацией. Нужно позаботиться о масштабируемости, непрерывности работы, сделать огромное количество инженерных надстроек, чтобы система была удобной и доступной для пользователей. И вот это требует несопоставимо больше ресурсов и составляет примерно 90% общего объема работы над продуктом. Люди часто путают первую пробу («вот у меня голос распознался!») и промышленное решение. А до промышленного решения еще далеко.

Мы в нашей компании проводим в год около 50 экспериментов, разрабатываем огромное количество моделей просто для RnD. Недавно был очередной технологический прорыв, подход к распознаванию речи слегка изменился, стал проще, и нам удалось реализовать и повышение качества, и снижение количества данных, необходимых для тренировки модели, причем кратное снижение. Это здорово.

Ян Арт: Насколько близко будущее, когда вы будете давать интервью не журналисту, а роботу?

Георгий Кравченко: Можно сделать робота-интервьюера, который будет поддерживать связную беседу. Но технологии, о которых я рассказываю, не стоит называть ИИ — это скорее робот, который «притворяется» интеллектуальным. У такого робота возможности ограничены информацией, заложенной в него, он может лишь воспроизводить образцы поведения, которым обучен. Но он не способен к творчеству, не способен создавать что-то новое. Все это системы, обучающиеся на примерах, они позволяют очень быстро реагировать, отвечать на вопросы, но в них полностью отсутствует способность думать и принимать логические решения.

Создание супермозга, способного поддержать диалог по любой тематике и делать это интересно, не кажется мне правильным путем развития ИИ. Я считаю, что нужно концентрироваться на том, что можно внедрять для решения практических задач, поэтому я смотрю, что действительно сейчас нужно потребителю. А потребности в эмоциональном роботе, способном принимать самостоятельные решения, я не вижу.






Новости Релизы