Как в ЛАНИТ прошёл IT-мит​ап, посвященный искусственному интеллекту

В этом материале мы хотим поделиться подробностями о нашем первом открытом IT-митапе проекта «Своя Среда», который был посвящен искусственному интеллекту. На мероприятии эксперты ЛАНИТ и приглашенный спикер представили технические обзоры, кейсы, практические советы, связанные с использованием ИИ, а также рассказали о трендах в этой области.

8a77872081a3073e8da5c6bb2a908ba3.png

Открыл митап Дмитрий Т., руководитель направления AI в НОРБИТ, с презентацией «За что нам платят заказчики и как на самом деле выглядят проекты с применением ИИ». В выступлении были представлены возможные типовые проблемы, которые возникают при реализации проектов в области Data Science (DS), пути их решения, технологический стек и примеры реализованных кейсов НОРБИТ с применением ML.

0ccd39e38f87eeaeab88c77155a126c3.jpeg

Дмитрий подробно разобрал пять этапов типового DS-проекта. Это описание задачи, сбор данных, их анализ и подготовка, моделирование и эксплуатация. Он рассмотрел шаги, начиная с выявления потребности у заказчиков, где возможно эффективно применять алгоритмы на основе машинного обучения, до потенциальных проблем на стадии внедрения и эксплуатации решений (в том числе вопросы постепенной деградации моделей).

5717e9ff272b0ba68e51a0be171239ec.png

В ходе обсуждения технологического стека проектов он акцентировал внимание на распространенных стереотипах, например, что большинство Data Science проектов основаны на нейронках, нейросетках и т.д. Однако на практике в большом количестве кейсов до сих пор используют классические методы: линейную и логистическую регрессию, метод главных компонент, бустинг и т.д. Лишь в небольшом количестве проектов возникает реальная необходимость в применении более сложных методов, требующих значительных вычислительных ресурсов. Отсюда вытекает второй стереотип, который упомянул Дмитрий. Чтобы заниматься машинным обучением, необходимы большие дата-центры и суперкомпьютеры, способные проводить вычисления в течение продолжительного времени. Для обучения больших языковых моделей (LLM) это действительно актуально, но в повседневной практике реальное количество контрактов, требующих подобного уровня вычислительных мощностей, не такое значительное.

a7a922d3af35121a85270d083f4082f7.png

Также спикер рассказал о некоторых реализованных AI-проектах НОРБИТ. Так, в рамках одного из них ― приложения по классификации капитальных строений ― точность распознавания значительно снижалась в зимний период. Чтобы решить проблему, применили подход с облаком точек, это позволило добиться необходимого заказчику качества. В проекте использовались технологии и фреймворки Keras, TensorFlow, OpenCV, Mask R-CNN. В рамках другого кейса команде удалось  сократить кадровый отток благодаря прогнозам потенциальных увольнений, переводов и выходов в декретный отпуск.

Кроме этого, Дмитрий уделил внимание некоторым событиям, влияющим на работу систем прогнозирования. Например, в решении, созданном для предсказания объемов энергопотребления, не был учтён Чемпионат мира по футболу, существенно повлиявший на показатели энергозатрат. Часто даже мелкие ошибки могут значительно исказить будущий результат. В проекте по предсказанию продаж в фуд-ритейле команда столкнулась с классической ошибкой ― data leaks, когда данные включают лишнюю дополнительную информацию на этапе обучения.  Из-за «минуса» в функции shift при предобработке данных модель занималась прогнозированием прошлого, а не будущего. Эту проблему сейчас решают довольно простыми методами: с помощью механизма версионирования данных DVC, кросс-проверок и отслеживания оффлайн-метрик.

Далее выступил приглашённый спикер Алексей К, руководитель Центра продвинутой аналитики в одном из ведущих банков России. Он рассказал, что включает в себя продвинутая аналитика, как организована работа внутри его команды, и поделился некоторыми результатами работы системы исполнения моделей: > 250 внедрённых в СИМ моделей, > 6000 фичей в Feature Store, > 110 пользователей в день, скорость внедрения онлайн-модели ― две недели, а batch-модели — одна неделя.

f545e754b318fb957c39679536e19c6b.png

В выступлении он поделился, как удалось интегрировать продвинутую аналитику во все ключевые процессы банка, включая операционные. Процедура розничного кредитования полностью переведена на модели машинного обучения — от первичного офферинга до верификации. Вся продуктовая линейка банка покрыта моделями склонности, кредитный скоринг обогащен за счет обработки отказных заявок и нейросетей, алгоритмическая часть чат-бота переведена на нейросети собственной разработки. В транзакционном антифроде внешнее решение заменили внутренним, сократив время анализа данных для проверки легитимности транзакции.  

Алексей также привёл несколько примеров работы моделей в банке. Более подробно он остановился на частотном применении технологии ИИ, а в особенности NLP. NLP не только позволяет создавать диалоговые системы (чат-бот, ассистент оператора, IVR), но также может извлекать ценную информацию из неструктурированных текстов для последующего использования. В контексте такого применения этой технологии он привёл кейс работы с чеками оператора финансовых данных (ОФД). Использование NLP на чековых данных позволяет детализировать категории расходов, повышать точность моделей (кредитный скоринг, склонность к банковским продуктам и брендам) и улучшать пользовательский опыт в банковском приложении.

4b9dd84670a106b2313bf053103d2c6d.png

Выступление завершилось обзором трендов ИИ и выделением перспективных технологий в банковской сфере: развитие источников данных, замена классического ML нейросетями, распространение NLP, развитие применения Computer Vision, высоконагруженные вычисления, CLTV (customer lifetime value).

Закрывал митап Владислав Б., руководитель практики анализа данных Центра компетенций больших данных и искусственного интеллекта ЛАНИТ. В своем выступлении он подсветил сложности внедрения машинного обучения на примере конкретного проекта по автоматизации службы поддержки госзакупок.

5eb430f162941dfa8e68f498fb3d0f6d.png

Для автоматизации некоторых задач службы поддержки было принято решение внедрить ML-сервис, который позволит анализировать тикеты до того, как они поступят к оператору первой линии. Это даст возможность мгновенно закрывать часть запросов в соответствии с имеющимися инструкциями или упрощать и ускорять работу оператора с использованием рекомендательной системы.

73ca1abc4d03d4c77ff78cf63870ab62.png

В ходе выступления Владислав детально рассказал о шагах, предпринятых на каждом этапе этого ML-проекта, обозначив возникшие проблемы и пути их решения. 

d4af6ed49d44714ab5089e657dd45a87.png

Особое внимание было уделено этапу моделирования. Спикер объяснил, почему для автоматизации службы поддержки не подходит BERT и подход Few-shot, а используется LSTM, эмбеддинги для категориальных переменных и Multilabel парадигма.

Он также подробно остановился на оценке решений по определенным метрикам качества и возвращении к этапу анализа данных, где уже необходимо не только проанализировать информацию, но и разметку. Также Владислав рассказал, как с помощью оптического распознавания символов (OCR) удалось справиться с определением ошибок в прикреплениях тикетов.

7b12d38449506c3d5fc870da9891f035.png

Отдельно были рассмотрены вопросы, которые важно учитывать на этапе внедрения ML-проекта, и почему в данном проекте не использовался ChatGPT.

Митап длился около двух часов. По завершению каждого выступления участники задавали вопросы. Авторы самых интересных получили ценные призы от спикеров.

Запись митапа можно посмотреть на YouTube-канале ЛАНИТ:

© Habrahabr.ru