Top.Mail.Ru
РБК Компании

Как LLM-модель распределяет внутреннюю корреспонденцию крупной компании

Интеллектуальное решение, созданное компанией IT_ONE, предназначено для автоматизации процесса обработки электронных писем с помощью большой языковой модели
Как LLM-модель распределяет внутреннюю корреспонденцию крупной компании
Источник изображения: Sparkthink.slalom.com
Задача и причина

Задача:

Создать эффективный инструмент на основе технологий искусственного интеллекта для распознавания, классификации и маршрутизации электронных писем-заявок, поступающих в единый центр сортировки от сотрудников всех структурных подразделений крупной распределенной компании. 

Причина:

Операторы крупных компаний, отвечающие за прием и маршрутизацию внутренней корреспонденции, ежедневно обрабатывают огромный поток писем, различающихся по тематике, адресату, формату вложений и степени критичности. Ручное распределение и передача входящих запросов по соответствующим службам — трудозатратная процедура, неточность в исполнении которой может повлечь за собой задержку решения важной задачи и незапланированные финансовые издержки. В связи с дефицитом линейного персонала компаниям сложно укомплектовать штат нужным количеством специалистов. Автоматизация процессов обработки корреспонденции позволит снизить нагрузку на персонал компании и сократить количество ошибок.

К этой задаче команда IT_ONE подходила дважды. Первый раз — попыталась решить ее простыми методами, применяя промптинг по готовой предобученной LLM в связке с RAG (векторный поиск схожих сущностей и подача их в модель с контекстом запроса). Такой подход показал очень слабый результат — около 30% точность классификации. Это было связано с особенностями неоднородного датасета и спецификой задачи строгой классификации по множеству классов.

Второй раз был выбран путь более глубокого учета всех особенностей имеющихся данных. Модель была обучена на решение строго заданной задачи с адаптацией под специфику данных. 

Поскольку обработке подлежали конфиденциальные данные, общедоступные облачные модели не подходили для автоматизированной классификации и маршрутизации писем. Для обучения была использована локальная модель, размещенная в контуре IT_ONE, и тестовый набор архивной корреспонденции, предоставленный заказчиком: 33 тыс. сообщений с 55 тыс. вложений разного формата. Эти данные были не сбалансированы: в разных классах могло содержаться от одного до примерно 8500 экземпляров писем. Другая сложность была вызвана тем, что часть сообщений содержали ошибки разметки, а некоторые классы имели схожие названия. 

Решение разрабатывалось в три этапа. Первый этап предполагал очистку и парсинг (автоматизированный сбор) данных, полученных от заказчика: распознавание сканов с помощью технологии OCR, обработку документов и архивов.

На втором этапе была проведена суммаризация данных: создан датасет, в котором часть сведений из писем были объединены для выравнивания длины и улучшения различимости сообщений. 

На третьем этапе прошло обучение модели с использованием метода машинного обучения для обработки естественного языка SEQ2SEQ с промптингом для перевода на целевые категории. Процесс был оптимизирован с помощью метода LoRA (Low-Rank Adaptation) — способа настройки предварительно обученных нейросетей для выполнения специфических задач. LoRA сокращает количество обучаемых параметров до 1-2% от размера матриц базовых весов.

Для дообучения были опробованы несколько вариантов моделей, среди которых Llama3.1, Mistral-Nemo, Gemma2, Qwen. По результатам экспериментов лучшую обучающую способность и итоговые метрики показала Gemma2-9b с квантованием 4bit. Она и была использована в конечном решении вместе с полученными матрицами обучения LoRA.

«Образно говоря, мы создали переводчик с одного понятийного языка на другой, где на входе — язык писем, а на выходе — язык целевых классов, в которые каждое конкретное письмо должно быть направлено на отработку. Количество примеров для каждой категории сильно отличалось, поэтому мы использовали промптинг — подсказки, которые поясняют модели, что именно нужно сделать при анализе конкретного письма. В результате модель научилась классифицировать письма по их содержимому так же, как это делает человек: читать сообщения, открывать и распознавать вложения и архивы, знать все возможные комбинации, которые могут появиться на выходе, отправлять письма нужному адресату», — поясняет Антон Шалин, ведущий ИИ-разработчик IT_ONE.

Для того, чтобы модель не ошибалась при маршрутизации писем по целевым классам со схожими названиями, разработчики использовали промптинг не только на этапе обучения, но и на этапе инференса (применения обученной модели к новым данным). В последнем случае дополнительная подсказка напоминает модели о том, что класс каждого входящего письма необходимо определить с точностью до символа. 

В результате тестовая версия модели получила возможность обрабатывать около 500 тыс. потенциальных сочетаний классов при наличии в данных 2,2 тыс. уникальных комбинаций целевых записей. Обучение модели заняло 65 часов.

Решение позволяет в процессе обучения видеть некорректные элементы разметки. Далее их можно или передать на исправление заказчику, или проводить автоматическое дообучение модели — накапливая ошибочные автоматические классификации и перенаправляя их с помощью операторов в целевые группы. Таким образом, с каждой итерацией получается все более точное решение, учитывающее новые классы по мере их появления в жизни компании.

Результат

Разработанное специалистами IT_ONE решение успешно прошло этап проверки концепции (Proof of Concept) у заказчика, продемонстрировав эффективность маршрутизации на новом наборе из 9000 сообщений. На обработку одного письма система тратит 3-12 секунд в зависимости от размера сообщения и вложения. Точность классификации составляет 90%, что превышает точность работы опытного оператора с его 70-75%, при этом скорость обработки нашего решения несопоставимо выше.

В настоящее время большая языковая модель IT_ONE может быть дообучена на датасете любой компании и в короткие сроки развернута в ее корпоративной ИТ-инфраструктуре. Это позволяет заказчику обеспечить полную сохранность данных при работе модели. Автоматизированный анализ и маршрутизация корреспонденции значительно ускоряет процесс обработки входящих сообщений и сокращает количество ошибок. Таким образом снижаются как прямые (на оплату труда линейного персонала), так и косвенные (с учетом потенциальных рисков) издержки компании. 

Важно, что готовая модель уже не требует значительных вычислительных мощностей, которые необходимы для ее обучения. 

«Мы успешно подтвердили стабильность и устойчивость нашего решения. Его дополнительным преимуществом является то, что уже на этапе обучения модели заказчик получает информацию обо всех ошибочно размеченных классах адресатов и имеет возможность исправить их. Кроме того, уже внедренная модель способна дообучаться в процессе классификации на основе исправленных ответов. То есть качество ее работы со временем будет автоматически повышаться», — резюмирует Антон Шалин.

Рекомендации партнеров:

Все новости:

АРХИВУД Семейный отдых: где его провести

Профиль

Дата регистрации
6 ноября 2020
Уставной капитал
170 010 000,00 ₽
Юридический адрес
г. Москва, вн.тер. г. муниципальный округ Останкинский, ул. Годовикова, д. 9, стр. 17, этаж 6 пом 5
ОГРН
1207700418331
ИНН
9717096285
КПП
771701001
ГлавноеЭкспертыДобавить
новость
КейсыМероприятия