Как LLM-модель распределяет внутреннюю корреспонденцию крупной компании
Интеллектуальное решение, созданное компанией IT_ONE, предназначено для автоматизации процесса обработки электронных писем с помощью большой языковой модели
Задача:
Создать эффективный инструмент на основе технологий искусственного интеллекта для распознавания, классификации и маршрутизации электронных писем-заявок, поступающих в единый центр сортировки от сотрудников всех структурных подразделений крупной распределенной компании.
Причина:
Операторы крупных компаний, отвечающие за прием и маршрутизацию внутренней корреспонденции, ежедневно обрабатывают огромный поток писем, различающихся по тематике, адресату, формату вложений и степени критичности. Ручное распределение и передача входящих запросов по соответствующим службам — трудозатратная процедура, неточность в исполнении которой может повлечь за собой задержку решения важной задачи и незапланированные финансовые издержки. В связи с дефицитом линейного персонала компаниям сложно укомплектовать штат нужным количеством специалистов. Автоматизация процессов обработки корреспонденции позволит снизить нагрузку на персонал компании и сократить количество ошибок.
К этой задаче команда IT_ONE подходила дважды. Первый раз — попыталась решить ее простыми методами, применяя промптинг по готовой предобученной LLM в связке с RAG (векторный поиск схожих сущностей и подача их в модель с контекстом запроса). Такой подход показал очень слабый результат — около 30% точность классификации. Это было связано с особенностями неоднородного датасета и спецификой задачи строгой классификации по множеству классов.
Второй раз был выбран путь более глубокого учета всех особенностей имеющихся данных. Модель была обучена на решение строго заданной задачи с адаптацией под специфику данных.
Поскольку обработке подлежали конфиденциальные данные, общедоступные облачные модели не подходили для автоматизированной классификации и маршрутизации писем. Для обучения была использована локальная модель, размещенная в контуре IT_ONE, и тестовый набор архивной корреспонденции, предоставленный заказчиком: 33 тыс. сообщений с 55 тыс. вложений разного формата. Эти данные были не сбалансированы: в разных классах могло содержаться от одного до примерно 8500 экземпляров писем. Другая сложность была вызвана тем, что часть сообщений содержали ошибки разметки, а некоторые классы имели схожие названия.
Решение разрабатывалось в три этапа. Первый этап предполагал очистку и парсинг (автоматизированный сбор) данных, полученных от заказчика: распознавание сканов с помощью технологии OCR, обработку документов и архивов.
На втором этапе была проведена суммаризация данных: создан датасет, в котором часть сведений из писем были объединены для выравнивания длины и улучшения различимости сообщений.
На третьем этапе прошло обучение модели с использованием метода машинного обучения для обработки естественного языка SEQ2SEQ с промптингом для перевода на целевые категории. Процесс был оптимизирован с помощью метода LoRA (Low-Rank Adaptation) — способа настройки предварительно обученных нейросетей для выполнения специфических задач. LoRA сокращает количество обучаемых параметров до 1-2% от размера матриц базовых весов.
Для дообучения были опробованы несколько вариантов моделей, среди которых Llama3.1, Mistral-Nemo, Gemma2, Qwen. По результатам экспериментов лучшую обучающую способность и итоговые метрики показала Gemma2-9b с квантованием 4bit. Она и была использована в конечном решении вместе с полученными матрицами обучения LoRA.
«Образно говоря, мы создали переводчик с одного понятийного языка на другой, где на входе — язык писем, а на выходе — язык целевых классов, в которые каждое конкретное письмо должно быть направлено на отработку. Количество примеров для каждой категории сильно отличалось, поэтому мы использовали промптинг — подсказки, которые поясняют модели, что именно нужно сделать при анализе конкретного письма. В результате модель научилась классифицировать письма по их содержимому так же, как это делает человек: читать сообщения, открывать и распознавать вложения и архивы, знать все возможные комбинации, которые могут появиться на выходе, отправлять письма нужному адресату», — поясняет Антон Шалин, ведущий ИИ-разработчик IT_ONE.
Для того, чтобы модель не ошибалась при маршрутизации писем по целевым классам со схожими названиями, разработчики использовали промптинг не только на этапе обучения, но и на этапе инференса (применения обученной модели к новым данным). В последнем случае дополнительная подсказка напоминает модели о том, что класс каждого входящего письма необходимо определить с точностью до символа.
В результате тестовая версия модели получила возможность обрабатывать около 500 тыс. потенциальных сочетаний классов при наличии в данных 2,2 тыс. уникальных комбинаций целевых записей. Обучение модели заняло 65 часов.
Решение позволяет в процессе обучения видеть некорректные элементы разметки. Далее их можно или передать на исправление заказчику, или проводить автоматическое дообучение модели — накапливая ошибочные автоматические классификации и перенаправляя их с помощью операторов в целевые группы. Таким образом, с каждой итерацией получается все более точное решение, учитывающее новые классы по мере их появления в жизни компании.
Разработанное специалистами IT_ONE решение успешно прошло этап проверки концепции (Proof of Concept) у заказчика, продемонстрировав эффективность маршрутизации на новом наборе из 9000 сообщений. На обработку одного письма система тратит 3-12 секунд в зависимости от размера сообщения и вложения. Точность классификации составляет 90%, что превышает точность работы опытного оператора с его 70-75%, при этом скорость обработки нашего решения несопоставимо выше.
В настоящее время большая языковая модель IT_ONE может быть дообучена на датасете любой компании и в короткие сроки развернута в ее корпоративной ИТ-инфраструктуре. Это позволяет заказчику обеспечить полную сохранность данных при работе модели. Автоматизированный анализ и маршрутизация корреспонденции значительно ускоряет процесс обработки входящих сообщений и сокращает количество ошибок. Таким образом снижаются как прямые (на оплату труда линейного персонала), так и косвенные (с учетом потенциальных рисков) издержки компании.
Важно, что готовая модель уже не требует значительных вычислительных мощностей, которые необходимы для ее обучения.
«Мы успешно подтвердили стабильность и устойчивость нашего решения. Его дополнительным преимуществом является то, что уже на этапе обучения модели заказчик получает информацию обо всех ошибочно размеченных классах адресатов и имеет возможность исправить их. Кроме того, уже внедренная модель способна дообучаться в процессе классификации на основе исправленных ответов. То есть качество ее работы со временем будет автоматически повышаться», — резюмирует Антон Шалин.
Рубрики
Рекомендации партнеров:
Все новости:
Публикация компании
Профиль
Рубрики