Внедрение локального AI-суммаризатора в таск-трекер

IceRock Development

Система анализирует длинные переписки в задачах (часто насчитывающие 50-100+ комментариев) и по нажатию одной кнопки генерирует краткую сводку (summary)

Внедрение локального AI-суммаризатора в таск-трекер — Источник изображения: Freepik.com

Задача и причина

Причина

Бизнес-процессы в «Искра Телеком» построены вокруг самостоятельно разраотанного таск-трекера. Руководство компании внедрило обязательное правило: вся работа, особенно по клиентским обращениям (например, «пропал интернет», «техническое подключение»), должна подробно документироваться в комментариях к задачам.

Это решило проблему отсутствия истории, но породило новую, не менее серьезную: информационная перегрузка.

Когда к задаче подключался новый сотрудник или руководитель хотел быстро понять статус, ему приходилось вручную читать десятки, а иногда и сотни комментариев. В потоке технической информации, уточнений от клиента, внутренней коммуникации и шума (флуда) терялась суть.

Перед нами была поставлена четкая бизнес-задача:

Сократить время на «вход в задачу»: Сотрудник должен понимать текущий статус и историю задачи за секунды, а не за часы.
Обеспечить 100% конфиденциальность: В задачах регулярно фигурируют персональные данные клиентов, адреса и внутренние технические данные. Использование внешних API, таких как ChatGPT, YandexGPT или Claude, было категорически запрещено.
Обеспечить нативную интеграцию: Решение должно быть «бесшовно» встроено в существующий интерфейс таск-трекера, а не быть отдельным приложением.

Процесс разработки

Процесс был разделен на несколько ключевых этапов:

1. Выбор архитектуры и технологического стека: Главным вызовом был запрет на облачные AI. Решение должно было работать в «закрытом контуре». Мы сразу отказались от внешних API и сосредоточились на on-premise решении.

Для этого требовалось три компонента:

Железо: Сервер с достаточным объемом VRAM (видеопамяти или унифицированной памяти) для запуска мощной модели.
Инференс-сервер: ПО для «обслуживания» модели, которое предоставляет удобный API-интерфейс для наших разработчиков.
Модель: Эффективная и «умная» open-weight (открытая) модель, способная качественно понимать русский язык и выполнять задачи суммарризации.

2. Настройка аппаратной части: Заказчик по нашей рекомендации приобрел специализированную рабочую станцию — Mac Studio с 96 ГБ унифицированной памяти. Эта машина была выбрана как оптимальное решение по соотношению цена/производительность для задач локального инференса (запуска AI). Она была установлена в серверной комнате компании.

3. Развертывание AI-сервера: Мы использовали программное обеспечение LM Studio. Этот инструмент позволяет в несколько кликов скачать и запустить практически любую open-weight модель, и, что самое важное, он автоматически создает локальный API-сервер. Этот сервер полностью имитирует API OpenAI, что позволило нашим бэкенд-разработчикам использовать привычные библиотеки и инструменты, просто указав другой URL-адрес (внутренний адрес Mac Studio).

4. Выбор и тестирование модели: Мы протестировали несколько моделей, включая различные версии LLaMA и Mistral. В итоге наилучшие результаты по качеству суммарризации русскоязычных технических текстов показала модель Qwen (разработка Alibaba). Мы экспериментировали с разными по размеру версиями, чтобы найти идеальный баланс между скоростью ответа и качеством сводки.

5. Интеграция: Процесс интеграции был самым быстрым этапом:

Frontend: В интерфейс таск-трекера добавлена кнопка «Суммаризировать».
Backend: Добавлен новый эндпоинт, который по запросу с фронтенда собирает все комментарии из базы данных, формирует из них единый текстовый промпт, отправляет его на внутренний API-адрес LM Studio, получает в ответ JSON с готовой сводкой и передает ее обратно на фронтенд.

Весь процесс от закупки оборудования до запуска в эксплуатацию занял около одной недели, что демонстрирует крайнюю эффективность и скорость развертывания подобных решений при наличии нужной экспертизы.

Что было самым сложным

Самым сложным и нетривиальным был поиск решения для обхода ограничений безопасности.

Проблема заключалась в том, что в комментариях к задачам содержался «коктейль» из конфиденциальной информации: персональные данные клиентов (ФИО, адреса), технические детали сети, внутренние обсуждения команды.

Передача такой информации в любой внешний сервис, будь то ChatGPT, Claude или их аналоги, была абсолютно недопустима. Это создавало прямой риск нарушения ФЗ-152 «О персональных данных» и репутационных потерь для телеком-оператора.

Классические «облачные» AI-решения, которые так легко интегрировать, были под полным запретом. Нам нужно было придумать, как получить всю мощь современных LLM, не отправляя из компании ни одного байта данных.

Как мы решили эту задачу

Мы решили эту проблему, построив полностью изолированный («air-gapped») AI-контур внутри инфраструктуры заказчика.

Аппаратная независимость: Вместо того чтобы арендовать GPU в облаке, мы использовали физическую машину (Mac Studio), находящуюся в их собственной серверной.
Программная изоляция: Мы использовали LM Studio для локального хостинга модели. Это ПО работает автономно и не требует доступа в интернет для своей основной функции — обработки запросов.
Локальная модель: Сама «интеллектуальная» часть — модель Qwen — представляет собой просто набор файлов (весов), которые были один раз скачаны и размещены на локальной машине.

Таким образом, весь жизненный цикл запроса на суммарризацию выглядит так: Браузер сотрудника (внутренняя сеть) — Бэкенд таск-трекера (внутренняя сеть) — Mac Studio с LM Studio (внутренняя сеть) — ... и обратно.

Ни один пакет с конфиденциальными данными не покидает периметр компании. Мы решили проблему, доказав, что внедрение передовых AI-технологий возможно даже в условиях строжайшей корпоративной безопасности.

Технологический стек

Аппаратная база (Inference): Mac Studio M3 Ultra (96GB RAM)
Сервер для моделей (LLM Server): LM Studio
Языковая модель (LLM): Qwen (Open-weight модель от Alibaba)
Платформа: Кастомный таск-трекер (Frontend/Backend)

Результат

Результат

Результаты превзошли ожидания. Мы не просто добавили «еще одну фичу», мы фундаментально изменили скорость работы с информацией в компании.

Массовое внедрение: По словам технического директора, функцией суммарризации «пользуются практически все». Это редкий показатель для новой корпоративной функции, доказывающий ее реальную пользу.
Экономия времени: Сотрудники и менеджеры экономят десятки рабочих часов в неделю. Время на «вход в задачу» сократилось со среднего (15-30 минут чтения) до 2 минут.
Устранение «шума»: AI-модель эффективно отсеивает весь «мусор» (приветствия, сообщения «ок», переносы сроков) и оставляет только фактологическую суть, что было невозможно при ручном прочтении.
Полная безопасность: Заказчик получил AI-инструмент, полностью соответствующий их политике безопасности.

Рубрики

IT и технологии

Предыдущая новость

Создание высокореалистичного цифрового двойника (AI-Replica) человека

Следующая новость

Крупнейший страховщик внедряет ИИ для предсказания и устранения сбоев

Интересное: