Top.Mail.Ru
РБК Компании
Заморозили скидки: делитесь новостями бизнеса и читайте эксклюзивы на РБК
Успеть до 14.12
Заморозили скидки:
делитесь новостями бизнеса
и читайте эксклюзивы на РБК
Успеть до 14.12
Главная SML 20 ноября 2025

Как выбирать и обучать LLM для бизнеса: пошаговый план и опыт SML

Практическое руководство по внедрению ИИ. Технический директор SML — о ключевых этапах и выборе методов обучения модели
Как выбирать и обучать LLM для бизнеса: пошаговый план и опыт SML
Источник изображения: Сгенерировано нейросетью «Шедеврум»
Максим Горшков
Максим Горшков
Технический директор SML

20+ лет в разработке ПО: от программиста до CTO. Полный цикл разработки — от идеи до запуска. Экспертиза: телеком, финтех, ритейл, MES, промышленная диспетчеризация.

Подробнее про эксперта

Внедрение искусственного интеллекта перестает быть абстрактной целью и превращается в конкретную управляемую задачу. Однако ажиотаж вокруг больших языковых моделей (LLM) часто скрывает за собой сложности их реальной интеграции в корпоративные процессы. Для ИТ-директора главный вопрос уже не «нужен ли нам ИИ», а «как внедрить его с предсказуемым результатом, сроками и бюджетом». 

Структурированный подход помогает пройти путь от выбора технологии до масштабирования решения на всю организацию и аргументировать необходимость проекта бизнесу.

Шаг 1: Выбираем тип LLM модели — облако или собственный сервер?

Первое стратегическое решение — выбрать, где будет работать ваша модель. От этого зависит безопасность, гибкость и стоимость проекта.

  • Облачные модели (API-доступ к моделям вроде ChatGPT, Google Gemini, YandexGPT или GigaChat) — оптимальны для быстрого старта, пилотных проектов и задач, не требующих обработки конфиденциальных данных. 

Основные преимущества — доступ к самым современным моделям и отсутствие затрат на собственную инфраструктуру. Однако по мере роста количества запросов стоимость подписки может оказаться выше, чем поддержка собственного решения.

  • Локальные модели разворачиваются на серверах компании и обеспечивают полный контроль над данными, что является критическим требованием для банков, промышленности, медицинских учреждений и госсектора. Они позволяют глубоко кастомизировать модель под уникальные бизнес-процессы и не зависят от интернет-соединения. 

Может расцениваться как недостаток — высокие первоначальные затраты на GPU-серверы и необходимость выделенной команды.

На практике компании часто используют гибридный вариант: критически важные и чувствительные данные обрабатываются локальными моделями, а для остальных задач используются облачные сервисы.

Шаг 2: Определяем бюджет на обслуживание ИИ-решения

Стоимость внедрения решения будет содержать следующие расходы:

  • Использование облачной модели обычно тарифицируется по токенам. Чем больше данных вы передаете на вход модели (в промпте) и чем больше получаете в ответ, тем дороже обходится использование.
  • Инфраструктура. Обучение и работа локальных моделей требуют мощных серверов с графическими процессорами (GPU), аренда или покупка которых является значительной статьей расходов. Для предварительной оценки можно использовать калькуляторы цен от облачных провайдеров, которые помогут спрогнозировать расходы на инфраструктуру.
  • Подготовка данных. Самая неочевидная статья расходов. Кажется, что данные уже все есть и готовить их не надо: «Вот конфлюенс, там есть все необходимое». Но чтобы система работала корректно данные нужно проверить на полноту и непротиворечивость, систематизировать и преобразовать в формат, пригодный для использования моделью.
  • Техническая поддержка. Пользователям потребуется помощь в работе с новой системой, а любые сбои нужно будет оперативно устранять.

Шаг 3: Выбираем три лучшие LLM по бенчмаркам

Рынок языковых моделей меняется очень быстро. Чтобы сделать обоснованный выбор, необходимо обратиться к бенчмаркам — стандартизированным тестам, которые оценивают производительность моделей по разным параметрам.

  • Изучите лидерборды. Платформы вроде LM Arena агрегируют результаты тестов по задачам разного типа — работа с текстом, генерация кода, генерация изображений, компьютерное зрение.​
  • Выбирайте релевантные тесты. Сосредоточьтесь на бенчмарках, которые отражают ваши реальные бизнес-задачи. Если вам нужна модель для анализа документов, нет смысла делать упор на ее способности к написанию кода.
  • Не доверяйте одной метрике. Используйте комплексную оценку. Она требует использования набора бенчмарков, охватывающих разные аспекты языка и логики.

Цель этого этапа — составить короткий список из топ-3 моделей, которые показывают наилучшие результаты в релевантных для вас задачах.

Шаг 4: Формируем тестовый набор данных и выбираем лучшую LLM

Для окончательного решения понадобится «полевой тест». Сформируйте небольшой, но представительный набор данных — 20-30 типичных вопросов, сложные кейсы, где сотрудники чаще всего ошибаются, документы, примеры клиентских обращений. Прогоните их через каждую из моделей, оцените качество и релевантность ответов.

Это даст вам объективную картину и позволит выбрать модель, которая действительно «работает» именно для вашей компании.

Шаг 5: Выбираем способ дообучения модели

Чтобы модель стала вашим экспертом, ее нужно «познакомить» с предметной областью. Существует три основных способа адаптации:

  • Контекст в промпте (In-context learning) — самый простой способ. Вы просто добавляете релевантную информацию (например, текст статьи) прямо в запрос к модели и просите дать ответ на его основе. Подходит для разовых и простых задач. Именно этот способ лучше всего использовать на 4 шаге выбора лучшей модели под вашу задачу.
  • Retrieval-Augmented Generation (RAG) — оптимальный подход для создания баз знаний. Модель не хранит ваши данные в своей «памяти». Вместо этого она в реальном времени ищет релевантные документы в векторной базе данных и использует их для генерации ответа. Это позволяет легко обновлять знания и гарантирует, что ответы основаны на фактических документах.
  • Fine-tuning (дообучение) — наиболее сложный и дорогой метод. Он предполагает «дообучение» базовой модели на вашем большом наборе данных. Это меняет саму модель, встраивая в нее новые знания и паттерны поведения. Используется для формирования уникальных навыков, например, для создания специфического стиля общения или для решения узкоспециализированных задач.

Чтобы убедиться, что модель обучена правильно, оценивайте точность ответов, полноту информации, устойчивость к «галлюцинациям», способность соблюдать корпоративную терминологию, стабильность ответов при изменении формулировки вопроса.

Шаг 6: Собираем прототип

Начинать внедрение LLM лучше с пилотного проекта на ограниченной части бизнес-задач или процессов. Например, можно создать чат-бота для ответов на вопросы только по одному продукту или отделу. Это позволит с минимальными затратами протестировать гипотезы, отладить процессы и продемонстрировать бизнесу реальную пользу технологии.

Шаг 7: Масштабируем ИИ-решение

После успешной обкатки прототипа и подтверждения его ценности можно приступать к масштабированию. На этом этапе решение разворачивается на всю базу знаний компании, интегрируется с другими корпоративными системами и становится доступным для широкого круга сотрудников.

Пример: как SML обучала AI-ассистента для поиска по корпоративной базе знаний

Цель была практичной: сделать базу знаний действительно рабочим инструментом, снизить нагрузку на HR и экспертов, которые регулярно отвечали на повторяющиеся вопросы коллег. 

На первом этапе была выбрана модель — Gemini 2.5 Pro с доступом через облачное API. Это обеспечило быстрый старт проекта без капитальных вложений в инфраструктуру. 

Затем команда определила подход к обучению и архитектуру решения. Для работы с корпоративными документами выбрали архитектуру RAG, что позволило формировать ответы на основе актуальных документов без затратного fine-tuning. Такой выбор обеспечил баланс между точностью, скоростью внедрения и бюджетом.

После первичной интеграции модель протестировали на внутренних документах. Именно на этом этапе проявились проблемы качества. Ассистент мог заявлять, что документов нет, хотя они присутствовали в базе, или выдавал неправильные данные — например, неверное количество дней отпуска. Эти ошибки встречались нечасто, но даже единичные случаи критически подрывали доверие сотрудников и приводили к отказу от использования инструмента.

Чтобы исправить ситуацию, команда изменила подход к данным. Перед загрузкой документа формировался перечень ключевых вопросов, на которые он должен отвечать, а затем документ проверялся по ним — фактически как «код через тесты». Такой процесс структурировал базу знаний и значительно повысил точность работы ассистента.

После стабилизации качества был собран прототип в формате Telegram-бота, который отвечал на вопросы сотрудников, используя данные из векторизованных документов. На пилоте сотрудники стали быстрее находить нужные материалы, а нагрузка на специалистов заметно сократилась.

Когда пилот подтвердил эффективность, решение развернули на всю корпоративную базу знаний. Теперь на основе SML Companion развиваются новые сервисы: система проверки договоров, инструменты для продавцов, ассистент для онбординга и голосовые рекомендательные решения. Проект доказал свою устойчивость и готов к масштабированию в других компаниях.

ИИ должен быть помощником, а не источником ошибок. При системном подходе — выборе модели, подхода к обучению и контроля качества данных — языковая модель превращается в надежный инструмент, который ускоряет процессы, повышает точность решений и улучшает обслуживание сотрудников.

Когда LLM перестает быть «черным ящиком» и начинает работать предсказуемо, компания получает сильное преимущество в ежедневных операциях.

Интересное:

Новости отрасли:

Все новости:

Контакты

Адрес
620075, Россия, Свердловская обл., г. Екатеринбург, ул. Мамина-Сибиряка, стр. 101, офис 8.19

Социальные сети

ГлавноеЭкспертыДобавить
новость
КейсыМероприятия