Top.Mail.Ru
РБК Компании
Главная Рег.ру 3 марта 2026

Автономный ИИ для юристов: кейс Рег.облака и Raft

Как открытый LLM извлекает данные из договоров с точностью 99,7%: история о совместном проекте Raft и Рег.облака
Автономный ИИ для юристов: кейс Рег.облака и Raft
Источник изображения: Freepik.com
Задача и причина

В рамках эксперимента использовались данные реального заказчика из строительной отрасли. Активный рост компании привел к экспоненциальному увеличению объема юридических документов (договоры, акты, допсоглашения), обработка которых вручную или с помощью ограниченных API крупных правовых систем стала тормозить бизнес и увеличивать операционные расходы.

Задачи:

  • Качество и точность: извлекать бизнес-критичные данные (суммы, реквизиты, даты) с точностью, достаточной для прямой загрузки в ERP и DWH.
  • Конфиденциальность и контроль: полностью исключить передачу чувствительных документов во внешние AI-сервисы, сохранив данные в замкнутом контуре.
  • Инфраструктурная экономика: подобрать архитектуру и модель, которые обеспечивают высокое качество, но укладываются в разумные вычислительные бюджеты и требования к скорости обработки.
  • Воспроизводимость и управляемость: создать не демо-версию, а промышленный пайплайн с контролируемым уровнем ошибок и понятной экономикой.

Эксперимент был развернут на инфраструктуре Рег.облака (Cloud GPU A100 80 ГБ). При этом архитектура изначально проектировалась так, чтобы при необходимости ее можно было развернуть в закрытом корпоративном контуре заказчика.

Ключевой философией стало построение не просто «модели под задачу», а целостного управляемого инженерного контура. Архитектура решения включала:

  • Классификатор типов документов (договор, акт, счет-фактура).
  • Адаптивное смысловое разбиение (чанкинг) длинных текстов.
  • Извлечение данных с помощью open-source LLM (была выбрана instruct-модель класса Mixture of Experts как оптимальный баланс качества, скорости и требований к GPU).
  • Многоуровневый контроль качества: строгий формат ответа, валидация по типам и форматам, дедупликация, оценка уверенности модели.

Ключевые инженерные решения, определившие успех:

  • Раздельные пайплайны для разных типов документов.
  • Контроль контекста: в модель передавались только релевантные для каждого поля фрагменты документа.
  • Принцип «лучше пропустить, чем ошибиться»: автоматическое отбрасывание данных с низкой оценкой уверенности.
Результат

После настройки пайплайна были достигнуты промышленные показатели качества на тестовом наборе документов:

  • Precision (точность): 99,7% — практически полное отсутствие ложных извлечений.
  • Recall (полнота): 93,1% — система находит большинство целевых полей.
  • Общая оценка (Overall Score): 0,96.
  • Автономность: полный цикл обработки происходит внутри инфраструктуры заказчика или Рег.облака, без выхода во внешние сервисы.
  • Экономическая эффективность: использование open-source модели на управляемой облачной GPU-инфраструктуре оказалось предсказуемым и контролируемым по стоимости решением.

Инфраструктура на базе GPU A100 в Рег.облаке обеспечила необходимую производительность и запас памяти для работы с современными open-source LLM. Предсказуемая среда и высокая пропускная способность сети позволили команде Raft сосредоточиться на архитектуре и качестве модели, а не на решении инфраструктурных проблем.

Проект доказал, что open-source LLM готовы к решению реальных бизнес-задач в чувствительных областях, таких как юридический документооборот. Ключ к успеху — не в поиске «волшебной» модели, а в построении надежного инженерного контура вокруг нее, который контролирует входные данные, контекст, формат вывода и осуществляет многоступенчатую валидацию. Такой подход позволяет достигать качества, достаточного для интеграции с корпоративными системами, сохраняя полный контроль над данными и их безопасностью. Это открывает путь к глубокой автоматизации процессов, ранее считавшихся исключительной прерогативой человека.

Интересное:

Новости отрасли:

Все новости:

Достижения

Лидер рынка .ruДоля всех имен в зоне .ru — 48% (согласно Statonline.ru)
Крупнейший IT-поставщикКрупнейший поставщик IT-услуг в РФ по данным CNews Analytics в 2024 году
10 ЦОД в регионах РФСобственная технологическая база из 10 дата-центров в нескольких регионах России
В топ-15 облачных провайдеровВходит в топ-15 крупнейших российских облачных провайдеров по данным iKS Consulting в 2025 году
Премия «Приоритет. Цифра»Лауреат премии в номинации облачных технологий и сервисов в 2025 году

Профиль

Дата регистрации
22 мая 2006
Уставной капитал
Юридический адрес
г. Москва, вн.тер.г. Муниципальный округ Аэропорт, пр-кт Ленинградский, д. 72, к. 3
ОГРН
1067746613494
ИНН
7733568767
КПП
774301001

Контакты

Адрес
125315, Россия, г. Москва, Ленинградский пр., д. 72, корп. 3
Телефон

Социальные сети

ГлавноеЭкспертыДобавить
новость
КейсыМероприятия