Автономный ИИ для юристов: кейс Рег.облака и Raft
Как открытый LLM извлекает данные из договоров с точностью 99,7%: история о совместном проекте Raft и Рег.облака
В рамках эксперимента использовались данные реального заказчика из строительной отрасли. Активный рост компании привел к экспоненциальному увеличению объема юридических документов (договоры, акты, допсоглашения), обработка которых вручную или с помощью ограниченных API крупных правовых систем стала тормозить бизнес и увеличивать операционные расходы.
Задачи:
- Качество и точность: извлекать бизнес-критичные данные (суммы, реквизиты, даты) с точностью, достаточной для прямой загрузки в ERP и DWH.
- Конфиденциальность и контроль: полностью исключить передачу чувствительных документов во внешние AI-сервисы, сохранив данные в замкнутом контуре.
- Инфраструктурная экономика: подобрать архитектуру и модель, которые обеспечивают высокое качество, но укладываются в разумные вычислительные бюджеты и требования к скорости обработки.
- Воспроизводимость и управляемость: создать не демо-версию, а промышленный пайплайн с контролируемым уровнем ошибок и понятной экономикой.
Эксперимент был развернут на инфраструктуре Рег.облака (Cloud GPU A100 80 ГБ). При этом архитектура изначально проектировалась так, чтобы при необходимости ее можно было развернуть в закрытом корпоративном контуре заказчика.
Ключевой философией стало построение не просто «модели под задачу», а целостного управляемого инженерного контура. Архитектура решения включала:
- Классификатор типов документов (договор, акт, счет-фактура).
- Адаптивное смысловое разбиение (чанкинг) длинных текстов.
- Извлечение данных с помощью open-source LLM (была выбрана instruct-модель класса Mixture of Experts как оптимальный баланс качества, скорости и требований к GPU).
- Многоуровневый контроль качества: строгий формат ответа, валидация по типам и форматам, дедупликация, оценка уверенности модели.
Ключевые инженерные решения, определившие успех:
- Раздельные пайплайны для разных типов документов.
- Контроль контекста: в модель передавались только релевантные для каждого поля фрагменты документа.
- Принцип «лучше пропустить, чем ошибиться»: автоматическое отбрасывание данных с низкой оценкой уверенности.
После настройки пайплайна были достигнуты промышленные показатели качества на тестовом наборе документов:
- Precision (точность): 99,7% — практически полное отсутствие ложных извлечений.
- Recall (полнота): 93,1% — система находит большинство целевых полей.
- Общая оценка (Overall Score): 0,96.
- Автономность: полный цикл обработки происходит внутри инфраструктуры заказчика или Рег.облака, без выхода во внешние сервисы.
- Экономическая эффективность: использование open-source модели на управляемой облачной GPU-инфраструктуре оказалось предсказуемым и контролируемым по стоимости решением.
Инфраструктура на базе GPU A100 в Рег.облаке обеспечила необходимую производительность и запас памяти для работы с современными open-source LLM. Предсказуемая среда и высокая пропускная способность сети позволили команде Raft сосредоточиться на архитектуре и качестве модели, а не на решении инфраструктурных проблем.
Проект доказал, что open-source LLM готовы к решению реальных бизнес-задач в чувствительных областях, таких как юридический документооборот. Ключ к успеху — не в поиске «волшебной» модели, а в построении надежного инженерного контура вокруг нее, который контролирует входные данные, контекст, формат вывода и осуществляет многоступенчатую валидацию. Такой подход позволяет достигать качества, достаточного для интеграции с корпоративными системами, сохраняя полный контроль над данными и их безопасностью. Это открывает путь к глубокой автоматизации процессов, ранее считавшихся исключительной прерогативой человека.
Рубрики
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Достижения
Профиль
Контакты
Социальные сети
Рубрики
