Как мы сделали AI-сервис для расшифровки и протоколирования совещаний
Как государственное учреждение делает транскрибацию совещания и автоматизирует создание протокола, когда у госструктур строгие требования к использованию ПО
Задача:
Одно из региональных государственных учреждений поставило нам задачу найти решение, которое позволит автоматизировать расшифровку и протоколирование совещаний, а в результате уменьшить долю ручной работы и повысить эффективность.
Причина:
В госструктурах и крупных компаниях итогом совещаний должен быть корректно оформленный протокол по шаблону с перечнем участников, повесткой, ходом обсуждения, решениями и поручениями.
Подготовка таких документов занимает значительное время: расшифровка и оформление часовой встречи даже с использованием AI требует 2–4 часа работы секретаря. Это время тратится на проверку, деление текста на реплики конкретных спикеров, составление протокола встречи по установленному шаблону, а также резюме итогов встречи.
При десятках совещаний в неделю это становится системной нагрузкой и источником ошибок.
Во время поиска решения для заказчика Riverstart ориентировались на требования государственного учреждения и нормативные ограничения к ПО, допустимого для использования в организации.
Поиск решения и сбор требований
При создании протокола совещания нужно прописать участников, ход обсуждения и итоги: кто что и кому поручил.
Секретари, которые составляют протоколы ВКС, уже используют сервисы для транскрибации — перевода речи в текст. Но для оформления протокола совещания простой расшифровки недостаточно.
Для протоколирования ВКС нужно:
- прописать имена спикеров у их реплик;
- сформулировать краткую выжимку с итогами и результатами;
- оформить протокол в документ по установленному шаблону для протоколов.
При этом важны ограничения, с которыми работает любой государственный заказчик:
- только доверенный отечественный софт без иностранного влияния;
- данные, содержащие гостайну, персональные данные или коммерчески чувствительную информацию, должны обрабатываться внутри инфраструктуры учреждения.
Таким образом, решение должно быть полностью российским и разворачиваться внутри компании. А для автоматизации создания протокола решение должно включать в себя транскрибацию, определение спикеров и подписи реплик, резюмирование результатов совещания и формирование протокола по шаблону.
Для реализации всех требований заказчика Riverstart создали локальный AI-транскрибатор. Разберем, как решали проблемы:
1. Проблема с делением на спикеров
Для точного протокола совещания нужен список участников, а также важно разделять реплики. Без этого сложно подвести итоги — кому адресованы поручения и какие предложения исходили от конкретных спикеров.
Чтобы обеспечить корректное распределение реплик, мы использовали комплекс технологий:
- транскрибация (STT, speech-to-text) — преобразование аудиопотока в текст;
- диаризация — автоматическое разделение речи по участникам, чтобы в протоколе у каждой реплики был указан спикер;
- улучшение точности распознавания речи — особенно важно, когда участники перебивают друг друга или имеют похожие голоса;
- устойчивость к условиям записи — шум, эхо, разные микрофоны, акценты, изменяющаяся громкость речи.
Результатом становится расшифрованный текст с разбивкой по спикерам и последовательным ходом обсуждения.

2. Проблема с использованием облачных решений
Транскрибаторы выдают только расшифровку хода обсуждения, но не делают резюме встречи. Для получения кратких итогов встречи нужно отправить расшифровку в AI-модели и задавать промпт для выделения итогов и договоренностей.
Большинство доступных сервисов выполняют эти операции в облаке, а это для государственных учреждений неприемлемо:
- в аудио- и текстовых данных часто содержится конфиденциальная или служебная информация;
- передача данных во внешние сервисы запрещена внутренними регламентами;
- многие ведомства работают в закрытом контуре и по требованиям безопасности не могут использовать облачные API.
Для решения этой проблемы Riverstart выбрали для AI-транскрибатора локальный формат. Он разворачивается на серверах заказчика, не использует внешние API и не отправляет данные в облако.
Все данные хранятся и обрабатываются в закрытом контуре учреждения, разработчики не имеют доступа к данным.

3. Проблема с нечеткой саммаризацией
Финальный этап — подведение итогов — строится на резюмировании с помощью механизма LLM-саммаризации. Мыв столкнулись с такими проблемами в контексте протоколов совещаний:.
- Модель может пропустить важные моменты или добавить в итоговую часть второстепенные детали. Если встреча длинная и темы поднимаются несколько раз, система не всегда объединяет их в один пункт.
- Модель не всегда различает, прозвучала просто идея, рабочее предложение или уже сформулированное решение. Многие решения появляются не в явной форме, а в ходе обсуждения, и система может их не зафиксировать без четкого произнесенного «Постановили, что».
Для решения этой проблемы мы работаем над улучшением распознавания смысла через семантический анализ текста. Он помогает точнее определять основные темы, выделять реальные решения, формировать перечень поручений и отсекать фразы, которые не влияют на итог.
4. Проблема с созданием документа протокола совещания
Создание протокола — самая ресурсоемкая часть процесса. Полностью автоматизировать ее пока невозможно, но мы нашли решение с помощью полуавтоматического формирования документа:
- транскрибатор с помощью AI расшифровывает речь говорящих, указывает спикеров и формирует документ протокола по установленному в организации шаблону: с абзацами, заголовками, повесткой, указанием участников, решений и поручений;
- секретарь проверяет результат и вносит корректировки.
В таком случае можно ускорить протоколирование совещания: секретарь получает уже подготовленный черновик, который нужно довести до финального вида.

В результате внедрения решения от Riverstart вместо трех часов на обработку часовой записи и создание протокола секретарь учреждения потратит около часа: 5 минут на получение результата от транскрибатора и остальное время на проверку результата и корректировки.
Таким образом внедрение транскрибатора на AI позволяет заказчику безопасно использовать семантическую обработку речи и автоматизировать большую часть работы с протоколами совещаний.
По мере развития такое решение может стать частью единого цифрового цикла работы с документами.
К примеру, оно дообучается на терминологии организации, поэтому точность распознавания будет расти, освобождая больше времени секретаря.
Источники изображений:
Архив ООО Риверстарт
Рекомендации партнеров:
Новости отрасли:
Все новости:
Публикация компании
Профиль
Контакты
Социальные сети
