Top.Mail.Ru
РБК Компании

Разработка интеллектуальной голосовой платформы для контакт-центра

Как телекоммуникационная компания внедрила интеллектуальную голосовую платформу на базе нейросетей и автоматизировала работу контакт-центра
Разработка интеллектуальной голосовой платформы для контакт-центра
Источник изображения: Freepik.com
Задача и причина

Задача

Разработать и внедрить интеллектуальную голосовую платформу для автоматического распознавания и синтеза речи в контакт-центре телеком-компании. Решение должно стабильно работать с реальными телефонными записями, поддерживать режим реального времени и быть готовым к масштабированию и дальнейшему развитию.

Причина

Рост числа обращений и высокая доля типовых запросов увеличивали нагрузку на операторов и операционные затраты. Существующие интерактивные голосовые системы (IVR-системы) не обеспечивали нужного качества распознавания и гибкости, поэтому компании требовалось более точное и технологически устойчивое решение для повышения эффективности сервиса

Контакт-центры телекоммуникационных компаний ежедневно обрабатывают миллионы обращений, значительная часть которых носит типовой характер: вопросы по балансу, тарифам, подключенным услугам. По мере роста клиентской базы такая нагрузка начинает напрямую влиять на операционные затраты и качество сервиса — увеличивается время ожидания, растет нагрузка на операторов, снижаются показатели удовлетворенности клиентов.

Традиционные IVR-системы и сценарные голосовые меню уже не отвечают требованиям рынка. Они плохо работают с живой речью, не учитывают шумы телефонных линий и не адаптируются под реальный язык клиентов. В результате автоматизация либо не дает ожидаемого эффекта, либо, наоборот, ухудшает клиентский опыт, вынуждая пользователей снова и снова переключаться на операторов.

В этих условиях перед телекоммуникационной компанией встал вопрос перехода к более интеллектуальной модели голосового взаимодействия — системе, способной точно распознавать речь в реальных условиях, отвечать в режиме реального времени и одновременно становиться источником данных для дальнейшего развития сервиса. Так начался проект по разработке и внедрению интеллектуальной голосовой платформы на базе технологий машинного обучения

Задача

Целью проекта было создание интеллектуальной голосовой платформы, способной автоматизировать значительную часть обращений в контакт-центре телекоммуникационной компании. Решение должно было обеспечивать точное распознавание речи абонентов в реальных условиях телефонной связи, включая фоновые шумы, перебивания и специфическую отраслевую лексику, а также синтезировать естественные голосовые ответы в режиме реального времени

Отдельное внимание уделялось производственным требованиям: низкой задержке обработки, устойчивости при высокой нагрузке и возможности масштабирования под рост числа звонков. Помимо непосредственной автоматизации диалогов, платформа рассматривалась как фундамент для дальнейшего развития — внедрения голосовой аналитики, персонализации сценариев и использования голосовых данных для повышения качества клиентского сервиса и предотвращения мошенничества

Решение

Команда построила сквозную платформу обработки голосовых обращений: от подготовки телефонного аудио до распознавания речи и, при необходимости, генерации ответа и синтеза голоса. В основу решения лег гибридный подход: вместо разработки моделей «с нуля» сделали ставку на дообучение современных открытых моделей ASR (Automatic Speech Recognition, распознавание речи) и TTS (text-to-speech, синтез речи) и выстроили этапы обработки, что позволило решить типовые проблемы телефонных записей — шумы, эхо, тональные сигналы, музыка на линии. Такой путь позволил быстрее выйти на нужные метрики и адаптировать систему под реальные условия колл-центра

Работу разделили на несколько последовательных этапов.

1 этап. Подготовка данных

Прежде, чем начинать работу по обучению модели, требовалось собрать и подготовить данные. Поэтому мы собрали массив разговоров контакт-центра, провели анонимизацию, подготовили разметку и сформировали набор данных для обучения. Параллельно определили критерии качества (точность распознавания на «грязном» аудио, задержка в потоковом режиме, субъективная естественность синтезированного голоса) и заложили требования к масштабируемости системы

2 этап. Проверка гипотез

На этом этапе мы разработали прототипы моделей распознавания и синтеза на базе выбранных архитектур и проверили ключевые гипотезы: даст ли дообучение на данных заказчика рост точности, и насколько сильно на результат влияет предобработка телефонного аудио.

3 этап. Разработка

После подтверждения гипотез перешли к активной разработке: итеративно дообучали ASR и TTS, расширяли словарь под аббревиатуры, названия тарифов и услуг, улучшали обработку аудио и на каждом цикле фиксировали прогресс по метрикам качества. Когда базовые показатели стали стабильными, основной акцент сместился на готовность к выпуску.

4. Подготовка к запуску и интеграция

Модели оптимизировали под работу в реальном времени, провели нагрузочное тестирование и проверку корректности этапов обработки на большом наборе сценариев. Завершающим шагом стала пилотная интеграция: платформу подключили к тестовому контуру контакт-центра и настроили взаимодействие с существующей телефонией и унаследованними системами через отдельный адаптивный слой, чтобы минимизировать изменения в инфраструктуре заказчика

Результат

В результате внедрения платформы точность распознавания речи на реальных телефонных записях выросла с 78% до 92,2%, а задержка обработки в режиме реального времени снизилась до ~250 мс. Синтезированный голос достиг показателя MOS (Mean Opinion Score, средняя оценка мнений) 4,4, что позволило использовать его в клиентских сценариях без ухудшения качества сервиса.

Автоматизация типовых обращений снизила нагрузку на операторов и сократила время ответа клиентам. Решение подтвердило готовность к промышленной эксплуатации и стало основой для дальнейшего развития голосовой аналитики и сервисов на базе речевых данных

«Мы смогли не просто внедрить технологию, а заложить фундамент для клиентского сервиса, основанного на данных. Система хорошо и точно работает в реальных условиях, и клиент уже получил ощутимый результат от автоматизации контакт-центра» — Руководитель направления ИИ SimbirSoft Илья Фомичев.

Результат

92,2% точности распознавания — система корректно работает с реальными телефонными записями, включая шумы, перебивания и отраслевую лексику.

~250 мс задержки в реальном времени — платформа подходит для диалоговых сценариев и не создает пауз, заметных для клиента.

MOS 4,4 — синтезированный голос воспринимается как естественный и может использоваться в клиентском сервисе без снижения качества взаимодействия.

Снижение нагрузки на операторов — значительная часть типовых обращений обрабатывается автоматически, что ускоряет ответы и снижает операционные затраты.

Интересное:

Новости отрасли:

Все новости:

Публикация компании

Достижения

1 местоВ рейтинге аутстаф-разработчиков (Tagline, 2025)
1 местоВ рейтинге аутстаффинга (Рейтинг Рунета, 2025)
1 местоВ разработке и интеграции ИИ-решений (Рейтинг Рунета, 2025)
2 местоВ разработке для управления логистикой (Управление производством, 2025)
4 местоВ рейтинге мобильных разработчиков (Tagline, 2025)

Профиль

Дата регистрации
19 августа 2025
Уставной капитал
30 000,00 ₽
Юридический адрес
обл. Ульяновская, г. Ульяновск, пр-кт Нариманова, д. 1, стр. 2
ОГРН
1257300005929
ИНН
7300044805
КПП
730001001
ГлавноеЭкспертыДобавить
новость
КейсыМероприятия