Разработка интеллектуальной голосовой платформы для контакт-центра
Как телекоммуникационная компания внедрила интеллектуальную голосовую платформу на базе нейросетей и автоматизировала работу контакт-центра
Задача
Разработать и внедрить интеллектуальную голосовую платформу для автоматического распознавания и синтеза речи в контакт-центре телеком-компании. Решение должно стабильно работать с реальными телефонными записями, поддерживать режим реального времени и быть готовым к масштабированию и дальнейшему развитию.
Причина
Рост числа обращений и высокая доля типовых запросов увеличивали нагрузку на операторов и операционные затраты. Существующие интерактивные голосовые системы (IVR-системы) не обеспечивали нужного качества распознавания и гибкости, поэтому компании требовалось более точное и технологически устойчивое решение для повышения эффективности сервиса
Контакт-центры телекоммуникационных компаний ежедневно обрабатывают миллионы обращений, значительная часть которых носит типовой характер: вопросы по балансу, тарифам, подключенным услугам. По мере роста клиентской базы такая нагрузка начинает напрямую влиять на операционные затраты и качество сервиса — увеличивается время ожидания, растет нагрузка на операторов, снижаются показатели удовлетворенности клиентов.
Традиционные IVR-системы и сценарные голосовые меню уже не отвечают требованиям рынка. Они плохо работают с живой речью, не учитывают шумы телефонных линий и не адаптируются под реальный язык клиентов. В результате автоматизация либо не дает ожидаемого эффекта, либо, наоборот, ухудшает клиентский опыт, вынуждая пользователей снова и снова переключаться на операторов.
В этих условиях перед телекоммуникационной компанией встал вопрос перехода к более интеллектуальной модели голосового взаимодействия — системе, способной точно распознавать речь в реальных условиях, отвечать в режиме реального времени и одновременно становиться источником данных для дальнейшего развития сервиса. Так начался проект по разработке и внедрению интеллектуальной голосовой платформы на базе технологий машинного обучения
Задача
Целью проекта было создание интеллектуальной голосовой платформы, способной автоматизировать значительную часть обращений в контакт-центре телекоммуникационной компании. Решение должно было обеспечивать точное распознавание речи абонентов в реальных условиях телефонной связи, включая фоновые шумы, перебивания и специфическую отраслевую лексику, а также синтезировать естественные голосовые ответы в режиме реального времени
Отдельное внимание уделялось производственным требованиям: низкой задержке обработки, устойчивости при высокой нагрузке и возможности масштабирования под рост числа звонков. Помимо непосредственной автоматизации диалогов, платформа рассматривалась как фундамент для дальнейшего развития — внедрения голосовой аналитики, персонализации сценариев и использования голосовых данных для повышения качества клиентского сервиса и предотвращения мошенничества
Решение
Команда построила сквозную платформу обработки голосовых обращений: от подготовки телефонного аудио до распознавания речи и, при необходимости, генерации ответа и синтеза голоса. В основу решения лег гибридный подход: вместо разработки моделей «с нуля» сделали ставку на дообучение современных открытых моделей ASR (Automatic Speech Recognition, распознавание речи) и TTS (text-to-speech, синтез речи) и выстроили этапы обработки, что позволило решить типовые проблемы телефонных записей — шумы, эхо, тональные сигналы, музыка на линии. Такой путь позволил быстрее выйти на нужные метрики и адаптировать систему под реальные условия колл-центра
Работу разделили на несколько последовательных этапов.
1 этап. Подготовка данных
Прежде, чем начинать работу по обучению модели, требовалось собрать и подготовить данные. Поэтому мы собрали массив разговоров контакт-центра, провели анонимизацию, подготовили разметку и сформировали набор данных для обучения. Параллельно определили критерии качества (точность распознавания на «грязном» аудио, задержка в потоковом режиме, субъективная естественность синтезированного голоса) и заложили требования к масштабируемости системы
2 этап. Проверка гипотез
На этом этапе мы разработали прототипы моделей распознавания и синтеза на базе выбранных архитектур и проверили ключевые гипотезы: даст ли дообучение на данных заказчика рост точности, и насколько сильно на результат влияет предобработка телефонного аудио.
3 этап. Разработка
После подтверждения гипотез перешли к активной разработке: итеративно дообучали ASR и TTS, расширяли словарь под аббревиатуры, названия тарифов и услуг, улучшали обработку аудио и на каждом цикле фиксировали прогресс по метрикам качества. Когда базовые показатели стали стабильными, основной акцент сместился на готовность к выпуску.
4. Подготовка к запуску и интеграция
Модели оптимизировали под работу в реальном времени, провели нагрузочное тестирование и проверку корректности этапов обработки на большом наборе сценариев. Завершающим шагом стала пилотная интеграция: платформу подключили к тестовому контуру контакт-центра и настроили взаимодействие с существующей телефонией и унаследованними системами через отдельный адаптивный слой, чтобы минимизировать изменения в инфраструктуре заказчика
Результат
В результате внедрения платформы точность распознавания речи на реальных телефонных записях выросла с 78% до 92,2%, а задержка обработки в режиме реального времени снизилась до ~250 мс. Синтезированный голос достиг показателя MOS (Mean Opinion Score, средняя оценка мнений) 4,4, что позволило использовать его в клиентских сценариях без ухудшения качества сервиса.
Автоматизация типовых обращений снизила нагрузку на операторов и сократила время ответа клиентам. Решение подтвердило готовность к промышленной эксплуатации и стало основой для дальнейшего развития голосовой аналитики и сервисов на базе речевых данных
«Мы смогли не просто внедрить технологию, а заложить фундамент для клиентского сервиса, основанного на данных. Система хорошо и точно работает в реальных условиях, и клиент уже получил ощутимый результат от автоматизации контакт-центра» — Руководитель направления ИИ SimbirSoft Илья Фомичев.
92,2% точности распознавания — система корректно работает с реальными телефонными записями, включая шумы, перебивания и отраслевую лексику.
~250 мс задержки в реальном времени — платформа подходит для диалоговых сценариев и не создает пауз, заметных для клиента.
MOS 4,4 — синтезированный голос воспринимается как естественный и может использоваться в клиентском сервисе без снижения качества взаимодействия.
Снижение нагрузки на операторов — значительная часть типовых обращений обрабатывается автоматически, что ускоряет ответы и снижает операционные затраты.
Рубрики
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Достижения
Профиль
Рубрики