Мы собираем файлы cookie и применяемрекомендательные технологии

Синтез речи: что это и как работает? | FAQ МТС Exolve

Синтез речи: что это и как работает?

Синтез речи (TTS — Text-to-Speech) — преобразование текста в его голосовой вариант по заданным параметрам. 


Синтезированную речь можно использовать в самых разных сферах — от мобильных приложений и до сложных систем автоматизации. В голосовой связи такая речь может стать эффективной заменой студийных записей для информирования абонентов. Примеры:

  • Финансовый сектор: уведомления о задолженностях, информирование о новых продуктах и выгодных предложениях: Уведомления клиентов о новых банковских продуктах, услугах и акциях
  • Ритейл и e-commerce: уведомления о доставке, сбор обратной связи, виртуальный консультант
  • Телекоммуникации: уведомления о задолженностях, информирование о новых тарифах и услугах
  • Образование: напоминания о занятиях, информирование о результатах экзаменов
  • Здравоохранение: напоминания о визитах и приёме лекарств
  • Государственные службы: уведомления о событиях, обновления статуса заявок


Современные технологии создания искусственной речи существенно продвинулись вперед по сравнению с ранними экспериментами в этой области. C развитием вычислительных технологий и глубокого обучения синтез речи стал звучать значительно естественнее и приятнее для слуха. Технология обеспечивает корректное смысловое выделение нужных слов и пауз в предложениях. Она не только распознаёт слова, но и анализирует смысл текста, что позволяет формировать фразы с естественной интонацией. Сервис правильно ставит ударения, нормализует текст и корректно произносит цифры, названия и адреса.


Услуга не требует подключения, ей также можно воспользоваться и на тестовом периоде. Для синтезирования аудио воспользуйтесь этими API-методам:
  1. Synthesize — синтезирует речь по заданным параметрам без добавления аудиофайла в библиотеку приложения
  2. SynthesizeAndSave — синтезирует речь по заданным параметрам с последующим добавлением аудиофайла в библиотеку приложения. Используйте ID сформированного аудиофайла для информирования абонентов в рамках таких услуг, как голосовое SMS, callback и переадресация входящих вызовов
Длинный текст при синтезировании разбивается на части по 250 символов, оплачивается каждая из них. Актуальные цены указаны в тарифах.

Узнайте первыми

новые инсайты, механизмы и гайды в нашем блоге