Синтез речи: что это и как работает?

Синтез речи (TTS — Text-to-Speech) — преобразование текста в его голосовой вариант по заданным параметрам.

Синтезированную речь можно использовать в самых разных сферах — от мобильных приложений и до сложных систем автоматизации. В голосовой связи такая речь может стать эффективной заменой студийных записей для информирования абонентов. Примеры:

Финансовый сектор: уведомления о задолженностях, информирование о новых продуктах и выгодных предложениях: Уведомления клиентов о новых банковских продуктах, услугах и акциях
Ритейл и e-commerce: уведомления о доставке, сбор обратной связи, виртуальный консультант
Телекоммуникации: уведомления о задолженностях, информирование о новых тарифах и услугах
Образование: напоминания о занятиях, информирование о результатах экзаменов
Здравоохранение: напоминания о визитах и приёме лекарств
Государственные службы: уведомления о событиях, обновления статуса заявок

Современные технологии создания искусственной речи существенно продвинулись вперед по сравнению с ранними экспериментами в этой области. C развитием вычислительных технологий и глубокого обучения синтез речи стал звучать значительно естественнее и приятнее для слуха. Технология обеспечивает корректное смысловое выделение нужных слов и пауз в предложениях. Она не только распознаёт слова, но и анализирует смысл текста, что позволяет формировать фразы с естественной интонацией. Сервис правильно ставит ударения, нормализует текст и корректно произносит цифры, названия и адреса.

Услуга не требует подключения, ей также можно воспользоваться и на тестовом периоде. Для синтезирования аудио воспользуйтесь этими API-методам:

Synthesize — синтезирует речь по заданным параметрам без добавления аудиофайла в библиотеку приложения
SynthesizeAndSave — синтезирует речь по заданным параметрам с последующим добавлением аудиофайла в библиотеку приложения. Используйте ID сформированного аудиофайла для информирования абонентов в рамках таких услуг, как голосовое SMS, callback и переадресация входящих вызовов

Длинный текст при синтезировании разбивается на части по 250 символов, оплачивается каждая из них. Актуальные цены указаны в тарифах.

Синтез речи: что это и как работает?

Вопросы по теме

Узнайте первыми