08 фев 2024

Транскрибация: конвертация аудио в текст

С развитием голосовых помощников, аналитических сервисов и других технологий вырос спрос на транскрибацию — перевод аудио в текст. Воспринимать информацию в таком формате удобнее, к тому же некоторые программы в принципе не могут работать с аудио в исходном виде.

В этой статье разберём, что такое транскрибация, как работают сервисы и программы для расшифровки речи и какие задачи они решают.

Что такое транскрибация

Транскрибация — перевод данных из аудиоформата в текст. Такое решение используют, когда необходимо качественное распознавание слов в потоке речи и создание текстовой расшифровки.

Это можно делать вручную: прослушивать аудио и записывать услышанное в виде текста.

Постепенно ручной труд вытесняют системы и сервисы с искусственным интеллектом, которые могут за несколько секунд перевести аудио в текст. Отметим, что люди ежедневно пользуются этой технологией. К примеру, на YouTube субтитры для видео могут быть сгенерированы автоматически в момент просмотра.

Для чего нужна транскрибация

Перевод аудиозаписей в текст применяют в маркетинге, кол-центрах, HR и других сферах. Какие задачи решают транскрибаторы:

Работа с голосовыми записями интервью для написания статей и контента для постов.
Анализ содержания встреч и собраний для рассылки участникам и для подготовки дальнейших действий.
Контроль качества обслуживания клиентов.
Создание персональных материалов после лекций, тренингов и вебинаров для обучающихся.
Разработка голосовых помощников.

Одним из перспективных направлений развития технологий расшифровки аудио и видео стали голосовые ассистенты. Более 3 млрд людей постоянно общаются с голосовыми помощниками. Только Google Assistant регулярно помогает 500 млн пользователям.

Как устроен перевод аудио в текст

Транскрибация происходит за несколько этапов обработки сигнала. Основные фазы:

Анализ сигнала. Система получает готовую голосовую запись, очищает и разделяет на одинаковые фрагменты. Затем пропускает их через акустическую модель, определяющую звуки в аудиозаписи.
Расшифровка голоса. Алгоритм сравнивает звуки с эталонным произношением и определяет в потоке речи те, из которых состоят слова.
Перевод речи в текст. Подключается языковая модель, которая уже готовит текстовый материал на основе данных, полученных после расшифровки записи. Так получаются субтитры, статьи и другие простые тексты. В зависимости от возможностей, ИИ способен даже определять говорящего и делить речь на предложения и высказывания.

Обычно декодер использует стандартную библиотеку статей, письменных расшифровок, по которой можно распознать любую речь. А голосовые помощники часто имеют персональную базу данных. К примеру, пользователь создал контакт с именем «Аня Работа». Если человек произнесёт эту комбинацию («Позвони Ане Работа»), то помощник поймёт не только текст, но и часть задачи.

Преимущества использования программного распознавания

Бизнес активно применяет решения для перевода аудио в текст, потому что они предлагают следующие преимущества:

Скорость. Человеку требуется около 3–4 часов для качественного анализа 60-минутной речи и написания статьи или другого текстового документа на основе распознаваемого сигнала. Онлайн-сервисы справляются в десятки раз быстрее. Скорость автоматического транскрибирования зависит только от аппаратного обеспечения и легко увеличивается.
Любой объём. У человека ограничены ресурсы. Он не сможет заниматься распознаванием голоса круглосуточно, из-за чего обработка длинных аудио займёт несколько дней. Программное распознавание может обрабатывать большие объёмы за короткое время.
Интеграция по API. Связав, например, софт для кол-центра, онлайн-транскрибатор и CRM, бизнес получит текстовые записи разговоров, отражающиеся прямо в карточке клиентов. Перевод может осуществляться двумя способами: синхронным, то есть распознаванием по ходу речи, и асинхронным, который ведётся после завершения записи. Пример есть в документации МТС E xolve. Синхронный режим используют при проектировании голосовых роботов — они должны подстроиться под диалог и отвечать по ходу разговора.

Низкая стоимость. Программная обработка значительно дешевле человеческой. Сервисы переводят аудио в текст, это стоит 5 копеек за минуту.

Транскрибатор с ИИ поможет компании обрабатывать голосовые записи с минимальным участием человека и намного дешевле, быстрее и в больших объёмах.

Недостатки автоматического перевода речи в текст

Главная проблема машинного перевода — несовершенство алгоритмов анализа. Пока даже хорошие языковые модели допускают ошибки и пишут не те слова. Обычно такое происходит, когда:

Говорящий имеет заметные дефекты речи, из-за чего произношение сильно отличается от эталонного.
Запись имеет плохое качество: сильные хрипы, много постороннего шума, которые не позволяют вычленить речь и разделить её на отдельные звуки.
Человек использует незнакомые слова. Например, метафоры, нераспространённые термины, которые ИИ не знает. Такое особенно часто происходит во время интервью с экспертами.

В большинстве случаев промах со словом не станет проблемой, читатель исправит ошибки и поймёт мысль. Однако в сложных нишах опечатки в тексте способны кардинально изменить смысл.

Пока на 100% доверять автоматическим сервисам нельзя. Если есть фоновый шум, частота ошибок увеличивается до 40–70% в зависимости от качества записи. При этом у ИИ нет механизмов самопроверки. Единственный способ устранить ошибки распознавания речи — привлечение редактора или самого спикера, которые исправят статью.

На графике представлены результаты проверки точности 10 транскрибаторов. Основная метрика — Word Error Rate (WER) — процент неправильно распознанных слов.

На нём синяя линия — это идеальное соотношение WER и уверенности ИИ.

Предполагается, что если ИИ уверен в результате на 80%, то WER должен быть 20%. Однако большинство инструментов не соответствует этому требованию. Исследователи обнаружили, что ИИ ошибается слишком часто и при этом имеет высокую уверенность в результате. Только AssemblyAI показывает идеальное соотношение. У Whisper и Microsoft всё наоборот: при низкой уверенности они допускают меньше ошибок.

Этот график показывает, что технология ещё недостаточно хорошо развита. Даже сервисы, созданные корпорациями, далеки от идеала. Поэтому при внедрении транскрибатора для обработки аудио учитывайте возможные погрешности и вручную корректируйте результаты, если требуется 100%-я точность перевода.

Какие задачи поможет решить перевод голоса в текст

Распознавание голоса — универсальная технология, которая используется во многих сферах бизнеса. Мы рассмотрим только приоритетные направления.

Аналитика звонков

Формулировка «Все разговоры записываются для улучшения качества обслуживания» и похожие часто звучат перед соединением с оператором кол-центра. Сейчас в основном именно люди прослушивают аудиозаписи и составляют отчёты.

Системы с применением ИИ отлично подходят для простых задач, например оценки категории звонка. Искусственный интеллект хорошо справляется с ними, даже если на аудио есть шум или у человека нечистое произношение.

Алгоритм использования технологии для аналитики звонков

Автоматизация кол-центра

Алгоритмы распознавания голоса применяются в кол-центрах при разработке автоответчиков. Они понимают речь собеседника и отвечают на простые вопросы, а продвинутые роботы способны поддерживать диалог, как реальный человек. Автоответчик не просит выбрать одну из функций в списке («Нажмите на 1, чтобы получить помощь»), а ожидает конкретного вопроса.

Благодаря такому подходу человек получает индивидуальную консультацию, а сотрудники кол-центра не тратят время на типовые вопросы. В результате снижается объём работы, сокращается штат операторов и улучшается качество обслуживания.

Также компании могут автоматизировать оценку звонков и их сортировку по таким темам, как проблемы в использовании, оплата, общие вопросы, мошенничество. Робот оценивает содержание диалога и распределяет звонки на группы, собирая результат в отчёты, которые обновляются в режиме реального времени.

Благодаря такому подходу маркетологам и руководителям кол-центров проще анализировать обратную связь от клиентов, поскольку не нужно вслепую искать разговоры с определённым намерением или эмоцией клиента.

Наём сотрудников

Цифровые ассистенты помогают проводить собеседования без участия HR-специалиста и записывать расшифровку. Робот задаёт вопросы по очереди и сохраняет ответы в системе. Затем текст обрабатывается другими алгоритмами, которые оценивают, насколько человек подходит компании.

Маркетинговые исследования

Существенно упрощается процесс проведения количественных маркетинговых исследований, и один специалист самостоятельно может подготовить и провести исследование на 10 000 человек вместо найма кол-центра с десятками операторов. Как это происходит:

Клиент сделал покупку или заказ. Информация об этом хранится в системе компании. Для исследования готовится сегментированная выгрузка покупателей. Маркетолог готовит последовательность вопросов, логику диалогов и загружает все данные в систему.
Система начинает обзвон клиентов с просьбой оценить качество обслуживания или задавая более широкие вопросы. Возможны разные варианты: подробно ответить на вопросы с дальнейшим распознаванием, либо поставить оценку (до 5 или 10) — в этом случае достаточно простой системы без анализа речи.
Транскрибатор переводит аудио в текст и передаёт сведения аналитической системе.
Аналитический сервис обрабатывает данные, выделяет ключевые слова и составляет отчёты.

Транскрибатор в маркетинге позволяет минимизировать рутинный перевод голосовых записей и видео в текст. Компания сразу получит информацию в удобном формате, которую можно передать на обработку уже в другие программы, как это показано в нашем примере. То есть переводчик из аудио в текст — то самое первое звено, которое необходимо для более глобальной автоматизации аналитики и других задач в кол-центре.

Кейс

К платформе подключился сервисный центр по ремонту бытовой техники. Проблема компании — слишком большой поток заявок, который не могут обработать два оператора. При этом нет возможности расширить штат.

Для решения задачи компания использовала SIP API и функции транскрибации. Она самостоятельно интегрировала решения в CRM и ПО для кол-центра с голосовым помощником. На базовую настройку и интеграцию потребовалась одна неделя. Благодаря транскрибатору автоответчик научился принимать часть заявок на ремонт без участия менеджера.

Результаты интеграции:

Рост уровня удовлетворённости клиентов до 18% благодаря более быстрой обработке заявок.
Снижение нагрузки на операторов на 30%.

Заключение

Сервисы транскрибации — это удобный и сравнительно дешёвый способ преобразовать голосовое сообщение в текстовый формат. Благодаря им работа с аудио становится легче и подлежит дальнейшей автоматизации. У транскрибаторов широкий спектр применения. Их можно использовать в банках, магазинах, сервисных центрах и других сферах деятельности, связанных с постоянной работой с клиентами по телефону.

Предыдущая статья

Оцените статью:

Следующая статья