По мнению Statista, в 2024 году голосовых помощников будет больше, чем жителей планеты — 8,4 млрд экземпляров. А в Industry Arc рассказали, что объём рынка голосовых ботов к 2027 году достигнет 98,2 млрд долларов. О том, какие голосовые технологии наиболее актуальны и что ждёт голосовые тренды в будущем, подробнее расскажем в этой статье.
NLP и система распознавания речи
Благодаря технологии обработки естественного языка (NLP) современные нейросети всё сложнее отличить от человека. Это подтвердило исследование, в котором из 1,5 млн участников 32% приняли речь робота за диалог с живым человеком.
Именно поэтому всё больше компаний внедряют решения на базе нейросетей для общения с клиентами, а по прогнозам Markets and markets, рынок обработки естественного языка к 2028 году дойдёт до 68,1 млрд долларов. При этом одна из основных технологий, которая использует NLP, — это система распознавания речи.
По статистике Fortune Business Insights, в 2024 году мировой рынок распознавания речи составит 15,46 млрд долларов, а при среднегодовом росте в 23,7% к 2032 году повысится до 84,97 млрд долларов. Такая популярность вызвана удобством: пользователи могут работать с ПО без набора текста или взаимодействия с графическим интерфейсом.
Улучшается качество транскрибации речи. Если раньше перевод текста в голос состоял из простой акустической модели, сопоставляющей устные фразы с шаблонами, то современные NLP-системы позволяют определять сленг, тональность, ритм и даже настроение говорящего, а каждое новое взаимодействие с человеком уменьшает число погрешностей.
Сегодня перевод текста в речь используется многими устройствами и приложениями, а крупные бизнес-игроки вкладывают в его развитие миллионы долларов. К примеру, в августе 2023 года Meta представила новую модель для распознания речи почти с сотни языков, Google LLC выпустила нейросеть, способную улучшать голосовой интерфейс, а в 2024 году Apple анонсировала интеграцию с ChatGPT.
Генерация искусственной речи
Это ещё одна NLP-технология, которая заметно облегчает жизнь как обычным пользователям, так и бизнес-сегменту. Синтезированную речь активно применяют:
-
для озвучивания и перевода подкастов и роликов, для расширения аудитории каналов и блогов
-
прослушивания книг, сообщений и другого текстового контента, чтобы не отвлекаться от рутинных или механических задач
-
создания голосов персонажей для видеоигр, приложений и отдельных анимаций
-
облегчения коммуникации с клиентами и множества других задач
Современные речевые боты отлично передают эмоции и интонацию, а также умеют расставлять паузы и акценты — всё это увеличивает популярность TTS-технологии (Text-to-Speech). К примеру, исследования Allied marketing research показали, что к 2031-му рынок перевода текста в речь достигнет 12,5 млрд долларов, что в четыре раза превысит показатели 2021 года.
Повышенная безопасность
Применение голосовых технологий для идентификации клиентов повышает риск кражи данных пользователей. Некоторые нейросети могут в точности воспроизвести любой голос, поэтому обойти систему голосовой авторизации стало намного проще.
Так, журналист издания Motherboard Джозеф Кокс провёл эксперимент, чтобы оценить надёжность своего банка. Для этого автор создал синтетический клон своего голоса через одно из общедоступных ИИ-приложений, затем позвонил в службу поддержки банка и воспроизвёл через ноутбук фразу: «Проверьте мой счёт».
Банк принял запрос и начал проверку: уточнил дату рождения Джозефа и попросил произнести: «Мой голос — мой пароль». Всё это журналист сделал через нейросеть, и через несколько секунд система безопасности банка открыла доступ к его аккаунту.
Подобные кибератаки практически не требуют подготовки и могут проводиться, по сути, кем угодно. Поэтому многие компании стали ужесточать идентификацию голосовой биометрии и дополнительно применять двухфакторную аутентификацию, HIPAA-стандарты и т. д.
Особое внимание уделяется изучению новых методов борьбы с голосовыми дипфейками.
Тренды голосовых технологий в продажах
Голосовые технологии не только улучшают коммуникацию бизнеса с клиентами, но и помогают оптимизировать внутренние бизнес-процессы. Поэтому компании всё чаще используют речевые технологии в маркетинговых стратегиях. Рассмотрим варианты.
Голосовые ассистенты
Такие помощники используют систему распознавания речи, поэтому могут моментально интерпретировать и выполнять голосовые команды пользователей. Исследования Demand Sage за 2024 год показали, что 50% пользователей планируют совершать покупки через роботов. К примеру, через Алису можно оплачивать голосом услуги мобильной связи, заказывать продукты из сервиса «Лавка» и проводить другие операции. Это помогает людям совершать покупки, не отрываясь от своих дел, а бизнесу — быстрее получать новых клиентов.
Персонализированные рекомендации
Во время телефонного разговора боты не только фиксируют любую поступающую информацию, но и оценивают контекст разговора по ключевым словам, вопросам и даже эмоциям пользователя. Это помогает выстраивать диалог в продуктивном для продаж направлении и подбирать абонентам максимально подходящие предложения.
Обучение персонала
Компании создают обучающие программы для новых кадров. Сотрудники могут прослушивать голосовую запись об интересующем товаре или услуге компании и быстрее адаптироваться к своим обязанностям. Также с помощью ботов организации уведомляют штат о различных внутренних событиях — совещаниях, корпоративах — и даже проводят с членами команды exit-интервью.
Онлайн-консультации
Всё больше компаний отказываются от услуг операторов в пользу голосовых ботов. Так, крупный индийский стартап Dukaan создал для работы с клиентами собственный ИИ Lina и сократил 23 операторов своей техподдержки. В компании рассказали, что раньше обработка запросов занимала у менеджеров до двух минут — нейросеть делает это за секунду. Ускорилось и решение сложных проблем клиентов — с 2 часов 13 минут до 3 минут 12 секунд. В итоге расходы на содержание службы поддержки сократились на 85%.
И эта практика набирает темп. В Jupiter Research отметили, что к 2025 году ИИ внедрят 80% ecommerce-компаний. А по исследованиям Demand Sage, доход от рынка чат-ботов, который в 2024 году оценивают примерно в 179,9 млн долларов, в 2027 году вырастет до 454,8 млн долларов — то есть больше чем в 2,5 раза.
Работа с поисковыми системами
NLP помогает обрабатывать сложные голосовые запросы в Google или Яндекс — например, «Найди офисный ноутбук с оперативной памятью до 8 ГБ и SSD до 120 ГБ». Так пользователи могут быстро попасть на сайт бренда, надиктовав пару фраз на телефон.
Также голосовые решения активно интегрируются в CRM-системы, используются для первичных собеседований, оптимизации складских операций и т. д.
Перспективы развития голосовых технологий
Новые возможности голосовых технологий не ограничены продажами — тренд затрагивает множество важных отраслей.
Медицина
Медики смогут быстрее заполнять карточки пациентов — это позволит повысить число приёмов в течение одного рабочего дня.
Также эта технология полезна при проведении УЗИ, рентгенографии, МРТ и прочих процедурах: специалист надиктовывает цифровому помощнику результаты исследования, и они автоматически попадают в нужный документ.
HoReCa
С помощью голосовых технологий отели и рестораны настраивают голосовых ботов под бронирование номеров и столиков, а также автоматические ответы на часто задаваемые вопросы, например о цене за номер или составе меню.
Кроме того, гостиницы начали внедрять в номера системы «умного» дома. Например, в отелях Starwood Hotels&Resorts с помощью Siri и iPad-приложений постояльцы могут голосовыми командами менять температуру, регулировать свет, включать телевизор и др.
Образование
В Global Marketing Insights рассказали, что в 2023 году в 31,5% случаев ИИ-голос применялся именно в образовательном сегменте — это связано с важным вкладом синтезированной речи в обучение людей с нарушениями здоровья, вроде слепоты, дислексии и т. д.
Также транскрибация речи ускоряет конспектирование лекций и помогает студентам усвоить больше учебного материала.
Голосовые технологии стали активнее применяться и для начального образования. К примеру, СОШ № 619 г. Санкт-Петербурга задействует голосовой помощник Маруся, который отвечает на вопросы учеников, зачитывает вслух произведения литературы, помогает освоить азы математики через интерактивные голосовые задачи и т. п.
Логистика и промышленность
Благодаря синтезу речи компании могут оптимизировать работу складских помещений, автоматизировать взаимодействие между отделами, ускорить доставку товаров. Обычно для этого используют специальные API-сервисы. Например, API-платформа МТС Exolve предлагает голосовые технологии распознавания и синтеза речи, интеграцию с CRM-системой, автоматическое формирование отчётности и т. д.
Кейс МТС Exolve
Для повышения скорости поставок логистическая компания интегрировала голосового робота МТС Exolve. Специалисты API-платформы разработали голосового бота, который определял местоположение транспорта и при отклонении от маршрута звонил водителю с инструкциями. Затем бот отправлял SMS с пунктом доставки и ссылкой на «Яндекс Карты». Водители меньше отвлекались и быстрее доставляли посылки. Роботы также разгрузили операторов НПЗ, позволяя им сосредоточиться на других задачах.
После внедрения голосового решения компания смогла:
-
освободить менеджеров от 11% рутинных операций
-
повысить скорость доставки на 26%
-
ускорить общее производство на 2%
При этом время, которое водители ежемесячно проводили в пробках, уменьшилось в среднем на 11 часов.
Заключение
Голосовые технологии стали неотъемлемой частью современного общества. Умные колонки позволяют искать информацию в интернете или управлять смарт-домом, голосовые боты — отвечать на вопросы клиентов, обучать штат, оптимизировать логистику.
В то же время голосовые тренды 2024 года могут повлечь дополнительные риски, например взлом аккаунта через голосовую биометрию. Поэтому применение трендов голосовых технологий требует повышенных мер безопасности.