Алекса и Сири не могут понять тон вашего голоса, а Ото может

В наши дни технологии распознавания речи используются повсюду, особенно в А.И. умные помощники такие как Alexa от Amazon, Siri от Apple и Assistant от Google. Но, как знает любой, кто когда-либо разговаривал в реальной жизни (в реальной жизни), речь — это не только слова, которые говорит человек, но и тон голоса, которым он их произносит. Это одна из причин того, что текстовые разговоры в Интернете могут быть таким кошмаром, поскольку сами по себе основные слова не учитывают достаточных нюансов, чтобы всегда передать смысл человека.

Один интересный стартап, стремящийся улучшить распознавание речи, — это Ото, спин-офф престижного НИИ Международный, который помог создать Siri более десяти лет назад. Ото работает над технологией голосовой интонации, которая, по крайней мере на начальном этапе, позволит колл-центрам лучше понимать голосовые эмоции звонящих и торговых агентов.

Рекомендуемые видео

«В Oto наша миссия — раскрыть в машинах способность к эмпатии, и с этой целью мы разработали DeepTone, уникальную технологию, основанную на глубоких нейронных сетях, обученных на сотнях людей. тысячи реальных разговоров, чтобы выявить крошечные вариации эмоций, присутствующих в речи», — рассказал Digital Николя Перони, соучредитель и технический директор Oto. Тенденции.

Связанный

  • Вероятно, вы не сможете достичь максимальной тактовой частоты на AMD Ryzen 9 7950X.
  • Марсианский вертолет Ingenuity совершил 23-й полет, его уже не остановить
  • Этот SSD — один из самых быстрых, которые мы когда-либо видели, но вы, вероятно, не сможете его использовать.

Эти крошечные вариации, называемые «скрытыми состояниями говорящего», позволяют регистрировать эмоциональный тон слов говорящего в реальном времени, много раз в секунду. Система была обучена на базе данных, состоящей из 100 000 высказываний 3 000 человек, взятых из 2 миллионов коммерческих разговоров.

«Применение интонации практически безгранично», — сказал Тео Боршберг, соучредитель и генеральный директор. «Мы вступаем в мир, в котором голос прежде всего. Вскоре вы будете говорить со всем: с вашей машиной, часами, холодильником, колонками и многим другим. Понимание нюансов речи будет иметь ключевое значение для создания содержательных разговоров. Сейчас мы работаем над человечностью общения в контакт-центрах. Пока что невозможно судить об эмпирическом качестве звонка только на основе текста; это слишком двусмысленно».

С помощью технологии Oto торговые агенты могут в режиме реального времени получать предложения вкладывать «правильную энергию» во время звонков, одновременно проявляя достаточную эмпатию к клиентам. «Ценность заключается в том, что впервые колл-центры могут измерять качество обслуживания и действовать на основе этой информации в масштабе, чтобы уберечь разгневанных клиентов от оттока», — сказал Боршберг.

Ото недавно объявил раунд начального финансирования в размере 5,3 миллиона долларов США. Это будет использовано для роста команд инженеров и продаж компании. Это также поможет компании еще больше расширить свои технологические предложения, чтобы понимать новые эмоции и поведение с помощью голоса.

Рекомендации редакции

  • Версия Chrome для Nvidia DLSS уже готова к запуску, но вы пока не можете ее использовать
  • Новый MacBook Pro M2 от Apple не выдерживает жары — стоит ли его покупать?
  • В сеть попал новый крутой игровой телефон Lenovo, но его нельзя купить
  • Ваше Amazon Echo, Alexa или Ring сегодня не работает? Ты не одинок
  • Google запускает модную коллекцию Pixel 6 Material You, которую невозможно носить

Обновите свой образ жизниDigital Trends помогает читателям быть в курсе быстро меняющегося мира технологий благодаря всем последним новостям, забавным обзорам продуктов, содержательным редакционным статьям и уникальным кратким обзорам.