Alexa i Siri nie rozumieją tonu Twojego głosu, ale Oto tak

Technologia rozpoznawania mowy jest obecnie wszędzie, zwłaszcza w sztuczna inteligencja inteligentnych asystentów takie jak Alexa firmy Amazon, Siri firmy Apple i Asystent Google. Ale jak wie każdy, kto kiedykolwiek rozmawiał na żywo (w prawdziwym życiu), mowa to nie tylko słowa, które dana osoba wypowiada, ale także ton jej głosu. Jest to jeden z powodów, dla których rozmowy tekstowe w Internecie mogą być takim koszmarem, ponieważ same podstawowe słowa nie pozwalają na wystarczające niuanse, aby zawsze przekazać znaczenie danej osoby.

Jednym z ekscytujących start-upów, który chce wnieść więcej zrozumienia do rozpoznawania mowy, jest Oto, spinoff prestiżowego Międzynarodowe SRI, który pomógł w powstaniu Siri ponad dziesięć lat temu. Oto pracuje nad technologią intonacji głosu, która przynajmniej początkowo umożliwi centrom telefonicznym lepsze zrozumienie emocji głosowych zarówno osób dzwoniących, jak i agentów sprzedaży.

Polecane filmy

„W Oto naszą misją jest wyzwalanie empatii w maszynach i w tym celu opracowaliśmy DeepTone, unikalną technologię opartą na głębokich sieciach neuronowych trenowanych na setkach tysiące prawdziwych rozmów, aby ocenić drobne różnice w emocjach obecnych w mowie” – powiedział Digital Nicolas Perony, współzałożyciel i dyrektor ds. technologii w Oto Trendy.

Powiązany

  • Prawdopodobnie nie uda Ci się osiągnąć maksymalnych prędkości zegara na AMD Ryzen 9 7950X
  • Helikopter marsjański Ingenuity wykonuje 23. lot i nie można go zatrzymać
  • Ten dysk SSD jest jednym z najszybszych, jakie widzieliśmy, ale prawdopodobnie nie można go używać

Te drobne zmiany, określane jako „ukryte stany mówiącego”, pozwalają na rejestrację emocjonalnego tonu słów mówiącego w czasie rzeczywistym, wiele razy na sekundę. System został przeszkolony na bazie 100 000 wypowiedzi 3 000 osób, pochodzących z 2 milionów rozmów sprzedażowych.

„Zastosowania intonacji są niemal nieograniczone” – powiedział Teo Borschberg, współzałożyciel i dyrektor generalny. „Wkraczamy w świat, w którym najważniejszy jest głos. Już niedługo będziesz mógł rozmawiać ze wszystkim: swoim samochodem, zegarkiem, lodówką, głośnikami i nie tylko. Zrozumienie niuansów mowy będzie kluczem do tworzenia znaczących rozmów. W tej chwili pracujemy nad ludzką jakością rozmów w contact center. Jak dotąd nie można naprawdę ocenić jakości rozmowy opartej wyłącznie na tekście; jest zbyt dwuznaczne.”

Dzięki technologii Oto agenci sprzedaży mogą być zachęcani w czasie rzeczywistym do włożenia „odpowiedniej energii” podczas rozmów, jednocześnie okazując wystarczającą empatię klientowi. „Wartość polega na tym, że centra obsługi telefonicznej po raz pierwszy mogą mierzyć jakość doświadczeń i podejmować działania na podstawie tych informacji na dużą skalę, aby uchronić wściekłych klientów przed rezygnacją” – powiedział Borschberg.

Oto niedawno ogłosiło runda finansowania zalążkowego w wysokości 5,3 miliona dolarów. Posłuży to do rozwoju zespołów inżynieryjnych i sprzedaży firmy. Pomoże także w dalszym poszerzaniu oferty technologicznej umożliwiającej zrozumienie nowych emocji i zachowań za pomocą głosu.

Zalecenia redaktorów

  • Wersja przeglądarki Chrome na Nvidia DLSS ma zostać uruchomiona, ale nie można jeszcze z niej korzystać
  • Nowy MacBook Pro M2 firmy Apple nie radzi sobie z upałem – czy nadal warto go kupić?
  • Wyciekł nowy, fajny telefon do gier Lenovo, ale nie można go kupić
  • Czy Twoje Amazon Echo, Alexa lub Ring nie działają dzisiaj? Nie jesteś sam
  • Google wprowadza na rynek kolekcję mody Pixel 6 Material You, której tak naprawdę nie można nosić

Ulepsz swój styl życiaDigital Trends pomaga czytelnikom śledzić szybko rozwijający się świat technologii dzięki najnowszym wiadomościom, zabawnym recenzjom produktów, wnikliwym artykułom redakcyjnym i jedynym w swoim rodzaju zajawkom.