Alexa og Siri kan ikke forstå tonen i stemmen din, men Oto kan

Talegjenkjenningsteknologi er overalt i disse dager, spesielt innen A.I. smarte assistenter som Amazons Alexa, Apples Siri og Googles assistent. Men som alle som noen gang har hatt en samtale IRL (i det virkelige liv) vil vite, handler tale ikke bare om ordene som en person sier, men tonen i stemmen de sier dem i. Det er en grunn til at tekstbaserte samtaler på nettet kan være et mareritt, siden de grunnleggende ordene i seg selv ikke tillater tilstrekkelig nyansering til å alltid formidle en persons mening.

En spennende oppstart som ønsker å injisere mer forståelse i talegjenkjenning er Oto, en spinoff fra det prestisjetunge SRI International, som bidro til å skape Siri for mer enn et tiår siden. Oto jobber med stemme-intonasjonsteknologi som i det minste vil gjøre det mulig for callsentre å bedre forstå de vokale følelsene til både innringere og salgsagenter.

Anbefalte videoer

"Hos Oto er vår oppgave å låse opp empati i maskiner, og for dette formål har vi utviklet DeepTone, en unik teknologi basert på dype nevrale nettverk trent på hundrevis av tusenvis av ekte samtaler for å oppnå små variasjoner i følelsene som er tilstede i tale, sier Nicolas Perony, medgründer og teknologisjef i Oto, til Digital Trender.

I slekt

  • Du kan sannsynligvis ikke nå maksimale klokkehastigheter på AMDs Ryzen 9 7950X
  • Mars-helikopteret Ingenuity treffer 23. flyging, kan ikke stoppes
  • Denne SSD-en er en av de raskeste vi har sett, men du kan sannsynligvis ikke bruke den

Disse bittesmå variasjonene, beskrevet som "latente talertilstander", gjør at den emosjonelle tonen i en talers ord kan registreres i sanntid, mange ganger per sekund. Systemet ble trent på en database med 100 000 ytringer fra 3000 personer, hentet fra 2 millioner salgssamtaler.

"Anvendelsene av intonasjon er nesten uendelige," sa Teo Borschberg, medgründer og administrerende direktør. "Vi går inn i en stemme-første verden. Snart vil du snakke med alt: Bilen, klokken, kjøleskapet, høyttalerne, [og mer]. Å få nyansene i talen vil være nøkkelen til å skape meningsfulle samtaler. Akkurat nå jobber vi med den menneskelige kvaliteten på samtaler i kontaktsentre. Så langt er det egentlig ikke mulig å bedømme den erfaringsmessige kvaliteten til en samtale basert på kun tekst; det er for tvetydig."

Gjennom Otos teknologi kan salgsagenter i sanntid bli bedt om å legge inn «riktig energi» under samtaler, samtidig som de viser tilstrekkelig medfølelse hos kundene. "Verdien er at callsentre for første gang kan måle kvaliteten på opplevelser og handle på denne informasjonen i stor skala for å redde sinte kunder fra å churne," sa Borschberg.

Oto kunngjorde nylig en seed-finansieringsrunde på 5,3 millioner dollar. Dette vil bli brukt til å utvide selskapets ingeniør- og salgsteam. Det vil også hjelpe den ytterligere å utvide sine tekniske tilbud for å forstå nye følelser og atferd gjennom stemme.

Redaktørenes anbefalinger

  • Chromes versjon av Nvidia DLSS er satt til å starte, men du kan ikke bruke den ennå
  • Apples nye M2 MacBook Pro tåler ikke varmen – bør du fortsatt kjøpe den?
  • Lenovos kule nye spilltelefon lekket, men du kan ikke kjøpe den
  • Er Amazon Echo, Alexa eller Ring nede i dag? Du er ikke alene
  • Google lanserer en Pixel 6 Material You-motekolleksjon du faktisk ikke kan bruke

Oppgrader livsstilen dinDigitale trender hjelper leserne å følge med på den fartsfylte teknologiverdenen med alle de siste nyhetene, morsomme produktanmeldelser, innsiktsfulle redaksjoner og unike sniktitter.