Spraakherkenningstechnologie is tegenwoordig overal aanwezig, vooral in AI slimme assistenten zoals Amazon's Alexa, Apple's Siri en Google's Assistant. Maar zoals iedereen die ooit een IRL-gesprek (in het echte leven) heeft gevoerd, weet, gaat spraak niet alleen over de woorden die iemand zegt, maar ook over de toon waarop hij of zij die zegt. Het is één van de redenen dat op tekst gebaseerde gesprekken online zo’n nachtmerrie kunnen zijn, omdat de basiswoorden zelf niet voldoende nuance toelaten om altijd de betekenis van een persoon over te brengen.
Een opwindende startup die meer begrip wil injecteren in spraakherkenning is dat wel Oto, een spin-off van het prestigieuze SRI Internationaal, die Siri meer dan tien jaar geleden hielp voortbrengen. Oto werkt aan stemintonatietechnologie die, althans in eerste instantie, callcenters in staat zal stellen de vocale emoties van zowel bellers als verkoopagenten beter te begrijpen.
Aanbevolen video's
“Bij Oto is het onze missie om empathie in machines te ontsluiten, en daartoe hebben we DeepTone ontwikkeld, een unieke technologie gebaseerd op diepe neurale netwerken die zijn getraind op honderden duizenden echte gesprekken om kleine variaties in de emoties in spraak te scoren”, vertelde Nicolas Perony, mede-oprichter en chief technology officer bij Oto, aan Digital Trends.
Verwant
- Je kunt waarschijnlijk de maximale kloksnelheden niet halen op AMD's Ryzen 9 7950X
- Marshelikopter Ingenuity bereikt de 23e vlucht en kan niet worden gestopt
- Deze SSD is een van de snelste die we hebben gezien, maar je kunt hem waarschijnlijk niet gebruiken
Deze kleine variaties, beschreven als ‘latente sprekertoestanden’, zorgen ervoor dat de emotionele toon van de woorden van een spreker in realtime, vele malen per seconde, kan worden geregistreerd. Het systeem is getraind op een database met 100.000 uitspraken van 3.000 mensen, afkomstig uit 2 miljoen verkoopgesprekken.
“De toepassingen van intonatie zijn bijna oneindig”, zegt Teo Borschberg, medeoprichter en CEO. “We betreden een ‘voice-first’-wereld. Binnenkort zul je met alles praten: je auto, horloge, koelkast, luidsprekers, [en meer]. Het verkrijgen van de nuances van spraak zal de sleutel zijn tot het creëren van betekenisvolle gesprekken. Op dit moment werken we in contactcenters aan de menselijke kwaliteit van gesprekken. Tot nu toe is het niet echt mogelijk om de ervaringskwaliteit van een gesprek alleen op basis van tekst te beoordelen; het is te dubbelzinnig.”
Via de technologie van Oto kunnen verkoopagenten in realtime worden aangespoord om tijdens gesprekken ‘de juiste energie’ in te zetten, terwijl ze ook voldoende empathie met de klant tonen. “De waarde is dat callcenters voor het eerst de kwaliteit van ervaringen kunnen meten en op grote schaal op deze informatie kunnen reageren om boze klanten te behoeden voor karnen”, aldus Borschberg.
Oto heeft onlangs een startfinancieringsronde van $ 5,3 miljoen. Dit zal worden gebruikt om de engineering- en verkoopteams van het bedrijf te laten groeien. Het zal het ook helpen zijn technologieaanbod verder uit te breiden om nieuwe emoties en gedrag via stem te begrijpen.
Aanbevelingen van de redactie
- Chrome's versie van Nvidia DLSS staat op het punt te worden gelanceerd, maar je kunt deze nog niet gebruiken
- Apple's nieuwe M2 MacBook Pro kan de hitte niet aan - moet je hem toch kopen?
- De coole nieuwe gamingtelefoon van Lenovo is gelekt, maar je kunt hem niet kopen
- Is uw Amazon Echo, Alexa of Ring vandaag niet beschikbaar? Je bent niet de enige
- Google lanceert een Pixel 6 Material You-modecollectie die je eigenlijk niet kunt dragen
Upgrade uw levensstijlMet Digital Trends kunnen lezers de snelle technische wereld in de gaten houden met het laatste nieuws, leuke productrecensies, inzichtelijke redactionele artikelen en unieke sneak peeks.