Alexa e Siri não conseguem entender o tom da sua voz, mas Oto consegue

A tecnologia de reconhecimento de fala está em toda parte hoje em dia, principalmente em IA assistentes inteligentes como Alexa da Amazon, Siri da Apple e Assistente do Google. Mas como qualquer pessoa que já teve uma conversa na vida real (na vida real) saberá, a fala não se trata apenas das palavras que uma pessoa diz, mas do tom de voz com que ela as diz. É uma das razões pelas quais as conversas online baseadas em texto podem ser um pesadelo, uma vez que as palavras básicas em si não permitem nuances suficientes para transmitir sempre o significado de uma pessoa.

Uma startup interessante que busca injetar mais compreensão no reconhecimento de fala é Oto, um spin-off da prestigiada SRI Internacional, que ajudou a gerar o Siri há mais de uma década. A Oto está trabalhando em uma tecnologia de entonação de voz que permitirá, pelo menos inicialmente, que os call centers entendam melhor as emoções vocais tanto dos chamadores quanto dos agentes de vendas.

Vídeos recomendados

“Na Oto, nossa missão é desbloquear a empatia nas máquinas e, para isso, desenvolvemos o DeepTone, uma tecnologia única baseada em redes neurais profundas treinadas em centenas de milhares de conversas reais para pontuar pequenas variações nas emoções presentes na fala”, disse Nicolas Perony, cofundador e diretor de tecnologia da Oto, à Digital Tendências.

Relacionado

  • Você provavelmente não conseguirá atingir a velocidade máxima de clock no Ryzen 9 7950X da AMD
  • Helicóptero Mars Ingenuity atinge 23º vôo, não pode ser parado
  • Este SSD é um dos mais rápidos que já vimos, mas você provavelmente não conseguirá usá-lo

Essas pequenas variações, descritas como “estados latentes do falante”, permitem que o tom emocional das palavras do falante seja registrado em tempo real, muitas vezes por segundo. O sistema foi treinado em um banco de dados de 100 mil declarações de 3 mil pessoas, extraídas de 2 milhões de conversas de vendas.

“As aplicações da entonação são quase infinitas”, disse Teo Borschberg, cofundador e CEO. “Estamos entrando em um mundo que prioriza a voz. Em breve você falará com tudo: seu carro, relógio, geladeira, alto-falantes [e muito mais]. Compreender as nuances da fala será fundamental para criar conversas significativas. Neste momento, trabalhamos na qualidade humana das conversas nos contact centers. Até agora, não é realmente possível julgar a qualidade experiencial de uma chamada com base apenas em texto; é muito ambíguo.”

Por meio da tecnologia da Oto, os agentes de vendas podem ser solicitados em tempo real a colocar “a energia certa” durante as ligações, ao mesmo tempo que demonstram empatia suficiente com o cliente. “O valor é que, pela primeira vez, os call centers podem medir a qualidade das experiências e agir com base nessas informações em grande escala para evitar a desistência de clientes irritados”, disse Borschberg.

Oto anunciou recentemente um rodada de financiamento inicial de US$ 5,3 milhões. Isso será usado para aumentar as equipes de engenharia e vendas da empresa. Também a ajudará a expandir ainda mais as suas ofertas tecnológicas para compreender novas emoções e comportamentos através da voz.

Recomendações dos Editores

  • A versão do Chrome sobre o Nvidia DLSS está prestes a ser lançada, mas você ainda não pode usá-la
  • O novo M2 MacBook Pro da Apple não aguenta o calor – você ainda deveria comprá-lo?
  • O novo telefone para jogos da Lenovo vazou, mas você não pode comprá-lo
  • Seu Amazon Echo, Alexa ou Ring está desligado hoje? Você não está sozinho
  • O Google lança uma coleção de moda Pixel 6 Material You que você realmente não pode usar

Atualize seu estilo de vidaDigital Trends ajuda os leitores a manter o controle sobre o mundo acelerado da tecnologia com as últimas notícias, análises divertidas de produtos, editoriais criteriosos e prévias únicas.