Textos de reconhecimento de fala 3x mais rápido do que você consegue digitar

Experimento de Stanford mostra que o reconhecimento de fala escreve textos mais rapidamente do que os polegares

O ditado por computador está muito melhor do que há uma década, mas exatamente quanto melhor? Esse foi um desafio para os cientistas da computação da Universidade de Stanford, da Universidade de Washington e da gigante tecnológica chinesa Baidu. recentemente empreendeu um experimento que colocou humanos contra o mais recente software de reconhecimento de fala em velocidade e precisão.

Professor de ciência da computação em Stanford James Landay disse que o estudo começou como uma “conversa em um café” entre ele e o professor adjunto de Stanford André Ng, atualmente cientista-chefe do Baidu. “Andrew disse que as ferramentas de reconhecimento de voz do Baidu estavam ficando realmente ótimas, mas que eles não conheciam o experimento certo para quantificá-las”, disse Landay ao Digital Trends.

Vídeos recomendados

O software de reconhecimento de voz baseado em nuvem Deep Speech 2 do Baidu é baseado em uma rede neural de aprendizagem profunda: uma impressionante ferramenta de aprendizado de máquina que é capaz de se treinar analisando enormes conjuntos de dados reais discurso.

Relacionado

  • IA posso dizer se você é um bom cirurgião apenas examinando seu cérebro
  • IA pesquisadores criam um sistema de reconhecimento facial para chimpanzés

“Anteriormente, não tínhamos os dados e a capacidade computacional para construir esses modelos, de modo que um computador pudesse compreender diferentes sotaques e padrões de fala”, continuou Landay.

No final, a conversa casual entre Landay e Ng transformou-se numa experiência completa, envolvendo 32 participantes que falavam chinês ou inglês. Todos os participantes cresceram enviando mensagens de texto e ambos usavam os teclados padrão que acompanham o iPhone.

Para os falantes de inglês, isso significava o teclado QWERTY normal do iOS, enquanto os falantes de mandarim usavam o teclado Pinyin da Apple. Em ambos os casos, o reconhecimento de fala foi cerca de três vezes mais rápido do que os usuários conseguiam digitar – enquanto o erro a taxa foi 20,4% menor para o reconhecimento de fala em inglês e 63,4% menor para o mandarim equivalente.

“Minha expectativa era que a fala fosse mais rápida que o texto”, disse Landay. “Sabemos disso porque você pode falar mais rápido do que digitar. O problema no passado era que você cometia muitos erros com o reconhecimento de fala e isso deixava você lento. Achei que a fala seria mais rápida. O que eu não esperava era que acabasse sendo três vezes mais rápido. Achei que talvez fôssemos 50% mais rápidos. Em vez disso, foi muito mais do que isso.”

O teste não é 100% abrangente, é claro. Atualmente, o teclado móvel mais rápido do mundo (pelo menos em inglês) é o teclado Fleksy de terceiros. No Recorde Mundial do Guinness de 2014 para mensagens de texto mais rápidas, um usuário conseguiu digitar um Frase de 126 letras em apenas 18,44 segundos. No entanto, Landay observou que este estudo escolheu um teclado normal do iPhone porque dá uma boa indicação do digitador típico. “A maioria das pessoas não dedica tempo para aprender teclados alternativos”, disse ele.

Quanto ao significado do estudo, Landay sugere que ele representa uma referência importante para o reconhecimento de fala. “Ainda há espaço para melhorar, mas achamos que algum tipo de ponto de inflexão foi ultrapassado”, disse ele. “Mais melhorias virão no reconhecimento de nomes, melhor desempenho em ambientes barulhentos, etc.”

Isso, disse ele, abre mais possibilidades para os desenvolvedores pensarem mais seriamente sobre a incorporação do reconhecimento de fala em seus sistemas sem preocupações. “O que fará cada vez mais sentido é confiar na fala”, disse ele. “Por exemplo, interfaces multimodais que combinam fala com outros elementos para ajudar as pessoas a navegar. O maior desafio, porém, será compreender o significado de palavras e frases. Essa parte ainda tem um longo caminho a percorrer.”

Recomendações dos Editores

  • Usar Alexa é complicado se você tiver problemas de fala. Voiceitt poderia consertar isso
  • Empresa chinesa trabalhando em reconhecimento facial que pode identificá-lo sob uma máscara
  • O Gboard do Google está prestes a melhorar muito no reconhecimento de fala

Atualize seu estilo de vidaDigital Trends ajuda os leitores a manter o controle sobre o mundo acelerado da tecnologia com as últimas notícias, análises divertidas de produtos, editoriais criteriosos e prévias únicas.