A IA da leitura labial esmaga os humanos na interpretação de frases silenciosas

LipNet: Quão fácil você acha que é a leitura labial?

Uma das partes mais memoráveis ​​da obra-prima de ficção científica de Stanley Kubrick 2001: Uma Odisseia no Espaço é um enredo em que dois membros do Descoberta Um a tripulação da nave espacial fica cada vez mais desconfiada do comportamento do assistente de IA da nave, HAL 9000.

Sabendo que HAL está constantemente ouvindo o que eles estão dizendo, eles se retiram para algum lugar onde sabem que HAL não pode ouvir e concordam em desconectá-lo. HAL discute seu plano depois que os dois astronautas não levam em conta o Capacidades superiores de leitura labial da IA.

Coisas futurísticas, hein? Não, de acordo com pesquisas realizadas por investigadores da Universidade de Oxford. Eles desenvolveram um programa de inteligência artificial chamado LipNet, que é capaz de interpretar com precisão o que as pessoas estão dizendo, com base apenas na maneira como movem a boca ao falar.

Relacionado

  • Photoshop AI acha que ‘felicidade’ é um sorriso com dentes podres
  • Apresentei minha ideia ridícula de startup para um robô VC
  • Como saberemos quando uma IA realmente se tornará senciente?

“LipNet realiza leitura labial em nível de frase usando aprendizado de máquina,” Brendan Shillingford, um dos pesquisadores do papel, disse Tendências Digitais. “Uma rede neural semelhante aos modelos de reconhecimento de fala de última geração processa uma sequência de quadros de vídeo, mapeando-os em uma frase. As abordagens anteriores funcionavam com base em palavras individuais previstas, em vez de frases.”

Vídeos recomendados

O desempenho do LipNet se compara incrivelmente favoravelmente ao de especialistas em leitura labial humana no corpus GRID, o maior conjunto de dados de leitura labial em nível de frase disponível publicamente. Na verdade, onde os especialistas humanos obtiveram apenas 52%, a LipNet obteve 93%. Sua abordagem de leitura labial baseada em frases também destruiu a melhor tentativa anterior de uma máquina, que conseguiu 79,6% de precisão no mesmo conjunto de dados.

No entanto, embora o fictício HAL 9000 use seus poderes de leitura labial para nada, a equipe por trás do LipNet tem outros objetivos para sua criação. Cerca de 360 ​​milhões de pessoas em todo o mundo têm perda auditiva incapacitante. Ferramentas como o LipNet podem ser altamente significativas para esses indivíduos, ajudando a interpretar a fala com precisão de uma forma que facilite suas vidas.

“Outras aplicações que nos interessam incluem ditado silencioso em espaços públicos, conversas secretas, reconhecimento de fala em ambientes ruidosos, identificação biométrica e processamento de filmes mudos”, Shillingford contínuo.

Embora a vigilância seja um problema com qualquer tecnologia como esta, Nando de Freitas, que também trabalhou no projeto, disse que não é um aplicativo no qual eles se concentraram. No entanto, ele disse que “não seria surpreendente” se outros laboratórios tentassem desenvolver esse trabalho para esse fim no futuro.

“O público deve estar ciente disto e confiar nas nossas instituições jurídicas democráticas para estabelecer leis apropriadas que protejam a nossa privacidade e dignidade”, continuou Freitas. “Esperamos que, ao publicar este trabalho, ajudemos a aumentar a conscientização, ao mesmo tempo em que enfatizamos a utilidade desta tecnologia para ajudar as pessoas necessitadas.”

Recomendações dos Editores

  • O rival ChatGPT da Apple pode escrever código automaticamente para você
  • Meta criou DALL-E para vídeo, e é assustador e incrível
  • Ilusões de ótica podem nos ajudar a construir a próxima geração de IA
  • O laptop de aprendizado de máquina da Lambda é um Razer disfarçado
  • Leia a estranhamente bela “escritura sintética” de uma IA. que pensa que é Deus

Atualize seu estilo de vidaDigital Trends ajuda os leitores a manter o controle sobre o mundo acelerado da tecnologia com as últimas notícias, análises divertidas de produtos, editoriais criteriosos e prévias únicas.