Novo método de reconhecimento de fala aprende por meio de imagens

melhorias nas mensagens do Android, telefones trocando mensagens de texto
Olga Lebedeva/123RF.com
Os sistemas de reconhecimento de fala podem ainda não ser perfeitos, mas, como mostram empresas como o Amazon Echo, eles estão cada vez melhores e mais onipresentes.

A nova pesquisa por investigadores da Ciência da Computação e Inteligência Artificial do Instituto de Tecnologia de Massachusetts Laboratório (CSAIL) sugere uma nova técnica para treinar esses sistemas - fazendo com que aprendam observando imagens.

Vídeos recomendados

“Esta é uma tentativa de fazer com que as máquinas exijam menos treinamento supervisionado para aprender a linguagem falada”, Jim Vidro, cientista pesquisador sênior da CSAIL, disse à Digital Trends. “A forma convencional de treinar sistemas de reconhecimento de fala é utilizar gravações de pessoas conversando e, para cada enunciado, transcrever exatamente as palavras ditas. Idealmente, você tem centenas ou milhares de horas de fala para que o sistema funcione corretamente. Algumas das maiores empresas que fazem isso – como Baidu e Google – estão usando dezenas de milhares de horas para treinamento. Quanto mais dados anotados eles tiverem, melhor será o desempenho desses sistemas.”

Então, o que há de errado nisso? Afinal, como observado, a tecnologia de reconhecimento de fala está cada vez melhor. O que quer que os cientistas da computação estejam fazendo está obviamente funcionando.

Isso pode ser verdade, mas esta nova abordagem é interessante por alguns motivos. Em primeiro lugar, abrir a capacidade de uma máquina treinar-se para compreender através da observação de imagens e áudio combinados (eventualmente, você poderia imaginar isso treinando assistindo ao YouTube) está muito mais próximo da maneira como aprendemos como humanos seres.

Em segundo lugar – e possivelmente mais importante – é o facto de poder ajudar a levar o reconhecimento de voz a partes do mundo que poderiam beneficiar grandemente deste tipo de tecnologia.

“A produção de dados anotados é cara”, continuou Glass. “O reconhecimento de fala já existe há décadas e a maior parte dele tem sido para línguas em países que podem investir neste tipo de recursos. Quando se trata de linguagem, tende a ser aquela que as empresas acham que as ajudará a obter lucro. O inglês recebeu de longe a maior atenção, seguido pelas línguas da Europa Ocidental e outras línguas como o japonês e o mandarim. O problema é que existem cerca de 7.000 línguas faladas no mundo e cerca de 300 que são faladas por mais de 1 milhão de pessoas. Muitos deles simplesmente não receberam muita atenção – se houver.”

Em partes do mundo onde os níveis de alfabetização são baixos, é fácil ver como o reconhecimento de fala pode ser um divisor de águas em termos de proporcionar às pessoas acesso à informação. Esperançosamente, esta tecnologia pode ajudar nesse objetivo.

Por mais emocionante que seja a pesquisa, Glass observa que ela ainda está em seus estágios iniciais. Atualmente, os pesquisadores do CSAIL alimentam seu sistema com um banco de dados de 1.000 imagens, cada uma com uma descrição verbal de forma livre que se relaciona de alguma forma com ela. Eles então testam o sistema, gravando-o e pedindo-lhe que recupere 10 imagens que melhor correspondam ao que está ouvindo.

Com o tempo, espera-se que tais abordagens ao reconhecimento de fala melhorem a sua eficácia, a ponto de a laboriosa rotulagem dos dados de treino da fala já não ser considerada uma necessidade.

Se tudo correr conforme o planejado, isso deverá ser melhor para todos – seja você um falante de inglês nos EUA ou um falante de xhosa na África do Sul.

Recomendações dos Editores

  • Nova IA inteligente sistema promete treinar seu cachorro enquanto você estiver fora de casa
  • Nova pesquisa ‘obscura’ do MIT usa sombras para ver o que as câmeras não conseguem
  • IA pesquisadores criam um sistema de reconhecimento facial para chimpanzés
  • MIT, a nova IA da Adobe poderia trazer remoção de fundo com um clique, filtros sociais

Atualize seu estilo de vidaDigital Trends ajuda os leitores a manter o controle sobre o mundo acelerado da tecnologia com as últimas notícias, análises divertidas de produtos, editoriais criteriosos e prévias únicas.