A IA pode Ajudar a resolver o mistério das línguas perdidas?

Francesco Riccardo Iacomino/Getty Images

Há muitas coisas que distinguem os humanos de outras espécies, mas uma das mais importantes é a linguagem. A capacidade de encadear vários elementos em combinações essencialmente infinitas é uma característica que “tem sido frequentemente considerada no passado como a característica central que define os humanos modernos, a fonte da criatividade humana, do enriquecimento cultural e da estrutura social complexa”, como disse certa vez o linguista Noam Chomsky. disse.

Conteúdo

  • Ressuscitando os mortos (idiomas)
  • O futuro

Mas por mais importante que a linguagem tenha sido na evolução dos humanos, ainda há muito que não sabemos sobre como a linguagem evoluiu. Embora línguas mortas como o latim tenham uma riqueza de registos escritos e descendentes através dos quais podemos compreendê-la melhor, algumas línguas perderam-se na história.

Vídeos recomendados

Os pesquisadores conseguiram reconstruir algumas línguas perdidas, mas o processo de decifrá-las pode ser longo. Por exemplo, a antiga escrita Linear B foi “resolvida” mais de meio século após a sua descoberta, e alguns dos que trabalharam nela não viveram para ver o trabalho concluído. Uma escrita mais antiga chamada Linear A, o sistema de escrita da civilização minóica, permanece indecifrada.

Relacionado

  • Prêmio Tech For Change CES 2023 da Digital Trends
  • A fórmula engraçada: por que o humor gerado por máquina é o Santo Graal da IA
  • Leia a estranhamente bela “escritura sintética” de uma IA. que pensa que é Deus

No entanto, os linguistas modernos têm uma ferramenta poderosa à sua disposição: a inteligência artificial. Ao treinar A.I. para localizar os padrões em línguas indecifradas, os pesquisadores podem reconstruí-los, desvendando os segredos do mundo antigo. Uma nova abordagem neural recente realizada por pesquisadores do Instituto de Tecnologia de Massachusetts (MIT) já demonstrou sucesso na decifração da Linear B, e poderá um dia levar à solução de outras questões perdidas línguas.

Ressuscitando os mortos (idiomas)

Assim como esfolar um gato, há mais de uma maneira de decodificar uma linguagem perdida. Em alguns casos, a língua não possui registros escritos, por isso os linguistas tentam reconstruí-la traçando a evolução dos sons através de seus descendentes. Tal é o caso do proto-indo-europeu, o hipotético ancestral de numerosas línguas na Europa e na Ásia.

Em outros casos, os arqueólogos desenterram registros escritos, como foi o caso do Linear B. Depois que os arqueólogos descobriram tabuinhas na ilha de Creta, os pesquisadores passaram décadas intrigados com os escritos, acabando por decifrá-los. Infelizmente, isso não é possível atualmente com o Linear A, já que os pesquisadores não têm tanto material de origem para estudar. Mas isso pode não ser necessário.

Mas o inglês e o francês são línguas vivas com séculos de sobreposição cultural. Decifrar uma linguagem perdida é muito mais complicado.

Um projeto de pesquisadores do MIT ilustra as dificuldades de decifração, bem como o potencial da IA. para revolucionar o campo. Os pesquisadores desenvolveram uma abordagem neural para decifrar línguas perdidas “informadas por padrões de mudança linguística documentados na linguística histórica”. Conforme detalhado em um artigo de 2019, enquanto a I.A. anterior para decifrar idiomas teve que ser adaptado a um idioma específico, este não.

“Se você olhar para qualquer tradutor ou produto de tradução disponível comercialmente”, diz Jiaming Luo, líder autor do artigo, “todas essas tecnologias têm acesso a um grande número do que chamamos de paralelo dados. Você pode pensar nelas como Pedras de Roseta, mas em uma quantidade muito grande.”

Um corpus paralelo é uma coleção de textos em dois idiomas diferentes. Imagine, por exemplo, uma série de frases em inglês e francês. Mesmo que você não saiba francês, comparando os dois conjuntos e observando padrões, você pode mapear palavras de um idioma em palavras equivalentes no outro.

“Se você treinar um ser humano para fazer isso, se você vir mais de 40 milhões de frases paralelas”, explica Luo, “tenho certeza de que você será capaz de descobrir uma tradução”.

Mas o inglês e o francês são línguas vivas com séculos de sobreposição cultural. Decifrar uma linguagem perdida é muito mais complicado.

“Não podemos nos dar ao luxo de ter dados paralelos”, explica Luo. “Portanto, temos que confiar em algum conhecimento linguístico específico sobre como a linguagem evolui, como as palavras evoluem em seus descendentes.”

Decifração Neural/MIT

Para criar um modelo que pudesse ser utilizado independentemente dos idiomas envolvidos, a equipe definiu restrições com base em tendências que podem ser observadas através da evolução dos idiomas.

“Temos que contar com dois níveis de compreensão linguística”, diz Luo. “Um deles está no nível do personagem, que é tudo o que sabemos: quando as palavras evoluem, geralmente evoluem da esquerda para a direita. Você pode pensar nessa evolução como uma espécie de corda. Então, talvez uma string em latim seja ABCDE e provavelmente você mudaria para ABD ou ABC, você ainda preserva a ordem original de certa forma. Isso é o que chamamos de monotônico.”

No nível do vocabulário (as palavras que compõem um idioma), a equipe utilizou uma técnica chamada “mapeamento um para um”.

“Isso significa que se você retirar todo o vocabulário do latim e todo o vocabulário do italiano, você verá algum tipo de correspondência um-para-um”, Luo oferece como exemplo. “A palavra latina para ‘cachorro’ provavelmente evoluirá para a palavra italiana para ‘cachorro’ e a palavra latina para ‘gato’ provavelmente evoluirá para a palavra italiana para ‘gato’.”

Para testar o modelo, a equipe usou alguns conjuntos de dados. Eles traduziram a antiga língua ugarítica para o hebraico, o Linear B para o grego, e para confirmar a eficácia do modelo, realizaram detecção de cognatos (palavras com ascendência comum) nas línguas românicas espanhol, italiano e Português.

Foi a primeira tentativa conhecida de decifrar automaticamente o Linear B, e o modelo traduziu com sucesso 67,3% dos cognatos. O sistema também melhorou os modelos anteriores de tradução do ugarítico. Dado que as línguas provêm de famílias diferentes, demonstra que o modelo é flexível, bem como mais preciso que os sistemas anteriores.

O futuro

O Linear A continua sendo um dos grandes mistérios da linguagem, e quebrar essa noz antiga seria uma tarefa difícil. feito notável para A.I. Por enquanto, diz Luo, algo assim é inteiramente teórico, para alguns razões.

Primeiro, o Linear A oferece uma quantidade menor de dados do que o Linear B. Há também a questão de descobrir que tipo de script Linear A é.

“Eu diria que o desafio único do Linear A é que você tem muitos caracteres ou símbolos pictóricos ou logográficos”, diz Luo. “E geralmente quando você tem muitos desses símbolos, será muito mais difícil.”

Imagens da marca X/Getty Images

Por exemplo, Luo compara inglês e chinês.

“O inglês tem 26 letras, se não contarmos as letras maiúsculas, e o russo tem 33. Estes são chamados de sistemas alfabéticos. Então você só precisa descobrir um mapa para esses 26 ou 30 personagens”, diz ele.

“Mas para os chineses, é preciso lidar com milhares deles”, continua ele. “Acho que uma estimativa da quantidade mínima de caracteres a dominar apenas para ler um jornal seria cerca de 3.000 ou 5.000. Linear A não é chinês, mas por causa de seus símbolos pictóricos ou logográficos e coisas assim, é definitivamente mais difícil que Linear B.”

Embora a Linear A ainda esteja indecifrada, o sucesso da nova abordagem de decifração neural do MIT em decifrar automaticamente a Linear B, indo além da necessidade de um corpus paralelo, é uma solução promissora. sinal.

Recomendações dos Editores

  • IA transformou Breaking Bad em anime – e é assustador
  • IA analógica? Parece loucura, mas pode ser o futuro
  • Aqui está o que uma IA de análise de tendências. acha que será a próxima grande novidade na tecnologia
  • O futuro da IA: quatro grandes coisas a serem observadas nos próximos anos
  • Arquitetura algorítmica: devemos deixar a I.A. projetar edifícios para nós?