L’IA peut-elle Aider à résoudre le mystère des langues perdues ?

Francesco Riccardo Iacomino/Getty Images

De nombreux éléments distinguent les humains des autres espèces, mais l’un des plus importants est le langage. La capacité d’enchaîner divers éléments dans des combinaisons essentiellement infinies est un trait qui « a souvent été considéré dans le passé comme le caractéristique essentielle de l'homme moderne, source de la créativité humaine, de l'enrichissement culturel et de la structure sociale complexe », comme l'a dit un jour le linguiste Noam Chomsky. dit.

Contenu

  • Ressusciter les morts (langues)
  • L'avenir

Mais aussi important que soit le langage dans l’évolution de l’humanité, il y a encore beaucoup de choses que nous ignorons sur la façon dont le langage a évolué. Alors que les langues mortes comme le latin disposent d’une richesse de documents écrits et de descendants grâce auxquels nous pouvons mieux les comprendre, certaines langues sont perdues dans l’histoire.

Vidéos recommandées

Les chercheurs ont réussi à reconstruire certaines langues perdues, mais le processus de déchiffrement peut être long. Par exemple, l’ancienne écriture Linéaire B a été « résolue » plus d’un demi-siècle après sa découverte, et certains de ceux qui y ont travaillé n’ont pas vécu assez longtemps pour voir le travail terminé. Une écriture plus ancienne appelée Linéaire A, le système d’écriture de la civilisation minoenne, reste indéchiffrée.

En rapport

  • Prix ​​​​Tech For Change CES 2023 de Digital Trends
  • La formule amusante: pourquoi l'humour généré par la machine est le Saint Graal de l'IA.
  • Lisez les « écritures synthétiques » étrangement belles d’un IA. qui pense que c'est Dieu

Les linguistes modernes disposent cependant d’un outil puissant: l’intelligence artificielle. En formant l’A.I. Pour localiser les modèles dans des langues non déchiffrées, les chercheurs peuvent les reconstruire, révélant ainsi les secrets du monde antique. Une approche neuronale récente et novatrice menée par des chercheurs du Massachusetts Institute of Technology (MIT) a déjà montré du succès dans le déchiffrement du linéaire B, et pourrait un jour conduire à la résolution d'autres problèmes perdus. langues.

Ressusciter les morts (langues)

Tout comme écorcher un chat, il existe plusieurs façons de décoder une langue perdue. Dans certains cas, la langue n’a aucune trace écrite, c’est pourquoi les linguistes tentent de la reconstruire en retraçant l’évolution des sons à travers ses descendants. C’est le cas du proto-indo-européen, ancêtre hypothétique de nombreuses langues en Europe et en Asie.

Dans d’autres cas, les archéologues mettent au jour des traces écrites, ce qui fut le cas du linéaire B. Après que les archéologues aient découvert des tablettes sur l’île de Crète, les chercheurs ont passé des décennies à s’interroger sur les écrits, pour finalement les déchiffrer. Malheureusement, cela n’est actuellement pas possible avec le linéaire A, car les chercheurs n’ont pas autant de sources à étudier. Mais cela n’est peut-être pas nécessaire.

Mais l’anglais et le français sont des langues vivantes avec des siècles de chevauchement culturel. Déchiffrer une langue perdue est bien plus délicat.

Un projet mené par des chercheurs du MIT illustre les difficultés de déchiffrement, ainsi que le potentiel de l'IA. pour révolutionner le domaine. Les chercheurs ont développé une approche neuronale pour déchiffrer les langues perdues, « informée par des modèles de changement de langue documentés en linguistique historique ». Comme détaillé dans un article de 2019, alors que le précédent A.I. car le déchiffrement des langues devait être adapté à une langue spécifique, ce n’est pas le cas de celle-ci.

« Si vous examinez un traducteur ou un produit de traduction disponible dans le commerce », déclare Jiaming Luo, responsable auteur de l'article, « toutes ces technologies ont accès à un grand nombre de ce que nous appelons des données. Vous pouvez les considérer comme des pierres de Rosette, mais en très grande quantité.

Un corpus parallèle est un ensemble de textes rédigés dans deux langues différentes. Imaginez, par exemple, une série de phrases en anglais et en français. Même si vous ne connaissez pas le français, en comparant les deux ensembles et en observant les modèles, vous pouvez mapper les mots d’une langue sur les mots équivalents de l’autre.

"Si vous entraînez un humain à faire cela, si vous voyez plus de 40 millions de phrases parallèles", explique Luo, "je suis convaincu que vous serez capable de trouver une traduction."

Mais l’anglais et le français sont des langues vivantes avec des siècles de chevauchement culturel. Déchiffrer une langue perdue est bien plus délicat.

« Nous n’avons pas le luxe de disposer de données parallèles », explique Luo. "Nous devons donc nous appuyer sur des connaissances linguistiques spécifiques sur la manière dont la langue évolue, sur la manière dont les mots évoluent jusqu'à leurs descendants."

Décryptage neuronal/MIT

Afin de créer un modèle pouvant être utilisé quelles que soient les langues impliquées, l’équipe a fixé des contraintes basées sur les tendances observables à travers l’évolution des langues.

« Nous devons nous appuyer sur deux niveaux de connaissances en linguistique », explique Luo. « L’une est au niveau des personnages, c’est tout ce que nous savons: lorsque les mots évoluent, ils évoluent généralement de gauche à droite. Vous pouvez considérer cette évolution comme une sorte de corde. Alors peut-être qu'une chaîne en latin est ABCDE et que vous alliez très probablement la changer en ABD ou ABC, vous conservez toujours l'ordre d'origine d'une certaine manière. C’est ce que nous appelons monotone.

Au niveau du vocabulaire (les mots qui composent une langue), l’équipe a utilisé une technique appelée « cartographie individuelle ».

"Cela signifie que si vous extrayez tout le vocabulaire latin et tout le vocabulaire italien, vous verrez une sorte de correspondance un à un", propose Luo à titre d'exemple. « Le mot latin pour « chien » évoluera probablement vers le mot italien pour « chien » et le mot latin pour « chat » évoluera probablement vers le mot italien pour « chat ».

Pour tester le modèle, l’équipe a utilisé quelques ensembles de données. Ils ont traduit l'ancienne langue ougaritique en hébreu, le linéaire B en grec, et pour confirmer l'efficacité du modèle, effectué une détection apparentée (mots avec une ascendance commune) dans les langues romanes espagnole, italienne et Portugais.

Il s'agissait de la première tentative connue de déchiffrement automatique du linéaire B, et le modèle a réussi à traduire 67,3 % des apparentés. Le système a également amélioré les modèles précédents de traduction ougaritique. Étant donné que les langues proviennent de familles différentes, cela démontre que le modèle est flexible et plus précis que les systèmes précédents.

L'avenir

Le linéaire A reste l’un des grands mystères du langage, et casser cet ancien écrou serait un véritable défi. un exploit remarquable pour l’IA. Pour l'instant, dit Luo, quelque chose comme ça est entièrement théorique, pour un couple les raisons.

Premièrement, le linéaire A offre une plus petite quantité de données que même le linéaire B. Il y a aussi la question de déterminer quel type de script est le Linéaire A.

«Je dirais que le défi unique du linéaire A est qu'il comporte de nombreux caractères ou symboles picturaux ou logographiques», explique Luo. "Et généralement, lorsque vous avez beaucoup de ces symboles, cela va être beaucoup plus difficile."

Images de la marque X/Getty Images

A titre d'exemple, Luo compare l'anglais et le chinois.

« L’anglais compte 26 lettres si l’on ne compte pas les majuscules, et le russe en a 33. C’est ce qu’on appelle les systèmes alphabétiques. Il suffit donc de créer une carte pour ces 26 ou 30 personnages », dit-il.

« Mais pour les Chinois, il faut en traiter des milliers », poursuit-il. «Je pense qu'une estimation du nombre minimum de caractères à maîtriser juste pour lire un journal serait d'environ 3 000 ou 5 000. Le linéaire A n’est pas chinois, mais à cause de ses symboles picturaux ou logographiques et autres choses du genre, il est définitivement plus difficile que le linéaire B. »

Bien que le linéaire A ne soit pas encore déchiffré, le succès de la nouvelle approche de déchiffrement neuronal du MIT dans le déchiffrement automatique du linéaire B, allant au-delà de la nécessité d'un corpus parallèle, est une voie prometteuse signe.

Recommandations des rédacteurs

  • L’IA a transformé Breaking Bad en anime – et c’est terrifiant
  • Une IA analogique? Ça paraît fou, mais ça pourrait être l'avenir
  • Voici ce qu’une IA analysant les tendances pense que ce sera la prochaine grande nouveauté en matière de technologie
  • L’avenir de l’IA: 4 grandes choses à surveiller dans les prochaines années
  • Architecture algorithmique: Faut-il laisser l’IA concevoir des bâtiments pour nous?