¿Puede la IA? ¿Ayudar a resolver el misterio de las lenguas perdidas?

Francesco Riccardo Iacomino/Getty Images

Hay muchas cosas que distinguen a los humanos de otras especies, pero una de las más importantes es el lenguaje. La capacidad de unir varios elementos en combinaciones esencialmente infinitas es un rasgo que “en el pasado a menudo se ha considerado el rasgo definitorio central de los humanos modernos, la fuente de la creatividad humana, el enriquecimiento cultural y la estructura social compleja”, como dijo una vez el lingüista Noam Chomsky. dicho.

Contenido

  • Resucitar a los muertos (idiomas)
  • El futuro

Pero a pesar de lo importante que ha sido el lenguaje en la evolución de los humanos, todavía hay mucho que no sabemos sobre cómo ha evolucionado. Si bien las lenguas muertas como el latín tienen una gran cantidad de registros escritos y descendientes a través de los cuales podemos entenderlo mejor, algunas lenguas se pierden en la historia.

Vídeos recomendados

Los investigadores han podido reconstruir algunas lenguas perdidas, pero el proceso de descifrarlas puede ser largo. Por ejemplo, la antigua escritura Lineal B fue “resuelta” más de medio siglo después de su descubrimiento, y algunos de los que trabajaron en él no vivieron para ver el trabajo terminado. Una escritura más antigua llamada Lineal A, el sistema de escritura de la civilización minoica, permanece sin descifrar.

Relacionado

  • Premios Tech For Change CES 2023 de Digital Trends
  • La fórmula divertida: por qué el humor generado por máquinas es el santo grial de la IA
  • Lea la inquietantemente hermosa "escritura sintética" de una IA. que piensa que es dios

Sin embargo, los lingüistas modernos tienen una poderosa herramienta a su disposición: la inteligencia artificial. Al entrenar A.I. Para localizar los patrones en idiomas no descifrados, los investigadores pueden reconstruirlos, descubriendo los secretos del mundo antiguo. Un reciente y novedoso enfoque neuronal desarrollado por investigadores del Instituto Tecnológico de Massachusetts (MIT) ha ya ha demostrado éxito en descifrar el Lineal B, y algún día podría llevar a resolver otros problemas perdidos. idiomas.

Resucitar a los muertos (idiomas)

Al igual que despellejar a un gato, hay más de una forma de decodificar un idioma perdido. En algunos casos, la lengua no tiene registros escritos, por lo que los lingüistas intentan reconstruirla rastreando la evolución de los sonidos a través de sus descendientes. Tal es el caso del protoindoeuropeo, el hipotético antepasado de numerosas lenguas en Europa y Asia.

En otros casos, los arqueólogos desentierran registros escritos, como fue el caso del Lineal B. Después de que los arqueólogos descubrieron tablillas en la isla de Creta, los investigadores pasaron décadas desconcertando los escritos y finalmente los descifraron. Desafortunadamente, esto no es posible actualmente con Linear A, ya que los investigadores no tienen tanto material fuente para estudiar. Pero puede que eso no sea necesario.

Pero el inglés y el francés son lenguas vivas con siglos de superposición cultural. Descifrar una lengua perdida es mucho más complicado.

Un proyecto de investigadores del MIT ilustra las dificultades de desciframiento, así como el potencial de la IA. para revolucionar el campo. Los investigadores desarrollaron un enfoque neuronal para descifrar lenguas perdidas "basado en patrones de cambio lingüístico documentados en la lingüística histórica". Como se detalla en un artículo de 2019, mientras que la A.I. para descifrar idiomas había que adaptarlo a un idioma específico, éste no.

"Si nos fijamos en cualquier traductor o producto de traducción disponible comercialmente", dice Jiaming Luo, director autor del artículo, “todas estas tecnologías tienen acceso a una gran cantidad de lo que llamamos paralelo datos. Puedes pensar en ellas como Piedras Rosetta, pero en una cantidad muy grande”.

Un corpus paralelo es una colección de textos en dos idiomas diferentes. Imaginemos, por ejemplo, una serie de frases tanto en inglés como en francés. Incluso si no sabes francés, al comparar los dos conjuntos y observar patrones, puedes asignar palabras de un idioma a palabras equivalentes del otro.

"Si entrenas a un humano para hacer esto, si ves más de 40 millones de oraciones paralelas", explica Luo, "estoy seguro de que podrás encontrar una traducción".

Pero el inglés y el francés son lenguas vivas con siglos de superposición cultural. Descifrar una lengua perdida es mucho más complicado.

"No podemos darnos el lujo de disponer de datos paralelos", explica Luo. "Así que tenemos que confiar en algún conocimiento lingüístico específico sobre cómo evoluciona el lenguaje, cómo evolucionan las palabras hacia sus descendientes".

Desciframiento neuronal/MIT

Para crear un modelo que pudiera usarse independientemente de los idiomas involucrados, el equipo estableció restricciones basadas en tendencias que se pueden observar a través de la evolución de los idiomas.

"Tenemos que confiar en dos niveles de conocimiento de la lingüística", dice Luo. “Uno está en el nivel de los personajes, que es todo lo que sabemos: cuando las palabras evolucionan, normalmente lo hacen de izquierda a derecha. Puedes pensar en esta evolución como una especie de cuerda. Entonces, tal vez una cadena en latín sea ABCDE y lo más probable es que la cambies a ABD o ABC, aún conservas el orden original de alguna manera. Eso es lo que llamamos monótono”.

A nivel de vocabulario (las palabras que componen un idioma), el equipo utilizó una técnica llamada “mapeo uno a uno”.

"Eso significa que si sacas todo el vocabulario del latín y sacas todo el vocabulario del italiano, verás una especie de coincidencia uno a uno", ofrece Luo como ejemplo. "La palabra latina para 'perro' probablemente evolucionará a la palabra italiana para 'perro' y la palabra latina para 'gato' probablemente evolucionará a la palabra italiana para 'gato'".

Para probar el modelo, el equipo utilizó algunos conjuntos de datos. Tradujeron el idioma antiguo ugarítico al hebreo, el lineal B al griego y, para confirmar la eficacia del modelo, realizó detección de palabras afines (palabras con ascendencia común) dentro de las lenguas romances español, italiano y Portugués.

Fue el primer intento conocido de descifrar automáticamente el Lineal B, y el modelo tradujo con éxito el 67,3% de los cognados. El sistema también mejoró los modelos anteriores para traducir ugarítico. Dado que los lenguajes provienen de diferentes familias, demuestra que el modelo es flexible y más preciso que los sistemas anteriores.

El futuro

El lineal A sigue siendo uno de los grandes misterios del lenguaje, y romper esa nuez antigua sería una tarea difícil. hazaña notable para A.I. Por ahora, dice Luo, algo así es totalmente teórico, por un par de razones.

En primer lugar, el lineal A ofrece una cantidad menor de datos que incluso el lineal B. También está la cuestión de descubrir qué tipo de guión es Linear A.

"Yo diría que el desafío único del Lineal A es que tiene muchos caracteres o símbolos pictóricos o logográficos", dice Luo. "Y normalmente, cuando tienes muchos de estos símbolos, será mucho más difícil".

Imágenes de la marca X/Getty Images

Como ejemplo, Luo compara el inglés y el chino.

“El inglés tiene 26 letras si no contamos las mayúsculas y el ruso tiene 33. Estos se llaman sistemas alfabéticos. Así que sólo tienes que idear un mapa para estos 26 o 30 personajes”, dice.

“Pero los chinos tienen que lidiar con miles de ellos”, continúa. “Creo que una estimación de la cantidad mínima de caracteres que hay que dominar sólo para leer un periódico sería de unos 3.000 o 5.000. El lineal A no es chino, pero debido a sus símbolos pictóricos o logográficos y cosas así, es definitivamente más difícil que el lineal B”.

Aunque el Lineal A todavía está sin descifrar, el éxito del novedoso enfoque de desciframiento neuronal del MIT en descifrar automáticamente el Lineal B, yendo más allá de la necesidad de un corpus paralelo, es una solución prometedora. firmar.

Recomendaciones de los editores

  • La IA convirtió Breaking Bad en un anime, y es aterrador
  • ¿IA analógica? Parece una locura, pero podría ser el futuro.
  • Esto es lo que hace una IA que analiza tendencias. cree que será la próxima gran novedad en tecnología
  • El futuro de la IA: 4 grandes cosas a tener en cuenta en los próximos años
  • Arquitectura algorítmica: ¿Deberíamos dejar que la A.I. ¿Diseñar edificios para nosotros?