Kan A.I. Help het mysterie van verloren talen oplossen?

Francesco Riccardo Iacomino/Getty Images

Er zijn veel dingen die mensen van andere soorten onderscheiden, maar een van de belangrijkste is taal. Het vermogen om verschillende elementen in in wezen oneindige combinaties aan elkaar te rijgen is een eigenschap die “in het verleden vaak werd beschouwd als de belangrijkste kenmerk van de moderne mens, de bron van menselijke creativiteit, culturele verrijking en complexe sociale structuur”, zoals taalkundige Noam Chomsky ooit gezegd.

Inhoud

  • De doden weer tot leven wekken (talen)
  • De toekomst

Maar hoe belangrijk taal ook is geweest in de evolutie van de mens, er is nog steeds veel dat we niet weten over hoe taal is geëvolueerd. Hoewel dode talen zoals het Latijn een schat aan geschreven documenten en nakomelingen hebben waardoor we het beter kunnen begrijpen, zijn sommige talen door de geschiedenis verloren gegaan.

Aanbevolen video's

Onderzoekers zijn erin geslaagd een aantal verloren talen te reconstrueren, maar het proces om ze te ontcijferen kan lang duren. Het eeuwenoude schrift Lineair B werd bijvoorbeeld meer dan een halve eeuw na de ontdekking ervan ‘opgelost’, en sommigen van degenen die eraan werkten hebben de voltooiing van het werk niet meer mee mogen maken. Een ouder schrift genaamd Lineair A, het schrijfsysteem van de Minoïsche beschaving, is nog steeds niet ontcijferd.

Verwant

  • Tech For Change CES 2023 Awards van Digital Trends
  • De grappige formule: waarom door machines gegenereerde humor de heilige graal is van A.I.
  • Lees het griezelig mooie ‘synthetische geschrift’ van een A.I. die denkt dat het God is

Moderne taalkundigen beschikken echter over een krachtig instrument: kunstmatige intelligentie. Door het trainen van A.I. Om de patronen in niet-ontcijferde talen te lokaliseren, kunnen onderzoekers ze reconstrueren en zo de geheimen van de antieke wereld ontsluiten. Een recente, nieuwe neurale benadering door onderzoekers van het Massachusetts Institute of Technology (MIT) heeft dat wel gedaan heeft al succes getoond bij het ontcijferen van Lineair B, en zou op een dag kunnen leiden tot het oplossen van andere verloren zaken talen.

De doden weer tot leven wekken (talen)

Net zoals bij het villen van een kat, is er meer dan één manier om een ​​verloren taal te decoderen. In sommige gevallen heeft de taal geen schriftelijke gegevens, dus proberen taalkundigen deze te reconstrueren door de evolutie van klanken via zijn nakomelingen te volgen. Dat is het geval met Proto-Indo-Europees, de hypothetische voorouder van talloze talen in Europa en Azië.

In andere gevallen graven archeologen schriftelijke documenten op, zoals het geval was bij Linear B. Nadat archeologen tabletten op het eiland Kreta hadden ontdekt, hebben onderzoekers decennia lang over de geschriften gepuzzeld en uiteindelijk ontcijferd. Helaas is dit momenteel niet mogelijk met Linear A, omdat onderzoekers lang niet zoveel bronmateriaal hebben om te bestuderen. Maar dat is misschien niet nodig.

Maar Engels en Frans zijn levende talen met eeuwenlange culturele overlap. Het ontcijferen van een verloren taal is veel lastiger.

Een project van onderzoekers van MIT illustreert de moeilijkheden bij het ontcijferen, evenals het potentieel van A.I. om een ​​revolutie teweeg te brengen in het vakgebied. De onderzoekers ontwikkelden een neurale benadering voor het ontcijferen van verloren talen “geïnformeerd door patronen in taalverandering gedocumenteerd in de historische taalkunde.” Zoals gedetailleerd in een papier uit 2019, terwijl eerdere A.I. want het ontcijferen van talen moest worden toegesneden op een specifieke taal, dit is niet het geval.

“Als je naar een commercieel verkrijgbare vertaler of vertaalproduct kijkt”, zegt Jiaming Luo, de leider auteur op het papier: “al deze technologieën hebben toegang tot een groot aantal van wat wij parallel noemen gegevens. Je kunt ze beschouwen als Rosetta Stones, maar dan in een hele grote hoeveelheid.”

Een parallel corpus is een verzameling teksten in twee verschillende talen. Stel je bijvoorbeeld een reeks zinnen voor, zowel in het Engels als in het Frans. Zelfs als u geen Frans kent, kunt u door de twee sets te vergelijken en patronen te observeren, woorden in de ene taal toewijzen aan de equivalente woorden in de andere taal.

“Als je een mens traint om dit te doen en je meer dan veertig miljoen parallelle zinnen ziet,” legt Luo uit, “dan heb ik er vertrouwen in dat je een vertaling kunt bedenken.”

Maar Engels en Frans zijn levende talen met eeuwenlange culturele overlap. Het ontcijferen van een verloren taal is veel lastiger.

“We hebben niet de luxe van parallelle data”, legt Luo uit. “We moeten dus vertrouwen op specifieke taalkundige kennis over hoe taal evolueert, hoe woorden evolueren naar hun nakomelingen.”

Neurale ontcijfering/MIT

Om een ​​model te creëren dat ongeacht de betrokken talen kan worden gebruikt, heeft het team beperkingen gesteld op basis van trends die kunnen worden waargenomen door de evolutie van talen.

“We moeten vertrouwen op twee niveaus van taalkundig inzicht”, zegt Luo. “De ene bevindt zich op karakterniveau, en dat is alles wat we weten: wanneer woorden evolueren, evolueren ze meestal van links naar rechts. Je kunt deze evolutie beschouwen als een soort touwtje. Dus misschien is een string in het Latijn ABCDE, en hoogstwaarschijnlijk zou je dat veranderen in ABD of ABC, je behoudt in zekere zin nog steeds de oorspronkelijke volgorde. Dat noemen wij monotoon.”

Op het niveau van de woordenschat (de woorden waaruit een taal bestaat) gebruikte het team een ​​techniek die ‘één-op-één mapping’ wordt genoemd.

“Dat betekent dat als je de hele woordenschat van het Latijn en de hele woordenschat van het Italiaans eruit haalt, je een soort één-op-één-matching zult zien”, geeft Luo als voorbeeld. “Het Latijnse woord voor ‘hond’ zal waarschijnlijk evolueren naar het Italiaanse woord voor ‘hond’ en het Latijnse woord voor ‘kat’ zal waarschijnlijk evolueren naar het Italiaanse woord voor ‘kat.’”

Om het model te testen, gebruikte het team een ​​aantal datasets. Ze vertaalden de oude taal Ugaritisch naar Hebreeuws, Lineair B naar Grieks, en om de doeltreffendheid van het model te bevestigen, voerde verwante (woorden met gemeenschappelijke afkomst) detectie uit binnen de Romaanse talen Spaans, Italiaans en Portugees.

Het was de eerste bekende poging om Lineair B automatisch te ontcijferen, en het model vertaalde met succes 67,3% van de verwanten. Het systeem verbeterde ook ten opzichte van eerdere modellen voor het vertalen van Ugaritisch. Gezien het feit dat de talen uit verschillende families komen, toont dit aan dat het model flexibel is, maar ook nauwkeuriger dan eerdere systemen.

De toekomst

Lineaire A blijft een van de grote mysteries van de taal, en het kraken van die eeuwenoude noot zou een opmerkelijke prestatie voor A.I. Voorlopig, zegt Luo, is zoiets voor een stel volkomen theoretisch redenen.

Ten eerste biedt Lineair A een kleinere hoeveelheid gegevens dan zelfs Lineair B. Er is ook de kwestie van uitzoeken wat voor soort script Linear A eigenlijk is.

"Ik zou zeggen dat de unieke uitdaging voor Linear A is dat je veel picturale of logografische karakters of symbolen hebt", zegt Luo. “En meestal wordt het veel moeilijker als je veel van deze symbolen hebt.”

Merk X-foto's / Getty-afbeeldingen

Luo vergelijkt bijvoorbeeld Engels en Chinees.

“Engels heeft 26 letters als je de hoofdletters niet meetelt, en Russisch heeft 33 letters. Dit worden alfabetische systemen genoemd. Je hoeft dus alleen maar een kaart te bedenken voor deze 26 of 30 karakters”, zegt hij.

“Maar voor Chinezen heb je te maken met duizenden”, vervolgt hij. “Ik denk dat een schatting van het minimale aantal karakters dat je moet beheersen om een ​​krant te lezen ongeveer 3.000 tot 5.000 zou zijn. Lineair A is niet Chinees, maar vanwege de picturale of logografische symbolen en dat soort dingen is het beslist moeilijker dan Lineair B.”

Hoewel Lineair A nog steeds niet is ontcijferd, is het succes van MIT’s nieuwe neurale ontcijferingsaanpak in het automatisch ontcijferen van Lineair B, dat verder gaat dan de noodzaak van een parallel corpus, is veelbelovend teken.

Aanbevelingen van de redactie

  • AI heeft Breaking Bad in een anime veranderd – en het is angstaanjagend
  • Analoge AI? Het klinkt gek, maar het zou de toekomst kunnen zijn
  • Dit is wat een trendanalyserende A.I. denkt dat dit de volgende grote stap in de technologie zal zijn
  • De toekomst van AI: 4 grote dingen om naar te kijken de komende jaren
  • Algoritmische architectuur: moeten we A.I. gebouwen voor ons ontwerpen?