Kan A.I. Hjälp till att lösa mysteriet med förlorade språk?

Francesco Riccardo Iacomino/Getty Images

Det finns många saker som skiljer människan från andra arter, men en av de viktigaste är språket. Förmågan att sätta ihop olika element i väsentligen oändliga kombinationer är en egenskap som "ofta tidigare har ansetts vara det centrala kännetecknet hos moderna människor, källan till mänsklig kreativitet, kulturell berikning och komplex social struktur", som lingvisten Noam Chomsky en gång sa.

Innehåll

  • Återuppväcka de döda (språk)
  • Framtiden

Men lika viktigt som språket har varit i människans utveckling, finns det fortfarande mycket vi inte vet om hur språket har utvecklats. Medan döda språk som latin har en mängd skriftliga uppteckningar och ättlingar genom vilka vi bättre kan förstå det, är vissa språk förlorade till historien.

Rekommenderade videor

Forskare har kunnat rekonstruera några förlorade språk, men processen att dechiffrera dem kan vara lång. Till exempel, det gamla manuset Linear B "löstes" över ett halvt sekel efter upptäckten, och några av dem som arbetade på det levde inte för att se arbetet slutfört. Ett äldre manus som kallas Linear A, den minoiska civilisationens skriftsystem, förblir okodat.

Relaterad

  • Digital Trends Tech For Change CES 2023 Awards
  • Den roliga formeln: Varför maskingenererad humor är A.I.s heliga gral.
  • Läs den kusligt vackra "syntetiska skriften" av en A.I. som tror att det är Gud

Moderna lingvister har dock ett kraftfullt verktyg till sitt förfogande: Artificiell intelligens. Genom att utbilda A.I. för att lokalisera mönstren i okrypterade språk kan forskare rekonstruera dem och låsa upp den antika världens hemligheter. En ny, ny neural strategi av forskare vid Massachusetts Institute of Technology (MIT) har redan visat framgång med att dechiffrera Linear B, och kan en dag leda till att lösa andra förlorade språk.

Återuppväcka de döda (språk)

Ungefär som att flå en katt finns det mer än ett sätt att avkoda ett förlorat språk. I vissa fall har språket inga skriftliga uppgifter, så lingvister försöker rekonstruera det genom att spåra ljudutvecklingen genom dess ättlingar. Så är fallet med Proto-Indo-European, den hypotetiska förfadern till många språk genom Europa och Asien.

I andra fall gräver arkeologer fram skriftliga dokument, vilket var fallet med Linear B. Efter att arkeologer upptäckt tabletter på ön Kreta, tillbringade forskare årtionden med att fundera över skrifterna och så småningom dechiffrera dem. Tyvärr är detta för närvarande inte möjligt med Linear A, eftersom forskare inte har alls lika mycket källmaterial att studera. Men det kanske inte är nödvändigt.

Men engelska och franska är levande språk med århundraden av kulturell överlappning. Att tyda ett förlorat språk är mycket svårare.

Ett projekt av forskare vid MIT illustrerar svårigheterna med dechiffrering, såväl som potentialen hos A.I. att revolutionera området. Forskarna utvecklade ett neuralt tillvägagångssätt för att dechiffrera förlorade språk "informerade av mönster i språkförändringar dokumenterade i historisk lingvistik." Som beskrivs i en tidning från 2019, medan tidigare A.I. för att dechiffrera språk måste skräddarsys för ett specifikt språk, det gör inte detta.

"Om du tittar på någon kommersiellt tillgänglig översättare eller översättningsprodukt", säger Jiaming Luo, ledaren författare på tidningen, "alla dessa teknologier har tillgång till ett stort antal av det vi kallar parallellt data. Du kan tänka på dem som Rosetta Stones, men i en mycket stor mängd.”

En parallellkorpus är en samling texter på två olika språk. Föreställ dig till exempel en serie meningar på både engelska och franska. Även om du inte kan franska, genom att jämföra de två uppsättningarna och observera mönster, kan du mappa ord på ett språk till motsvarande ord i det andra.

"Om du tränar en människa att göra det här, om du ser 40-plus-miljoner parallella meningar," förklarar Luo, "jag är övertygad om att du kommer att kunna lista ut en översättning."

Men engelska och franska är levande språk med århundraden av kulturell överlappning. Att tyda ett förlorat språk är mycket svårare.

"Vi har inte den lyxen av parallella data," förklarar Luo. "Så vi måste förlita oss på viss specifik språklig kunskap om hur språket utvecklas, hur ord utvecklas till deras ättlingar."

Neural dechiffrering/MIT

För att skapa en modell som skulle kunna användas oavsett vilka språk som är involverade, satte teamet begränsningar baserade på trender som kan observeras genom språkens utveckling.

"Vi måste förlita oss på två nivåer av insikter om lingvistik," säger Luo. "En är på karaktärsnivå, vilket är allt vi vet att när ord utvecklas, utvecklas de vanligtvis från vänster till höger. Du kan tänka på den här utvecklingen som ett slags snöre. Så kanske en sträng på latin är ABCDE som du troligen skulle ändra till ABD eller ABC, du bevarar fortfarande den ursprungliga ordningen på ett sätt. Det är vad vi kallar monotont."

På vokabulärnivå (orden som utgör ett språk) använde teamet en teknik som kallas "en-till-en-mappning".

"Det betyder att om du tar fram hela ordförrådet för latin och drar ut hela ordförrådet för italienska, kommer du att se någon form av en-till-en-matchning," ger Luo som ett exempel. "Det latinska ordet för "hund" kommer förmodligen att utvecklas till det italienska ordet för "hund" och det latinska ordet för "katt" kommer förmodligen att utvecklas till det italienska ordet för "katt."

För att testa modellen använde teamet några datauppsättningar. De översatte det gamla språket ugaritiska till hebreiska, linjärt B till grekiska, och för att bekräfta modellens effektivitet, utförde besläktad (ord med gemensamma anor) upptäckt inom de romanska språken spanska, italienska och portugisiska.

Det var det första kända försöket att automatiskt dechiffrera Linear B, och modellen översatte framgångsrikt 67,3% av besläktade personer. Systemet förbättrades också jämfört med tidigare modeller för att översätta ugaritiska. Med tanke på att språken kommer från olika familjer, visar det att modellen är flexibel och mer exakt än tidigare system.

Framtiden

Linjär A förblir ett av språkets stora mysterier, och att knäcka den urgamla nöten skulle vara en anmärkningsvärd bedrift för A.I. För nu, säger Luo, är något sådant helt teoretiskt, för ett par skäl.

För det första erbjuder linjär A en mindre mängd data än vad linjär B gör. Det är också frågan om att ta reda på vilken typ av manus Linear A ens är.

"Jag skulle säga att den unika utmaningen för Linear A är att du har många bild- eller logografiska tecken eller symboler," säger Luo. "Och vanligtvis när du har många av dessa symboler kommer det att bli mycket svårare."

Märke X Pictures/Getty Images

Som ett exempel jämför Luo engelska och kinesiska.

"Engelska har 26 bokstäver om du inte räknar versaler, och ryska har 33. Dessa kallas alfabetiska system. Så du måste bara lista ut en karta för dessa 26 eller 30-någonting karaktärer, säger han.

"Men för kineser måste du ta itu med tusentals av dem", fortsätter han. "Jag tror att en uppskattning av det minimala antalet karaktärer att bemästra bara för att läsa en tidning skulle vara cirka 3 000 eller 5 000. Linjär A är inte kinesisk, men på grund av dess bildliga eller logografiska symboler och sådant är det definitivt svårare än Linjär B.”

Även om Linear A fortfarande är okrypterad, framgången med MIT: s nya neurala dechiffreringsmetod i automatiskt dechiffrera Linjär B, som går bortom behovet av en parallell korpus, är lovande skylt.

Redaktörens rekommendationer

  • AI gjorde Breaking Bad till en anime - och det är skrämmande
  • Analog A.I.? Det låter galet, men det kanske är framtiden
  • Här är vad en trendanalyserande A.I. tror kommer att bli nästa stora grej inom teknik
  • Framtiden för A.I.: 4 stora saker att titta på under de närmaste åren
  • Algoritmisk arkitektur: Ska vi låta A.I. designa byggnader åt oss?