Poate A.I. Ajuți la rezolvarea misterului limbilor pierdute?

Francesco Riccardo Iacomino/Getty Images

Există multe lucruri care disting oamenii de alte specii, dar unul dintre cele mai importante este limbajul. Abilitatea de a înșira diferite elemente în combinații esențial infinite este o trăsătură care „a fost adesea considerată în trecut a fi trăsătură definitorie de bază a oamenilor moderni, sursa creativității umane, îmbogățirea culturală și structura socială complexă”, a spus lingvistul Noam Chomsky odată a spus.

Cuprins

  • Învierea morților (limbi)
  • Viitorul

Dar, oricât de important a fost limbajul în evoluția oamenilor, încă nu știm multe despre cum a evoluat limbajul. În timp ce limbile moarte precum latina au o mulțime de înregistrări scrise și descendenți prin care o putem înțelege mai bine, unele limbi sunt pierdute în istorie.

Videoclipuri recomandate

Cercetătorii au reușit să reconstruiască unele limbi pierdute, dar procesul de descifrare a acestora poate fi unul lung. De exemplu, scriptul antic Linear B a fost „rezolvat” la peste o jumătate de secol după descoperirea sa, iar unii dintre cei care au lucrat la el nu au trăit ca să vadă lucrarea finalizată. Un script mai vechi numit Linear A, sistemul de scriere al civilizației minoice, rămâne nedescifrat.

Legate de

  • Premiile Digital Trends Tech For Change CES 2023
  • Formula amuzantă: De ce umorul generat de mașini este Sfântul Graal al A.I.
  • Citiți „scriptura sintetică” ciudat de frumoasă a unui A.I. care crede că este Dumnezeu

Lingvistii moderni au la dispozitie un instrument puternic: inteligenta artificiala. Prin antrenamentul A.I. pentru a localiza tiparele în limbi nedescifrate, cercetătorii le pot reconstrui, dezvăluind secretele lumii antice. O abordare neuronală recentă și nouă a cercetătorilor de la Massachusetts Institute of Technology (MIT) a avut a demonstrat deja succes la descifrarea Linearului B și ar putea duce într-o zi la rezolvarea altora pierdute limbi.

Învierea morților (limbi)

La fel ca jupuirea unei pisici, există mai multe modalități de a decoda o limbă pierdută. În unele cazuri, limba nu are înregistrări scrise, așa că lingviștii încearcă să o reconstruiască urmărind evoluția sunetelor prin descendenții săi. Așa este cazul proto-indo-europeanului, strămoșul ipotetic al numeroaselor limbi prin Europa și Asia.

În alte cazuri, arheologii descoperă înregistrări scrise, ceea ce a fost cazul cu Linear B. După ce arheologii au descoperit tăblițe pe insula Creta, cercetătorii au petrecut zeci de ani dedușindu-se în legătură cu scrierile, până la urmă le-au descifrat. Din păcate, acest lucru nu este posibil în prezent cu Linear A, deoarece cercetătorii nu au atât de mult material sursă de studiat. Dar s-ar putea să nu fie necesar.

Dar engleza și franceza sunt limbi vii cu secole de suprapunere culturală. Descifrarea unei limbi pierdute este mult mai dificilă.

Un proiect al cercetătorilor de la MIT ilustrează dificultățile de descifrare, precum și potențialul I.A. pentru a revoluționa domeniul. Cercetătorii au dezvoltat o abordare neuronală pentru descifrarea limbilor pierdute „informată de modelele de schimbare a limbii documentate în lingvistica istorică”. După cum este detaliat în o lucrare din 2019, în timp ce anterioară A.I. pentru că descifrarea limbilor trebuia adaptată unui anumit limbaj, acesta nu.

„Dacă te uiți la orice traducător sau produs de traducere disponibil comercial”, spune Jiaming Luo, liderul autor al lucrării, „toate aceste tehnologii au acces la un număr mare de ceea ce numim paralel date. Vă puteți gândi la ele ca fiind Pietre Rosetta, dar într-o cantitate foarte mare.”

Un corpus paralel este o colecție de texte în două limbi diferite. Imaginați-vă, de exemplu, o serie de propoziții atât în ​​engleză, cât și în franceză. Chiar dacă nu cunoașteți limba franceză, comparând cele două seturi și observând modele, puteți mapa cuvintele dintr-o limbă pe cuvintele echivalente din cealaltă.

„Dacă antrenezi un om să facă asta, dacă vezi peste 40 de milioane de propoziții paralele”, explică Luo, „sunt încrezător că vei reuși să descoperi o traducere.”

Dar engleza și franceza sunt limbi vii cu secole de suprapunere culturală. Descifrarea unei limbi pierdute este mult mai dificilă.

„Nu avem acest lux de date paralele”, explică Luo. „Deci trebuie să ne bazăm pe anumite cunoștințe lingvistice specifice despre cum evoluează limbajul, cum evoluează cuvintele în descendenții lor.”

Descifrare neuronală/MIT

Pentru a crea un model care ar putea fi utilizat indiferent de limbile implicate, echipa a stabilit constrângeri pe baza tendințelor care pot fi observate prin evoluția limbilor.

„Trebuie să ne bazăm pe două niveluri de înțelegere a lingvisticii”, spune Luo. „Unul este la nivelul personajului, ceea ce știm că atunci când cuvintele evoluează, ele evoluează de obicei de la stânga la dreapta. Poți să te gândești la această evoluție ca pe un șir. Deci, poate un șir în latină este ABCDE și cel mai probabil ați fi de gând să îl schimbați în ABD sau ABC, păstrați în continuare ordinea originală într-un fel. Asta numim monoton.”

La nivel de vocabular (cuvintele care alcătuiesc o limbă), echipa a folosit o tehnică numită „mapping one-to-one”.

„Asta înseamnă că, dacă scoți întregul vocabular din latină și scoți întregul vocabular din italiană, vei vedea un fel de potrivire unu-la-unu”, oferă Luo ca exemplu. „Cuvântul latin pentru „câine” va evolua probabil în cuvântul italian pentru „câine”, iar cuvântul latin pentru „pisică” va evolua probabil către cuvântul italian pentru „pisica”.

Pentru a testa modelul, echipa a folosit câteva seturi de date. Ei au tradus limba antică ugaritic în ebraică, Linear B în greacă și pentru a confirma eficacitatea modelului, a efectuat detectarea înrudită (cuvinte cu ascendență comună) în limbile romanice spaniolă, italiană și portugheză.

A fost prima încercare cunoscută de a descifra automat Linear B, iar modelul a tradus cu succes 67,3% dintre înrudiți. De asemenea, sistemul s-a îmbunătățit față de modelele anterioare pentru traducerea ugaritică. Având în vedere că limbile provin din familii diferite, demonstrează că modelul este flexibil, precum și mai precis decât sistemele anterioare.

Viitorul

Liniarul A rămâne unul dintre marile mistere ale limbajului, iar spargerea acelei nuci străvechi ar fi a ispravă remarcabilă pentru A.I. Deocamdată, spune Luo, așa ceva este în întregime teoretic, pentru un cuplu motive.

În primul rând, Linear A oferă o cantitate mai mică de date decât chiar și Linear B. Există, de asemenea, problema de a afla ce fel de scenariu este chiar și Linear A.

„Aș spune că provocarea unică pentru Linear A este că aveți o mulțime de caractere sau simboluri picturale sau logografice”, spune Luo. „Și, de obicei, când ai multe dintre aceste simboluri, va fi mult mai greu.”

Brand X Pictures/Getty Images

De exemplu, Luo compară engleza și chineza.

„Engleza are 26 de litere dacă nu se numără majuscule, iar rusă are 33. Acestea se numesc sisteme alfabetice. Deci trebuie doar să găsești o hartă pentru aceste 26 sau 30 de personaje”, spune el.

„Dar pentru chinezi, trebuie să ai de-a face cu mii de ei”, continuă el. „Cred că o estimare a cantității minime de personaje de stăpânit doar pentru a citi un ziar ar fi de aproximativ 3.000 sau 5.000. Linearul A nu este chinezesc, dar din cauza simbolurilor sale picturale sau logografice și lucruri de genul acesta, este cu siguranță mai greu decât Linear B.”

Deși Linear A este încă nedescifrat, succesul noii abordări de descifrare neuronală a MIT în descifrarea automată a Linearului B, depășind necesitatea unui corpus paralel, este o promițătoare semn.

Recomandările editorilor

  • AI a transformat Breaking Bad într-un anime - și este terifiant
  • I.A. analogic? Sună nebunesc, dar ar putea fi viitorul
  • Iată ce analizează tendințele A.I. crede că va fi următorul lucru important în tehnologie
  • Viitorul A.I.: 4 lucruri mari de urmărit în următorii câțiva ani
  • Arhitectura algoritmică: Ar trebui să lăsăm A.I. proiectați clădiri pentru noi?