Ali lahko A.I. Pomagati rešiti skrivnost izgubljenih jezikov?

Francesco Riccardo Iacomino/Getty Images

Obstaja veliko stvari, po katerih se ljudje razlikujejo od drugih vrst, a ena najpomembnejših je jezik. Sposobnost nizanja različnih elementov v pravzaprav neskončne kombinacije je lastnost, ki je »v preteklosti pogosto veljala za osrednja značilnost sodobnega človeka, vir človeške ustvarjalnosti, kulturne obogatitve in kompleksne družbene strukture,« je nekoč dejal jezikoslovec Noam Chomsky. rekel.

Vsebina

  • Vstajenje mrtvih (jeziki)
  • Prihodnost

Ne glede na to, kako pomemben je bil jezik v evoluciji ljudi, še vedno veliko ne vemo o tem, kako se je jezik razvijal. Medtem ko imajo mrtvi jeziki, kot je latinščina, veliko pisnih zapisov in potomcev, prek katerih jih lahko bolje razumemo, so nekateri jeziki izgubljeni v zgodovini.

Priporočeni videoposnetki

Raziskovalcem je uspelo rekonstruirati nekatere izgubljene jezike, vendar je proces njihovega dešifriranja lahko dolgotrajen. Na primer, starodavna pisava Linear B je bila "rešena" več kot pol stoletja po odkritju in nekateri od tistih, ki so delali na njej, niso dočakali dokončanja dela. Starejša pisava, imenovana linear A, pisni sistem minojske civilizacije, ostaja nedešifrirana.

Povezano

  • Nagrade Digital Trends Tech For Change CES 2023
  • Smešna formula: Zakaj je strojno ustvarjen humor sveti gral A.I.
  • Preberite srhljivo lepe "sintetične spise" A.I. ki misli, da je Bog

Sodobni jezikoslovci pa imajo na voljo močno orodje: umetno inteligenco. Z usposabljanjem A.I. Da bi poiskali vzorce v nedešifriranih jezikih, jih lahko raziskovalci rekonstruirajo in odkrijejo skrivnosti starodavnega sveta. Nedavni, nov nevronski pristop raziskovalcev na Tehnološkem inštitutu Massachusetts (MIT) je je že pokazal uspeh pri dešifriranju linearne B in bi lahko nekega dne privedel do rešitve drugih izgubljenih jezikov.

Vstajenje mrtvih (jeziki)

Podobno kot odiranje mačke, obstaja več kot en način za dekodiranje izgubljenega jezika. V nekaterih primerih jezik nima pisnih zapisov, zato ga jezikoslovci poskušajo rekonstruirati tako, da sledijo razvoju zvokov prek njegovih potomcev. Tak primer je protoindoevropski jezik, hipotetični prednik številnih jezikov v Evropi in Aziji.

V drugih primerih arheologi odkrijejo pisne zapise, kar se je zgodilo z linearno B. Potem ko so arheologi odkrili tablice na otoku Kreta, so raziskovalci desetletja razmišljali o zapisih in jih nazadnje dešifrirali. Na žalost to trenutno ni mogoče z linearno A, saj raziskovalci nimajo niti približno toliko izvornega materiala za preučevanje. Vendar to morda ni potrebno.

Toda angleščina in francoščina sta živa jezika s stoletja kulturnega prekrivanja. Dešifriranje izgubljenega jezika je veliko težje.

Projekt raziskovalcev na MIT ponazarja težave pri dešifriranju, pa tudi potencial A.I. revolucionirati področje. Raziskovalci so razvili nevronski pristop k dešifriranju izgubljenih jezikov, "obveščen z vzorci v jezikovnih spremembah, dokumentiranih v zgodovinskem jezikoslovju." Kot je podrobno opisano v papir iz leta 2019, medtem ko je prejšnji A.I. za dešifriranje jezikov moralo biti prilagojeno določenemu jeziku, tega ne.

»Če pogledate katerega koli komercialno dostopnega prevajalnika ali prevajalskega izdelka,« pravi Jiaming Luo, glavni avtor na papirju, »imajo vse te tehnologije dostop do velikega števila tega, kar imenujemo vzporedne podatke. Lahko si jih predstavljate kot Rosetta Stones, vendar v zelo veliki količini.«

Vzporedni korpus je zbirka besedil v dveh različnih jezikih. Predstavljajte si na primer niz stavkov v angleščini in francoščini. Tudi če ne znate francosko, lahko s primerjavo obeh nizov in opazovanjem vzorcev preslikate besede v enem jeziku v enakovredne besede v drugem.

»Če človeka usposobiš za to, če vidiš več kot 40 milijonov vzporednih stavkov,« pojasnjuje Luo, »prepričan sem, da boš lahko izvedel prevod.«

Toda angleščina in francoščina sta živa jezika s stoletja kulturnega prekrivanja. Dešifriranje izgubljenega jezika je veliko težje.

"Nimamo tega razkošja vzporednih podatkov," pojasnjuje Luo. "Zato se moramo zanašati na nekaj specifičnega jezikoslovnega znanja o tem, kako se jezik razvija, kako se besede razvijajo v svoje potomce."

Nevronsko dešifriranje/MIT

Da bi ustvarili model, ki bi ga lahko uporabili ne glede na vključene jezike, je ekipa postavila omejitve na podlagi trendov, ki jih je mogoče opazovati skozi razvoj jezikov.

"Zanašati se moramo na dve ravni vpogledov v jezikoslovje," pravi Luo. »Ena je na ravni značaja, kar je vse, kar vemo, da se besede, ko se razvijajo, običajno razvijajo od leve proti desni. O tej evoluciji lahko razmišljate kot o struni. Torej je morda niz v latinici ABCDE, ki bi ga najverjetneje nameravali spremeniti v ABD ali ABC, še vedno pa na nek način ohranite prvotni vrstni red. Temu pravimo monotono."

Na ravni besedišča (besede, ki sestavljajo jezik) je ekipa uporabila tehniko, imenovano "preslikava ena proti ena".

"To pomeni, da če izvlečete celotno besedišče latinščine in celotno besedišče italijanščine, boste videli nekakšno ujemanje ena proti ena," navaja Luo kot primer. "Latinska beseda za 'pes' se bo verjetno razvila v italijansko besedo za 'pes' in latinska beseda za 'mačka' se bo verjetno razvila v italijansko besedo za 'mačka'."

Za testiranje modela je ekipa uporabila nekaj nizov podatkov. Prevedli so starodavni ugaritski jezik v hebrejščino, črto B v grščino in za potrditev učinkovitosti modela, izvedel zaznavanje sorodnikov (besed s skupnim poreklom) v romanskih jezikih španščini, italijanščini in portugalščina.

To je bil prvi znani poskus samodejnega dešifriranja linearja B in model je uspešno prevedel 67,3 % sorodnikov. Sistem je izboljšan tudi v primerjavi s prejšnjimi modeli za prevajanje ugaritščine. Glede na to, da jeziki prihajajo iz različnih družin, dokazuje, da je model prilagodljiv in natančnejši od prejšnjih sistemov.

Prihodnost

Linear A ostaja ena od velikih skrivnosti jezika in streti ta starodavni oreh bi bilo a izjemen podvig za A.I. Za zdaj, pravi Luo, je kaj takega povsem teoretično, za par razlogov.

Prvič, Linear A ponuja manjšo količino podatkov kot celo Linear B. Tu je tudi vprašanje, kako ugotoviti, kakšen scenarij sploh je Linear A.

"Rekel bi, da je edinstven izziv za Linear A, da imate veliko slikovnih ali logografskih znakov ali simbolov," pravi Luo. "In običajno, ko imate veliko teh simbolov, bo veliko težje."

Brand X Pictures/Getty Images

Kot primer Luo primerja angleščino in kitajščino.

»Angleščina ima 26 črk, če ne štejemo velikih črk, ruščina pa 33. Ti se imenujejo abecedni sistemi. Zato moraš samo najti zemljevid za teh 26 ali 30 znakov,« pravi.

"Toda za Kitajce se moraš soočiti s tisoči," nadaljuje. »Mislim, da bi bila ocena minimalne količine znakov, ki jih je treba obvladati samo za branje časopisa, okoli 3000 ali 5000. Linear A ni kitajski, vendar je zaradi svojih slikovnih ali logografskih simbolov in podobnih stvari vsekakor težji od lineara B.«

Čeprav Linear A še vedno ni dešifriran, je uspeh novega pristopa nevronskega dešifriranja MIT v samodejno dešifriranje linearja B, ki presega potrebo po vzporednem korpusu, je obetavno znak.

Priporočila urednikov

  • Umetna inteligenca je Breaking Bad spremenila v anime - in to je grozljivo
  • Analogni AI? Sliši se noro, a morda je prihodnost
  • Evo, kaj je A.I., ki analizira trende. meni, da bo naslednja velika stvar v tehnologiji
  • Prihodnost AI: 4 velike stvari, na katere morate biti pozorni v naslednjih nekaj letih
  • Algoritemska arhitektura: Ali naj pustimo A.I. projektirati zgradbe za nas?