Postoje mnoge stvari koje razlikuju ljude od drugih vrsta, ali jedna od najvažnijih je jezik. Sposobnost spajanja različitih elemenata u esencijalno beskonačnim kombinacijama osobina je koja se “često u prošlosti smatrala ključna značajka modernog čovjeka, izvor ljudske kreativnosti, kulturnog obogaćivanja i složene društvene strukture,” rekao je jednom lingvist Noam Chomsky rekao je.
Sadržaj
- Uskrsnuće mrtvih (jezici)
- Budućnost
Ali koliko god je jezik bio važan u evoluciji ljudi, još uvijek postoji mnogo toga što ne znamo o tome kako se jezik razvio. Dok mrtvi jezici poput latinskog imaju obilje pisanih zapisa i potomaka pomoću kojih ih možemo bolje razumjeti, neki su jezici izgubljeni u povijesti.
Preporučeni videozapisi
Istraživači su uspjeli rekonstruirati neke izgubljene jezike, ali proces njihovog dešifriranja može biti dug. Na primjer, drevno pismo Linear B "riješeno" je više od pola stoljeća nakon otkrića, a neki od onih koji su radili na njemu nisu doživjeli da vide dovršetak posla. Starije pismo nazvano Linear A, sustav pisma minojske civilizacije, ostaje nedešifrirano.
Povezano
- Nagrade Digital Trends Tech For Change CES 2023
- Smiješna formula: zašto je strojno generirani humor sveti gral AI-ja
- Pročitajte jezivo lijepe 'sintetičke spise' umjetne inteligencije. koji misli da je Bog
Međutim, moderni lingvisti imaju na raspolaganju moćan alat: umjetnu inteligenciju. Obukom A.I. kako bi locirali uzorke u nedešifriranim jezicima, istraživači ih mogu rekonstruirati, otključavajući tajne drevnog svijeta. Nedavni, novi neuralni pristup istraživača s Massachusetts Institute of Technology (MIT) je već pokazao uspjeh u dešifriranju Lineara B i mogao bi jednog dana dovesti do rješavanja drugih izgubljenih Jezici.
Uskrsnuće mrtvih (jezici)
Slično kao deranje mačke, postoji više od jednog načina dekodiranja izgubljenog jezika. U nekim slučajevima jezik nema pisanih zapisa, pa ga lingvisti pokušavaju rekonstruirati prateći evoluciju glasova kroz njegove potomke. Takav je slučaj s protoindoeuropskim, hipotetskim pretkom brojnih jezika diljem Europe i Azije.
U drugim slučajevima, arheolozi iskopavaju pisane zapise, što je bio slučaj s linearom B. Nakon što su arheolozi otkrili ploče na otoku Kreti, istraživači su desetljećima razmišljali o zapisima, da bi ih na kraju dešifrirali. Nažalost, to trenutno nije moguće s Linearom A, budući da istraživači nemaju ni približno toliko izvornog materijala za proučavanje. Ali to možda neće biti potrebno.
Ali engleski i francuski su živi jezici sa stoljećima kulturnog preklapanja. Dešifriranje izgubljenog jezika daleko je teže.
Projekt istraživača s MIT-a ilustrira poteškoće dešifriranja, kao i potencijal A.I. revolucionirati polje. Istraživači su razvili neuralni pristup dešifriranju izgubljenih jezika "informiran obrascima u jezičnim promjenama dokumentiranim u povijesnoj lingvistici". Kao što je detaljno opisano u papir iz 2019, dok je prethodni A.I. jer je dešifriranje jezika moralo biti prilagođeno određenom jeziku, ovaj nije.
"Ako pogledate bilo koji komercijalno dostupan prevoditelj ili prevoditeljski proizvod", kaže Jiaming Luo, voditelj autor na papiru, “sve ove tehnologije imaju pristup velikom broju onoga što nazivamo paralelnim podaci. Možete ih smatrati kamenjem iz Rosette, ali u vrlo velikim količinama.”
Paralelni korpus je zbirka tekstova na dva različita jezika. Zamislite, na primjer, niz rečenica na engleskom i francuskom jeziku. Čak i ako ne znate francuski, uspoređujući dva skupa i promatrajući uzorke, možete preslikati riječi u jednom jeziku na ekvivalentne riječi u drugom.
"Ako uvježbate čovjeka da to radi, ako vidite više od 40 milijuna paralelnih rečenica", objašnjava Luo, "uvjeren sam da ćete moći smisliti prijevod."
Ali engleski i francuski su živi jezici sa stoljećima kulturnog preklapanja. Dešifriranje izgubljenog jezika daleko je teže.
"Nemamo taj luksuz paralelnih podataka", objašnjava Luo. "Dakle, moramo se osloniti na određena lingvistička znanja o tome kako jezik evoluira, kako riječi evoluiraju u svoje potomke."
Kako bi se stvorio model koji bi se mogao koristiti bez obzira na uključene jezike, tim je postavio ograničenja na temelju trendova koji se mogu promatrati kroz evoluciju jezika.
"Moramo se osloniti na dvije razine uvida u lingvistiku", kaže Luo. “Jedan je na razini karaktera, što je sve što znamo da kada se riječi razvijaju, obično se razvijaju slijeva nadesno. O ovoj evoluciji možete razmišljati kao o žici. Dakle, možda je niz na latinskom ABCDE koji ste najvjerojatnije namjeravali promijeniti u ABD ili ABC, i dalje ćete na neki način sačuvati izvorni poredak. To je ono što mi zovemo monotonijom.”
Na razini vokabulara (riječi koje čine jezik), tim je koristio tehniku koja se zove "preslikavanje jedan na jedan".
"To znači da ako izvučete cijeli vokabular latinskog i cijeli vokabular talijanskog, vidjet ćete neku vrstu podudaranja jedan na jedan", Luo nudi primjer. "Latinska riječ za 'pas' vjerojatno će se razviti u talijansku riječ za 'pas', a latinska riječ za 'mačka' vjerojatno će se razviti u talijansku riječ za 'mačku'."
Kako bi testirali model, tim je upotrijebio nekoliko skupova podataka. Preveli su drevni ugaritski jezik na hebrejski, linear B na grčki, a kako bi potvrdili učinkovitost modela, izvršio otkrivanje srodnih (riječi zajedničkog podrijetla) unutar romanskih jezika španjolskog, talijanskog i Portugalski.
Bio je to prvi poznati pokušaj automatskog dešifriranja lineara B, a model je uspješno preveo 67,3% srodnih znakova. Sustav je također poboljšan u odnosu na prethodne modele za prevođenje ugaritskog. S obzirom da jezici potječu iz različitih obitelji, to pokazuje da je model fleksibilan, kao i točniji od prethodnih sustava.
Budućnost
Linear A ostaje jedna od najvećih misterija jezika, a razbijanje tog drevnog oraha bilo bi izvanredan podvig za A.I. Za sada je, kaže Luo, tako nešto sasvim teoretski, za par razloga.
Prvo, Linear A nudi manju količinu podataka čak i od Lineara B. Tu je i stvar odgonetnuti kakva je zapravo skripta Linear A.
"Rekao bih da je jedinstveni izazov za Linear A to što imate mnogo slikovnih ili logografskih znakova ili simbola", kaže Luo. "I obično kada imate puno ovih simbola, to će biti puno teže."
Kao primjer, Luo uspoređuje engleski i kineski.
“Engleski ima 26 slova ako ne računate velika slova, a ruski ima 33. Oni se nazivaju abecednim sustavima. Dakle, samo morate smisliti mapu za ovih 26 ili 30-ak znakova,” kaže on.
"Ali za Kineze se morate nositi s tisućama njih", nastavlja. “Mislim da bi procjena minimalne količine znakova koju treba savladati samo za čitanje novina bila oko 3000 ili 5000. Linear A nije kineski, ali zbog svojih slikovnih ili logografskih simbola i sličnih stvari, definitivno je teži od Lineara B.”
Iako je Linear A još uvijek nedešifriran, uspjeh MIT-ovog novog pristupa neuralnog dešifriranja u obećavajuće je automatsko dešifriranje Lineara B, nadilazeći potrebu za paralelnim korpusom znak.
Preporuke urednika
- AI je Breaking Bad pretvorio u anime - i to je zastrašujuće
- Analogni AI? Zvuči ludo, ali to bi mogla biti budućnost
- Evo što A.I. za analizu trendova. misli da će biti sljedeća velika stvar u tehnologiji
- Budućnost umjetne inteligencije: 4 velike stvari na koje treba paziti u sljedećih nekoliko godina
- Algoritamska arhitektura: Trebamo li pustiti A.I. projektirati zgrade za nas?