Ar gali A.I. Padėkite išspręsti prarastų kalbų paslaptį?

Francesco Riccardo Iacomino / Getty Images

Yra daug dalykų, kurie skiria žmones nuo kitų rūšių, tačiau vienas iš svarbiausių yra kalba. Gebėjimas sujungti įvairius elementus iš esmės begaliniais deriniais yra bruožas, kuris „dažnai praeityje buvo laikomas Pagrindinis šiuolaikinių žmonių bruožas, žmogaus kūrybiškumo, kultūrinio praturtėjimo ir sudėtingos socialinės struktūros šaltinis“, – kažkada kalbėjo kalbininkas Noamas Chomsky. sakė.

Turinys

  • Mirusiųjų prikėlimas (kalbos)
  • Ateitis

Bet kokia svarbi kalba buvo žmonių evoliucijoje, vis dar daug ko nežinome apie tai, kaip ji vystėsi. Nors tokios negyvos kalbos kaip lotynų kalba turi daugybę rašytinių įrašų ir palikuonių, per kuriuos galime geriau ją suprasti, kai kurios kalbos yra prarastos istorijoje.

Rekomenduojami vaizdo įrašai

Tyrėjai sugebėjo atkurti kai kurias prarastas kalbas, tačiau jų iššifravimo procesas gali būti ilgas. Pavyzdžiui, senovinis scenarijus „Linear B“ buvo „išspręstas“ praėjus daugiau nei pusei amžiaus po jo atradimo, o kai kurie su juo dirbę asmenys net negyveno, kol pamatė užbaigtą darbą. Senesnis raštas, vadinamas Linear A, Mino civilizacijos rašymo sistema, lieka neiššifruotas.

Susijęs

  • „Digital Trends“ „Tech For Change CES 2023“ apdovanojimai
  • Juokinga formulė: kodėl mašinų sukurtas humoras yra šventasis A.I.
  • Perskaitykite siaubingai gražų A.I. „sintetinį raštą“. kad mano, kad tai Dievas

Tačiau šiuolaikiniai kalbininkai turi galingą įrankį: dirbtinį intelektą. Treniruodamas A.I. Norėdami rasti modelius neiššifruotomis kalbomis, tyrinėtojai gali juos rekonstruoti ir atskleisti senovės pasaulio paslaptis. Neseniai Masačusetso technologijos instituto (MIT) mokslininkai sukūrė naują neuroninį metodą jau parodė sėkmę iššifruojant tiesinę B ir vieną dieną gali padėti išspręsti kitas prarastas kalbomis.

Mirusiųjų prikėlimas (kalbos)

Panašiai kaip nulupti katę, yra daugiau nei vienas būdas iššifruoti prarastą kalbą. Kai kuriais atvejais kalba neturi rašytinių įrašų, todėl kalbininkai bando ją atkurti, atsekdami garsų raidą per jos palikuonis. Taip yra su protoindoeuropiečių kalba, hipotetiniu daugelio kalbų Europoje ir Azijoje protėviu.

Kitais atvejais archeologai atkasa rašytinius įrašus, kaip buvo su Linear B. Po to, kai archeologai Kretos saloje aptiko lentelių, mokslininkai dešimtmečius mįslė dėl raštų ir galiausiai juos iššifravo. Deja, šiuo metu tai neįmanoma naudojant „Linear A“, nes mokslininkai neturi beveik tiek šaltinių, kuriuos galėtų ištirti. Bet tai gali būti nereikalinga.

Tačiau anglų ir prancūzų kalbos yra gyvos kalbos, kurių kultūra sutampa šimtmečius. Iššifruoti prarastą kalbą yra daug sudėtingiau.

MIT tyrėjų projektas iliustruoja iššifravimo sunkumus, taip pat A.I. padaryti revoliuciją šioje srityje. Tyrėjai sukūrė neuroninį metodą, kaip iššifruoti prarastas kalbas, „pagrįstą kalbos kaitos modeliais, užfiksuotais istorinėje kalbotyroje“. Kaip išsamiai aprašyta 2019 metų laikraštis, o ankstesnis A.I. nes kalbų iššifravimas turėjo būti pritaikytas konkrečiai kalbai, ši to nedaro.

„Jei pažvelgsite į bet kurį komerciškai prieinamą vertėją ar vertimo produktą“, - sako Jiaming Luo, vadovas autorius, „visos šios technologijos turi prieigą prie daugybės to, ką vadiname lygiagrečiais duomenis. Galite galvoti apie juos kaip apie Rosetta akmenis, bet labai dideliais kiekiais.

Lygiagretusis korpusas yra tekstų rinkinys dviem skirtingomis kalbomis. Įsivaizduokite, pavyzdžiui, sakinių seriją anglų ir prancūzų kalbomis. Net jei nemokate prancūzų kalbos, palyginę du rinkinius ir stebėdami šablonus, galite susieti vienos kalbos žodžius su lygiaverčiais kitos kalbos žodžiais.

„Jei mokysite žmogų tai padaryti, jei pamatysite daugiau nei 40 milijonų lygiagrečių sakinių, – aiškina Luo, – esu įsitikinęs, kad pavyks išsiaiškinti vertimą.

Tačiau anglų ir prancūzų kalbos yra gyvos kalbos, kurių kultūra sutampa šimtmečius. Iššifruoti prarastą kalbą yra daug sudėtingiau.

„Mes neturime tokios lygiagrečių duomenų prabangos“, – aiškina Luo. „Taigi, turime pasikliauti tam tikromis specifinėmis kalbinėmis žiniomis apie tai, kaip vystosi kalba, kaip iš žodžių išsivysto jų palikuonys.

Neuronų iššifravimas / MIT

Siekdama sukurti modelį, kurį būtų galima naudoti nepriklausomai nuo naudojamų kalbų, komanda nustatė apribojimus, pagrįstus kalbų raidos tendencijomis.

„Turime pasikliauti dviem kalbotyros įžvalgomis“, – sako Luo. „Viena yra charakterio lygmenyje, tai yra viskas, ką mes žinome, kad kai žodžiai vystosi, jie paprastai vystosi iš kairės į dešinę. Galite galvoti apie šią evoliuciją kaip apie eilutę. Taigi galbūt eilutė lotynų kalba yra ABCDE, kurią greičiausiai ketinote pakeisti į ABD arba ABC, vis tiek išsaugosite pradinę tvarką. Tai mes vadiname monotonišku.

Žodyno (žodžių, sudarančių kalbą) lygmeniu komanda naudojo techniką, vadinamą „vienas su vienu kartografavimu“.

„Tai reiškia, kad jei ištrauksite visą lotynų kalbos žodyną ir ištrauksite visą italų kalbos žodyną, pamatysite tam tikrą atitikimą vienas su vienu“, – pavyzdį siūlo Luo. „Lotyniškas žodis „šuo“ tikriausiai peraugs į italų kalbos žodį „šuo“, o lotyniškas žodis „katė“ greičiausiai išsivystys į itališką žodį „katė“.

Norėdami išbandyti modelį, komanda naudojo keletą duomenų rinkinių. Jie išvertė senąją ugaritų kalbą į hebrajų kalbą, tiesinę B į graikų kalbą ir, norėdami patvirtinti modelio veiksmingumą, atliko giminingų (žodžių, turinčių bendrą kilmę) aptikimą romanų kalbose ispanų, italų ir portugalų.

Tai buvo pirmasis žinomas bandymas automatiškai iššifruoti Linear B, o modelis sėkmingai išvertė 67,3% giminingų žodžių. Sistema taip pat patobulinta, palyginti su ankstesniais ugaritų kalbos vertimo modeliais. Atsižvelgiant į tai, kad kalbos yra iš skirtingų šeimų, tai rodo, kad modelis yra lankstus ir tikslesnis nei ankstesnės sistemos.

Ateitis

Linijinis A tebėra viena didžiausių kalbos paslapčių, o sulaužyti tą senovinį riešutą būtų a puikus A.I. Kol kas, pasak Luo, kažkas panašaus yra visiškai teorinis, skirtas porai priežastys.

Pirma, „Linear A“ siūlo mažesnį duomenų kiekį nei netgi „Linear B“. Taip pat reikia išsiaiškinti, koks yra scenarijus „Linear A“.

„Sakyčiau, kad unikalus „Linear A“ iššūkis yra tai, kad turite daug vaizdinių ar logografinių simbolių ar simbolių“, – sako Luo. "Ir paprastai, kai turite daug šių simbolių, tai bus daug sunkiau."

Prekės ženklas X Pictures / Getty Images

Pavyzdžiui, Luo lygina anglų ir kinų kalbas.

„Anglų kalba turi 26 raides, jei neskaičiuoti didžiųjų raidžių, o rusų kalba turi 33. Tai vadinamos abėcėlės sistemomis. Taigi jūs tiesiog turite sugalvoti žemėlapį šiems 26 ar 30 metų personažams“, – sako jis.

„Tačiau kinams tenka susidurti su tūkstančiais jų“, – tęsia jis. „Manau, kad minimalus simbolių skaičius, kurį reikia išmokti vien tam, kad perskaitytų laikraštį, būtų apie 3000 ar 5000. „Linear A“ nėra kinų kalba, tačiau dėl savo vaizdinių ar logografinių simbolių ir panašių dalykų tai tikrai sunkesnė nei „Linear B“.

Nors tiesinė A vis dar neiššifruota, MIT naujojo neuroninio iššifravimo metodo sėkmė automatiškai iššifruoti Linear B, peržengianti paralelinio korpuso poreikį, yra daug žadanti ženklas.

Redaktorių rekomendacijos

  • AI pavertė „Breaking Bad“ anime – ir tai kelia siaubą
  • Analoginis A.I.? Skamba beprotiškai, bet tai gali būti ateitis
  • Štai ką tendencijas analizuojantis A.I. mano, kad tai bus kitas didelis dalykas technologijų srityje
  • A.I. ateitis: 4 dideli dalykai, į kuriuos reikia atkreipti dėmesį per ateinančius kelerius metus
  • Algoritminė architektūra: ar turėtume leisti A.I. projektuoti pastatus mums?