Vai A.I. Palīdzēt atrisināt pazudušo valodu noslēpumu?

Frančesko Rikardo Jakomino/Getty Images

Ir daudzas lietas, kas atšķir cilvēkus no citām sugām, bet viena no svarīgākajām ir valoda. Spēja savienot dažādus elementus būtībā bezgalīgās kombinācijās ir iezīme, kas "pagātnē bieži tika uzskatīta par Mūsdienu cilvēku galvenā īpašība, cilvēka radošuma, kultūras bagātināšanas un sarežģītas sociālās struktūras avots,” savulaik teica valodnieks Noams Čomskis. teica.

Saturs

  • Mirušo augšāmcelšana (valodas)
  • Nākotne

Taču, lai cik svarīga valodai ir bijusi cilvēku evolūcijā, mēs joprojām daudz nezinām par to, kā valoda ir attīstījusies. Kaut arī mirušajām valodām, piemēram, latīņu valodai, ir daudz rakstisku ierakstu un pēcteču, ar kuru palīdzību mēs varam to labāk saprast, dažas valodas ir pazudušas vēsturē.

Ieteiktie videoklipi

Pētniekiem ir izdevies rekonstruēt dažas zaudētās valodas, taču to atšifrēšanas process var būt ilgs. Piemēram, senais skripts Lineārais B tika “atrisināts” vairāk nekā pusgadsimtu pēc tā atklāšanas, un daži no tiem, kas pie tā strādāja, nenotika līdz darba pabeigšanai. Vecāks raksts ar nosaukumu Linear A, Mīnojas civilizācijas rakstīšanas sistēma, joprojām nav atšifrēts.

Saistīts

  • Digital Trends' Tech For Change CES 2023 balvas
  • Smieklīgā formula: kāpēc mašīnu radīts humors ir A.I. svētais grāls?
  • Izlasiet šausminoši skaisto A.I. — sintētisko rakstu pantu. kas domā, ka tas ir Dievs

Tomēr mūsdienu valodnieku rīcībā ir spēcīgs instruments: mākslīgais intelekts. Apmācot A.I. lai atrastu modeļus neatšifrētās valodās, pētnieki var tos rekonstruēt, atklājot senās pasaules noslēpumus. Masačūsetsas Tehnoloģiju institūta (MIT) pētnieki nesen izstrādāja jaunu neironu pieeju jau ir parādījuši panākumus lineārā B atšifrēšanā un kādu dienu varētu novest pie citu zaudēto risināšanas valodas.

Mirušo augšāmcelšana (valodas)

Līdzīgi kā nodīrāt kaķi, ir vairāk nekā viens veids, kā atšifrēt pazaudētu valodu. Dažos gadījumos valodai nav rakstisku ierakstu, tāpēc valodnieki mēģina to rekonstruēt, izsekojot skaņu evolūcijai caur tās pēcnācējiem. Tā tas ir ar protoindoeiropiešu valodu, kas ir daudzu Eiropas un Āzijas valodu hipotētiskais priekštecis.

Citos gadījumos arheologi atklāj rakstiskus ierakstus, kā tas bija gadījumā ar Linear B. Pēc tam, kad arheologi Krētas salā atklāja planšetdatorus, pētnieki gadu desmitiem ilgi prātoja par rakstiem, galu galā tos atšifrējot. Diemžēl pašlaik tas nav iespējams ar lineāro A, jo pētniekiem nav gandrīz tik daudz izejmateriālu, ko pētīt. Bet tas var nebūt vajadzīgs.

Bet angļu un franču valoda ir dzīvas valodas ar gadsimtiem ilgušu kultūras pārklāšanos. Pazaudētas valodas atšifrēšana ir daudz sarežģītāka.

MIT pētnieku projekts ilustrē atšifrēšanas grūtības, kā arī A.I. lai mainītu jomu. Pētnieki izstrādāja neironu pieeju pazaudētu valodu atšifrēšanai, "ko informē vēsturiskajā valodniecībā dokumentētie valodas izmaiņu modeļi". Kā norādīts sadaļā 2019. gada papīrs, savukārt iepriekšējā A.I. valodu atšifrēšanai bija jābūt pielāgotai konkrētai valodai, šī tā nav.

“Ja skatāties uz jebkuru komerciāli pieejamu tulkotāju vai tulkošanas produktu,” saka Dzjamings Luo, vadītājs autors uz papīra, "visām šīm tehnoloģijām ir pieejams liels skaits to, ko mēs saucam par paralēli datus. Jūs varat tos uzskatīt par Rosetta akmeņiem, bet ļoti lielā daudzumā.

Paralēlais korpuss ir tekstu kopums divās dažādās valodās. Iedomājieties, piemēram, virkni teikumu gan angļu, gan franču valodā. Pat ja jūs nezināt franču valodu, salīdzinot abas kopas un novērojot modeļus, varat kartēt vārdus vienā valodā ar līdzvērtīgiem vārdiem otrā valodā.

"Ja jūs apmācāt cilvēku to darīt, ja redzat vairāk nekā 40 miljonus paralēlu teikumu," Luo skaidro, "esmu pārliecināts, ka jūs spēsit izdomāt tulkojumu."

Bet angļu un franču valoda ir dzīvas valodas ar gadsimtiem ilgušu kultūras pārklāšanos. Pazaudētas valodas atšifrēšana ir daudz sarežģītāka.

"Mums nav tādas paralēlu datu greznības," skaidro Luo. "Tāpēc mums ir jāpaļaujas uz konkrētām lingvistiskām zināšanām par to, kā valoda attīstās, kā vārdi attīstās par to pēcnācējiem."

Neironu atšifrēšana/MIT

Lai izveidotu modeli, ko varētu izmantot neatkarīgi no iesaistītajām valodām, komanda noteica ierobežojumus, pamatojoties uz tendencēm, kuras var novērot valodu evolūcijas gaitā.

"Mums ir jāpaļaujas uz divu līmeņu ieskatiem valodniecībā," saka Luo. “Viens ir rakstura līmenī, un tas ir viss, ko mēs zinām, ka, kad vārdi attīstās, tie parasti attīstās no kreisās puses uz labo. Jūs varat domāt par šo evolūciju kā par virkni. Tātad, iespējams, virkne latīņu valodā ir ABCDE, kuru jūs, visticamāk, mainījāt uz ABD vai ABC, jūs joprojām saglabājat sākotnējo secību. To mēs saucam par monotonu.

Vārdu krājuma līmenī (vārdi, kas veido valodu) komanda izmantoja paņēmienu, ko sauc par "viens pret vienu kartēšanu".

“Tas nozīmē, ka, izvelkot visu latīņu valodas vārdu krājumu un izvelkot visu itāļu valodas vārdu krājumu, jūs redzēsit savstarpēju atbilstību,” piemēru piedāvā Luo. "Latīņu vārds "suns", iespējams, pārtaps itāļu valodā, kas nozīmē "suns", un latīņu vārds "kaķis", iespējams, pārtaps itāļu valodā, kas nozīmē "kaķis"."

Lai pārbaudītu modeli, komanda izmantoja dažas datu kopas. Viņi tulkoja seno valodu ugaritu valodā ebreju valodā, lineāro B grieķu valodā un, lai apstiprinātu modeļa efektivitāti, veica radniecīgo (vārdu ar kopīgu izcelsmi) noteikšanu romāņu valodās spāņu, itāļu un portugāļu.

Tas bija pirmais zināmais mēģinājums automātiski atšifrēt Linear B, un modelis veiksmīgi pārtulkoja 67,3% radniecīgo. Sistēma ir arī uzlabota salīdzinājumā ar iepriekšējiem ugaritu tulkošanas modeļiem. Ņemot vērā, ka valodas nāk no dažādām ģimenēm, tas parāda, ka modelis ir elastīgs, kā arī precīzāks nekā iepriekšējās sistēmas.

Nākotne

Lineārais A joprojām ir viens no lielākajiem valodas noslēpumiem, un senā rieksta laušana būtu a ievērojams varoņdarbs A.I. Pagaidām Luo saka, ka kaut kas tāds ir pilnībā teorētisks pārim iemeslus.

Pirmkārt, Lineārais A piedāvā mazāku datu daudzumu nekā pat Lineārais B. Ir arī jānoskaidro, kāda veida skripts ir pat Lineārais A.

“Es teiktu, ka unikālais izaicinājums Lineārajai A ir tas, ka jums ir daudz attēlu vai logotipu rakstzīmju vai simbolu,” saka Luo. "Un parasti, ja jums ir daudz šo simbolu, tas būs daudz grūtāk."

Zīmols X Pictures/Getty Images

Piemēram, Luo salīdzina angļu un ķīniešu valodu.

“Angļu valodā ir 26 burti, ja neskaita lielos burtus, un krievu valodā ir 33. Tās sauc par alfabētiskām sistēmām. Tātad jums vienkārši ir jāizdomā karte šiem 26 vai 30 gadniekiem," viņš saka.

"Bet ķīniešiem jums ir jātiek galā ar tūkstošiem viņu," viņš turpina. “Es domāju, ka minimālais rakstzīmju skaits, kas jāapgūst, lai lasītu avīzi, būtu aptuveni 3000 vai 5000. Lineārais A nav ķīniešu valoda, taču tā attēlu vai logogrāfisko simbolu un tamlīdzīgu lietu dēļ tas noteikti ir grūtāks nekā Lineārais B.

Lai gan lineārais A joprojām nav atšifrēts, MIT jaunās neironu atšifrēšanas pieejas panākumi automātiska lineārā B atšifrēšana, kas pārsniedz nepieciešamību pēc paralēlā korpusa, ir daudzsološa zīme.

Redaktoru ieteikumi

  • AI pārvērta Breaking Bad par anime — un tas ir biedējoši
  • Analogais A.I.? Tas izklausās traki, bet tā varētu būt nākotne
  • Lūk, ko tendenču analīzē A.I. domā, ka tā būs nākamā lielā lieta tehnoloģiju jomā
  • A.I. nākotne: 4 lielas lietas, kam jāpievērš uzmanība dažu nākamo gadu laikā
  • Algoritmiskā arhitektūra: vai mums vajadzētu ļaut A.I. projektēt ēkas mums?