Může A.I. Pomůžete vyřešit záhadu ztracených jazyků?

Francesco Riccardo Iacomino/Getty Images

Je mnoho věcí, které odlišují lidi od jiných druhů, ale jednou z nejdůležitějších je jazyk. Schopnost spojovat různé prvky do v podstatě nekonečných kombinací je vlastnost, která „byla v minulosti často považována za klíčový definující rys moderních lidí, zdroj lidské tvořivosti, kulturního obohacení a složité sociální struktury,“ řekl kdysi lingvista Noam Chomsky řekl.

Obsah

  • Vzkříšení mrtvých (jazyky)
  • Budoucnost

Ale jakkoli byl jazyk důležitý v evoluci lidí, stále ještě mnoho nevíme o tom, jak se jazyk vyvíjel. Zatímco mrtvé jazyky jako latina mají množství písemných záznamů a potomků, díky nimž jí můžeme lépe porozumět, některé jazyky jsou ztraceny v historii.

Doporučená videa

Badatelům se podařilo zrekonstruovat některé ztracené jazyky, ale proces jejich dešifrování může být dlouhý. Například starověké písmo Linear B bylo „vyřešeno“ více než půl století po svém objevení a někteří z těch, kteří na něm pracovali, se dokončení díla nedožili. Starší písmo zvané Linear A, systém psaní minojské civilizace, zůstává nerozluštěno.

Příbuzný

  • Ocenění CES 2023 Tech For Change společnosti Digital Trends
  • Vtipná formulka: Proč je strojově generovaný humor svatým grálem A.I.
  • Přečtěte si děsivě krásné ‚syntetické písmo‘ A.I. který si myslí, že je to Bůh

Moderní lingvisté však mají k dispozici mocný nástroj: umělou inteligenci. Školením A.I. aby našli vzory v nerozluštěných jazycích, mohou je výzkumníci rekonstruovat a odhalit tajemství starověkého světa. Nedávný, nový neurální přístup výzkumníků z Massachusetts Institute of Technology (MIT). již prokázal úspěch při dešifrování lineárního B a mohl by jednoho dne vést k vyřešení dalších ztracených jazyky.

Vzkříšení mrtvých (jazyky)

Podobně jako stahování z kůže kočky existuje více než jeden způsob, jak dekódovat ztracený jazyk. V některých případech jazyk nemá žádné písemné záznamy, takže se ho lingvisté snaží rekonstruovat sledováním vývoje zvuků přes jeho potomky. Takový je případ protoindoevropštiny, hypotetického předka mnoha jazyků v Evropě a Asii.

V jiných případech archeologové objevili písemné záznamy, což byl případ Linear B. Poté, co archeologové objevili tabulky na ostrově Kréta, výzkumníci strávili desítky let záhadami nad spisy a nakonec je rozluštili. Bohužel to v současné době u Linear A není možné, protože výzkumníci nemají ani zdaleka tolik zdrojového materiálu ke studiu. Ale to nemusí být nutné.

Angličtina a francouzština jsou ale živé jazyky se staletými kulturními přesahy. Rozluštit ztracený jazyk je mnohem složitější.

Projekt výzkumníků z MIT ilustruje obtíže dešifrování a také potenciál A.I. k revoluci v oboru. Vědci vyvinuli neurální přístup k dešifrování ztracených jazyků „informovaný vzorci změn jazyka dokumentovanými v historické lingvistice“. Jak je podrobně uvedeno v papír z roku 2019, zatímco předchozí A.I. protože dešifrování jazyků muselo být přizpůsobeno konkrétnímu jazyku, tento tomu tak není.

„Pokud se podíváte na jakýkoli komerčně dostupný překladač nebo překladatelský produkt,“ říká Jiaming Luo, vedoucí autor článku, „všechny tyto technologie mají přístup k velkému množství toho, co nazýváme paralelní data. Můžete si je představit jako Rosetta Stones, ale ve velmi velkém množství.“

Paralelní korpus je sbírka textů ve dvou různých jazycích. Představte si například řadu vět v angličtině i francouzštině. I když neumíte francouzsky, porovnáním dvou sad a pozorováním vzorů můžete mapovat slova v jednom jazyce na ekvivalentní slova ve druhém.

"Pokud na to vycvičíte člověka, uvidíte více než 40 milionů paralelních vět," vysvětluje Luo, "jsem si jistý, že budete schopni přijít na překlad."

Angličtina a francouzština jsou ale živé jazyky se staletými kulturními přesahy. Rozluštit ztracený jazyk je mnohem složitější.

"Nemáme takový luxus paralelních dat," vysvětluje Luo. "Musíme se tedy spolehnout na určité specifické lingvistické znalosti o tom, jak se jazyk vyvíjí, jak se slova vyvíjejí ve své potomky."

Dešifrování nervů/MIT

Aby bylo možné vytvořit model, který by bylo možné použít bez ohledu na použité jazyky, tým stanovil omezení na základě trendů, které lze pozorovat prostřednictvím vývoje jazyků.

„Musíme se spolehnout na dvě úrovně lingvistiky,“ říká Luo. „Jedna je na úrovni postavy, což je vše, co víme, že když se slova vyvíjejí, obvykle se vyvíjejí zleva doprava. O tomto vývoji můžete uvažovat jako o struně. Takže možná řetězec v latině je ABCDE, s největší pravděpodobností jste to chtěli změnit na ABD nebo ABC, stále si určitým způsobem zachováváte původní pořadí. Tomu říkáme monotónní."

Na úrovni slovní zásoby (slova, která tvoří jazyk), tým použil techniku ​​zvanou „mapování jednoho k jednomu“.

„To znamená, že když vytáhnete celou slovní zásobu latiny a vytáhnete celou slovní zásobu italštiny, uvidíte nějaký druh shody jedna ku jedné,“ nabízí Luo jako příklad. „Latinské slovo pro ‚pes‘ se pravděpodobně vyvine v italské slovo pro ‚pes‘ a latinské slovo pro ‚kočku‘ se pravděpodobně vyvine v italské slovo pro ‚kočku‘.“

K testování modelu tým použil několik datových sad. Přeložili starověký jazyk ugaritštinu do hebrejštiny, lineární B do řečtiny, a aby potvrdili účinnost modelu, provedl detekci příbuzných (slov se společným původem) v rámci románských jazyků španělštiny, italštiny a Portugalština.

Byl to první známý pokus o automatické dešifrování lineárního B a model úspěšně přeložil 67,3 % příbuzných. Systém se také zlepšil oproti předchozím modelům pro překlad ugaritštiny. Vzhledem k tomu, že jazyky pocházejí z různých rodin, ukazuje to, že model je flexibilní a také přesnější než předchozí systémy.

Budoucnost

Lineární A zůstává jednou z největších záhad jazyka a rozlousknutí tohoto prastarého oříšku by bylo a pozoruhodný počin pro A.I. Zatím, říká Luo, je něco takového pro pár čistě teoretické důvodů.

Za prvé, lineární A nabízí menší množství dat než i lineární B. Jde také o to zjistit, jaký druh skriptu Linear A dokonce je.

„Řekl bych, že jedinečnou výzvou pro Linear A je to, že máte spoustu obrázkových nebo logografických znaků nebo symbolů,“ říká Luo. "A obvykle, když máte hodně těchto symbolů, bude to mnohem těžší."

Brand X Pictures/Getty Images

Luo například srovnává angličtinu a čínštinu.

„Angličtina má 26 písmen, pokud nepočítáte velká písmena, a ruština má 33. Tyto systémy se nazývají abecední systémy. Takže stačí vymyslet mapu pro tyto 26 nebo 30 postav,“ říká.

"Ale pro Číňany se jich musíte vypořádat s tisíci," pokračuje. „Myslím, že odhad minimálního počtu znaků, které je třeba zvládnout jen pro čtení novin, by byl asi 3 000 nebo 5 000. Lineární A není čínština, ale kvůli svým obrazovým nebo logografickým symbolům a podobným věcem je rozhodně těžší než Lineární B.“

Ačkoli Linear A je stále nerozluštěný, úspěch nového přístupu MIT k dešifrování neurálních systémů v automatické dešifrování Linear B, které přesahuje potřebu paralelního korpusu, je slibné podepsat.

Doporučení redakce

  • AI proměnila Breaking Bad v anime – a je to děsivé
  • Analogové A.I.? Zní to šíleně, ale může to být budoucnost
  • Zde je to, co A.I. si myslí, že to bude další velká věc v technice
  • Budoucnost A.I.: 4 velké věci, na které je třeba se v příštích letech dívat
  • Algoritmická architektura: Měli bychom nechat A.I. navrhovat budovy pro nás?