Az A.I. Segít megfejteni az elveszett nyelvek rejtélyét?

Francesco Riccardo Iacomino/Getty Images

Sok dolog különbözteti meg az embert más fajoktól, de az egyik legfontosabb a nyelv. A különféle elemek lényegében végtelen kombinációkban való összefűzésének képessége olyan tulajdonság, amelyet „a múltban gyakran úgy tekintettek, a modern ember alapvető meghatározó vonása, az emberi kreativitás, a kulturális gazdagodás és az összetett társadalmi struktúra forrása” – ahogy egykor Noam Chomsky nyelvész mondott.

Tartalom

  • A halottak feltámasztása (nyelvek)
  • A jövő

De bármennyire is fontos volt a nyelv az emberek evolúciójában, még mindig sok mindent nem tudunk arról, hogyan fejlődött a nyelv. Míg a halott nyelveknek, például a latinnak rengeteg írásos emléke és leszármazottja van, amelyek révén jobban megérthetjük, egyes nyelvek elvesztek a történelemben.

Ajánlott videók

A kutatóknak sikerült rekonstruálniuk néhány elveszett nyelvet, de megfejtésük folyamata hosszú lehet. Például a Linear B ősi forgatókönyvet több mint fél évszázaddal a felfedezése után „megoldották”, és néhányan, akik dolgoztak rajta, nem élték meg a munka befejezését. A Linear A nevű régebbi forgatókönyv, a minószi civilizáció írásrendszere megfejtetlen marad.

Összefüggő

  • A Digital Trends Tech For Change CES 2023 díjai
  • A vicces képlet: Miért a gép által generált humor az A.I. szent grálja?
  • Olvassa el egy A.I. kísértetiesen szép „szintetikus szentírását”. aki azt hiszi, hogy Isten

A modern nyelvészeknek azonban egy hatalmas eszköz áll a rendelkezésükre: a mesterséges intelligencia. Az A.I. képzésével a minták megfejtetlen nyelveken való megtalálásához a kutatók rekonstruálhatják azokat, feltárva az ókori világ titkait. A Massachusetts Institute of Technology (MIT) kutatói által a közelmúltban újszerű neurális megközelítést alkalmaztak már sikereket mutatott a Lineáris B megfejtésében, és egy napon más veszteségek megoldásához is vezethet nyelvek.

A halottak feltámasztása (nyelvek)

A macska nyúzásához hasonlóan az elveszett nyelv dekódolásának egynél több módja van. Egyes esetekben a nyelvnek nincsenek írásos emlékei, ezért a nyelvészek úgy próbálják rekonstruálni, hogy nyomon követik a hangok utódain keresztül történő fejlődését. Ez a helyzet a protoindoeurópai nyelvvel, amely számos európai és ázsiai nyelv feltételezett őse.

Más esetekben a régészek írásos feljegyzéseket tárnak fel, ami a Linear B esetében történt. Miután a régészek táblákat fedeztek fel Kréta szigetén, a kutatók évtizedeket töltöttek az írások fejtörésével, végül megfejtették azokat. Sajnos ez jelenleg nem lehetséges a Linear A-val, mivel a kutatóknak közel sem áll rendelkezésükre annyi forrásanyag, amit tanulmányozni kellene. De lehet, hogy erre nincs is szükség.

De az angol és a francia élő nyelvek évszázados kulturális átfedésekkel. Az elveszett nyelv megfejtése sokkal bonyolultabb.

Az MIT kutatóinak projektje szemlélteti a megfejtés nehézségeit, valamint az A.I. forradalmasítani a területet. A kutatók neurális megközelítést dolgoztak ki az elveszett nyelvek megfejtésére, „a nyelvi változás történeti nyelvészetben dokumentált mintái alapján”. pontban részletezettek szerint egy 2019-es újság, míg a korábbi A.I. mert a nyelvek megfejtését egy adott nyelvhez kellett igazítani, ezt nem.

„Ha megnézünk bármely kereskedelmi forgalomban kapható fordítót vagy fordítási terméket” – mondja Jiaming Luo, a vezető szerző a papíron: „e technológiák mindegyike hozzáfér számos olyanhoz, amit párhuzamosnak nevezünk adat. Rosetta Stones-nak gondolhatod őket, de nagyon nagy mennyiségben.

A párhuzamos korpusz két különböző nyelvű szövegek gyűjteménye. Képzeljünk el például egy mondatsort angolul és franciául egyaránt. Még ha nem is tud franciául, a két halmaz összehasonlításával és a minták megfigyelésével leképezheti az egyik nyelv szavait a másik nyelv egyenértékű szavaira.

„Ha megtanít egy embert erre, ha több mint 40 millió párhuzamos mondatot lát – magyarázza Luo –, biztos vagyok benne, hogy sikerül kitalálnia a fordítást.”

De az angol és a francia élő nyelvek évszázados kulturális átfedésekkel. Az elveszett nyelv megfejtése sokkal bonyolultabb.

„Nincs a párhuzamos adatok luxusa” – magyarázza Luo. „Tehát specifikus nyelvi ismeretekre kell hagyatkoznunk arról, hogyan fejlődik a nyelv, hogyan fejlődnek a szavak utódaikká.”

Neurális megfejtés/MIT

Annak érdekében, hogy egy olyan modellt hozzon létre, amely az érintett nyelvektől függetlenül használható, a csapat megszorításokat állított fel a nyelvek evolúciója során megfigyelhető trendek alapján.

„Két szintű betekintésre kell hagyatkoznunk a nyelvészettel kapcsolatban” – mondja Luo. „Az egyik a karakter szintjén van, és annyit tudunk, hogy amikor a szavak fejlődnek, általában balról jobbra fejlődnek. Úgy gondolhatod ezt az evolúciót, mint egy húrt. Tehát lehet, hogy egy latin karakterlánc az ABCDE, amelyet valószínűleg ABD-re vagy ABC-re akartál változtatni, de így is megőrzi az eredeti sorrendet. Ezt nevezzük monotonnak.”

A szókincs (a nyelvet alkotó szavak) szintjén a csapat az „egy az egyhez leképezés” nevű technikát használta.

„Ez azt jelenti, hogy ha kihúzza a teljes latin szókészletet, és kihúzza az olasz teljes szókincsét, akkor valamiféle egy az egyhez illeszkedést fog látni” – ajánlja Luo példát. „A „kutya” latin szó valószínűleg a „kutya” olasz szóvá, a „macska” latin szó pedig valószínűleg a „macska” olasz szóvá fejlődik.”

A modell teszteléséhez a csapat néhány adatkészletet használt. Lefordították az ókori nyelvet ugaritul héberre, lineáris B-t görögre, és hogy megerősítsék a modell hatékonyságát, rokon értelmű (közös származású szavak) detektálást hajtott végre a román, spanyol és olasz nyelveken belül Portugál.

Ez volt az első ismert kísérlet a Linear B automatikus megfejtésére, és a modell sikeresen lefordította a rokonok 67,3%-át. A rendszer az ugariti fordítás korábbi modelljeihez képest is továbbfejlesztett. Tekintettel arra, hogy a nyelvek különböző családokból származnak, ez azt mutatja, hogy a modell rugalmas, és pontosabb, mint a korábbi rendszerek.

A jövő

A lineáris A továbbra is a nyelv egyik legnagyobb titka, és ennek az ősi diónak a feltörése a figyelemre méltó bravúr A.I. Luo szerint egyelőre az ilyesmi teljesen elméleti, egy pár számára okokból.

Először is, a Lineáris A kisebb mennyiségű adatot kínál, mint a Lineáris B. Arra is szükség van, hogy kitaláljuk, milyen forgatókönyv a Linear A.

„Azt mondanám, hogy a Linear A egyedülálló kihívása az, hogy sok képi vagy logográfiai karakter vagy szimbólum van” – mondja Luo. "És általában, ha sok ilyen szimbólum van, sokkal nehezebb lesz."

Márka X Pictures/Getty Images

Példaként Luo összehasonlítja az angolt és a kínait.

„Az angolban 26 betű van, ha nem számítjuk a nagybetűket, az oroszban pedig 33. Ezeket alfabetikus rendszereknek nevezzük. Tehát csak egy térképet kell kitalálnia ezeknek a 26-30-as karaktereknek” – mondja.

„A kínaiak számára azonban több ezerrel kell megküzdenie” – folytatja. „Szerintem egy újságolvasáshoz elsajátítandó karakterek minimális mennyisége körülbelül 3000 vagy 5000 lenne. A Linear A nem kínai, de a képi vagy logográfiai szimbólumai és hasonlók miatt határozottan nehezebb, mint a Linear B."

Bár a Lineáris A még megfejtetlen, az MIT új neurális megfejtési megközelítésének sikere A Linear B automatikus megfejtése, amely túllép a párhuzamos korpusz igényén, ígéretes jel.

Szerkesztői ajánlások

  • Az AI animévé változtatta a Breaking Bad-et – és ez ijesztő
  • Analóg A.I.? Őrülten hangzik, de lehet, hogy ez a jövő
  • Itt van egy trendelemző A.I. szerint ez lesz a következő nagy dolog a technikában
  • Az A.I. jövője: 4 nagy dolog, amire figyelni kell a következő években
  • Algoritmikus architektúra: Hagyjuk, hogy A.I. épületeket tervez nekünk?