Може ли А.И. Помозите у решавању мистерије изгубљених језика?

Францесцо Риццардо Иацомино/Гетти Имагес

Много је ствари које разликују људе од других врста, али једна од најважнијих је језик. Способност повезивања различитих елемената у суштински бесконачне комбинације је особина која се „често у прошлости сматрала језгро дефинишуће карактеристике модерних људи, извор људске креативности, културног обогаћивања и сложене друштвене структуре,” како је једном приликом лингвиста Ноам Чомски рекао.

Садржај

  • Васкрсавање мртвих (језици)
  • Будућност

Али колико год је језик био важан у еволуцији људи, још увек много тога не знамо о томе како је језик еволуирао. Док мртви језици попут латинског имају обиље писаних записа и потомака кроз које га можемо боље разумети, неки језици су изгубљени за историју.

Препоручени видео снимци

Истраживачи су успели да реконструишу неке изгубљене језике, али процес њиховог дешифровања може бити дуг. На пример, древно писмо Линеар Б је „решено” више од пола века након његовог открића, а неки од оних који су радили на њему нису доживели да дело буде завршено. Старије писмо под називом Линеар А, систем писања минојске цивилизације, остаје недешифровано.

Повезан

  • Дигитал Трендс’ Тецх Фор Цханге ЦЕС 2023 награде
  • Смешна формула: Зашто је хумор генерисан машинама свети грал А.И.
  • Прочитајте сабласно лепе „синтетичке списе“ АИ. који мисли да је то Бог

Међутим, савремени лингвисти имају на располагању моћно оруђе: вештачку интелигенцију. Обуком А.И. да би лоцирали обрасце на недешифрованим језицима, истраживачи их могу реконструисати, откључавајући тајне древног света. Недавни, нови неуронски приступ истраживача са Технолошког института у Масачусетсу (МИТ). већ показао успех у дешифровању Линеар Б, и могао би једног дана да доведе до решавања других изгубљених језика.

Васкрсавање мртвих (језици)

Слично као да скинете кожу с мачке, постоји више од једног начина да се декодира изгубљени језик. У неким случајевима, језик нема писане записе, па лингвисти покушавају да га реконструишу пратећи еволуцију гласова преко његових потомака. Такав је случај са протоиндоевропским, хипотетичким претком бројних језика широм Европе и Азије.

У другим случајевима, археолози откривају писане записе, што је био случај са линеаром Б. Након што су археолози открили плоче на острву Крит, истраживачи су провели деценије збуњујући списе, на крају их дешифрујући. Нажалост, ово тренутно није могуће са Линеар А, јер истраживачи немају ни приближно толико изворног материјала за проучавање. Али то можда није потребно.

Али енглески и француски су живи језици са вековима културног преклапања. Дешифровање изгубљеног језика је далеко теже.

Пројекат истраживача са МИТ-а илуструје потешкоће дешифровања, као и потенцијал А.И. да револуционише област. Истраживачи су развили неуронски приступ дешифровању изгубљених језика „на основу образаца у промени језика документованих у историјској лингвистици“. Као што је детаљно описано у рад из 2019, док је претходни А.И. јер је дешифровање језика морало бити прилагођено одређеном језику, овај не.

„Ако погледате било који комерцијално доступан преводилац или преводилачки производ“, каже Јиаминг Луо, главни аутора у раду, „све ове технологије имају приступ великом броју онога што називамо паралелним података. Можете их сматрати Росетта Стонес, али у веома великој количини.

Паралелни корпус је збирка текстова на два различита језика. Замислите, на пример, низ реченица и на енглеском и на француском. Чак и ако не знате француски, упоређивањем ова два скупа и посматрањем образаца, можете мапирати речи на једном језику у еквивалентне речи у другом.

„Ако обучите човека да то ради, ако видите 40-плус милиона паралелних реченица,” објашњава Луо, „уверен сам да ћете моћи да смислите превод.”

Али енглески и француски су живи језици са вековима културног преклапања. Дешифровање изгубљеног језика је далеко теже.

„Немамо тај луксуз паралелних података“, објашњава Луо. „Дакле, морамо се ослонити на неко специфично лингвистичко знање о томе како се језик развија, како речи еволуирају у своје потомке.

Неурално дешифровање/МИТ

Да би се створио модел који би се могао користити без обзира на језике који су укључени, тим је поставио ограничења на основу трендова који се могу посматрати кроз еволуцију језика.

„Морамо се ослонити на два нивоа увида у лингвистику“, каже Луо. „Један је на нивоу карактера, што је све што знамо да када речи еволуирају, обично се развијају с лева на десно. О овој еволуцији можете размишљати као о некој врсти струне. Дакле, можда је стринг на латиници АБЦДЕ који сте највероватније желели да промените у АБД или АБЦ, и даље ћете на неки начин сачувати оригинални редослед. То је оно што ми називамо монотоним."

На нивоу речника (речи које чине језик), тим је користио технику под називом „један на један мапирање“.

„То значи да ако извучете цео речник латинског и извучете цео речник италијанског, видећете неку врсту подударања један на један“, нуди Луо као пример. „Латинска реч за 'пас' ће се вероватно развити у италијанску реч за 'пас', а латинска реч за 'мачку' ће вероватно еволуирати у италијанску реч за 'мачку'."

Да би тестирао модел, тим је користио неколико скупова података. Превели су древни језик угаритски на хебрејски, линеарни Б на грчки, и да би потврдили ефикасност модела, извршио сродну детекцију (речи заједничког порекла) у оквиру романских језика шпанског, италијанског и португалски.

Био је то први познати покушај да се аутоматски дешифрује линеарна Б, а модел је успешно превео 67,3% сродних. Систем је такође побољшан у односу на претходне моделе за превођење угаритског. С обзиром да језици потичу из различитих породица, то показује да је модел флексибилан, као и тачнији од претходних система.

Будућност

Линеар А остаје једна од великих мистерија језика, а разбијање тог древног ораха би било а изузетан подвиг за А.И. За сада, каже Луо, тако нешто је потпуно теоретски, за пар разлозима.

Прво, Линеар А нуди мању количину података него чак и Линеар Б. Ту је и питање да се открије каква је врста скрипте чак и Линеар А.

„Рекао бих да је јединствени изазов за Линеар А то што имате много сликовних или логографских знакова или симбола“, каже Луо. "И обично када имате пуно ових симбола, биће много теже."

Бренд Кс Пицтурес/Гетти Имагес

Као пример, Луо упоређује енглески и кинески.

„Енглески има 26 слова ако се не рачунају велика, а руски 33. Они се називају алфабетски системи. Дакле, само морате да смислите мапу за ове ликове од 26 или 30 година“, каже он.

„Али за Кинезе, морате да се носите са хиљадама њих“, наставља он. „Мислим да би процена минималног броја знакова које треба савладати само да бисте прочитали новине била око 3.000 или 5.000. Линеар А није кинески, али због својих сликовних или логографских симбола и сличних ствари, дефинитивно је тежи од Линеар Б.

Иако је линеарни А још увек недешифрован, успех МИТ-овог новог приступа неуронском дешифровању у аутоматско дешифровање Линеар Б, превазилажење потребе за паралелним корпусом, обећава знак.

Препоруке уредника

  • АИ је претворио Бреакинг Бад у аниме - и то је застрашујуће
  • Аналогни А.И.? Звучи лудо, али то би могла бити будућност
  • Ево шта АИ анализира трендове. мисли да ће бити следећа велика ствар у техници
  • Будућност АИ: 4 велике ствари на које треба обратити пажњу у наредних неколико година
  • Алгоритамска архитектура: треба ли дозволити А.И. дизајнирати зграде за нас?