Чи може А.І. Допомогти розгадати таємницю втрачених мов?

Франческо Ріккардо Якоміно/Getty Images

Є багато речей, які відрізняють людей від інших видів, але одна з найважливіших — мова. Здатність об’єднувати різні елементи в фактично нескінченні комбінації – це риса, яку «в минулому часто вважали головною визначальною рисою сучасної людини, джерелом людської творчості, культурного збагачення та складної соціальної структури», як сказав лінгвіст Ноам Хомський сказав.

Зміст

  • Воскресіння мертвих (мови)
  • Майбутнє

Але якою б важливою була мова в еволюції людини, ми все ще багато чого не знаємо про те, як мова розвивалася. У той час як мертві мови, такі як латинська, мають безліч письмових записів і нащадків, завдяки яким ми можемо краще їх зрозуміти, деякі мови втрачені для історії.

Рекомендовані відео

Дослідникам вдалося реконструювати деякі втрачені мови, але процес їх розшифровки може бути тривалим. Наприклад, стародавнє письмо Лінійний B було «розгадано» через півстоліття після його відкриття, і деякі з тих, хто над ним працював, не дожили до завершення роботи. Старіша писемність під назвою Лінійний А, система письма Мінойської цивілізації, залишається нерозшифрованою.

Пов'язані

  • Нагороди Digital Trends Tech For Change CES 2023
  • Смішна формула: чому гумор, створений машиною, є святим Граалем А.І.
  • Прочитайте моторошно красиве «синтетичне писання» штучного інтелекту. що думає, що це Бог

Однак сучасні лінгвісти мають у своєму розпорядженні потужний інструмент: штучний інтелект. За навчанням А.І. щоб знайти закономірності в нерозшифрованих мовах, дослідники можуть реконструювати їх, розкриваючи таємниці стародавнього світу. Недавній новий нейронний підхід дослідників з Массачусетського технологічного інституту (MIT). вже показали успіх у розшифровці Лінійного В, і одного дня можуть призвести до вирішення інших втрачених мови.

Воскресіння мертвих (мови)

Подібно до того, як зняти шкіру з кота, існує більше ніж один спосіб розшифрувати втрачену мову. У деяких випадках мова не має письмових пам’яток, тому лінгвісти намагаються реконструювати її, простежуючи еволюцію звуків через її нащадків. Такий випадок з протоіндоєвропейською мовою, гіпотетичним предком багатьох мов у Європі та Азії.

В інших випадках археологи знаходять письмові пам’ятки, як це було у випадку з лінійним листом B. Після того, як археологи виявили таблички на острові Крит, дослідники десятиліттями ламали голови над письменами, зрештою розшифрувавши їх. На жаль, наразі це неможливо з Лінійним А, оскільки дослідники не мають майже стільки вихідного матеріалу для вивчення. Але це може не знадобитися.

Але англійська та французька є живими мовами з століттями культурного перетинання. Розшифрувати втрачену мову набагато складніше.

Проект дослідників з Массачусетського технологічного інституту ілюструє труднощі дешифрування, а також потенціал штучного інтелекту. революціонізувати сферу. Дослідники розробили нейронний підхід до розшифровки втрачених мов, «що базується на шаблонах мовних змін, задокументованих в історичній лінгвістиці». Як детально в документ 2019 року, тоді як попередні А.І. для розшифровки мов потрібно було пристосувати до конкретної мови, але цього немає.

«Якщо ви подивитесь на будь-який комерційно доступний перекладач або продукт для перекладу», — каже Jiaming Luo, лідер автор статті, «усі ці технології мають доступ до великої кількості того, що ми називаємо паралельним даних. Ви можете думати про них як про Розеттські камені, але у дуже великій кількості».

Паралельний корпус — це збірка текстів двома різними мовами. Уявіть, наприклад, ряд речень англійською та французькою мовами. Навіть якщо ви не знаєте французької мови, порівнюючи два набори та спостерігаючи за закономірностями, ви можете відобразити слова однієї мови на еквівалентні слова іншої.

«Якщо ви навчите людину робити це, якщо побачите понад 40 мільйонів паралельних речень, — пояснює Ло, — я впевнений, що ви зможете зрозуміти переклад».

Але англійська та французька є живими мовами з століттями культурного перетинання. Розшифрувати втрачену мову набагато складніше.

«У нас немає такої розкоші паралельних даних», — пояснює Луо. «Тож ми маємо покладатися на деякі конкретні лінгвістичні знання про те, як розвивається мова, як слова еволюціонують у своїх нащадків».

Нейронне дешифрування/MIT

Щоб створити модель, яку можна було б використовувати незалежно від залучених мов, команда встановила обмеження на основі тенденцій, які можна спостерігати в еволюції мов.

«Ми повинні покладатися на два рівні розуміння лінгвістики», — каже Луо. «Один — на рівні персонажа, і це все, що ми знаємо, що коли слова розвиваються, вони зазвичай розвиваються зліва направо. Ви можете думати про цю еволюцію як про струну. Тож, можливо, рядок латиницею є ABCDE, який, швидше за все, ви збиралися змінити на ABD або ABC, ви все одно збережете оригінальний порядок. Це те, що ми називаємо монотонним».

На рівні лексики (слів, які складають мову) команда використала техніку під назвою «відображення один до одного».

«Це означає, що якщо ви витягнете весь словниковий запас латинської мови та весь словниковий запас італійської, ви побачите певну відповідність один до одного», — наводить Луо як приклад. «Латинське слово «собака», ймовірно, перетвориться на італійське слово «собака», а латинське слово «кішка», ймовірно, перетвориться на італійське слово «кішка»».

Щоб перевірити модель, команда використала кілька наборів даних. Вони переклали стародавню угаритську мову на іврит, лінійний літер B на грецьку, і щоб підтвердити ефективність моделі, здійснив виявлення споріднених (слів зі спільним походженням) у романських мовах іспанській, італійській та португальська.

Це була перша відома спроба автоматично розшифрувати Лінійний В, і модель успішно переклала 67,3% споріднених символів. Система також вдосконалена порівняно з попередніми моделями для перекладу угаритської мови. Враховуючи те, що мови походять із різних сімей, це демонструє, що модель є гнучкою, а також більш точною, ніж попередні системи.

Майбутнє

Лінійка А залишається однією з найбільших загадок мови, і розколоти цей стародавній горіх було б а видатний подвиг А.І. Наразі, каже Луо, щось подібне є цілком теоретичним для пари причини.

По-перше, лінійний A пропонує меншу кількість даних, ніж навіть лінійний B. Крім того, необхідно з’ясувати, що таке сценарій Linear A.

«Я б сказав, що унікальна проблема для Linear A полягає в тому, що у вас є багато графічних або логографічних персонажів або символів», — каже Луо. «І зазвичай, коли у вас багато цих символів, це буде набагато складніше».

Brand X Pictures/Getty Images

Як приклад Луо порівнює англійську та китайську.

«В англійській мові 26 букв, якщо не рахувати великих літер, а в російській — 33. Це так звані алфавітні системи. Тож вам просто потрібно придумати карту для цих 26 чи 30 із чимось символів», — каже він.

«Але китайцям доводиться мати справу з тисячами», — продовжує він. «Я думаю, що мінімальна кількість символів, яку потрібно оволодіти лише для читання газети, становить приблизно 3000 або 5000. Лінійний лист А не є китайським, але через його графічні чи логографічні символи тощо він безперечно важчий, ніж Лінійний текст Б».

Хоча Лінійний А досі не розшифрований, успіх нового підходу нейронного дешифрування Массачусетського технологічного інституту в автоматичне розшифровування Лінійного В, виходячи за межі необхідності паралельного корпусу, є багатообіцяючим знак.

Рекомендації редакції

  • AI перетворив Breaking Bad на аніме — і це жахає
  • Аналоговий ШІ? Це звучить божевільно, але це може бути майбутнє
  • Ось що аналізує тенденції A.I. думає, що це буде наступна велика річ у техніці
  • Майбутнє штучного інтелекту: 4 важливі речі, на які варто звернути увагу в найближчі кілька років
  • Алгоритмічна архітектура: чи повинні ми дозволити А.І. проектувати будівлі для нас?