Может ли А.И. Помогите разгадать тайну утраченных языков?

Франческо Риккардо Якомино/Getty Images

Есть много вещей, которые отличают людей от других видов, но одной из самых важных является язык. Способность соединять различные элементы в практически бесконечные комбинации — это черта, которая «в прошлом часто считалась основная определяющая черта современного человека, источник человеческого творчества, культурного обогащения и сложной социальной структуры», — как однажды сказал лингвист Ноам Хомский. сказал.

Содержание

  • Воскрешение мертвых (языки)
  • Будущее

Но как бы ни был важен язык в эволюции человека, мы еще многое не знаем о том, как развивался язык. Хотя мертвые языки, такие как латынь, имеют множество письменных источников и потомков, благодаря которым мы можем лучше их понять, некоторые языки потеряны для истории.

Рекомендуемые видео

Исследователям удалось реконструировать некоторые утраченные языки, но процесс их расшифровки может оказаться долгим. Например, древнее письмо, линейное письмо Б, было «разгадано» спустя полвека после его открытия, и некоторые из тех, кто работал над ним, не дожили до завершения работы. Более старая письменность, называемая линейным письмом А, системой письма минойской цивилизации, остается нерасшифрованной.

Связанный

  • Награды Digital Trends Tech For Change CES 2023
  • Забавная формула: Почему машинный юмор — это Святой Грааль искусственного интеллекта
  • Прочтите устрашающе красивое «синтетическое писание» ИИ. который думает, что это Бог

Однако в распоряжении современных лингвистов есть мощный инструмент: искусственный интеллект. Обучая А.И. чтобы найти закономерности в нерасшифрованных языках, исследователи могут реконструировать их, открывая тайны древнего мира. Недавний новый нейронный подход исследователей из Массачусетского технологического института (MIT) уже продемонстрировал успех в расшифровке линейного письма Б и однажды может привести к разгадке других потерянных языки.

Воскрешение мертвых (языки)

Подобно снятию шкуры с кошки, существует несколько способов расшифровать утраченный язык. В некоторых случаях язык не имеет письменных записей, поэтому лингвисты пытаются реконструировать его, прослеживая эволюцию звуков через его потомков. Так обстоит дело с протоиндоевропейским языком, гипотетическим предком многих языков Европы и Азии.

В других случаях археологи обнаруживают письменные свидетельства, как это было в случае с линейным письмом Б. После того, как археологи обнаружили таблички на острове Крит, исследователи десятилетиями ломали голову над надписями и в конечном итоге расшифровали их. К сожалению, в настоящее время это невозможно с линейным письмом А, поскольку у исследователей не так много исходного материала для изучения. Но, возможно, в этом нет необходимости.

Но английский и французский — живые языки, имеющие многовековое культурное перекрытие. Расшифровать утраченный язык гораздо сложнее.

Проект исследователей из Массачусетского технологического института иллюстрирует трудности дешифровки, а также потенциал искусственного интеллекта. совершить революцию в этой области. Исследователи разработали нейронный подход к расшифровке утраченных языков, «основанный на закономерностях изменения языка, зафиксированных в исторической лингвистике». Как подробно описано в документ 2019 года, в то время как предыдущий А.И. для расшифровки языков нужно было адаптироваться к конкретному языку, этого нет.

«Если вы посмотрите на любой коммерчески доступный переводчик или продукт для перевода», — говорит Цзямин Луо, руководитель Автор статьи говорит: «Все эти технологии имеют доступ к большому количеству того, что мы называем параллельными данные. Вы можете думать о них как о Розеттских камнях, но в очень большом количестве».

Параллельный корпус — это совокупность текстов на двух разных языках. Представьте себе, например, серию предложений на английском и французском языках. Даже если вы не знаете французский язык, сравнивая два набора и наблюдая закономерности, вы можете сопоставить слова на одном языке с эквивалентными словами на другом.

«Если вы научите человека делать это, если вы увидите более 40 с лишним миллионов параллельных предложений, — объясняет Луо, — я уверен, что вы сможете найти перевод».

Но английский и французский — живые языки, имеющие многовековое культурное перекрытие. Расшифровать утраченный язык гораздо сложнее.

«У нас нет такой роскоши, как параллельные данные», — объясняет Луо. «Поэтому нам приходится полагаться на некоторые конкретные лингвистические знания о том, как развивается язык, как слова превращаются в своих потомков».

Нейронное дешифрование/MIT

Чтобы создать модель, которую можно было бы использовать независимо от используемых языков, команда установила ограничения, основанные на тенденциях, которые можно наблюдать в процессе эволюции языков.

«Мы должны полагаться на два уровня понимания лингвистики», — говорит Луо. «Один из них находится на уровне персонажа, и это все, что мы знаем: когда слова развиваются, они обычно развиваются слева направо. Вы можете думать об этой эволюции как о струне. Так что, возможно, строка на латыни — это ABCDE, и, скорее всего, вы собирались изменить ее на ABD или ABC, вы все равно каким-то образом сохраните исходный порядок. Это то, что мы называем монотонностью».

На уровне словарного запаса (слов, составляющих язык) команда использовала технику, называемую «отображение один к одному».

«Это означает, что если вы вытащите весь словарный запас латыни и весь словарный запас итальянского языка, вы увидите какое-то взаимно однозначное совпадение», — предлагает Луо в качестве примера. «Латинское слово «собака», вероятно, эволюционирует в итальянское слово «собака», а латинское слово «кошка», вероятно, эволюционирует в итальянское слово «кошка».

Чтобы протестировать модель, команда использовала несколько наборов данных. Они перевели древний угаритский язык на иврит, линейное письмо Б на греческий и, чтобы подтвердить эффективность модели, выполнил обнаружение родственных слов (слов общего происхождения) в романских языках: испанском, итальянском и Португальский.

Это была первая известная попытка автоматической расшифровки линейного письма B, и модель успешно перевела 67,3% родственных слов. Система также усовершенствована по сравнению с предыдущими моделями перевода угаритского языка. Учитывая, что языки происходят из разных семейств, это демонстрирует, что модель является гибкой, а также более точной, чем предыдущие системы.

Будущее

Линейное письмо А остается одной из величайших загадок языка, и расколоть этот древний орех было бы непростой задачей. выдающийся подвиг А.И. На данный момент, говорит Луо, что-то подобное является чисто теоретическим, на пару причины.

Во-первых, линейное письмо А предлагает меньший объем данных, чем даже линейное письмо Б. Также необходимо выяснить, что вообще представляет собой линейное письмо А.

«Я бы сказал, что уникальная проблема линейного письма А заключается в том, что у вас много графических или логографических символов или символов», — говорит Луо. «И обычно, когда у вас много таких символов, это будет намного сложнее».

Бренд X Pictures/Getty Images

В качестве примера Луо сравнивает английский и китайский.

«В английском языке 26 букв, если не считать заглавных букв, а в русском — 33. Это так называемые алфавитные системы. Так что вам просто нужно придумать карту для этих 26 или 30 с чем-то персонажей», — говорит он.

«Но китайцам приходится иметь дело с тысячами из них», — продолжает он. «Я думаю, что минимальное количество символов, которое нужно освоить, чтобы просто прочитать газету, составит около 3000 или 5000. Линейное письмо А не китайское, но из-за графических или логографических символов и тому подобного оно определенно сложнее, чем линейное письмо Б».

Хотя линейное письмо А до сих пор не расшифровано, успех нового подхода к нейронному дешифрованию Массачусетского технологического института в автоматическая расшифровка линейного письма Б, выходя за рамки необходимости в параллельном корпусе, является многообещающей знак.

Рекомендации редакции

  • ИИ превратил «Во все тяжкие» в аниме — и это ужасно
  • Аналоговый ИИ? Это звучит безумно, но это может быть будущее
  • Вот что анализирует тенденции ИИ. думает, что это будет следующим большим достижением в сфере технологий
  • Будущее искусственного интеллекта: 4 важных события, на которые стоит обратить внимание в ближайшие несколько лет
  • Алгоритмическая архитектура: стоит ли позволять ИИ проектировать для нас здания?