A.I. 잃어버린 언어의 미스터리를 해결하는 데 도움을 주실 수 있나요?

프란체스코 리카르도 Iacomino/게티 이미지

인간을 다른 종과 구별하는 많은 것들이 있지만, 가장 중요한 것 중 하나는 언어입니다. 본질적으로 무한한 조합으로 다양한 요소를 하나로 묶는 능력은 "과거에는 종종 현대인의 특징을 정의하는 핵심이자 인간 창의성, 문화적 풍요, 복잡한 사회 구조의 원천이다.” 언어학자 노암 촘스키(Noam Chomsky)는 한때 이렇게 말했습니다. 말했다.

내용물

  • 죽은 사람을 부활시키다(언어)
  • 미래

그러나 인간의 진화에서 언어가 중요한 만큼, 언어가 어떻게 진화했는지에 대해 우리가 아직 모르는 것이 많습니다. 라틴어와 같은 죽은 언어에는 우리가 더 잘 이해할 수 있는 풍부한 기록과 후손이 있지만 일부 언어는 역사 속으로 사라졌습니다.

추천 동영상

연구자들은 일부 잃어버린 언어를 재구성할 수 있었지만 이를 해독하는 과정은 오랜 시간이 걸릴 수 있습니다. 예를 들어, 고대 문자 선형 B는 발견된 지 반세기가 지나서 "해결"되었으며, 그 작업을 수행한 일부 사람들은 작업이 완료되는 것을 보지 못하고 살아갔습니다. 미노아 문명의 문자 체계인 선형 A(Linear A)라는 오래된 문자는 아직 해독되지 않은 상태로 남아 있습니다.

관련된

  • 디지털 트렌드의 변화를 위한 기술 CES 2023 어워드
  • 재미있는 공식: 기계가 생성한 유머가 AI의 성배인 이유
  • AI의 섬뜩할 정도로 아름다운 '종합 성서'를 읽어보세요. 그게 신이라고 생각하는 거야

그러나 현대 언어학자들은 인공지능이라는 강력한 도구를 갖고 있습니다. AI 훈련을 통해 해독되지 않은 언어의 패턴을 찾기 위해 연구자들은 패턴을 재구성하여 고대 세계의 비밀을 밝힐 수 있습니다. 매사추세츠 공과대학(MIT) 연구진이 최근 실시한 새로운 신경 접근법은 다음과 같습니다. 이미 선형 B를 해독하는 데 성공을 보였으며 언젠가는 다른 잃어버린 문제를 해결하는 데 도움이 될 수 있습니다. 언어.

죽은 사람을 부활시키다(언어)

고양이 가죽을 벗기는 것과 마찬가지로, 잃어버린 언어를 해독하는 방법은 여러 가지가 있습니다. 어떤 경우에는 언어에 문자 기록이 없기 때문에 언어학자들은 그 후손을 통해 소리의 진화를 추적하여 언어를 재구성하려고 합니다. 유럽과 아시아를 통과하는 수많은 언어의 가상 조상인 인도유럽조어의 경우도 마찬가지입니다.

다른 경우에는 고고학자들이 문자 기록을 발굴했는데, 이는 Linear B의 경우였습니다. 고고학자들이 크레타 섬에서 서판을 발견한 후, 연구자들은 수십 년 동안 그 기록에 대해 수수께끼를 풀다가 결국 그것을 해독했습니다. 불행하게도 연구원들이 연구할 소스 자료가 거의 없기 때문에 현재 선형 A에서는 이것이 불가능합니다. 그러나 그것은 필요하지 않을 수도 있습니다.

그러나 영어와 프랑스어는 수세기에 걸쳐 문화적 중복이 있는 살아있는 언어입니다. 잃어버린 언어를 해독하는 것은 훨씬 더 까다롭습니다.

MIT 연구원들의 프로젝트는 해독의 어려움과 AI의 잠재력을 보여줍니다. 분야에 혁명을 일으키기 위해. 연구자들은 "역사 언어학에 기록된 언어 변화의 패턴을 바탕으로" 잃어버린 언어를 해독하기 위한 신경적 접근 방식을 개발했습니다. 자세히 설명된 대로 2019년 논문, 이전 A.I. 언어 해독은 특정 언어에 맞게 조정되어야 했지만 이번은 그렇지 않습니다.

“시중에서 판매되는 번역기나 번역 제품을 보면” 리드인 Jiaming Luo가 말합니다. 논문의 저자는 “이러한 모든 기술은 우리가 병렬이라고 부르는 수많은 기술에 액세스할 수 있습니다. 데이터. 로제타 스톤이라고 생각하면 되지만 그 양은 매우 많습니다.”

병렬 코퍼스는 두 가지 다른 언어로 된 텍스트 모음입니다. 예를 들어, 영어와 프랑스어로 된 일련의 문장을 상상해 보세요. 프랑스어를 모르더라도 두 세트를 비교하고 패턴을 관찰하면 한 언어의 단어를 다른 언어의 해당 단어에 매핑할 수 있습니다.

Luo는 "이 작업을 수행하도록 인간을 훈련시키면 4천만 개가 넘는 평행 문장을 볼 수 있다면 번역을 알아낼 수 있을 것이라고 확신합니다"라고 설명합니다.

그러나 영어와 프랑스어는 수세기에 걸쳐 문화적 중복이 있는 살아있는 언어입니다. 잃어버린 언어를 해독하는 것은 훨씬 더 까다롭습니다.

Luo는 “우리는 병렬 데이터라는 사치를 누리고 있지 않습니다.”라고 설명합니다. "그래서 우리는 언어가 어떻게 진화하는지, 단어가 어떻게 후손으로 진화하는지에 대한 특정 언어 지식에 의존해야 합니다."

신경해독/MIT

관련된 언어에 관계없이 사용할 수 있는 모델을 만들기 위해 팀은 언어의 진화를 통해 관찰할 수 있는 추세를 기반으로 제약 조건을 설정했습니다.

“우리는 언어학에 대한 두 가지 수준의 통찰력에 의존해야 합니다.”라고 Luo는 말합니다. “하나는 문자 수준에 있는데, 단어가 진화할 때 일반적으로 왼쪽에서 오른쪽으로 진화한다는 것이 우리가 아는 전부입니다. 이 진화를 일종의 문자열처럼 생각할 수 있습니다. 따라서 라틴어 문자열은 ABCDE이므로 이를 ABD 또는 ABC로 변경할 가능성이 높지만 여전히 원래 순서를 유지합니다. 그것이 우리가 단조롭다고 부르는 것입니다.”

어휘(언어를 구성하는 단어) 수준에서는 '일대일 매핑'이라는 기술을 사용했습니다.

Luo는 예를 들어 "즉, 라틴어의 전체 어휘를 ​​꺼내고 이탈리아어의 전체 어휘를 ​​뽑아내면 일종의 일대일 일치를 볼 수 있다는 의미입니다."라고 말합니다. "'개'에 대한 라틴어 단어는 아마도 '개'를 의미하는 이탈리아어 단어로 진화할 것이고, '고양이'에 대한 라틴어 단어는 아마도 '고양이'를 의미하는 이탈리아어 단어로 진화할 것입니다."

모델을 테스트하기 위해 팀에서는 몇 가지 데이터세트를 사용했습니다. 그들은 고대 언어인 우가리트어를 히브리어로, 선형 B를 그리스어로 번역했으며 모델의 효능을 확인하기 위해 로망스어인 스페인어, 이탈리아어 및 내에서 동족(공통 조상을 가진 단어) 탐지를 수행했습니다. 포르투갈 인.

이는 선형 B를 자동으로 해독하려는 최초의 알려진 시도였으며 모델은 동족어의 67.3%를 성공적으로 번역했습니다. 이 시스템은 또한 우가리트어 번역을 위한 이전 모델보다 개선되었습니다. 언어가 서로 다른 계열에서 유래했다는 점을 고려하면 모델이 유연하고 이전 시스템보다 더 정확하다는 것을 보여줍니다.

미래

선형 A는 언어의 가장 큰 미스터리 중 하나로 남아 있으며, 그 고대 너트를 깨는 것은 AI의 놀라운 업적 Luo는 현재로서는 그런 것이 전적으로 이론적인 것이라고 말합니다. 원인.

첫째, 선형 A는 선형 B보다 더 적은 양의 데이터를 제공합니다. Linear A가 어떤 종류의 스크립트인지 알아내는 문제도 있습니다.

Luo는 “Linear A의 독특한 과제는 그림이나 로고 문자 또는 기호가 많다는 것입니다.”라고 말합니다. "그리고 일반적으로 이러한 기호가 많으면 훨씬 더 어려울 것입니다."

브랜드 X 픽쳐스/게티 이미지

예를 들어 Luo는 영어와 중국어를 비교합니다.

“대소문자를 제외하면 영어는 26자이고 러시아어는 33자입니다. 이를 알파벳 시스템이라고 합니다. 따라서 26~30대 캐릭터에 대한 지도를 찾으면 됩니다.”라고 그는 말합니다.

“그러나 중국인의 경우 수천 명을 상대해야 합니다.”라고 그는 계속합니다. “신문을 읽는 것만으로도 익힐 수 있는 최소한의 문자 수는 3,000~5,000개 정도라고 생각합니다. 리니어A는 중국어는 아니지만 그림이나 로고그래픽 기호 등으로 인해 리니어B보다 확실히 어렵습니다.”

선형 A는 아직 해독되지 않았지만 MIT의 새로운 신경 해독 접근법이 성공을 거두었습니다. 병렬 코퍼스의 필요성을 넘어서 선형 B를 자동으로 해독하는 것은 유망한 것입니다. 징후.

편집자의 추천

  • AI가 Breaking Bad를 애니메이션으로 만들었습니다. 정말 끔찍합니다.
  • 아날로그 AI? 이상하게 들리겠지만, 미래일 수도 있습니다
  • 추세 분석 AI는 다음과 같습니다. 기술 분야에서 차세대 혁신이 될 것이라고 생각합니다.
  • AI의 미래: 향후 몇 년 동안 주목해야 할 4가지 주요 사항
  • 알고리즘 아키텍처: A.I. 우리를 위한 건물 디자인?