A.I.はできますか? 失われた言語の謎を解くのに協力しませんか?

フランチェスコ・リッカルド・イアコミノ/ゲッティイメージズ

人間を他の種と区別するものはたくさんありますが、最も重要なものの 1 つは言語です。 さまざまな要素を本質的に無限の組み合わせでつなぎ合わせる能力は、「これまではしばしば、 現代人の核となる特徴、人間の創造性、文化の豊かさ、複雑な社会構造の源である」と言語学者のノーム・チョムスキーがかつて語った 言った。

コンテンツ

  • 死者の復活(言語)
  • 未来

しかし、人類の進化において言語が重要であるのと同じくらい、言語がどのように進化したのかについては、まだわかっていないことがたくさんあります。 ラテン語のような死んだ言語には、それをより深く理解するための文字による記録や子孫が豊富にありますが、一部の言語は歴史の中に失われています。

おすすめ動画

研究者たちはいくつかの失われた言語を復元することに成功しましたが、解読のプロセスは長期にわたる可能性があります。 たとえば、古代の文字 Linear B は、発見から半世紀以上経って「解決」されましたが、それに取り組んだ人の中には、その作品が完成するまで生きていない人もいました。 ミノア文明の文字体系である Linear A と呼ばれる古い文字は、未解読のままです。

関連している

  • Digital Trends の Tech For Change CES 2023 アワードを受賞
  • 面白い公式: なぜ機械が生成するユーモアが A.I. の聖杯なのか
  • 不気味に美しい AI の「合成聖典」を読んでください。 それは神だと思っている

しかし、現代の言語学者は自由に使える強力なツール、つまり人工知能を持っています。 AIを訓練することで、 未解読の言語のパターンを見つけるために、研究者はそれらを再構築し、古代世界の秘密を解き明かすことができます。 マサチューセッツ工科大学 (MIT) の研究者らによる最近の新しいニューラル アプローチは、 すでにリニアBの解読に成功していることが示されており、いつか他の失われた謎の解決につながる可能性がある 言語。

死者の復活(言語)

猫の皮を剥ぐのと同じように、失われた言語を解読する方法は複数あります。 場合によっては、この言語には文字による記録が残っていないため、言語学者はその子孫を通じて音の進化をたどることによって言語を再構築しようとします。 ヨーロッパやアジアに伝わる数多くの言語の仮説上の祖先である印欧祖語も同様です。

他のケースでは、考古学者が文字による記録を発掘します。これはリニア B の場合でした。 考古学者がクレタ島で石板を発見した後、研究者たちは何十年もかけてその文字を謎め、最終的に解読に成功した。 残念ながら、研究者には研究すべきソース資料がほとんどないため、これは現在リニア A では不可能です。 しかし、それは必要ないかもしれません。

しかし、英語とフランス語は何世紀にもわたって文化的に重複してきた生きた言語です。 失われた言語を解読するのははるかに困難です。

MIT の研究者らによるプロジェクトは、解読の難しさと AI の可能性を示しています。 分野に革命を起こすために。 研究者らは、「歴史言語学に記録されている言語変化のパターンに基づいて」失われた言語を解読するための神経的アプローチを開発した。 で詳しく説明されているように、 2019年の論文、以前のA.I. 言語の解読は特定の言語に合わせて調整する必要があるため、この言語ではその必要がありません。

「市販の翻訳機や翻訳製品を見てみると」とリーダーの Jiaming Luo 氏は言います。 この論文の著者は、「これらのテクノロジーはすべて、いわゆる並列処理に大量にアクセスできます。 データ。 それらはロゼッタストーンと考えることができますが、非常に大量です。」

対訳コーパスは、2 つの異なる言語によるテキストのコレクションです。 たとえば、英語とフランス語の両方で書かれた一連の文を想像してください。 フランス語がわからなくても、2 つのセットを比較してパターンを観察することで、一方の言語の単語をもう一方の言語の同等の単語にマッピングできます。

「これを行うように人間を訓練した場合、4,000 万の並列文を見れば、翻訳を理解できると確信しています」とルオ氏は説明します。

しかし、英語とフランス語は何世紀にもわたって文化的に重複してきた生きた言語です。 失われた言語を解読するのははるかに困難です。

「私たちには並列データという贅沢はありません」と Luo 氏は説明します。 「したがって、私たちは言語がどのように進化するか、そして言葉がどのようにその子孫に進化するかについての特定の言語知識に頼らなければなりません。」

神経解読/MIT

関連する言語に関係なく使用できるモデルを作成するために、チームは言語の進化を通じて観察できる傾向に基づいて制約を設定しました。

「私たちは言語学に関する 2 つのレベルの洞察に依存する必要があります」とルオ氏は言います。 「1 つは文字レベルで、単語が進化するとき、通常は左から右に進化するということだけがわかっています。 この進化は、ある種の文字列のようなものとして考えることができます。 したがって、ラテン語の文字列は ABCDE である可能性があり、これを ABD または ABC に変更する可能性が高く、元の順序はある意味で保持されます。 それを私たちは単調と呼んでいます。」

語彙 (言語を構成する単語) のレベルでは、チームは「1 対 1 マッピング」と呼ばれる手法を使用しました。

「つまり、ラテン語の語彙全体を抽出し、イタリア語の語彙全体を抽出すると、ある種の 1 対 1 の一致が見られることになります」とルオ氏は例として挙げています。 「『犬』を表すラテン語はおそらくイタリア語の『犬』に進化し、ラテン語の『猫』はおそらくイタリア語の『猫』に進化するでしょう。」

モデルをテストするために、チームはいくつかのデータセットを使用しました。 彼らは古代言語のウガリット語をヘブライ語に、リニア語Bをギリシャ語に翻訳し、モデルの有効性を確認しました。 ロマンス言語スペイン語、イタリア語、およびイタリア語内で同族 (共通の祖先を持つ単語) 検出を実行しました。 ポルトガル語。

これは線形 B を自動的に解読する既知の最初の試みであり、モデルは同族語の 67.3% を翻訳することに成功しました。 このシステムは、ウガリ語の翻訳に関しても以前のモデルから改良されました。 言語が異なるファミリーに由来していることを考えると、モデルが柔軟であり、以前のシステムよりも正確であることがわかります。

未来

Linear A は依然として言語の大きな謎の 1 つであり、その古代のナッツを解くことは、 A.I.の驚くべき偉業 今のところ、カップルにとってそのようなことは完全に理論上のものだとルオ氏は言う。 理由。

まず、線形 A は線形 B よりも少ない量のデータを提供します。 また、Linear A がどのようなスクリプトなのかを理解することも必要です。

「リニア A 特有の課題は、絵やロゴの文字や記号がたくさんあることだと思います」とルオ氏は言います。 「そして通常、これらのシンボルがたくさんある場合、それははるかに困難になります。」

ブランドX写真/ゲッティイメージズ

例として、Luo 氏は英語と中国語を比較します。

「英語は大文字を除くと 26 文字あり、ロシア語は 33 文字あります。 これらはアルファベット体系と呼ばれます。 だから、この 26 人か 30 人くらいの登場人物の地図を考え出さなければなりません」と彼は言います。

「しかし中国人の場合、何千人もの中国人に対処しなければなりません」と彼は続けます。 「新聞を読むためだけに習得すべき最小限の文字数は、およそ 3,000 文字か 5,000 文字になると思います。 リニア A は中国語ではありませんが、絵やロゴマークなどが含まれているため、リニア B よりも明らかに難しいです。」

Linear A はまだ解読されていませんが、MIT の新しい神経解読アプローチの成功により、 並列コーパスの必要性を超えてリニア B を自動的に解読することは、有望な方法です。 サイン。

編集者のおすすめ

  • AI がブレイキング・バッドをアニメ化 - それは恐ろしい
  • アナログAI? クレイジーに聞こえるかもしれないが、それは未来かもしれない
  • トレンドを分析する AI は次のとおりです。 テクノロジー業界で次の大きな出来事になると思う
  • AI の将来: 今後数年間で注目すべき 4 つの大きな事柄
  • アルゴリズム アーキテクチャ: AI を使用させるべきか 私たちのために建物を設計してくれるでしょうか?