Es gibt viele Dinge, die den Menschen von anderen Spezies unterscheiden, aber eines der wichtigsten ist die Sprache. Die Fähigkeit, verschiedene Elemente in im Wesentlichen unendlichen Kombinationen aneinanderzureihen, ist eine Eigenschaft, die „in der Vergangenheit oft als die … angesehen wurde „das zentrale bestimmende Merkmal des modernen Menschen, die Quelle menschlicher Kreativität, kultureller Bereicherung und komplexer sozialer Struktur“, wie es der Linguist Noam Chomsky einst ausdrückte sagte.
Inhalt
- Auferstehung der Toten (Sprachen)
- Die Zukunft
Doch so wichtig die Sprache auch für die Evolution des Menschen war, so viel wissen wir noch immer nicht darüber, wie sich die Sprache entwickelt hat. Während tote Sprachen wie Latein über eine Fülle schriftlicher Aufzeichnungen und Nachkommen verfügen, anhand derer wir sie besser verstehen können, sind einige Sprachen der Geschichte verloren gegangen.
Empfohlene Videos
Forscher konnten einige verlorene Sprachen rekonstruieren, aber der Prozess der Entschlüsselung kann langwierig sein. Beispielsweise wurde die antike Schrift Linear B mehr als ein halbes Jahrhundert nach ihrer Entdeckung „gelöst“, und einige derjenigen, die daran arbeiteten, erlebten die Fertigstellung der Arbeit nicht mehr. Eine ältere Schrift namens Linear A, das Schriftsystem der minoischen Zivilisation, ist noch nicht entschlüsselt.
Verwandt
- Tech For Change CES 2023 Awards von Digital Trends
- Die lustige Formel: Warum maschinengenerierter Humor der heilige Gral der KI ist
- Lesen Sie die unheimlich schöne „synthetische Schrift“ einer KI. das denkt, es sei Gott
Moderne Linguisten verfügen jedoch über ein mächtiges Werkzeug: Künstliche Intelligenz. Durch das Training von K.I. Um die Muster in nicht entschlüsselten Sprachen zu lokalisieren, können Forscher sie rekonstruieren und so die Geheimnisse der Antike entschlüsseln. Ein neuer, neuartiger neuronaler Ansatz von Forschern des Massachusetts Institute of Technology (MIT) hat hat bereits Erfolge bei der Entschlüsselung von Linear B gezeigt und könnte eines Tages dazu führen, dass andere verlorene Rätsel gelöst werden Sprachen.
Auferstehung der Toten (Sprachen)
Ähnlich wie beim Häuten einer Katze gibt es mehr als eine Möglichkeit, eine verlorene Sprache zu entschlüsseln. In einigen Fällen gibt es für die Sprache keine schriftlichen Aufzeichnungen, daher versuchen Linguisten, sie zu rekonstruieren, indem sie die Entwicklung der Laute durch ihre Nachkommen verfolgen. Dies ist beim Proto-Indogermanischen der Fall, dem hypothetischen Vorfahren zahlreicher Sprachen in Europa und Asien.
In anderen Fällen graben Archäologen schriftliche Aufzeichnungen aus, was bei Linear B der Fall war. Nachdem Archäologen auf der Insel Kreta Tafeln entdeckt hatten, rätselten Forscher jahrzehntelang über die Schriften und entzifferten sie schließlich. Leider ist dies mit Linear A derzeit nicht möglich, da den Forschern nicht annähernd so viel Quellenmaterial zum Studieren zur Verfügung steht. Aber das ist vielleicht nicht nötig.
Aber Englisch und Französisch sind lebendige Sprachen mit jahrhundertelanger kulturellen Überschneidungen. Die Entschlüsselung einer verlorenen Sprache ist weitaus schwieriger.
Ein Projekt von Forschern am MIT veranschaulicht die Schwierigkeiten der Entschlüsselung sowie das Potenzial von K.I. das Feld zu revolutionieren. Die Forscher entwickelten einen neuronalen Ansatz zur Entschlüsselung verlorener Sprachen, „auf der Grundlage von in der historischen Linguistik dokumentierten Mustern des Sprachwandels“. Wie detailliert in eine Arbeit aus dem Jahr 2019, während frühere K.I. für die Entschlüsselung von Sprachen musste auf eine bestimmte Sprache zugeschnitten werden, bei dieser ist dies nicht der Fall.
„Wenn Sie sich einen kommerziell erhältlichen Übersetzer oder ein Übersetzungsprodukt ansehen“, sagt Jiaming Luo, der Leiter Autor des Papiers: „Alle diese Technologien haben Zugriff auf eine große Anzahl dessen, was wir als parallel bezeichnen Daten. Man kann sie sich wie Rosetta-Steine vorstellen, allerdings in sehr großer Menge.“
Ein Parallelkorpus ist eine Sammlung von Texten in zwei verschiedenen Sprachen. Stellen Sie sich zum Beispiel eine Reihe von Sätzen auf Englisch und Französisch vor. Auch wenn Sie kein Französisch können, können Sie durch den Vergleich der beiden Sätze und die Beobachtung von Mustern Wörter in einer Sprache den entsprechenden Wörtern in der anderen zuordnen.
„Wenn Sie einem Menschen beibringen, dies zu tun, wenn Sie mehr als 40 Millionen parallele Sätze sehen“, erklärt Luo, „bin ich zuversichtlich, dass Sie in der Lage sein werden, eine Übersetzung zu finden.“
Aber Englisch und Französisch sind lebendige Sprachen mit jahrhundertelanger kulturellen Überschneidungen. Die Entschlüsselung einer verlorenen Sprache ist weitaus schwieriger.
„Diesen Luxus paralleler Daten haben wir nicht“, erklärt Luo. „Wir müssen uns also auf spezifische linguistische Kenntnisse darüber verlassen, wie sich Sprache entwickelt und wie Wörter sich zu ihren Nachkommen entwickeln.“
Um ein Modell zu erstellen, das unabhängig von den beteiligten Sprachen verwendet werden kann, legte das Team Einschränkungen fest, die auf Trends basieren, die bei der Entwicklung von Sprachen beobachtet werden können.
„Wir müssen uns auf zwei Ebenen linguistischer Erkenntnisse stützen“, sagt Luo. „Einer ist auf der Charakterebene, das ist alles, was wir wissen, dass sich Wörter normalerweise von links nach rechts entwickeln, wenn sie sich entwickeln. Man kann sich diese Entwicklung als eine Art Schnur vorstellen. Vielleicht ist eine Zeichenfolge im Lateinischen also ABCDE, die Sie höchstwahrscheinlich in ABD oder ABC ändern würden, um in gewisser Weise immer noch die ursprüngliche Reihenfolge beizubehalten. Das nennen wir monoton.“
Auf der Ebene des Vokabulars (der Wörter, aus denen eine Sprache besteht) verwendete das Team eine Technik namens „Eins-zu-eins-Zuordnung“.
„Das heißt, wenn man den gesamten lateinischen Wortschatz und den gesamten italienischen Wortschatz herauszieht, sieht man eine Art Eins-zu-eins-Übereinstimmung“, nennt Luo als Beispiel. „Das lateinische Wort für ‚Hund‘ wird sich wahrscheinlich zum italienischen Wort für ‚Hund‘ entwickeln und das lateinische Wort für ‚Katze‘ wird sich wahrscheinlich zum italienischen Wort für ‚Katze‘ entwickeln.“
Um das Modell zu testen, verwendete das Team einige Datensätze. Sie übersetzten die alte Sprache Ugaritisch ins Hebräische, das Lineare B ins Griechische, und um die Wirksamkeit des Modells zu bestätigen, führte eine verwandte (Wörter mit gemeinsamer Abstammung) Erkennung in den romanischen Sprachen Spanisch, Italienisch und durch Portugiesisch.
Es war der erste bekannte Versuch, Linear B automatisch zu entschlüsseln, und das Modell übersetzte erfolgreich 67,3 % der Verwandten. Das System verbesserte sich auch gegenüber früheren Modellen für die Übersetzung des Ugaritischen. Da die Sprachen aus verschiedenen Familien stammen, zeigt dies, dass das Modell flexibel und genauer als frühere Systeme ist.
Die Zukunft
Linear A bleibt eines der großen Geheimnisse der Sprache, und diese alte Nuss zu knacken wäre ein Rätsel bemerkenswerte Leistung für K.I. Im Moment, sagt Luo, sei so etwas für ein Paar völlig theoretisch Gründe dafür.
Erstens bietet Linear A eine geringere Datenmenge als sogar Linear B. Es geht auch darum, herauszufinden, was für ein Skript Linear A überhaupt ist.
„Ich würde sagen, die einzigartige Herausforderung für Linear A besteht darin, dass es viele bildliche oder logografische Zeichen oder Symbole gibt“, sagt Luo. „Und normalerweise wird es viel schwieriger, wenn man viele dieser Symbole hat.“
Als Beispiel vergleicht Luo Englisch und Chinesisch.
„Englisch hat 26 Buchstaben, wenn man die Groß- und Kleinschreibung nicht mitzählt, und Russisch hat 33.“ Diese werden alphabetische Systeme genannt. Man muss sich also nur eine Karte für diese 26 oder 30 Charaktere ausdenken“, sagt er.
„Aber für Chinesen muss man sich mit Tausenden von ihnen auseinandersetzen“, fährt er fort. „Ich glaube, die minimale Anzahl an Zeichen, die man beherrschen muss, um eine Zeitung zu lesen, liegt schätzungsweise bei etwa 3.000 oder 5.000. „Linear A“ ist nicht chinesisch, aber aufgrund seiner Bild- oder Logosymbole und dergleichen ist es definitiv schwieriger als „Linear B.“
Obwohl Linear A noch nicht entschlüsselt ist, ist der Erfolg des neuartigen neuronalen Entschlüsselungsansatzes des MIT in Die automatische Entschlüsselung von Linear B, die über die Notwendigkeit eines Parallelkorpus hinausgeht, ist vielversprechend Zeichen.
Empfehlungen der Redaktion
- KI hat „Breaking Bad“ in einen Anime verwandelt – und es ist erschreckend
- Analoge KI? Es klingt verrückt, aber es könnte die Zukunft sein
- Hier erfahren Sie, was eine trendanalysierende K.I. glaubt, dass es das nächste große Ding in der Technik sein wird
- Die Zukunft der KI: 4 große Dinge, auf die man in den nächsten Jahren achten sollte
- Algorithmische Architektur: Sollten wir K.I. Entwerfen Sie Gebäude für uns?