Neue Spracherkennungsmethode lernt durch Bilder

Android-Nachrichten verbessern Telefone, die sich gegenseitig SMS senden
Olga Lebedeva/123RF.com
Spracherkennungssysteme sind vielleicht noch nicht perfekt, aber wie Systeme wie Amazon Echo zeigen, werden sie immer besser und allgegenwärtiger.

A neues Forschungsstück von Forschern des Massachusetts Institute of Technology für Informatik und Künstliche Intelligenz Laboratory (CSAIL) schlägt eine neue Technik zum Trainieren dieser Systeme vor – indem man sie dazu bringt, durch Anschauen zu lernen Bilder.

Empfohlene Videos

„Dies ist ein Versuch, Maschinen dazu zu bringen, weniger beaufsichtigtes Training zu erfordern, um etwas über gesprochene Sprache zu lernen.“ Jim Glass, ein leitender Forschungswissenschaftler bei CSAIL, sagte gegenüber Digital Trends. „Der herkömmliche Weg, Spracherkennungssysteme zu trainieren, besteht darin, Aufzeichnungen von sprechenden Personen zu verwenden und für jede Äußerung genau zu transkribieren, welche Wörter gesagt wurden. Idealerweise verfügen Sie über Hunderte oder Tausende von Sprachstunden, damit das System ordnungsgemäß funktioniert. Einige der größten Unternehmen, die dies tun – wie Baidu und Google – investieren Zehntausende Stunden in Schulungen. Je mehr annotierte Daten sie haben, desto leistungsfähiger sind diese Systeme.“

Was ist also daran falsch? Schließlich wird die Spracherkennungstechnologie, wie bereits erwähnt, immer besser. Was auch immer Informatiker tun, es funktioniert offensichtlich.

Das mag stimmen, aber dieser neue Ansatz ist aus mehreren Gründen interessant. Erstens wird einer Maschine die Fähigkeit eröffnet, sich durch das Betrachten kombinierter Bilder und Audioinhalte selbst das Verstehen beizubringen (Man kann sich das Training schließlich vorstellen, indem man sich YouTube anschaut) kommt der Art und Weise, wie wir als Menschen lernen, viel näher Wesen.

Zweitens – und wohl noch wichtiger – ist die Tatsache, dass es dazu beitragen könnte, die Spracherkennung in Teilen der Welt zu verbreiten, die von dieser Art von Technologie stark profitieren könnten.

„Die Erstellung kommentierter Daten ist teuer“, fuhr Glass fort. „Spracherkennung gibt es schon seit Jahrzehnten, und zwar größtenteils für Sprachen in Ländern, die es sich leisten können, in solche Ressourcen zu investieren. Wenn es um Sprache geht, sind es in der Regel diejenigen, von denen Unternehmen glauben, dass sie ihnen dabei helfen, Gewinne zu erzielen. Englisch hat mit Abstand die größte Aufmerksamkeit erhalten, gefolgt von westeuropäischen Sprachen und anderen Sprachen wie Japanisch und Mandarin. Das Problem besteht darin, dass auf der Welt etwa 7.000 Sprachen gesprochen werden und etwa 300 von mehr als einer Million Menschen gesprochen werden. Viele davon haben einfach nicht viel Aufmerksamkeit erhalten – wenn überhaupt.“

In Teilen der Welt, in denen die Alphabetisierungsrate niedrig ist, ist es leicht zu erkennen, dass die Spracherkennung eine entscheidende Rolle dabei spielen könnte, Menschen Zugang zu Informationen zu verschaffen. Hoffentlich kann diese Technologie dazu beitragen, dieses Ziel zu erreichen.

So spannend die Forschung auch ist, Glass stellt fest, dass sie sich noch in einem sehr frühen Stadium befindet. Derzeit haben CSAIL-Forscher ihr System mit einer Datenbank mit 1.000 Bildern gefüttert, von denen jedes eine freie verbale Beschreibung enthält, die in irgendeiner Weise damit in Zusammenhang steht. Anschließend testen sie das System, indem sie ihm eine Aufnahme geben und es auffordern, 10 Bilder abzurufen, die am besten zu dem passen, was es hört.

Mit der Zeit besteht die Hoffnung, dass sich die Wirksamkeit solcher Ansätze zur Spracherkennung soweit verbessert, dass eine mühsame Kennzeichnung von Sprachtrainingsdaten nicht mehr als Notwendigkeit angesehen wird.

Wenn alles nach Plan läuft, sollte das für alle besser sein – egal, ob Sie in den USA Englisch sprechen oder in Südafrika Xhosa sprechen.

Empfehlungen der Redaktion

  • Clevere neue K.I. Das System verspricht, Ihren Hund zu trainieren, während Sie nicht zu Hause sind
  • Neue „zwielichtige“ Forschungsergebnisse des MIT nutzen Schatten, um zu sehen, was Kameras nicht können
  • K.I. Forscher entwickeln ein Gesichtserkennungssystem für Schimpansen
  • MIT, Adobes neue K.I. könnte Hintergrundentfernung mit einem Klick und soziale Filter bringen

Werten Sie Ihren Lebensstil aufDigital Trends hilft Lesern mit den neuesten Nachrichten, unterhaltsamen Produktrezensionen, aufschlussreichen Leitartikeln und einzigartigen Einblicken, den Überblick über die schnelllebige Welt der Technik zu behalten.