Spracherkennungstexte dreimal schneller, als Sie tippen können

Stanford-Experiment zeigt, dass Spracherkennung Texte schneller schreibt als Daumen

Das Diktieren am Computer ist um einiges besser als noch vor einem Jahrzehnt, aber wie viel besser genau? Das war eine Herausforderung für Informatiker der Stanford University, der University of Washington und des chinesischen Technologieriesen Baidu hat kürzlich ein Experiment durchgeführt, bei dem Menschen sowohl in Bezug auf Geschwindigkeit als auch auf die neueste hochmoderne Spracherkennungssoftware gegeneinander antraten Genauigkeit.

Stanford-Informatikprofessor James Landay sagte, die Studie habe als „Coffee-Shop-Gespräch“ zwischen ihm und dem außerordentlichen Professor an der Stanford-Universität begonnen Andrew Ng, derzeit Chefwissenschaftler bei Baidu. „Andrew sagte, dass die Spracherkennungstools von Baidu wirklich großartig wurden, dass sie aber nicht das richtige Experiment kannten, um dies zu quantifizieren“, sagte Landay gegenüber Digital Trends.

Empfohlene Videos

Die cloudbasierte Spracherkennungssoftware Deep Speech 2 von Baidu basiert auf einem Deep-Learning-Neuronalen Netzwerk: ein beeindruckendes maschinelles Lerntool, das sich durch die Analyse riesiger realer Datensätze selbst trainieren kann Rede.

Verwandt

  • K.I. Wenn Sie Ihr Gehirn scannen, können Sie feststellen, ob Sie ein guter Chirurg sind
  • K.I. Forscher entwickeln ein Gesichtserkennungssystem für Schimpansen

„Früher verfügten wir nicht über die Daten- und Rechenkapazitäten, um diese Modelle zu erstellen, sodass ein Computer verschiedene Akzente und Sprachmuster verstehen konnte“, fuhr Landay fort.

Am Ende entwickelte sich das lockere Gespräch zwischen Landay und Ng zu einem ausgewachsenen Experiment, an dem 32 Teilnehmer teilnahmen, die entweder Chinesisch oder Englisch sprachen. Alle Teilnehmer waren mit dem Versenden von Textnachrichten aufgewachsen und beide nutzten die Standardtastaturen, die mit dem iPhone geliefert werden.

Für die Englischsprachigen bedeutete dies die normale iOS-QWERTZ-Tastatur, während die Mandarin-Sprecher die Pinyin-Tastatur von Apple verwendeten. In beiden Fällen war die Spracherkennung etwa dreimal schneller, als Benutzer tippen konnten – während der Fehler vorlag Die Rate war bei der englischen Spracherkennung um 20,4 Prozent niedriger und bei der Mandarin-Sprache um 63,4 Prozent niedriger Äquivalent.

„Meine Erwartung war, dass Sprache schneller sein würde als Text“, sagte Landay. „Wir wissen das, weil man schneller sprechen als tippen kann. Das Problem in der Vergangenheit bestand darin, dass es bei der Spracherkennung zu vielen Fehlern kam, was die Arbeit verlangsamte. Ich dachte, das Sprechen würde sich als schneller erweisen. Was ich nicht erwartet hatte, war, dass es am Ende dreimal schneller sein würde. Ich dachte, wir würden vielleicht 50 Prozent schneller sein. Stattdessen war es viel mehr als das.“

Natürlich ist der Test nicht zu 100 Prozent umfassend. Die derzeit schnellste mobile Tastatur der Welt (zumindest auf Englisch) ist die Fleksy-Tastatur des Drittanbieters. In einem Guinness-Weltrekord von 2014 für das schnellste SMS-Schreiben konnte ein Benutzer ein eingeben Satz mit 126 Buchstaben in nur 18,44 Sekunden. Allerdings wies Landay darauf hin, dass in dieser Studie eine normale iPhone-Tastatur ausgewählt wurde, da diese einen guten Eindruck vom typischen Schreiber vermittelt. „Die meisten Leute nehmen sich nicht die Zeit, alternative Tastaturen zu lernen“, sagte er.

Was die Bedeutung der Studie angeht, meint Landay, dass sie einen wichtigen Maßstab für die Spracherkennung darstellt. „Es gibt noch Raum für Verbesserungen, aber wir glauben, dass eine Art Wendepunkt überschritten wurde“, sagte er. „Weitere Verbesserungen werden bei der Erkennung von Namen, einer besseren Leistung in lauten Umgebungen usw. erfolgen.“

Dies, so sagte er, eröffne den Entwicklern mehr Möglichkeiten, ernsthafter über die Integration der Spracherkennung in ihre Systeme nachzudenken, ohne sich Sorgen machen zu müssen. „Es wird zunehmend Sinn machen, sich auf Sprache zu verlassen“, sagte er. „Zum Beispiel multimodale Schnittstellen, die Sprache mit anderen Elementen kombinieren, um den Menschen die Navigation zu erleichtern. Die größte Herausforderung wird jedoch darin bestehen, das zu verstehen Bedeutung von Wörtern und Sätzen. Dieser Teil hat noch einen weiten Weg vor sich.“

Empfehlungen der Redaktion

  • Die Verwendung von Alexa ist schwierig, wenn Sie eine Sprachbehinderung haben. Voiceitt könnte das beheben
  • Chinesisches Unternehmen arbeitet an Gesichtserkennung, die Sie unter einer Maske identifizieren kann
  • Googles Gboard wird die Spracherkennung deutlich verbessern

Werten Sie Ihren Lebensstil aufDigital Trends hilft Lesern mit den neuesten Nachrichten, unterhaltsamen Produktrezensionen, aufschlussreichen Leitartikeln und einzigartigen Einblicken, den Überblick über die schnelllebige Welt der Technik zu behalten.