Neue IBM-Sprachtechnologie soll übermenschlich sein

IBM hat stellte Embedded ViaVoice 4.4 vor, das Freiform-Befehlserkennung, On-the-Fly-Übersetzung und Untertitelungsdienste bietet und von sich behaupten kann, einige Nuancen des gesprochenen Englisch zu verstehen. Die Technologie soll es Benutzern ermöglichen, Systeme zu steuern, die in Fahrzeugen, Handheld-Geräten und anderen Nicht-Computergeräten eingebettet sind Anwendungen können flexibel und natürlich mit Geräten sprechen, ohne sich vordefinierte Gesprochenes merken und sorgfältig aussprechen zu müssen Befehle.

Als Beispiel für die „Freiform-Befehlserkennung“ bietet IBM an, dass Benutzer einen Befehl zum Ändern eines Radiosenders in einem Auto auf 104,3 FM verwenden können Sprechen Sie verschiedene Befehle wie „Wechseln Sie auf 104.3“, „Stellen Sie auf 104.3 FM ein“ oder „Stellen Sie den Radiosender auf 104.3 ein“. Ermöglicht dem System, Wenn Sie verstehen, dass eine größere Auswahl an intuitiven Befehlen die Spracherkennungstechnologie in einem breiteren Spektrum von Bereichen erfolgreicher einsetzen kann Anwendungen. ViaVoice verwendet jetzt eine statistische und semantische Analyse von Befehlen, um Befehle außerhalb eines vordefinierten, gespeicherten Satzes zu interpretieren. und eine verbesserte akustische Modellierung sorgt für eine höhere Genauigkeit bei lauten Bedingungen und bei Sprachunterbrechungen durch Transienten Geräusche.

Empfohlene Videos

Zwei weitere Spracherkennungsprojekte bei IBM, MASTOR und Tales, bieten zwei interessante neue Richtungen für die Sprachforschung. MASTOR (Multilingual Automatic Speech-to-Speech Translator), ein IBM-Forschungsprojekt, kann englische Sprache dynamisch ins Mandarin-Chinesisch übersetzen. Ein Benutzer spricht Englisch in ein Mikrofon und MASTOR übersetzt den Satz im Handumdrehen ins Mandarin. MASTOR verwendet eine statistische Analyse der gesprochenen Eingabe und dekompiliert den Satz zunächst in eine Reihe von Strukturelementen und konzeptionelle Muster, um dann unter Verwendung dieser Muster einen übersetzten Satz in der Zielsprache zusammenzustellen Muster. Eine gewisse Latenz ist in Systemen wie diesem unvermeidlich

Empfehlungen der Redaktion

  • Die beste Speech-to-Text-Software für 2022
  • Gesichtserkennungstechnologie für Bären soll die Sicherheit der Menschen gewährleisten
  • IBM wird keine Gesichtserkennungstechnologie mehr entwickeln oder erforschen

Werten Sie Ihren Lebensstil aufDigital Trends hilft Lesern mit den neuesten Nachrichten, unterhaltsamen Produktrezensionen, aufschlussreichen Leitartikeln und einzigartigen Einblicken, den Überblick über die schnelllebige Welt der Technik zu behalten.