La nuova tecnologia vocale IBM punta a essere sovrumana

IBM ha presentato Embedded ViaVoice 4.4, che offre riconoscimento dei comandi in formato libero, servizi di traduzione e sottotitolazione al volo e può affermare di comprendere alcune sfumature dell'inglese parlato. La tecnologia è progettata per consentire agli utenti di controllare i sistemi integrati nei veicoli, nei dispositivi portatili e in altri dispositivi non informatici applicazioni per parlare in modo flessibile e naturale ai dispositivi senza dover memorizzare e pronunciare con attenzione le parole predefinite comandi.

Come esempio di "riconoscimento dei comandi in forma libera", IBM offre che un comando per cambiare una stazione radio in un'auto su 104,3 FM, gli utenti possano pronunciare diversi comandi come "Cambia su 104.3", "Sintonizzati su 104.3 FM" o "Imposta la stazione radio su 104.3". Abilitare il sistema a comprendere una gamma più ampia di comandi intuitivi consentirà alla tecnologia di riconoscimento vocale di essere utilizzata con maggiore successo in una gamma più ampia di applicazioni. ViaVoice ora utilizza l'analisi statistica e semantica dei comandi per interpretare i comandi al di fuori di un insieme predefinito e memorizzato, e la modellazione acustica migliorata fornisce una maggiore precisione in condizioni rumorose e dove il parlato viene interrotto da transitori rumori.

Video consigliati

Altri due progetti di riconoscimento vocale presso IBM, MASTOR e Tales, offrono due nuove e interessanti direzioni per la ricerca vocale. MAESTRO (Multilingual Automatic Speech-to-Speech Translator), un progetto di ricerca IBM, può tradurre dinamicamente il discorso inglese in cinese mandarino. Un utente parla al microfono in inglese e MASTOR traduce al volo la frase in mandarino. MASTOR utilizza l'analisi statistica dell'input parlato, decompilando prima la frase in un insieme di strutture e modelli concettuali, per poi compilare una frase tradotta nella lingua di destinazione utilizzando gli stessi modelli. Una certa latenza è inevitabile in sistemi come questo

Raccomandazioni degli editori

  • Il miglior software di sintesi vocale per il 2022
  • La tecnologia di riconoscimento facciale per gli orsi mira a mantenere gli esseri umani al sicuro
  • IBM non svilupperà né effettuerà più ricerche sulla tecnologia di riconoscimento facciale

Migliora il tuo stile di vitaDigital Trends aiuta i lettori a tenere d'occhio il frenetico mondo della tecnologia con tutte le ultime notizie, divertenti recensioni di prodotti, editoriali approfonditi e anteprime uniche nel loro genere.