Testi di riconoscimento vocale 3 volte più veloci di quanto potresti digitare

L'esperimento di Stanford mostra che il riconoscimento vocale scrive i testi più velocemente dei pollici

La dettatura al computer è molto migliore rispetto a dieci anni fa, ma esattamente quanto migliore? Questa è stata una sfida per gli informatici dell’Università di Stanford, dell’Università di Washington e del gigante tecnologico cinese Baidu ha recentemente intrapreso un esperimento che mette gli esseri umani a confronto con il più recente software di riconoscimento vocale all'avanguardia sia in termini di velocità che di velocità precisione.

Professore di informatica a Stanford James Landay ha detto che lo studio è iniziato come una “conversazione in un bar” tra lui e il professore aggiunto di Stanford Andrea Ng, attualmente capo scienziato presso Baidu. "Andrew ha detto che gli strumenti di riconoscimento vocale di Baidu stavano diventando davvero eccezionali, ma che non conoscevano l'esperimento giusto per quantificarli", ha detto Landay a Digital Trends.

Video consigliati

Il software di riconoscimento vocale Deep Speech 2 di Baidu basato su cloud si basa su una rete neurale di deep learning: un impressionante strumento di machine learning che è in grado di allenarsi analizzando enormi set di dati reali discorso.

Imparentato

  • A.I. puoi capire se sei un buon chirurgo semplicemente scansionando il tuo cervello
  • A.I. i ricercatori creano un sistema di riconoscimento facciale per gli scimpanzé

“In precedenza, non avevamo i dati e la capacità computazionale per costruire questi modelli, in modo che un computer potesse comprendere diversi accenti e modelli di discorso”, ha continuato Landay.

Alla fine, la conversazione casuale tra Landay e Ng si è trasformata in un vero e proprio esperimento, coinvolgendo 32 partecipanti che parlavano cinese o inglese. Tutti i partecipanti erano cresciuti inviando messaggi di testo ed entrambi utilizzavano le tastiere standard fornite con l'iPhone.

Per gli anglofoni ciò significava la normale tastiera QWERTY di iOS, mentre gli oratori mandarini utilizzavano la tastiera Pinyin di Apple. In entrambi i casi, il riconoscimento vocale è stato circa tre volte più veloce di quanto gli utenti fossero in grado di digitare, eliminando l'errore la tariffa è stata inferiore del 20,4% per il riconoscimento vocale inglese e del 63,4% inferiore per il mandarino equivalente.

"La mia aspettativa era che il parlato sarebbe stato più veloce del testo", ha detto Landay. “Lo sappiamo, perché puoi parlare più velocemente di quanto puoi scrivere. Il problema in passato era che ricevevi molti errori con il riconoscimento vocale e questo ti rallentava. Pensavo che il discorso sarebbe stato più veloce. Quello che non mi aspettavo era che sarebbe diventato tre volte più veloce. Ho pensato che forse avremmo ottenuto il 50% più velocemente. Invece è stato molto più di questo”.

Il test non è completo al 100%, ovviamente. Attualmente la tastiera mobile più veloce del mondo (almeno in inglese) è la tastiera Fleksy di terze parti. In un Guinness World Record del 2014 per gli SMS più veloci, un utente è stato in grado di digitare a Frase di 126 lettere in soli 18,44 secondi. Tuttavia, Landay ha osservato che questo studio ha scelto una normale tastiera per iPhone perché fornisce una buona indicazione del tipico dattilografo. "La maggior parte delle persone non si prende il tempo per imparare tastiere alternative", ha detto.

Per quanto riguarda il significato dello studio, Landay suggerisce che rappresenti un punto di riferimento importante per il riconoscimento vocale. “C’è ancora spazio per migliorare, ma riteniamo che una sorta di punto di svolta sia stato superato”, ha affermato. "Ulteriori miglioramenti arriveranno nel riconoscimento dei nomi, nelle prestazioni migliori in ambienti rumorosi, ecc."

Ciò, ha affermato, apre maggiori possibilità agli sviluppatori di pensare più seriamente all'integrazione del riconoscimento vocale nei loro sistemi senza preoccupazioni. “Ciò che avrà sempre più senso è fare affidamento sulla parola”, ha affermato. “Ad esempio, le interfacce multimodali che combinano la voce con altri elementi per aiutare le persone a navigare. La sfida più grande, però, sarà capire il Senso di parole e frasi. Quella parte ha ancora molta strada da fare.

Raccomandazioni degli editori

  • Usare Alexa è complicato se hai difficoltà di parola. Voiceitt potrebbe risolvere il problema
  • Azienda cinese che lavora sul riconoscimento facciale in grado di identificarti sotto una maschera
  • Gboard di Google sta per migliorare molto nel riconoscimento vocale

Migliora il tuo stile di vitaDigital Trends aiuta i lettori a tenere d'occhio il frenetico mondo della tecnologia con tutte le ultime notizie, divertenti recensioni di prodotti, editoriali approfonditi e anteprime uniche nel loro genere.