Il nuovo metodo di riconoscimento vocale apprende attraverso le immagini

Miglioramenti ai messaggi Android, telefoni che si scambiano messaggi
Olga Lebedeva/123RF.com
I sistemi di riconoscimento vocale potrebbero non essere ancora perfetti, ma come dimostrano Amazon Echo, stanno migliorando e diventando sempre più diffusi.

UN nuovo pezzo di ricerca dai ricercatori del dipartimento di informatica e intelligenza artificiale del Massachusetts Institute of Technology Laboratory (CSAIL) suggerisce una nuova tecnica per addestrare questi sistemi, facendoli imparare guardando immagini.

Video consigliati

"Questo è un tentativo di far sì che le macchine richiedano una formazione meno supervisionata per apprendere la lingua parlata", Jim Vetro, ricercatore senior presso CSAIL, ha dichiarato a Digital Trends. “Il modo convenzionale per addestrare i sistemi di riconoscimento vocale è utilizzare registrazioni di persone che parlano e, per ogni espressione, trascrivere esattamente quali parole sono state dette. Idealmente, hai centinaia o migliaia di ore di discorso affinché il sistema funzioni correttamente. Alcune delle più grandi aziende che si occupano di questo, come Baidu e Google, utilizzano decine di migliaia di ore per la formazione. Più dati annotati hanno, migliori saranno le prestazioni di questi sistemi”.

Quindi cosa c’è di sbagliato in questo? Dopotutto, come notato, la tecnologia di riconoscimento vocale migliora continuamente. Qualunque cosa stiano facendo gli informatici, ovviamente funziona.

Potrebbe essere vero, ma questo nuovo approccio è interessante per un paio di motivi. In primo luogo, aprendo la capacità di una macchina di allenarsi a comprendere guardando immagini e audio combinati (eventualmente, potresti immaginarlo mentre si allena guardando YouTube) è molto più vicino al modo in cui impariamo come esseri umani esseri.

In secondo luogo – e probabilmente più importante – è il fatto che potrebbe aiutare a portare il riconoscimento vocale in parti del mondo che potrebbero trarre grandi benefici da questo tipo di tecnologia.

“I dati annotati sono costosi da produrre”, ha continuato Glass. “Il riconoscimento vocale esiste da decenni e la maggior parte di esso ha riguardato le lingue dei paesi che possono permettersi di investire in questo tipo di risorse. Quando si tratta di linguaggio, si tende ad usare quelle che le aziende pensano possano aiutarle a realizzare un profitto. L'inglese ha ricevuto di gran lunga la maggiore attenzione, seguito dalle lingue dell'Europa occidentale e da altre lingue come il giapponese e il mandarino. Il problema è che ci sono circa 7.000 lingue parlate nel mondo e circa 300 sono parlate da più di 1 milione di persone. Molti di questi semplicemente non hanno ricevuto molta attenzione, se non addirittura nessuna.

Nelle parti del mondo in cui i livelli di alfabetizzazione sono bassi, è facile vedere come il riconoscimento vocale potrebbe rappresentare un punto di svolta in termini di accesso alle informazioni alle persone. Si spera che questa tecnologia possa aiutare a raggiungere questo obiettivo.

Per quanto entusiasmante sia la ricerca, Glass nota che è ancora nelle sue fasi iniziali. Al momento, i ricercatori CSAIL hanno alimentato il loro sistema con un database di 1.000 immagini, ciascuna con una descrizione verbale in forma libera che si riferisce ad essa in qualche modo. Quindi testano il sistema fornendogli una registrazione e chiedendogli di recuperare 10 immagini che meglio corrispondono a ciò che sta ascoltando.

Nel corso del tempo, la speranza è che tali approcci al riconoscimento vocale migliorino nella loro efficacia al punto in cui la laboriosa etichettatura dei dati di formazione vocale non sia più considerata una necessità.

Se tutto va secondo i piani, dovrebbe essere meglio per tutti, che tu parli inglese negli Stati Uniti o che parli Xhosa in Sud Africa.

Raccomandazioni degli editori

  • Nuova IA intelligente il sistema promette di addestrare il tuo cane mentre sei lontano da casa
  • Una nuova ricerca “losca” del MIT utilizza le ombre per vedere ciò che le telecamere non possono vedere
  • A.I. i ricercatori creano un sistema di riconoscimento facciale per gli scimpanzé
  • MIT, la nuova A.I. di Adobe potrebbe portare la rimozione dello sfondo con un clic e filtri social

Migliora il tuo stile di vitaDigital Trends aiuta i lettori a tenere d'occhio il frenetico mondo della tecnologia con tutte le ultime notizie, divertenti recensioni di prodotti, editoriali approfonditi e anteprime uniche nel loro genere.