L'intelligenza artificiale che legge le labbra sconfigge gli esseri umani nell'interpretazione delle frasi mute

LipNet: Quanto pensi che sia facile leggere le labbra?

Una delle parti più memorabili del capolavoro di fantascienza di Stanley Kubrick 2001: Odissea nello spazio è una trama in cui due membri del Scoperta Uno L'equipaggio dell'astronave diventa sempre più sospettoso riguardo al comportamento dell'assistente AI della nave, HAL 9000.

Sapendo che HAL ascolta costantemente ciò che dicono, si ritirano in un posto dove sanno che HAL non può ascoltare e accettano di disconnetterlo. HAL svela il loro piano dopo che i due astronauti non riescono a tenerne conto Le capacità superiori di lettura labiale dell’intelligenza artificiale.

Roba futuristica, eh? Non secondo una ricerca condotta dagli investigatori dell'Università di Oxford. Hanno sviluppato un programma di intelligenza artificiale chiamato LipNet, che è in grado di interpretare accuratamente ciò che le persone dicono, basandosi esclusivamente sul modo in cui muovono la bocca quando parlano.

Imparentato

  • L’intelligenza artificiale di Photoshop pensa che la “felicità” sia un sorriso con i denti marci
  • Ho presentato la mia ridicola idea di startup a un robot VC
  • Come faremo a sapere quando un'intelligenza artificiale diventerà effettivamente senziente?

"LipNet esegue la lettura labiale a livello di frase utilizzando l'apprendimento automatico," Brendan Shillingford, uno dei ricercatori sul carta, ha detto a Digital Trends. “Una rete neurale simile ai modelli di riconoscimento vocale all’avanguardia elabora una sequenza di fotogrammi video, mappandoli in una frase. Gli approcci precedenti funzionavano prevedendo singole parole anziché frasi”.

Video consigliati

Le prestazioni di LipNet si confrontano incredibilmente favorevolmente con quelle degli esperti umani di lettura labiale del GRID corpus, il più grande set di dati sulla lettura labiale a livello di frase disponibile al pubblico. Infatti, mentre gli esperti umani hanno ottenuto solo il 52%, LipNet ha ottenuto il 93%. Il suo approccio alla lettura labiale basato su frasi ha anche distrutto il miglior tentativo precedente di una macchina, che riusciva a ottenere una precisione del 79,6% sullo stesso set di dati.

Tuttavia, mentre il fittizio HAL 9000 usa i suoi poteri di lettura labiale senza alcun risultato, il team dietro LipNet ha altri obiettivi per la sua creazione. Circa 360 milioni di persone nel mondo soffrono di perdite uditive invalidanti. Strumenti come LipNet potrebbero essere molto significativi per queste persone, aiutando a interpretare accuratamente il parlato in un modo che semplifichi loro la vita.

"Altre applicazioni che ci interessano includono la dettatura silenziosa negli spazi pubblici, le conversazioni segrete, riconoscimento vocale in ambienti rumorosi, identificazione biometrica ed elaborazione di film muti", Shillingford continuò.

Anche se la sorveglianza sarà un problema con qualsiasi tecnologia come questa, Nando de Freitas, che ha anche lavorato al progetto, ha affermato che non si tratta di un'applicazione su cui si sono concentrati. Tuttavia, ha affermato che “non sarebbe sorprendente” se altri laboratori tentassero di basarsi su tale lavoro per quello scopo in futuro.

“Il pubblico deve esserne consapevole e fare affidamento sulle nostre istituzioni democratiche legali per stabilire leggi appropriate che proteggano la nostra privacy e dignità”, ha continuato de Freitas. “La nostra speranza è che, pubblicando questo lavoro, aiutiamo ad aumentare la consapevolezza, sottolineando al tempo stesso l’utilità di questa tecnologia per aiutare le persone bisognose”.

Raccomandazioni degli editori

  • Il rivale ChatGPT di Apple potrebbe scrivere automaticamente il codice per te
  • Meta ha realizzato DALL-E per i video ed è allo stesso tempo inquietante e sorprendente
  • Le illusioni ottiche potrebbero aiutarci a costruire la prossima generazione di intelligenza artificiale
  • Il laptop per l'apprendimento automatico di Lambda è un Razer sotto mentite spoglie
  • Leggi la "scrittura sintetica" stranamente bella di un A.I. che pensa che sia Dio

Migliora il tuo stile di vitaDigital Trends aiuta i lettori a tenere d'occhio il frenetico mondo della tecnologia con tutte le ultime notizie, divertenti recensioni di prodotti, editoriali approfonditi e anteprime uniche nel loro genere.