Läppläsande AI krossar människor när de tolkar tysta meningar

LipNet: Hur lätt tror du att läppavläsning är?

En av de mest minnesvärda delarna av Stanley Kubricks sci-fi-mästerverk 2001: A Space Odyssey är en handlingslinje där två medlemmar av Discovery One rymdskeppsbesättningen blir allt mer misstänksam mot beteendet hos fartygets AI-assistent, HAL 9000.

Eftersom de vet att HAL ständigt lyssnar på vad de säger drar de sig tillbaka någonstans där de vet att HAL inte kan lyssna och går med på att koppla bort honom. HAL mullrar sin plan efter att de två astronauterna misslyckats med att ta hänsyn till AI: s överlägsna läppavläsningsförmåga.

Futuristiska grejer, va? Inte enligt forskning gjord av utredare vid Oxford University. De har utvecklat ett artificiell intelligensprogram som heter LipNet, som kan tolka exakt vad folk säger, enbart baserat på hur de rör munnen när de pratar.

Relaterad

  • Photoshop AI tycker att "lycka" är ett leende med ruttna tänder
  • Jag presenterade min löjliga startidé för en robot-VC
  • Hur ska vi veta när en AI faktiskt blir kännande?

"LipNet utför läppläsning på meningsnivå med hjälp av maskininlärning," Brendan Shillingford, en av forskarna på papper, berättade för Digital Trends. "Ett neuralt nätverk som liknar toppmoderna taligenkänningsmodeller bearbetar en sekvens av videorutor och mappar dessa till en mening. Tidigare tillvägagångssätt fungerade med förutspådda individuella ord snarare än meningar."

Rekommenderade videor

LipNets prestanda kan jämföras otroligt positivt med mänskliga läppavläsningsexperter på GRID-korpus, den största offentligt tillgängliga läppavläsningsdatauppsättningen på meningsnivå. Faktum är att där mänskliga experter bara fick 52 procent, fick LipNet 93 procent. Dess meningsbaserade tillvägagångssätt för läppläsning slog också sönder det bästa tidigare försöket av en maskin, som lyckades med 79,6 procents noggrannhet på samma datauppsättning.

Men medan den fiktiva HAL 9000 använder sina läppläsande krafter till ingen nytta, har teamet bakom LipNet andra mål för sitt skapande. Runt 360 miljoner människor världen över har nedsatt hörsel. Verktyg som LipNet kan vara mycket betydelsefulla för dessa individer, genom att hjälpa till att korrekt tolka tal på ett sätt som gör deras liv enklare.

"Andra tillämpningar som vi är intresserade av inkluderar tyst diktering i offentliga utrymmen, hemliga samtal, taligenkänning i bullriga miljöer, biometrisk identifiering och bearbetning av stumfilm”, Shillingford fortsatt.

Även om övervakning kommer att vara ett problem med all teknik som denna, Nando de Freitas, som också arbetat med projektet, sa att det inte är en applikation de har fokuserat på. Han sa dock att det "inte skulle vara förvånande" om andra labb försökte bygga på sådant arbete för det ändamålet i framtiden.

"Allmänheten måste vara medveten om detta och lita på att våra juridiska demokratiska institutioner upprättar lämpliga lagar som skyddar vår integritet och värdighet", fortsatte de Freitas. "Det är vår förhoppning att vi genom att publicera detta arbete hjälper till att öka medvetenheten, samtidigt som vi betonar användbarheten av denna teknik för att hjälpa människor i nöd."

Redaktörens rekommendationer

  • Apples ChatGPT-konkurrent kan automatiskt skriva kod åt dig
  • Meta gjorde DALL-E för video, och det är både läskigt och fantastiskt
  • Optiska illusioner kan hjälpa oss att bygga nästa generations AI
  • Lambdas maskininlärningsdator är en Razer i förklädnad
  • Läs den kusligt vackra "syntetiska skriften" av en A.I. som tror att det är Gud

Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.