Læbelæsende AI smadrer mennesker ved at tolke stille sætninger

LipNet: Hvor let tror du, at læbeaflæsning er?

En af de mest mindeværdige dele af Stanley Kubricks sci-fi-mesterværk 2001: A Space Odyssey er en plotline, hvor to medlemmer af Discovery One rumskibsbesætningen bliver mere og mere mistænksom over for skibets AI-assistent, HAL 9000, opførsel.

Da de ved, at HAL konstant lytter til, hvad de siger, trækker de sig tilbage et sted, hvor de ved, at HAL ikke kan lytte, og accepterer at afbryde forbindelsen til ham. HAL rumsterer deres plan, efter at de to astronauter undlader at tage hensyn til AI's overlegne læbeaflæsningsegenskaber.

Futuristiske ting, ikke? Ikke ifølge forskning udført af efterforskere ved Oxford University. De har udviklet et kunstig intelligensprogram kaldet LipNet, som er i stand til præcist at fortolke, hvad folk siger, udelukkende baseret på den måde, de bevæger munden på, når de taler.

Relaterede

  • Photoshop AI mener, at 'lykke' er et smil med rådne tænder
  • Jeg pitchede min latterlige opstartside til en robot-VC
  • Hvordan ved vi, hvornår en AI rent faktisk bliver sansende?

"LipNet udfører mundaflæsning på sætningsniveau ved hjælp af maskinlæring," Brendan Shillingford, en af ​​forskerne på papir, fortalte Digital Trends. "Et neuralt netværk, der ligner state-of-the-art talegenkendelsesmodeller, behandler en sekvens af videoframes og kortlægger disse til en sætning. Tidligere tilgange fungerede ved forudsagte individuelle ord snarere end sætninger."

Anbefalede videoer

LipNets ydeevne kan sammenlignes utroligt positivt med menneskelige læbelæsningseksperter på GRID-korpus, det største offentligt tilgængelige læbelæsningsdatasæt på sætningsniveau. Faktisk, hvor menneskelige eksperter kun fik 52 procent, scorede LipNet 93 procent. Dens sætningsbaserede tilgang til mundaflæsning smadrede også det bedste tidligere forsøg fra en maskine, som klarede 79,6 procent nøjagtighed på det samme datasæt.

Men mens den fiktive HAL 9000 bruger sine læbelæsende kræfter til ingen nytte, har teamet bag LipNet andre mål med deres skabelse. Omkring 360 millioner mennesker verden over har et invaliderende høretab. Værktøjer som LipNet kan være yderst betydningsfulde for disse personer, ved at hjælpe med at fortolke tale nøjagtigt på en måde, der gør deres liv lettere.

"Andre applikationer, som vi er interesserede i, omfatter tavs diktering i offentlige rum, hemmelige samtaler, talegenkendelse i støjende omgivelser, biometrisk identifikation og lydløs filmbehandling,” Shillingford fortsatte.

Selvom overvågning vil være et problem med enhver teknologi som denne, Nando de Freitas, som også arbejdede på projektet, sagde, at det ikke er en applikation, de har fokuseret på. Han sagde dog, at det "ikke ville være overraskende", hvis andre laboratorier forsøgte at bygge videre på et sådant arbejde til det formål i fremtiden.

"Offentligheden skal være opmærksom på dette og stole på, at vores juridiske demokratiske institutioner etablerer passende love, der beskytter vores privatliv og værdighed," fortsatte de Freitas. "Det er vores håb, at vi ved at udgive dette arbejde hjælper med at øge bevidstheden, mens vi stadig understreger nytten af ​​denne teknologi til at hjælpe mennesker i nød."

Redaktørens anbefalinger

  • Apples ChatGPT-rival skriver muligvis automatisk kode til dig
  • Meta lavede DALL-E til video, og det er både uhyggeligt og fantastisk
  • Optiske illusioner kan hjælpe os med at bygge den næste generation af kunstig intelligens
  • Lambdas maskinlærings-laptop er en Razer i forklædning
  • Læs det uhyggeligt smukke 'syntetiske skrift' af en A.I. der tror, ​​det er Gud

Opgrader din livsstilDigital Trends hjælper læserne med at holde styr på den hurtige teknologiske verden med alle de seneste nyheder, sjove produktanmeldelser, indsigtsfulde redaktionelle artikler og enestående smugkig.