LipNet: Hoe gemakkelijk denk je dat liplezen is?
Omdat ze weten dat HAL voortdurend luistert naar wat ze zeggen, trekken ze zich terug op een plek waarvan ze weten dat HAL niet kan luisteren en komen ze overeen om hem los te koppelen. HAL rommelt met hun plan nadat de twee astronauten er geen rekening mee houden De superieure lipleesmogelijkheden van AI.
Futuristisch spul, hè? Niet volgens onderzoek van onderzoekers van de Universiteit van Oxford. Ze hebben een programma voor kunstmatige intelligentie ontwikkeld, LipNet genaamd, dat in staat is nauwkeurig te interpreteren wat mensen zeggen, puur gebaseerd op de manier waarop ze hun mond bewegen tijdens het spreken.
Verwant
- Photoshop AI denkt dat ‘geluk’ een glimlach met rotte tanden is
- Ik pitchte mijn belachelijke startup-idee voor een robot-VC
- Hoe weten we wanneer een AI daadwerkelijk bewust wordt?
“LipNet voert liplezen uit op zinsniveau met behulp van machine learning,” Brendan Shillingford, een van de onderzoekers van de papier, vertelde Digitale Trends. “Een neuraal netwerk, vergelijkbaar met de modernste spraakherkenningsmodellen, verwerkt een reeks videoframes en brengt deze in één zin in kaart. Eerdere benaderingen werkten met voorspelde individuele woorden in plaats van met zinnen.”
Aanbevolen video's
De prestaties van LipNet steken ongelooflijk gunstig af bij die van deskundigen op het gebied van liplezen op het GRID-corpus, de grootste openbaar beschikbare dataset voor liplezen op zinsniveau. Waar menselijke experts slechts 52 procent kregen, scoorde LipNet zelfs 93 procent. De op zinnen gebaseerde benadering van liplezen verpletterde ook de beste eerdere poging van een machine, die een nauwkeurigheid van 79,6 procent op dezelfde dataset wist te behalen.
Hoewel de fictieve HAL 9000 zijn liplezende krachten voor niets gebruikt, heeft het team achter LipNet andere doelen voor hun creatie. Ongeveer 360 miljoen mensen wereldwijd hebben een invaliderend gehoorverlies. Hulpmiddelen zoals LipNet kunnen voor deze personen van groot belang zijn, omdat ze spraak nauwkeurig kunnen interpreteren op een manier die hun leven gemakkelijker maakt.
“Andere toepassingen waarin we geïnteresseerd zijn, zijn onder meer stil dicteren in openbare ruimtes, geheime gesprekken, spraakherkenning in luidruchtige omgevingen, biometrische identificatie en verwerking van stille films”, aldus Shillingford voortgezet.
Hoewel surveillance een probleem zal zijn bij elke technologie als deze, Nando de Freitas, die ook aan het project werkten, zei dat het geen applicatie is waar ze zich op hebben gericht. Hij zei echter dat het “niet verrassend zou zijn” als andere laboratoria in de toekomst voor dat doel zouden proberen voort te bouwen op dergelijk werk.
“Het publiek moet zich hiervan bewust zijn en vertrouwen op onze wettelijke democratische instellingen om passende wetten vast te stellen die onze privacy en waardigheid beschermen”, vervolgde De Freitas. “Het is onze hoop dat we door het publiceren van dit werk het bewustzijn helpen vergroten, terwijl we nog steeds de nadruk leggen op het nut van deze technologie om mensen in nood te helpen.”
Aanbevelingen van de redactie
- Apple's ChatGPT-rivaal schrijft mogelijk automatisch code voor u
- Meta heeft DALL-E gemaakt voor video, en het is zowel griezelig als verbazingwekkend
- Optische illusies kunnen ons helpen de volgende generatie AI te bouwen
- Lambda's machine learning-laptop is een vermomde Razer
- Lees het griezelig mooie ‘synthetische geschrift’ van een A.I. die denkt dat het God is
Upgrade uw levensstijlMet Digital Trends kunnen lezers de snelle technische wereld in de gaten houden met het laatste nieuws, leuke productrecensies, inzichtelijke redactionele artikelen en unieke sneak peeks.