A szájról leolvasó AI összetöri az embereket a néma mondatok értelmezésében

LipNet: Szerinted mennyire egyszerű a szájról olvasni?

Stanley Kubrick sci-fi remekművének egyik legemlékezetesebb része 2001: Űrodüsszeia egy cselekményvonal, amelyben két tagja a Discovery One Az űrhajó legénysége egyre gyanakvóbbá válik a hajó mesterséges intelligencia asszisztensének, a HAL 9000-nek a viselkedése miatt.

Tudva, hogy a HAL folyamatosan figyeli, amit mondanak, elvonulnak valahová, ahol tudják, hogy HAL nem tud hallgatni, és beleegyeznek abba, hogy lekapcsolják őt. A HAL dörmögi tervét, miután a két űrhajós nem veszi figyelembe a Az AI kiváló szájról történő leolvasási képességei.

Futurisztikus cucc, mi? Az Oxfordi Egyetem kutatói által végzett kutatás szerint nem. Kifejlesztettek egy LipNet nevű mesterséges intelligencia programot, amely képes pontosan értelmezni, amit az emberek mondanak, pusztán az alapján, ahogyan beszéd közben mozgatják a szájukat.

Összefüggő

  • A Photoshop AI úgy gondolja, hogy a „boldogság” egy mosoly, melynek fogai vannak
  • Nevetséges indítási ötletemet egy robot-VC-nek adtam le
  • Honnan fogjuk tudni, hogy egy mesterséges intelligencia valójában mikor válik érzővé?

„A LipNet mondatszinten hajt végre szájról leolvasást gépi tanulás segítségével” Brendan Shillingford, az egyik kutató a papír, mondta a Digital Trendsnek. „A legkorszerűbb beszédfelismerő modellekhez hasonló neurális hálózat videokockák sorozatát dolgozza fel, és ezeket egy mondattal képezi le. A korábbi megközelítések a megjósolt egyedi szavakkal működtek, nem pedig a mondatokkal.”

Ajánlott videók

A LipNet teljesítménye hihetetlenül kedvezőbb a GRID korpuszon, a legnagyobb nyilvánosan elérhető mondatszintű ajakolvasási adatkészleten, az emberi ajakolvasási szakértőkével. Valójában, ahol a humán szakértők mindössze 52 százalékot értek el, a LipNet 93 százalékot ért el. A szájról történő leolvasás mondatalapú megközelítése a gép korábbi legjobb próbálkozását is megdöntötte, amely 79,6 százalékos pontosságot ért el ugyanazon az adatkészleten.

Míg azonban a fiktív HAL 9000 hiába használja fel a szájról való olvasási képességét, a LipNet mögött álló csapatnak más céljai vannak a létrehozásukkal. Világszerte körülbelül 360 millió embernek van halláskárosodása. Az olyan eszközök, mint a LipNet, rendkívül fontosak lehetnek ezeknek az egyéneknek azáltal, hogy segítik a beszéd pontos értelmezését, és megkönnyítik az életüket.

„Más alkalmazások, amelyek iránt érdeklődünk, a közterületi néma diktálás, a titkos beszélgetések, beszédfelismerés zajos környezetben, biometrikus azonosítás és némafilm-feldolgozás” – Shillingford folytatta.

Bár a megfigyelés problémát jelent minden ilyen technológiával, Nando de Freitas, aki szintén a projekten dolgozott, azt mondta, hogy ez nem egy olyan alkalmazás, amelyre összpontosítottak. Azt mondta azonban, hogy „nem lenne meglepő”, ha a jövőben más laboratóriumok is megpróbálnának ilyen jellegű munkákra építeni.

„A közvéleménynek tisztában kell lennie ezzel, és törvényes demokratikus intézményeinkre kell támaszkodnia, hogy megfelelő törvényeket hozzanak létre, amelyek védik magánéletünket és méltóságunkat” – folytatta de Freitas. „Reméljük, hogy ennek a munkának a közzétételével elősegítjük a figyelemfelkeltést, ugyanakkor hangsúlyozzuk ennek a technológiának a hasznosságát a rászoruló emberek megsegítésében.”

Szerkesztői ajánlások

  • Az Apple ChatGPT riválisa automatikusan kódot írhat helyetted
  • A Meta megalkotta a DALL-E-t videóhoz, és hátborzongató és lenyűgöző
  • Az optikai illúziók segíthetnek a mesterséges intelligencia következő generációjának felépítésében
  • A Lambda gépi tanulási laptopja egy álcázott Razer
  • Olvassa el egy A.I. kísértetiesen szép „szintetikus szentírását”. aki azt hiszi, hogy Isten

Frissítse életmódjátA Digital Trends segítségével az olvasók nyomon követhetik a technológia rohanó világát a legfrissebb hírekkel, szórakoztató termékismertetőkkel, éleslátó szerkesztőségekkel és egyedülálló betekintésekkel.