LipNet: Jak myślisz, jak łatwe jest czytanie z ruchu warg?
Wiedząc, że HAL stale słucha, co mówią, wycofują się w miejsce, o którym wiedzą, że HAL nie może ich słuchać, i zgadzają się na jego odłączenie. HAL burzy swój plan po tym, jak dwaj astronauci nie biorą pod uwagę... Doskonałe możliwości AI w zakresie czytania z ruchu warg.
Futurystyczne rzeczy, co? Nie wynika z badań przeprowadzonych przez badaczy z Uniwersytetu Oksfordzkiego. Opracowali program sztucznej inteligencji o nazwie LipNet, który jest w stanie dokładnie zinterpretować to, co mówią ludzie, wyłącznie na podstawie sposobu, w jaki poruszają ustami podczas mówienia.
Powiązany
- Sztuczna inteligencja Photoshopa uważa, że „szczęście” to uśmiech z zepsutymi zębami
- Przedstawiłem mój absurdalny pomysł na start-up robotowi VC
- Skąd będziemy wiedzieć, kiedy sztuczna inteligencja faktycznie stanie się świadoma?
„LipNet czyta z ruchu warg na poziomie zdania, korzystając z uczenia maszynowego” Brendana Shillingforda, jeden z badaczy papier, powiedział Digital Trends. „Sieć neuronowa podobna do najnowocześniejszych modeli rozpoznawania mowy przetwarza sekwencję klatek wideo, odwzorowując je na zdanie. Poprzednie podejścia opierały się na przewidywaniu pojedynczych słów, a nie zdań”.
Polecane filmy
Wydajność LipNet wypada niewiarygodnie korzystnie w porównaniu z wynikami ekspertów od czytania z ruchu warg w korpusie GRID, największym publicznie dostępnym zbiorze danych dotyczących czytania z ruchu warg na poziomie zdań. W rzeczywistości tam, gdzie eksperci-ludzi uzyskali zaledwie 52 procent, LipNet uzyskał 93 procent. Oparte na zdaniach podejście do czytania z ruchu warg również pobiło najlepszą poprzednią próbę maszyny, która osiągnęła 79,6% dokładności w tym samym zbiorze danych.
Jednakże, podczas gdy fikcyjny HAL 9000 wykorzystuje swoją zdolność czytania z ruchu warg do niczego dobrego, zespół stojący za LipNet ma inne cele przy ich tworzeniu. Około 360 milionów ludzi na całym świecie cierpi na ubytek słuchu powodujący niepełnosprawność. Narzędzia takie jak LipNet mogą mieć ogromne znaczenie dla tych osób, ponieważ pomagają w dokładnej interpretacji mowy w sposób ułatwiający im życie.
„Inne zastosowania, którymi jesteśmy zainteresowani, obejmują ciche dyktowanie w przestrzeni publicznej, tajne rozmowy, rozpoznawanie mowy w hałaśliwym otoczeniu, identyfikacja biometryczna i przetwarzanie niemego filmu”, Shillingford nieprzerwany.
Chociaż inwigilacja będzie problemem w przypadku każdej takiej technologii, Nando de Freitas, który również pracował nad projektem, powiedział, że nie jest to aplikacja, na której się skupiali. Stwierdził jednak, że „nie byłoby zaskakujące”, gdyby inne laboratoria próbowały w przyszłości wykorzystać tę pracę w tym celu.
„Opinia publiczna musi być tego świadoma i polegać na naszych legalnych instytucjach demokratycznych, jeśli chodzi o ustanowienie odpowiednich przepisów chroniących naszą prywatność i godność” – kontynuował de Freitas. „Mamy nadzieję, że publikując tę pracę, pomożemy podnieść świadomość, jednocześnie podkreślając przydatność tej technologii w pomaganiu potrzebującym”.
Zalecenia redaktorów
- Rywal Apple ChatGPT może automatycznie napisać kod za Ciebie
- Meta stworzyła DALL-E na potrzeby wideo i jest zarówno przerażający, jak i niesamowity
- Złudzenia optyczne mogą pomóc nam w zbudowaniu sztucznej inteligencji nowej generacji
- Laptop Lambda do uczenia maszynowego to Razer w przebraniu
- Przeczytaj niesamowicie piękne „syntetyczne pismo” AI. który myśli, że jest Bogiem
Ulepsz swój styl życiaDigital Trends pomaga czytelnikom śledzić szybko rozwijający się świat technologii dzięki najnowszym wiadomościom, zabawnym recenzjom produktów, wnikliwym artykułom redakcyjnym i jedynym w swoim rodzaju zajawkom.