Przyszłością AR są słuchawki douszne, a nie okulary

ilustracja przedstawiająca słuchawkę w uchu osoby — Genevieve Poblano/Digital Trends Graphics

Romit Roy Choudhury ma wielkie uszy. Ale nie w To sposób. Roya Choudhury’ego, profesor inżynierii elektrycznej i informatyki na Uniwersytecie Illinois w Urbana-Champaign, mocno wierzy w potencjał zmiany paradygmatu tego, co nazywa możliwe do usłyszenia (nie, nie do noszenia) przetwarzanie danych.

Zawartość

Słuchawki douszne czytające w myślach?
Ładowanie do uszu
Prawo Dormehla
Obietnica urządzeń do noszenia

Oznacza to wykorzystanie ogromnych możliwości sprzętu i oprogramowania, które działają przy użyciu dwóch fantazyjnych otworów odsłuchowych po bokach głowy. Oraz pomoc w opracowywaniu wszystkiego, od aplikacji zapewniających prywatność i bezpieczeństwo po diagnostykę medyczną narzędzi skupiających się na przyszłości rzeczywistości rozszerzonej, tworzy zespół ekspertów, którzy mają mu pomóc.

Polecane filmy

„Mogę wykorzystać praktycznie każdego w informatyce i elektrotechnice” – powiedział Digital Trends. „Gama problemów, które dostrzegam, jest ogromna”.

Powiązany

Martwisz się fałszywym ostrzeżeniem FBI? Postępuj zgodnie z tymi wskazówkami ekspertów
Nowa aplikacja ChatGPT OpenAI jest bezpłatna na iPhone'a i iPada
Możesz teraz prowadzić czat wideo z AI ChatGPT — oto jak to wygląda

Apple AirPods Pro i Samsung Galaxy Buds Live — Jaron Schneider / Trendy cyfrowe

Słuchawki to już ogromny rynek. Jabłka AirPods, linia bezprzewodowych słuchawek dousznych, sprzedała się w samym 2019 roku w liczbie 60 milionów sztuk. W zeszłym roku była to liczba szacuje się, że liczba ta wzrośnie do 85 milionów. Obecnie wiele firm produkuje inteligentne słuchawki douszne, które oferują aktywną redukcję szumów, technologię AI. inteligentni asystenci i nie tylko.

Kilkadziesiąt lat przed AirPods, w latach 80., pojawił się Walkman, być może pierwsza nowoczesna technologia noszenia, która pozwalała użytkownikom zabierać ze sobą muzykę, dokądkolwiek się udali. Walkman dał użytkownikom kontrolę nie tylko nad tym, czego słuchają (powiedzmy The Smiths), ale także – dzięki plastikowym wkładkom zatykającym uszy – nad tym, czego nie słuchają (powiedzmy, ich rodzice). Pozwoliło ludziom tworzyć ścieżkę dźwiękową do ich życia i sprawować nad nią kontrolę, nadając nam wszystkim indywidualne bańki znaczeń. Podczas gdy boombox pozwalał – lub, w niektórych przypadkach, zmuszał – innych do słuchania naszej muzyki, Walkman sprawił, że słuchanie stało się zasadniczo osobistym, izolowanym doświadczeniem.

Jednak Roy Choudhury i jego zespół chcą pójść dalej. Starają się przekształcić dzisiejsze słuchawki douszne w zupełnie nową platformę komputerową, która w niektórych przypadkach może zastąpić potrzebę sięgania po telefon smartfon lub komputer. Gdyby Walkman zapewniał każdemu osobistą bańkę dźwiękową, którą można by się cieszyć podczas spaceru ulicą, w dzisiejszych czasach inteligentniejsza technologia i personalizacja, te same bańki można wykorzystać w nowych, ekscytujących i – czasami – nieco dziwnych sposoby.

Słuchawki douszne czytające w myślach?

„Większość rynku komputerów przenośnych [jak dotąd] skupiała się na urządzeniach noszonych w dolnej części ciała, głównie w kieszeniach lub na nadgarstkach, być może w butach” – powiedział Roy Choudhury. „Oznacza to, że możesz wyczuć dolną część ciała, na przykład to, co robisz rękami, nadgarstkami i nogami. Jednak wiele informacji jest generowanych w górnej części ciała, głównie w głowie – np słuchanie, mówienie, jedzenie, emocje na twarzy, potencjalnie wskazówki dotyczące informacji medycznych – to może być nieoceniony. Święty Graal, ostateczna granica tego, może nawet być odbieranie sygnałów mózgowych z bliska twojej głowy.

Pomysł, aby móc nie tylko pasywnie słuchać urządzenia dousznego, ale także z nim rozmawiać, leży u podstaw inteligentnych asystentów, takich jak Siri. Ale mowa, używana w dzisiejszej sztucznej inteligencji. asystentów, jest celowo płytkie. W porównaniu do obrazu (wartego tysiąca słów) Siri radzi sobie najlepiej dzięki szybkim strumieniom informacji, takim jak wyszukiwanie prognozy pogody lub ustawianie minutnika w kuchni. Ale to tyle. Ideą komputerów dousznych jest znalezienie sposobów na odciążenie niektórych rzeczy, w które obecnie musimy wpatrywać się na ekranach, i włożenie ich do uszu (i do nich).

piosenka identyfikująca ai — Kryszna P. Miyapuram

„Wszystko, co robisz na ekranie, angażuje całą twoją uwagę poznawczą” – powiedział. „Czytając – nawet jeśli jest to głupi żart, który czytasz na ekranie – nie możesz się skupić na niczym innym. Czytanie pochłania całą uwagę poznawczą. Wierzę, że istnieje wiele takich rzeczy, które nie zasługują na pełną uwagę poznawczą. Możemy wyciągnąć je z domeny wizualnej i wypchnąć do niewykorzystanej i niemonopolizowanej domeny audio, gdzie ludzki mózg w naturalny sposób ewoluował bardzo dobrze, aby multipleks pomiędzy takimi informacjami audio… Dlaczego nie wziąć tych prostych rzeczy i przenieść ich z kanału poznawczego, wizualnego i poznawczego do kanału akustycznego? przepustowość łącza?"

Niedawny eksperyment przeprowadzony przez zespół polegał na badaniu sposobów, w jakie moglibyśmy w bardziej znaczący sposób konsumować tekst słyszalny formularz. Jeśli czytasz artykuł, możesz zobaczyć słowo kluczowe, które Cię interesuje, i od tego momentu zacznij czytać. Nie ma jednak łatwego sposobu, aby to zrobić, na przykład podczas słuchania podcastu.

„Jedną z rzeczy, które staramy się robić w naszym laboratorium, jest [zapytanie], czy mogę przyspieszyć słuchanie artykułu?” powiedział Roy Choudhury.

Ładowanie do uszu

Podczas grupowej demonstracji sprawdzającej koncepcję słuchaczowi czyta się jednocześnie wiele akapitów w artykule. Aby to zadziałało, należy zastosować przetwarzanie sygnału, aby każdy akapit brzmiał tak, jakby dochodził z innego kierunku – to trochę jak siedzenie w restauracji i prowadzisz cztery rozmowy przy sąsiednich stolikach, ale łączysz się z jedną, ponieważ lokatorzy wspominają o osobie, o której mówisz wiedzieć. Aby to działało lepiej, zespół dotknął inercyjnej jednostki pomiarowej (IMU) w słuchawkach, tak aby użytkownik może podnieść określony głos (część tekstu), lekko obracając w nim głowę kierunek.

„Nazywam ten projekt «czytaniem w domenie akustycznej»; patrzę w kierunku głosu trzeciego akapitu i ten głos staje się głośniejszy, a pozostałe głosy jakby przytłumione” – powiedział.

Tu też nie chodzi tylko o mowę. Zespół odkrył również, że zarówno mikrofon, jak i IMU w słuchawkach można wykorzystać do wychwytywania niezwykle subtelnych wibracji twarzy, tak małych jak osoba szczękająca zębami lub mięśnie twarzy marszczące brwi lub uśmiechające się. Nie, prawdopodobnie nie porzucisz smartfona, aby zębami wysyłać wiadomości alfabetem Morse'a. Ale pomysł, że można by się przyzwyczaić do tych drobnych wykrzywień twarzy, takich jak przesuwanie zębów po prawej stronie wykonywać polecenia — a nawet działać jako potwierdzenie tożsamości w przypadku uwierzytelniania dwuskładnikowego — z pewnością jest ciekawy.

„Każdy zna Siri, ale wyobraźcie sobie, ile potencjalnych zastosowań mogłaby otworzyć Siri, gdyby tylko miała wymiar przestrzenny, jak brzuchomówca potrafiący rzucać głosem”.

Może to być dodatkowo przydatne do gromadzenia danych podłużnych na potrzeby diagnozy medycznej. Na przykład zaburzenia lękowe można zdiagnozować na podstawie pewnych wzorców ruchu zębów. Roy Choudhury zauważył również, że badacze pracują nad takimi problemami, jak pomiar przepływu krwi przez uszy w celu pomiaru tętna, poziomu glukozy, aktywności mięśni i nie tylko.

Chcesz inne możliwe zastosowanie? Co powiesz na dźwiękowa rzeczywistość rozszerzona? Rzeczywistość rozszerzona jest obecnie najbardziej znana z nakładania obiektów generowanych komputerowo na świat rzeczywisty. Ale nie ma powodu, dla którego augmentacje miałyby odbywać się wyłącznie w spektrum wizualnym. Zespół Roya Choudhury’ego jest podekscytowany perspektywą wykorzystania technologii przetwarzania sygnału do mapowania określonych dźwięków na krajobraz, dzięki czemu poruszanie się po lotnisko, muzeum lub jakakolwiek inna przestrzeń publiczna może wiązać się z podążaniem w stronę głosu mówiącego „pójdź za mną”, który wydaje się dobiegać z kierunku, w którym musisz się udać W.

Wszyscy znają Siri, ale wyobraźcie sobie, ile potencjalnych zastosowań mogłaby otworzyć Siri, gdyby tylko miała wymiar przestrzenny, jak brzuchomówca potrafiący rzucać głosem. To powiększenie przestrzenne może również pomóc w usprawnieniu dużych wirtualnych spotkań, w których głos każdej osoby jest mapowany do określonej lokalizacji, co ułatwia natychmiastowe określenie, kto mówi.

Nie wszystkie oczywiście się spełnią. To inżynieryjna wersja copywritera bazgrającego pomysły na reklamę. Wiele z nich może nie zostać zaakceptowanych, ale jeden lub dwa przykłady mogą być niezwykle przydatne.

Prawo Dormehla

To kolejny powód, dla którego Roy Choudhury jest tak zachwycony potencjałem dalszego korzystania z komputerów dousznych i szansami na sukces w świecie rzeczywistym. Reakcje społeczne w znacznie większym stopniu decydują o tym, które technologie się przyjmą, niż koniecznie chcieliby tego technolodzy. Nowe technologie z definicji są nowe. Nowe może równać się dziwne. Używając mojego własnego sformułowania (nazwijmy je prawem Dormehla, aby dźgnąć potomność), nieszablonowa użyteczność każdej nowej technologii musi podwójnie równoważyć wrodzoną głupotę jej stosowania.

„To jest problem, ponieważ bardzo niewiele technologii pojawia się w pełni ukształtowanych”.

Komputer osobisty, którego ludzie używali w swoich domach, przez kilka pierwszych lat istnienia na rynku mógł sobie pozwolić na niewielkie użytkowanie, ponieważ ryzyko społeczne związane z jego używaniem było tak niskie. Nieco wyższą stawkę miał laptop używany w miejscach publicznych. Urządzenia do noszenia, które są szczególnie widoczne ze względu na noszenie na ciele, są bardziej zauważalnie dziwne niż większość technologii. Kawałek technologii, który zostanie przyczepiony do głowy i będzie wyglądał jak cybernetyczny implant na dronie Borg, musi zostać genialne i natychmiast przydatne, jeśli użytkownik uzna, że warto być widzianym ze względu na szkodliwy wpływ społeczny nosić to.

Stanowi to problem, ponieważ bardzo niewiele technologii pojawia się w pełni ukształtowanych. W większości przypadków kilka pierwszych generacji produktu opiera się na błędnych obietnicach, zanim mniej więcej w trzeciej iteracji pojawi się bardziej przekonująca oferta. Jeśli bardzo widoczny produkt nie spełni oczekiwań od pierwszego dnia, jego szanse na sukces w dłuższej perspektywie mogą zostać udaremnione, nawet jeśli ostatecznie przekształci się w dobry produkt. Starsi fani technologii powinni rozważyć przenośne urządzenie Apple Newton i jego wczesną wersję rozpoznawania pisma ręcznego. W przypadku młodszych fanów prawo Dormehla może wyjaśniać porażkę Google Glass, która wiązała się z ogromnym piętnem społecznym i oceną, a która działała… prawie OK.

Słuchawki douszne, jak zauważył Roy Choudhury, są inne. Wszelkie bitwy, które kiedyś toczyły się na ich temat, zostały już w mniejszym lub większym stopniu wygrane. „Społeczeństwo zaakceptowało już osoby noszące słuchawki” – powiedział. „… W pewnym sensie uaktualnienia wymagają teraz jedynie algorytmy, czujniki i sprzęt. To jedynie technologiczne wąskie gardło, a nie społeczne i psychologiczne wąskie gardło”.

Obietnica urządzeń do noszenia

Fakt, że słuchawki douszne zostały zaakceptowane, obniża stawkę i oznacza, że nie musi już być natychmiastowy wynik binarny. Nawet jeśli najwyższe cele opisane przez Roya Choudhury'ego nie zostaną osiągnięte przez długi czas, stopniowe doskonalenie zwiększy użyteczność sprawdzonej obudowy.

„Wysoko wiszącymi owocami są takie rzeczy jak: «na podstawie gestów moich zębów wyczuwam drgawki» lub «na podstawie moich zębów» gestami twarzy, rozumiem nastrój danej osoby, dzięki czemu mogę porównać ją do Fitbit poprawiającego nastrój” – on powiedział. „Ale nawet jeśli to się nie powiedzie, nie utrudnia to rurociągu produktów. Jeśli jednak odniosą sukces, produkt po prostu przekształci się w coś fantastycznego”.

Roy Choudhury uważa, że potencjał komputerów, które można usłyszeć, jest niemal nieograniczony. „Myślę, że droga przed nami wykracza daleko poza mowę” – powiedział. „Powiedziałbym, że mowa jest najbardziej wewnętrznym kręgiem, który leży u podstaw [tej technologii]. Poza tą interakcją jest ogólnie akustyka. A akustyka zewnętrzna to wszelkiego rodzaju inne czujniki i możliwości. Jeśli pomyślisz o tym, jak zaczniemy budować tę platformę, nisko wiszą owoce interakcja oparta na mowie: „Ustaw minutnik”, „Hej Siri, jaka jest dzisiaj pogoda?”. Ale może to zajść daleko, daleko Ponadto."

Inni badacze pracujący nad urządzeniami do noszenia wraz z Royem Choudhurym to m.in Zhijian Yang, Yu-Lin Wei, Jaya Prakasha, I Ziyue Li.

Zalecenia redaktorów

Aplikacja ChatGPT na iPhone'a ma teraz wbudowaną usługę Bing
Apple nie uczyniło Siri zabójcą ChatGPT podczas WWDC – i to mnie przeraża
Zapomnij o ChatGPT — Siri i Asystent Google robią te 4 rzeczy lepiej
Z raportu wynika, że Apple tworzy trenera zdrowia AI dla Apple Watch
To dziwaczne urządzenie AI może w przyszłości zastąpić Twój smartfon

Przyszłością AR są słuchawki douszne, a nie okulary

Słuchawki douszne czytające w myślach?

Ładowanie do uszu

Prawo Dormehla

Obietnica urządzeń do noszenia

Zalecenia redaktorów

Kategorie

Niedawny

6 rzeczy, które musisz wiedzieć przed sezonem Servant 4

5 programów telewizyjnych, które warto obejrzeć, jeśli lubisz Poker Face

8 świetnych filmów reżyserek, które musisz obejrzeć