Az AR jövője a fülhallgató, nem a szemüveg

illusztrációja egy fülhallgató egy személy fülében
Genevieve Poblano/Digital Trends Graphics

Romit Roy Choudhury fülig érő. De nem benne hogy út. Roy Choudhury, az Illinoisi Egyetem elektromérnöki és számítástechnikai professzora, az Urbana-Champaign-ben, erősen hisz az általa definiált paradigmaváltó potenciálban. füles (nem, nem hordható) számítástechnika.

Tartalom

  • Gondolatolvasó fülhallgató?
  • Letöltés a fülig
  • Dormehl törvénye
  • A hordható eszközök ígérete

Ez azt jelenti, hogy bele kell kapcsolódni a hatalmas hardver- és szoftverlehetőségekbe, amelyek a feje oldalán található két díszes lehallgatási lyukon keresztül futnak. És segítséget nyújthat az adatvédelmi és biztonsági alkalmazásoktól az orvosi diagnózisig minden fejlesztéséhez A kiterjesztett valóság jövőjére összpontosító eszközöket, szakértői csapatot állít össze, hogy segítsen neki.

Ajánlott videók

„Sokára bárkit használhatok a számítástechnikában és az elektrotechnikában” – mondta a Digital Trendsnek. „Hatalmas a radarom problémáinak skálája.”

Összefüggő

  • Aggódik az FBI hamisított figyelmeztetése miatt? Kövesse ezeket a szakértői tippeket
  • Az OpenAI új ChatGPT alkalmazása ingyenes iPhone-ra és iPadre
  • Mostantól videocsevegést folytathat a ChatGPT AI-val – így néz ki
Apple AirPods Pro és Samsung Galaxy Buds Live
Jaron Schneider / Digital Trends

A fülhallgatók már most is hatalmas piacot képviselnek. Almák AirPods2019-ben 60 millió darabot értékesítettek a vezeték nélküli fülhallgatókból. Tavaly ez a szám volt becslések szerint 85 millióra emelkedik. Manapság sok cég gyárt olyan intelligens fülhallgatókat, amelyek aktív zajszűrést, A.I. intelligens asszisztensek és még sok más.

Több évtizeddel az AirPods előtt, még az 1980-as években, létezett a Walkman, talán az első modern hordható technológia, amely lehetővé tette a felhasználók számára, hogy bárhová magukkal vigyék zenéjüket. A Walkman nemcsak az uralmat adta a felhasználóknak, hogy mit hallgatnak (mondjuk a The Smiths), hanem azáltal is, hogy műanyag fülhallgatói bedugaszolták a fülüket, azt is, amit nem hallgattak (mondjuk a szüleiket). Lehetővé tette az emberek számára, hogy létrehozzák és irányítsák életük hangsávját, így mindannyiunknak megadta saját egyéni jelentésbuborékait. Míg a boombox arról szólt, hogy hagyjunk – vagy bizonyos esetekben kényszerítsünk – másokat, hogy hallgassák a zenénket, a Walkman alapvetően személyes, elszigetelt élménnyé tette a hallgatást.

Florian Schmetz/Unsplash

De Roy Choudhury és csapata ennél tovább akar menni. Arra törekszenek, hogy a mai fülhallgatókat egy teljesen új számítástechnikai platformmá alakítsák át, amely bizonyos esetekben helyettesítheti azt az igényt, hogy a okostelefon vagy számítógép. Ha a Walkman mindenkinek kiadná a saját személyes hangbuborékát, hogy élvezze az utcán sétálva, ebben a korszakban intelligensebb technológiával és személyre szabással ugyanezek a buborékok hasznosíthatók új, izgalmas és – esetenként – kissé furcsa dolgokban. módokon.

Gondolatolvasó fülhallgató?

"A hordható számítástechnikai piac nagy része [eddig] azokra az eszközökre összpontosított, amelyeket a test alsó részén, leginkább a zsebében vagy a csuklóján, esetleg a cipőjében hordtak" - mondta Roy Choudhury. „Ez azt jelenti, hogy érzékeli a test alsó részét, például azt, hogy mit csinál a kezével, a csuklójával vagy a lábával. De sok információ keletkezik a test felső részén, főleg a fején – mint pl hallgatás, beszéd, evés, arc érzelmek, potenciális nyomok az orvosi vonatkozású információkhoz – ez lehet felbecsülhetetlen. A Szent Grál, ennek végső határa akár az is lehet agyi jelek érzékelése a fejed közeléből."

A Sirihez hasonló intelligens asszisztensek mögött az a gondolat áll, hogy ne csak passzívan hallgathassuk a fülbe helyezhető eszközt, hanem beszéljünk is vele. De a beszéd, ahogyan a mai A.I. asszisztensek, szándékosan sekély. Egy képhez képest (ezer szónál többet ér) a Siri a legjobb, ha gyorsan sugároz információkat, például megkeresi az időjárás-előrejelzést vagy beállít egy időzítőt a konyhában. De ez körülbelül a határ. A fülbe helyezhető számítástechnika lényege, hogy megtaláljuk a módját azoknak a dolgoknak, amelyek miatt jelenleg a képernyőt kell bámulnunk, és azokat a fülünkbe (és a fülünkbe) helyezzük.

dalazonosító ai
Krishna P. Miyapuram

„Minden, amit a vizuális képernyőn csinál, arra fordítja teljes kognitív figyelmét” – mondta. „Olvasni – még ha buta vicc is, amit a képernyőn olvas – nem lehet másra koncentrálni. Az olvasás leköti a teljes kognitív figyelmet. Meggyőződésem, hogy sok ilyen dolog van, amely nem érdemli meg a teljes kognitív figyelmedet. Kihúzhatjuk ezeket a vizuális tartományból, és a kihasználatlan és monopolizált audio tartományba tolhatjuk őket, ahol az emberi agy természetesen nagyon jól fejlődött multiplex az ilyen hanginformációk között… Miért nem veszi ezeket az egyszerű dolgokat, és távolítsa el őket kognitív, vizuális kognitív csatornájáról az akusztikus csatornába sávszélesség?"

A csapat által a közelmúltban végzett kísérlet során feltárták, hogyan tudnánk értelmesebben felhasználni a szöveget hallható forma. Ha egy cikket olvas, előfordulhat, hogy megjelenik egy kulcsszó, amely érdekli Önt, és ekkor kezdje el az olvasást. Ennek azonban nincs egyszerű módja, ha például podcastot hallgat.

„Az egyik dolog, amit a laborunkban megpróbálunk tenni, az az, hogy [kérdezd meg], felgyorsíthatom-e egy cikk meghallgatását?” – mondta Roy Choudhury.

Letöltés a fülig

A csoport koncepcionális bemutatóján a hallgatónak egy cikkben több bekezdést olvas fel egyszerre. Ennek a munkának a trükkje az, hogy jelfeldolgozással minden bekezdés úgy hangzik, mintha más irányból érkezne – ez egy kicsit olyan, mintha ülnénk egy étteremben, és négy beszélgetés zajlik a környező asztaloknál, de tárcsáznak egyet, mert a lakók megemlítenek egy személyt, akit Ön tud. Ennek jobb működése érdekében a csapat a fülhallgatóba ütötte az inerciális mérőegységet (IMU), hogy a a felhasználó felemelhet egy adott hangot (a szöveg egy részét), ha kissé elfordítja a fejét irány.

„Ezt a projektet „az akusztikus tartományban való olvasásnak” nevezem, ahol a harmadik bekezdés hangjának irányát nézem, és ez a hang felerősödik, a többi hang pedig elhalkul” – mondta.

Ez sem a beszédről szól. A csapat azt is megállapította, hogy a fülhallgatók mikrofonja és IMU-ja is hihetetlenül finom rezgések érzékelésére használható az arcban, olyan apró, mint egy személy vacog a foga vagy az arcizmok a homlokát ráncolva vagy mosolyogva. Nem, valószínűleg nem hagyja el az okostelefonját, hogy morze-kóddal csevegjen a fogával. De az ötlet, hogy ezek az apró arctorzulások, mint például a jobb oldali fogak elcsúsztatása, használhatók parancsok végrehajtása – vagy akár személyazonosság-erősítő szerep a kéttényezős hitelesítésnél – minden bizonnyal az érdekes.

"Mindenki ismeri a Sirit, de képzeld el, mennyi lehetséges felhasználási terület nyílhatna meg Siri számára, ha csak lenne egy térbeli dimenziója, mint egy hasbeszélő, aki képes kiadni a hangját."

Ez emellett hasznos lehet longitudinális adatok rögzítéséhez, például az orvosi diagnózishoz. A szorongásos rendellenességek például a fogak mozgásában észlelt bizonyos minták alapján diagnosztizálhatók. Roy Choudhury azt is megjegyezte, hogy vannak olyan kutatók, akik olyan problémákon dolgoznak, mint a fülön keresztüli véráramlás mérése a pulzusszám, a glükózszint, az izomtevékenység és egyebek mérése érdekében.

Más lehetséges felhasználást szeretne? Hogyne hallható kiterjesztett valóság? A kiterjesztett valóság jelenleg leginkább arról ismert, hogy a számítógép által generált objektumokat a való világ tetejére helyezi. De semmi sem indokolja, hogy a kibővítéseknek pusztán a vizuális spektrumban kellene történniük. Roy Choudhury csapata izgatottan várja, hogy jelfeldolgozó technológiát használnak bizonyos hangok leképezésére a tájra, így a navigáció során repülőtéren, múzeumon vagy bármely más nyilvános helyen sétálhat egy „kövess engem” hang felé, amely úgy tűnik, onnan jön, ahonnan indulnia kell. ban ben.

Siri

Mindenki ismeri a Sirit, de képzeljük el, mennyi lehetséges felhasználási terület nyílhatna meg Siri számára, ha csak lenne egy térbeli dimenziója, mint egy hasbeszélő, aki képes kiadni a hangját. Ez a térbeli kiegészítés segíthet a nagy virtuális értekezletek javításában is, mivel minden egyes személy hangja egy adott helyre van leképezve, így könnyebben azonnal megállapítható, hogy ki beszél.

Mindez persze nem fog megvalósulni. Ezek egy szövegíró mérnöki változata, amely ötleteket firkál egy hirdetéshez. Lehetséges, hogy sokan közülük nem érnek rá, de egy-két példa nagyon hasznos lehet.

Dormehl törvénye

Ez egy másik oka annak, hogy Roy Choudhury annyira lelkes a folyamatos füles számítástechnikában rejlő lehetőségekről – és a valós siker esélyeiről. A társadalmi válaszok sokkal jobban megszabják, hogy mely technológiák válnak be, mint azt a technológusok feltétlenül szeretnék. Az új technológiák értelemszerűen újak. Az új egyenlő lehet a furcsasággal. Ahhoz, hogy egy saját megfogalmazást (nevezzük Dormehl-törvénynek, az utókor szúrására) használhassak, minden új technológia kapun kívüli használhatóságának duplán ellensúlyoznia kell a használat velejárója.

"Ez azért probléma, mert nagyon kevés technológia jelenik meg teljesen kialakult állapotban."

A személyi számítógép, amelyet az emberek otthonukban használtak, a piacon lévő első néhány évben keveset engedhettek meg maguknak, mivel használatának társadalmi tétje olyan alacsony volt. Egy nyilvános helyen használt laptopnak valamivel nagyobb tétje volt. A hordható eszközök, amelyek különösen szembetűnőek a testen való viselet miatt, láthatóan furcsák, mint a legtöbb technológia. Egy olyan technológiai darabot, amely a fejen ragad, és úgy néz ki, mint egy kibernetikus implantátum egy Borg drónon, zseniális és azonnal hasznos, ha a felhasználó megéri azt a káros társadalmi hatást, hogy látják rajta.

Jaron Schneider / Digital Trends

Ez azért probléma, mert nagyon kevés technológia jelenik meg teljesen kialakult állapotban. A legtöbb esetben a termék első néhány generációja hibás ígéretekre épül, mielőtt a harmadik iteráció környékén valami lenyűgözőbb ajánlat jelenik meg. Ha egy jól látható terméket az első naptól kezdve nem sikerül szállítani, a hosszú távú siker esélye meghiúsulhat, még akkor is, ha végül jó termékké válik. Az idősebb tech-rajongók számára fontolja meg a hordozható Apple Newton eszközt és annak korai kézírás-felismerését. A fiatalabb rajongók számára Dormehl törvénye magyarázatot adhat a Google Glass kudarcára, amely hatalmas társadalmi megbélyegzést és ítélőképességet jelentett, és működött… nagyjából rendben volt.

A fülhallgatók, ahogy Roy Choudhury megjegyezte, mások. Bármilyen csatát is vívtak velük kapcsolatban, többé-kevésbé már megnyerték. „A társadalom már elfogadta a fülhallgatót viselő embereket” – mondta. „… Bizonyos értelemben csak az algoritmusokat, az érzékelőket és a hardvert kell frissíteni. Ez csak egy technológiai szűk keresztmetszet, és már nem társadalmi, pszichológiai szűk keresztmetszet.”

A hordható eszközök ígérete

Az a tény, hogy a fülhallgatókat elfogadták, csökkenti a tétet, és azt jelenti, hogy többé nem kell azonnali bináris eredménynek lennie. Még akkor is, ha a Roy Choudhury által leírt legmagasztosabb célokat hosszú ideig nem érik el, a fokozatos javulás hasznosabbá teszi a bevált formai tényezőt.

„A magasan lógó gyümölcsök [olyan dolgok, mint] „a fogaim mozdulataiból észlelem a rohamokat” vagy „a fogamból. arcmozdulatokkal, meg tudom érteni az illető hangulatát, így ez olyan lesz, mint egy Fitbit a hangulatért"" mondott. „De még ha ez nem is sikerül, nem akadályozza a termékpályát. Ha azonban sikerrel járnak, az egyszerűen valami fantasztikussá változtatta a terméket.”

Roy Choudhury szerint a füles számítástechnika lehetőségei szinte korlátlanok. „Úgy gondolom, hogy az előttünk álló út messze túlmutat a beszédeken” – mondta. „Azt mondanám, hogy a beszéd a legbelső kör, amely [ennek a technológiának] a magja. Az interakción kívül általában az akusztika. Az akusztikán kívül pedig mindenféle egyéb érzékelő és képesség található. Ha arra gondol, hogyan kezdjük el építeni ezt a platformot, a gyümölcsök alacsonyak beszédalapú interakció: „Időzítő beállítása”, „Hé, Siri, milyen idő van ma?” De ez messzire, messzire mehet azon túl."

Más kutatók, akik Roy Choudhuryval együtt hordható számítástechnikán dolgoznak, többek között Zhijian Yang, Yu-Lin Wei, Jay Prakash, és Ziyue Li.

Szerkesztői ajánlások

  • A ChatGPT iPhone-alkalmazásában már be van építve a Bing
  • Az Apple nem tette Sirit ChatGPT-gyilkossá a WWDC-n – és ez megrémít
  • Felejtsd el a ChatGPT-t – a Siri és a Google Asszisztens ezt a 4 dolgot jobban teljesíti
  • Az Apple mesterséges intelligencia-egészségügyi tanácsadót készít az Apple Watch számára, állítja a jelentés
  • Ez a bizarr AI-eszköz a jövőben leválthatja okostelefonját