Framtiden för AR är hörlurar, inte glasögon

illustration av en öronsnäcka i en persons öra
Genevieve Poblano/Digital Trends Graphics

Romit Roy Choudhury är stor i öronen. Men inte in den där sätt. Roy Choudhury, professor i elektroteknik och datavetenskap vid University of Illinois i Urbana-Champaign, är en stark troende på den paradigmskiftande potentialen i vad han kallar örbar (nej, inte bärbar) datoranvändning.

Innehåll

  • Tankeläsande hörlurar?
  • Avlastning till öronen
  • Dormehls lag
  • Löftet om wearables

Det betyder att du kopplar in dig i de enorma möjligheterna för hårdvara och mjukvara som körs med de två snygga lyssningshålen på sidorna av ditt huvud. Och att hjälpa till med att utveckla allt från integritets- och säkerhetsapplikationer till medicinsk diagnos verktyg fokuserade på framtiden för förstärkt verklighet, håller han på att sammansätta ett team av experter för att hjälpa honom.

Rekommenderade videor

"Jag kan använda i stort sett vem som helst inom datavetenskap och elektroteknik," sa han till Digital Trends. "Omfånget av problem på min radar är enormt."

Relaterad

  • Orolig över FBI: s djupfalska varning? Följ dessa experttips
  • OpenAI: s nya ChatGPT-app är gratis för iPhone och iPad
  • Du kan nu videochatta med en ChatGPT AI - så här ser det ut
Apple AirPods Pro och Samsung Galaxy Buds Live
Jaron Schneider / Digitala trender

Hörlurar är redan en enorm marknad. Apples AirPods, dess linje av trådlösa hörlurar, sålde 60 miljoner enheter bara under 2019. Förra året var denna siffra beräknas stiga till 85 milj. Idag tillverkar många företag smarta hörlurar som erbjuder aktiv brusreducering, A.I. smarta assistenter och mer.

Flera decennier före AirPods, tillbaka på 1980-talet, fanns Walkman, kanske den första moderna bärbara tekniken, som gjorde det möjligt för användare att ta med sig sin musik vart de än gick. Walkman gav användarna makt inte bara över vad de lyssnade på (säg The Smiths), utan också, genom att dess plasthörsnäckor täppte till öronen, vad de inte lyssnade på (säg deras föräldrar). Det gjorde det möjligt för människor att skapa och utöva kontroll över soundtracket till sina liv, vilket gav oss alla våra egna individuella bubblor av mening. Medan boomboxen handlade om att låta – eller i vissa fall tvinga – andra att lyssna på vår musik, gjorde Walkman lyssnandet till en i grunden personlig, isolerad upplevelse.

Florian Schmetz/Unsplash

Men Roy Choudhury och hans team vill gå längre än så. De försöker förvandla dagens hörsnäckor till en helt ny datorplattform som i vissa fall kan ersätta behovet för dig att nå din smartphone eller dator. Om Walkman gav alla sin egen personliga ljudbubbla att njuta av när de gick nerför gatan, i denna tid av smartare teknik och anpassning, samma bubblor skulle kunna utnyttjas i nya, spännande och – ibland – lite konstiga sätt.

Tankeläsande hörlurar?

"Det mesta av marknaden för bärbara datorer har [hittills] fokuserat på enheter som bärs på den nedre delen av kroppen, mestadels i dina fickor eller på dina handleder, kanske i dina skor," sa Roy Choudhury. "Det betyder att du får känna av den nedre delen av kroppen, till exempel vad du gör med händerna, med handlederna, med benen. Men det finns mycket information som genereras på den övre delen av kroppen, främst ditt huvud - som t.ex. lyssna, tala, äta, ansiktskänslor, potentiellt ledtrådar för medicinsk relaterad information – det kan vara ovärderlig. Den heliga gralen, den sista gränsen för detta, kan till och med vara känner av hjärnans signaler från nära ditt huvud."

Tanken på att inte bara passivt kunna lyssna på en in-ear-enhet, utan också prata med den, är grunden bakom smarta assistenter som Siri. Men tal, som används i dagens A.I. assistenter, är medvetet ytlig. Jämfört med en bild (värt tusen ord) är Siri som bäst med snabba sprängningar av information, som att hitta väderprognosen eller ställa in en timer i köket. Men det är ungefär gränsen. Tanken med earable computing är att hitta sätt att ladda ner några av de andra sakerna vi för närvarande måste stirra på skärmar efter och sätta dem på (och in i) våra öron.

sångidentifiering ai
Krishna P. Miyapuram

"Allt du gör på den visuella skärmen lägger du hela din kognitiva uppmärksamhet på," sa han. "Att läsa - även om det är ett dumt skämt som du läser på en skärm - kan du inte fokusera på något annat. Läsning tar upp din totala kognitiva uppmärksamhet. Min tro är att det finns många sådana saker som inte förtjänar din fulla kognitiva uppmärksamhet. Vi kan dra ut dem ur den visuella domänen och skjuta dem till den outnyttjade och unmonopoliserade ljuddomänen, där den mänskliga hjärnan naturligt har utvecklats mycket väl för att multiplexa mellan sådan ljudinformation... Varför inte ta dessa enkla saker och flytta dem bort från din kognitiva, visuella kognitiva kanal och in i den akustiska bandbredd?"

Ett nyligen genomfört experiment som gjordes av teamet innebar en utforskning av hur vi mer meningsfullt kunde konsumera text på hörbar form. Om du läser en artikel kanske du ser ett nyckelord som intresserar dig och börjar läsa vid den tidpunkten. Det finns dock inget enkelt sätt att göra detta när du till exempel lyssnar på en podcast.

"En av de saker som vi försöker göra i vårt labb är [fråga], kan jag påskynda att lyssna på en artikel?" sa Roy Choudhury.

Avlastning till öronen

I gruppens proof-of-concept-demonstration läser lyssnaren flera stycken i en artikel upp samtidigt. Tricket för att få det här att fungera är att använda signalbehandling för att få varje stycke att låta som om det kommer från ett annat håll – det är lite som att sitta på en restaurang och för fyra samtal vid omgivande bord, men ringer till ett eftersom de boende nämner en person som du känna till. För att få detta att fungera bättre knackade teamet på tröghetsmätenheten (IMU) i hörsnäckorna så att användaren kan höja en viss röst (en del av texten) genom att vrida på huvudet något i den riktning.

"Jag kallar det här projektet 'läsning i den akustiska domänen', där jag tittar på riktningen för tredje styckets röst, och den rösten blir högre och de andra rösterna liksom dämpas", sa han.

Allt handlar inte heller om tal. Teamet har också funnit att både mikrofonen och IMU i hörlurar kan användas för att fånga upp otroligt subtila vibrationer i ansiktet, så små som en person som klappar med tänderna eller ansiktsmusklerna som rynkar pannan eller ler. Nej, du kommer förmodligen inte att lämna din smartphone för att chatta ut meddelanden via morsekod med tänderna. Men tanken att dessa minimala ansiktsförvrängningar, som att du skjuter dina högra tänder, skulle kunna användas vid exekvera kommandon - eller till och med fungera som identitetsbekräftelse för tvåfaktorsautentisering - är det verkligen intressant.

"Alla är bekanta med Siri, men tänk hur många potentiella användningsområden som skulle kunna öppnas upp för Siri om den bara hade en rumslig dimension, som en buktalare som är kapabel att slänga sin röst."

Detta kan dessutom vara användbart för att fånga longitudinella data för saker som medicinsk diagnos. Ångestsjukdomar, till exempel, kan diagnostiseras från vissa mönster som upptäcks i tandrörelser. Roy Choudhury noterade också att det finns forskare som arbetar med problem som att mäta blodflödet genom öronen för att mäta hjärtfrekvens, glukosnivåer, muskelaktivitet och mer.

Vill du ha en annan möjlig användning? Vad sägs om hörbar förstärkt verklighet? Augmented reality är för närvarande mest känt för att lägga datorgenererade objekt ovanpå den verkliga världen. Men det finns ingen anledning till varför förstärkningar ska ske enbart på det visuella spektrumet. Roy Choudhurys team är entusiastiska över möjligheten att använda signalbehandlingsteknik för att kartlägga vissa ljud på ditt landskap, så att du kan navigera dig igenom en flygplats, ett museum eller något annat offentligt utrymme kan innebära att gå mot en röst som säger "följ mig", som verkar komma från den riktning du behöver gå i.

Siri

Alla är bekanta med Siri, men föreställ dig hur många potentiella användningsområden som skulle kunna öppnas upp för Siri om det bara hade en rumslig dimension, som en buktalare som är kapabel att slänga sin röst. Denna rumsliga förstärkning kan också hjälpa till att förbättra stora virtuella möten, med varje persons röst mappad till en specifik plats, vilket gör det lättare att omedelbart se vem som talar.

Alla dessa kommer naturligtvis inte att ske. De är den tekniska versionen av en copywriter som skriver idéer till en annons. Många av dem kanske inte klarar av, men ett eller två exempel kan vara mycket användbara.

Dormehls lag

Det här är ytterligare en anledning till att Roy Choudhury är så entusiastisk över potentialen med fortsatt öronbaserad datoranvändning - och dess chanser till framgång i verkligheten. Samhällsreaktioner dikterar mycket mer om vilka teknologier som fångar än teknologer nödvändigtvis skulle vilja. Ny teknik är per definition nya. Nytt kan likställas med konstigt. För att använda en egen formulering (låt oss kalla det Dormehls lag, för ett hugg i eftervärlden), måste nyttan av ny teknik dubbelt uppväga den inneboende tråkigheten att använda den.

"Detta är ett problem eftersom väldigt få tekniker dyker upp helt formade."

Persondatorn, som folk använde i sina hem, hade råd att göra lite nytta under de första åren på marknaden eftersom de sociala insatserna för att använda den var så låga. En bärbar dator, som används offentligt, hade något högre insatser. Wearables, som är särskilt framträdande på grund av att de bärs på kroppen, är mer synligt konstiga än de flesta tekniker. En teknik som kommer att sitta fast på huvudet, som ser ut som ett cybernetiskt implantat på en Borg-drönare, måste vara briljant och omedelbart användbart om användaren ska anse att det är värt den skadliga sociala effekten av att bli sedd bär den.

Jaron Schneider / Digitala trender

Detta är ett problem eftersom väldigt få tekniker dyker upp helt formade. I de flesta fall bygger de första generationerna av en produkt på bristfälliga löften, innan ett mer övertygande erbjudande dyker upp någonstans runt den tredje iterationen. Om en mycket synlig produkt misslyckas med att leverera från dag ett, kan dess chanser att lyckas på lång sikt försvinna, även om den så småningom blir en bra produkt. För äldre tekniska fans, överväg den bärbara Apple Newton-enheten och dess tidiga grepp om handskriftsigenkänning. För yngre fans kan Dormehls lag förklara misslyckandet med Google Glass, som kom med enorma samhälleliga stigma och omdöme och fungerade... nästan OK.

Hörsnäckor, som Roy Choudhury noterade, är olika. Vilka strider som än kan ha funnits om dem har mer eller mindre redan vunnits. "Samhället har redan accepterat människor som bär hörlurar", sa han. "... I någon mening är det bara algoritmerna och sensorerna och hårdvaran som nu måste uppgraderas. Det är bara en teknisk flaskhals och inte längre en samhällelig, psykologisk flaskhals.”

Löftet om wearables

Det faktum att hörlurar har accepterats sänker insatserna och gör att det inte längre behöver bli ett omedelbart binärt resultat. Även om de högsta målen som Roy Choudhury beskrivit inte uppnås på länge, kommer den stegvisa förbättringen att lägga till nytta till en beprövad formfaktor.

"Den högt hängande frukten [är saker som] "från mina tänder, jag kan upptäcka anfall" eller "från min ansiktsgester, jag kan förstå personens humör så att detta blir som en Fitbit för humör,'" sa. "Men även om det misslyckas, hindrar det inte produktportföljen. Men om de är framgångsrika förvandlade det bara produkten till något fantastiskt.”

Potentialen för earable computing, tror Roy Choudhury, är nästan obegränsad. "Jag tror att vägen framåt går långt bortom tal," sa han. "Jag skulle säga att talet är den innersta cirkeln, som är kärnan [i denna teknik]. Utanför den interaktionen finns akustik i allmänhet. Och akustik utanför är alla möjliga andra sensorer och funktioner. Om du tänker på hur vi ska börja bygga den här plattformen så är de lågt hängande frukterna talbaserad interaktion: 'Ställ in en timer', 'Hej Siri, vad är vädret idag?' Men det kan gå långt, långt bortom det."

Andra forskare som arbetar med bärbara datorer med Roy Choudhury inkluderar Zhijian Yang, Yu-Lin Wei, Jay Prakash, och Ziyue Li.

Redaktörens rekommendationer

  • ChatGPT: s iPhone-app har nu Bing inbyggt
  • Apple gjorde inte Siri till en ChatGPT-mördare på WWDC – och det skrämmer mig
  • Glöm ChatGPT — Siri och Google Assistant gör dessa fyra saker bättre
  • Apple bygger en AI-hälsocoach för Apple Watch, rapporterar påståenden
  • Denna bisarra AI-enhet kan ersätta din smartphone i framtiden