O futuro da AR são fones de ouvido, não óculos

ilustração de um fone de ouvido no ouvido de uma pessoa
Genevieve Poblano/Gráficos de Tendências Digitais

Romit Roy Choudhury gosta de ouvidos. Mas não em que caminho. Roy Choudhury, professor de engenharia elétrica e ciência da computação na Universidade de Illinois em Urbana-Champaign, acredita firmemente no potencial de mudança de paradigma daquilo que ele chama computação auricular (não, não vestível).

Conteúdo

  • Fones de ouvido para leitura de mentes?
  • Descarregando para os ouvidos
  • Lei de Dormehl
  • A promessa dos wearables

Isso significa conectar-se às enormes possibilidades de hardware e software que funcionam usando esses dois sofisticados orifícios de audição nas laterais da sua cabeça. E para ajudar no desenvolvimento de tudo, desde aplicativos de privacidade e segurança até diagnósticos médicos ferramentas focadas no futuro da realidade aumentada, ele está montando uma excelente equipe de especialistas para ajudá-lo.

Vídeos recomendados

“Posso usar praticamente qualquer pessoa em ciência da computação e engenharia elétrica”, disse ele ao Digital Trends. “A gama de problemas no meu radar é enorme.”

Relacionado

  • Preocupado com o aviso falso do FBI? Siga estas dicas de especialistas
  • O novo aplicativo ChatGPT da OpenAI é gratuito para iPhone e iPad
  • Agora você pode bater papo por vídeo com um ChatGPT AI – é assim que parece
Apple AirPods Pro e Samsung Galaxy Buds Live
Jaron Schneider/Tendências Digitais

Os fones de ouvido já são um mercado enorme. da Apple AirPods, sua linha de fones de ouvido sem fio, vendeu 60 milhões de unidades somente em 2019. No ano passado, esse número foi estimado em 85 milhões. Hoje, muitas empresas estão fabricando fones de ouvido inteligentes que oferecem cancelamento de ruído ativo, IA. assistentes inteligentes e muito mais.

Várias décadas antes dos AirPods, na década de 1980, existia o Walkman, talvez a primeira tecnologia vestível moderna, que permitia aos usuários levar suas músicas para onde quer que fossem. O Walkman deu aos usuários domínio não apenas sobre o que ouviam (digamos, The Smiths), mas também, por meio de seus fones de ouvido de plástico tapando seus ouvidos, sobre o que eles não ouviam (digamos, seus pais). Permitiu que as pessoas criassem e exercessem controle sobre a trilha sonora de suas vidas, dando-nos todas as nossas bolhas individuais de significado. Enquanto o boombox pretendia deixar – ou, em alguns casos, forçar – outros a ouvir a nossa música, o Walkman tornou a audição uma experiência fundamentalmente pessoal e isolada.

Florian Schmetz/Unsplash

Mas Roy Choudhury e sua equipe querem ir além disso. Eles procuram transformar os fones de ouvido de hoje em uma plataforma de computação totalmente nova que poderia, em alguns casos, substituir a necessidade de você alcançar o seu Smartphone ou computador. Se o Walkman proporcionasse a todos a sua própria bolha sonora para desfrutarem enquanto caminhavam pela rua, nesta era de tecnologia e personalização mais inteligentes, essas mesmas bolhas poderiam ser aproveitadas de maneiras novas, emocionantes e - às vezes - um pouco estranhas. caminhos.

Fones de ouvido para leitura de mentes?

“A maior parte do mercado de computação vestível [até agora] se concentrou em dispositivos usados ​​na parte inferior do corpo, principalmente nos bolsos ou nos pulsos, talvez nos sapatos”, disse Roy Choudhury. “Isso significa que você consegue sentir a parte inferior do corpo, como o que está fazendo com as mãos, com os pulsos, com as pernas. Mas há muita informação gerada na parte superior do corpo, principalmente na cabeça – como ouvir, falar, comer, emoções faciais, potencialmente pistas para informações médicas - que podem ser inestimável. O Santo Graal, a fronteira final disto, pode até ser sentindo sinais cerebrais de perto da sua cabeça.”

A ideia de poder não apenas ouvir passivamente um dispositivo intra-auricular, mas também falar com ele, é a base por trás de assistentes inteligentes como o Siri. Mas a fala, conforme usada na IA de hoje. assistentes, é propositalmente superficial. Comparado a uma imagem (que vale mais que mil palavras), o Siri está no seu melhor com informações rápidas, como saber a previsão do tempo ou definir um cronômetro na cozinha. Mas isso é quase o limite. A ideia da computação auditiva é encontrar maneiras de descarregar algumas das outras coisas que atualmente temos que olhar para as telas e colocá-las em (e dentro) de nossos ouvidos.

identificação de música ai
Krishna P. Miyapuram

“Em tudo o que você faz na tela visual, você coloca toda a sua atenção cognitiva”, disse ele. “Para ler – mesmo que seja uma piada boba que você lê na tela – você não consegue se concentrar em mais nada. A leitura ocupa toda a sua atenção cognitiva. Minha convicção é que existem muitas coisas assim que não merecem toda a sua atenção cognitiva. Podemos retirá-los do domínio visual e empurrá-los para o domínio do áudio inexplorado e não monopolizado, onde o cérebro humano evoluiu naturalmente muito bem para multiplexação entre essas informações de áudio… Por que não pegar essas coisas simples e afastá-las do seu canal cognitivo, visual e cognitivo e colocá-las no canal acústico? largura de banda?”

Um experimento recente realizado pela equipe envolveu uma exploração de maneiras pelas quais poderíamos consumir texto de maneira mais significativa. audível forma. Se estiver lendo um artigo, você poderá ver uma palavra-chave de seu interesse e começar a ler nesse ponto. No entanto, não há uma maneira fácil de fazer isso quando, por exemplo, você está ouvindo um podcast.

“Uma das coisas que estamos tentando fazer em nosso laboratório é [perguntar], posso acelerar a audição de um artigo?” disse Roy Choudhury.

Descarregando para os ouvidos

Na demonstração de prova de conceito do grupo, o ouvinte tem vários parágrafos de um artigo lidos simultaneamente. O truque para fazer isso funcionar é usar o processamento de sinal para fazer com que cada parágrafo pareça vir de uma direção diferente – é um pouco como sentar em um restaurante e tendo quatro conversas nas mesas vizinhas, mas discando para uma porque os ocupantes mencionam uma pessoa que você saber. Para melhorar esse trabalho, a equipe aproveitou a unidade de medição inercial (IMU) nos fones de ouvido para que o o usuário pode levantar uma voz específica (uma parte do texto) virando levemente a cabeça naquele direção.

“Eu chamo esse projeto de ‘leitura no domínio acústico’, onde olho na direção da voz do terceiro parágrafo, e essa voz fica mais alta e as outras vozes diminuem”, disse ele.

Também não se trata apenas de discurso. A equipe também descobriu que tanto o microfone quanto o IMU dos fones de ouvido podem ser usados ​​para captar vibrações incrivelmente sutis no rosto, tão pequenas quanto um pessoa batendo os dentes ou os músculos faciais franzindo a testa ou sorrindo. Não, você provavelmente não abandonará seu smartphone para tagarelar mensagens via código Morse com os dentes. Mas a ideia de que essas minúsculas contorções faciais, como deslizar os dentes do lado direito, poderiam ser usadas para executar comandos – ou mesmo atuar como confirmação de identidade para autenticação de dois fatores – é certamente interessante.

“Todo mundo conhece o Siri, mas imagine quantos usos potenciais poderiam ser abertos para o Siri se ele tivesse uma dimensão espacial, como um ventríloquo que é capaz de lançar sua voz.”

Além disso, isso pode ser útil para capturar dados longitudinais para coisas como diagnóstico médico. Os transtornos de ansiedade, por exemplo, podem ser diagnosticados a partir de certos padrões detectados na movimentação dos dentes. Roy Choudhury também observou que há pesquisadores trabalhando em problemas como medir o fluxo sanguíneo através dos ouvidos para avaliar a frequência cardíaca, os níveis de glicose, a atividade muscular e muito mais.

Quer outro uso possível? Que tal realidade aumentada audível? A realidade aumentada é atualmente mais conhecida por sobrepor objetos gerados por computador ao mundo real. Mas não há razão para que os aumentos ocorram apenas no espectro visual. A equipe de Roy Choudhury está entusiasmada com a perspectiva de usar tecnologia de processamento de sinal para mapear certos sons em sua paisagem, de modo que navegar por um aeroporto, museu ou qualquer outro espaço público pode envolver caminhar em direção a uma voz que diz “siga-me”, que parece vir da direção que você precisa seguir em.

Siri

Todo mundo conhece o Siri, mas imagine quantos usos potenciais poderiam ser abertos para o Siri se ele tivesse uma dimensão espacial, como um ventríloquo capaz de lançar sua voz. Este aumento espacial também pode ajudar a melhorar grandes reuniões virtuais, com a voz de cada pessoa mapeada para um local específico, tornando mais fácil saber imediatamente quem está falando.

Nem tudo isso acontecerá, é claro. Eles são a versão de engenharia de um redator rabiscando ideias para um anúncio. Muitos deles podem não ser aprovados, mas um ou dois exemplos podem ser profundamente úteis.

Lei de Dormehl

Esta é outra razão pela qual Roy Choudhury está tão entusiasmado com o potencial da computação contínua e auditiva – e suas chances de sucesso no mundo real. As respostas sociais determinam muito mais sobre quais tecnologias serão aceitas do que os tecnólogos necessariamente gostariam. As novas tecnologias, por definição, são novas. Novo pode ser sinônimo de estranho. Para usar uma formulação de minha autoria (vamos chamá-la de Lei de Dormehl, para uma facada na posteridade), a utilidade imediata de qualquer nova tecnologia deve compensar duplamente a estupidez inerente de usá-la.

“Isso é um problema porque muito poucas tecnologias emergem totalmente formadas.”

O computador pessoal, que as pessoas utilizavam nas suas casas, podia dar-se ao luxo de fazer pouco uso durante os seus primeiros anos no mercado porque os riscos sociais da sua utilização eram muito baixos. Um laptop, usado em público, tinha riscos um pouco maiores. Os wearables, que são particularmente proeminentes por serem usados ​​no corpo, são visivelmente mais estranhos do que a maioria das tecnologias. Uma peça de tecnologia que ficará presa na cabeça, parecendo um implante cibernético em um drone Borg, precisa ser brilhante e imediatamente útil se o usuário considerar que vale a pena o impacto social prejudicial de ser visto vestindo-o.

Jaron Schneider/Tendências Digitais

Isto é um problema porque muito poucas tecnologias emergem totalmente formadas. Na maioria dos casos, as primeiras gerações de um produto são construídas com base em promessas falhas, antes que uma oferta mais atraente surja por volta da terceira iteração. Se um produto altamente visível não for entregue desde o primeiro dia, as suas hipóteses de sucesso a longo prazo podem ser frustradas, mesmo que acabe por se transformar num bom produto. Para os fãs de tecnologia mais antigos, considere o dispositivo portátil Apple Newton e sua primeira tentativa de reconhecimento de escrita. Para os fãs mais jovens, a Lei de Dormehl pode explicar o fracasso do Google Glass, que veio com um tremendo estigma e julgamento social e funcionou... quase OK.

Os fones de ouvido, como observou Roy Choudhury, são diferentes. Quaisquer que sejam as batalhas que possam ter existido sobre eles, já foram mais ou menos vencidas. “A sociedade já aceitou pessoas usando fones de ouvido”, disse ele. “… Em certo sentido, são apenas os algoritmos, os sensores e o hardware que agora precisam ser atualizados. É apenas um gargalo tecnológico e não mais um gargalo social e psicológico.”

A promessa dos wearables

O fato de os fones de ouvido terem sido aceitos reduz o risco e significa que não precisa mais haver um resultado binário imediato. Mesmo que os objetivos mais elevados descritos por Roy Choudhury não sejam alcançados por um longo tempo, a melhoria incremental adicionará utilidade a um formato comprovado.

“O fruto mais fácil [são coisas como] ‘pelos gestos dos meus dentes, posso detectar convulsões’ ou ‘pelos meus gestos faciais, posso entender o humor da pessoa para que isso se torne como um Fitbit de humor'”, ele disse. “Mas mesmo que isso falhe, não impede o pipeline do produto. No entanto, se tiverem sucesso, isso apenas transformará o produto em algo fantástico.”

O potencial para a computação auricular, acredita Roy Choudhury, é quase ilimitado. “Acho que o caminho a seguir vai muito além do discurso”, disse ele. “Eu diria que o discurso é o círculo mais interno, que está no cerne [desta tecnologia]. Fora dessa interação está a acústica em geral. E a acústica externa consiste em todos os tipos de outros sensores e capacidades. Se você pensar em como vamos começar a construir esta plataforma, os frutos mais fáceis de alcançar são interação baseada em fala: ‘Definir um cronômetro’, ‘Ei, Siri, como está o tempo hoje?’ Mas pode ir longe, muito longe além disso."

Outros pesquisadores que trabalham em computação vestível com Roy Choudhury incluem Zhijian Yang, Yu Lin Wei, Jay Prakash, e Ziyue Li.

Recomendações dos Editores

  • O aplicativo ChatGPT para iPhone agora tem Bing integrado
  • A Apple não fez da Siri uma assassina do ChatGPT na WWDC – e isso me assusta
  • Esqueça o ChatGPT – Siri e Google Assistant fazem essas quatro coisas melhor
  • Apple está construindo um treinador de saúde de IA para Apple Watch, afirma relatório
  • Este bizarro dispositivo de IA pode substituir o seu smartphone no futuro