Romit Roy Choudhury tiene grandes orejas. pero no en eso forma. Roy Choudhury, profesor de ingeniería eléctrica e informática en la Universidad de Illinois en Urbana-Champaign, cree firmemente en el potencial de cambio de paradigma de lo que él llama Computación auditiva (no, no portátil).
Contenido
- ¿Auriculares para leer la mente?
- Descarga a los oídos
- Ley de Dormehl
- La promesa de los wearables
Eso significa conectarse a las enormes posibilidades de hardware y software que se ejecutan utilizando esos dos elegantes orificios de escucha a los lados de la cabeza. Y para ayudar a desarrollar todo, desde aplicaciones de privacidad y seguridad hasta diagnósticos médicos. herramientas enfocadas en el futuro de la realidad aumentada, está reuniendo un equipo de expertos para que lo ayuden.
Vídeos recomendados
"Puedo utilizar prácticamente cualquier persona en informática e ingeniería eléctrica", dijo a Digital Trends. "La gama de problemas que tengo en el radar es enorme".
Relacionado
- ¿Preocupado por la advertencia de deepfake del FBI? Siga estos consejos de expertos
- La nueva aplicación ChatGPT de OpenAI es gratuita para iPhone y iPad
- Ahora puedes chatear por video con ChatGPT AI: así es como se ve
Los auriculares ya son un mercado enorme. de manzana Airpods, su línea de auriculares inalámbricos, vendió 60 millones de unidades solo en 2019. El año pasado, este número fue se estima que aumentará a 85 millones. Hoy en día, muchas empresas fabrican auriculares inteligentes que ofrecen cancelación activa de ruido, A.I. asistentes inteligentes y más.
Varias décadas antes de los AirPods, allá por la década de 1980, existía el Walkman, quizás la primera tecnología portátil moderna, que permitía a los usuarios llevar su música a todas partes. El Walkman dio a los usuarios dominio no sólo sobre lo que escuchaban (por ejemplo, The Smiths), sino también, gracias a sus auriculares de plástico que tapaban sus oídos, sobre lo que no escuchaban (por ejemplo, sus padres). Permitió a las personas crear y ejercer control sobre la banda sonora de sus vidas, brindándonos a todos nuestras propias burbujas individuales de significado. Mientras que el boombox permitía (o, en algunos casos, obligaba) a otros a escuchar nuestra música, el Walkman hacía de la escucha una experiencia fundamentalmente personal y aislada.
Pero Roy Choudhury y su equipo quieren ir más allá. Buscan transformar los auriculares actuales en una plataforma informática completamente nueva que, en algunos casos, podría reemplazar la necesidad de alcanzar su teléfono inteligente o computadora. Si el Walkman ofreciera a cada uno su propia burbuja personal de sonido para disfrutar mientras caminaba por la calle, en esta era de Con tecnología y personalización más inteligentes, esas mismas burbujas podrían aprovecharse en cosas nuevas, emocionantes y, en ocasiones, ligeramente extrañas. maneras.
¿Auriculares para leer la mente?
"La mayor parte del mercado de la informática portátil se ha centrado [hasta ahora] en dispositivos que se llevan en la parte inferior del cuerpo, principalmente en los bolsillos o en las muñecas, tal vez en los zapatos", dijo Roy Choudhury. “Eso significa que puedes sentir la parte inferior del cuerpo, como lo que estás haciendo con las manos, las muñecas y las piernas. Pero hay mucha información que se genera en la parte superior del cuerpo, principalmente en la cabeza, como escuchar, hablar, comer, emociones faciales, potencialmente pistas de información médica, eso podría ser inestimable. El santo grial, la última frontera de esto, podría incluso ser detectando señales cerebrales desde cerca de tu cabeza”.
La idea de poder no sólo escuchar pasivamente un dispositivo interno, sino también hablar con él, es la base detrás de asistentes inteligentes como Siri. Pero el habla, tal como se utiliza en la IA actual. asistentes, es deliberadamente superficial. En comparación con una imagen (que vale más que mil palabras), Siri funciona mejor con ráfagas rápidas de información, como encontrar el pronóstico del tiempo o configurar un temporizador en la cocina. Pero ese es el límite. La idea de la informática portátil es encontrar formas de descargar algunas de las otras cosas que actualmente tenemos que mirar en las pantallas y ponerlas en (y dentro) de nuestros oídos.
"En todo lo que haces en la pantalla visual, estás poniendo toda tu atención cognitiva", dijo. “Para leer, incluso si es un chiste tonto que lees en una pantalla, no puedes concentrarte en nada más. La lectura ocupa toda tu atención cognitiva. Creo que hay muchas cosas de este tipo que no merecen toda su atención cognitiva. Podemos sacarlos del dominio visual y llevarlos al dominio de audio no explotado y no monopolizado, donde el cerebro humano ha evolucionado muy bien de forma natural para multiplex entre dicha información de audio... ¿Por qué no tomar estas cosas simples y alejarlas de su canal cognitivo, visual y cognitivo, y llevarlas al acústico? ¿banda ancha?"
Un experimento reciente llevado a cabo por el equipo implicó una exploración de las formas en que podríamos consumir texto de manera más significativa en audible forma. Si está leyendo un artículo, es posible que vea una palabra clave que le interese y comience a leer en ese momento. Sin embargo, no existe una manera fácil de hacer esto cuando, por ejemplo, estás escuchando un podcast.
"Una de las cosas que estamos tratando de hacer en nuestro laboratorio es [preguntar], ¿puedo acelerar la escucha de un artículo?" dijo Roy Choudhury.
Descarga a los oídos
En la demostración de prueba de concepto del grupo, al oyente se le leen simultáneamente varios párrafos de un artículo. El truco para que esto funcione es utilizar el procesamiento de señales para hacer que cada párrafo suene como si viniera de una dirección diferente: es un poco como sentarse en un restaurante y tener cuatro conversaciones en las mesas circundantes, pero marcar una porque los ocupantes mencionan a una persona que usted saber. Para que esto funcione mejor, el equipo tocó la unidad de medición inercial (IMU) en los auriculares para que el El usuario puede elevar una voz en particular (una parte del texto) girando ligeramente la cabeza en ese sentido. dirección.
"Llamo a este proyecto 'lectura en el dominio acústico', donde miro la dirección de la voz del tercer párrafo, y esa voz se vuelve más fuerte y las otras voces se atenúan", dijo.
Tampoco se trata solo de hablar. El equipo también descubrió que tanto el micrófono como la IMU de los auriculares se pueden utilizar para captar vibraciones increíblemente sutiles en la cara, tan pequeñas como un persona castañeteando los dientes o los músculos faciales frunciendo el ceño o sonriendo. No, probablemente no abandonará su teléfono inteligente para transmitir mensajes en código Morse con los dientes. Pero la idea de que estas pequeñas contorsiones faciales, como deslizar los dientes del lado derecho, puedan usarse para ejecutar comandos, o incluso actuar como confirmación de identidad para la autenticación de dos factores, es ciertamente interesante.
"Todo el mundo está familiarizado con Siri, pero imagina cuántos usos potenciales se podrían abrir para Siri si tan solo tuviera una dimensión espacial, como un ventrílocuo que es capaz de emitir su voz".
Esto también podría resultar útil para capturar datos longitudinales para cosas como el diagnóstico médico. Los trastornos de ansiedad, por ejemplo, pueden diagnosticarse a partir de ciertos patrones detectados en el movimiento de los dientes. Roy Choudhury también señaló que hay investigadores que trabajan en problemas como medir el flujo sanguíneo a través de los oídos para medir la frecuencia cardíaca, los niveles de glucosa, la actividad muscular y más.
¿Quieres otro posible uso? Qué tal si realidad aumentada sonora? Actualmente, la realidad aumentada es más conocida por superponer objetos generados por computadora sobre el mundo real. Pero no hay ninguna razón por la que los aumentos deban realizarse únicamente en el espectro visual. El equipo de Roy Choudhury está entusiasmado con la perspectiva de utilizar tecnología de procesamiento de señales para mapear ciertos sonidos en su paisaje, de modo que navegar a través de un Un aeropuerto, un museo o cualquier otro espacio público podría implicar caminar hacia una voz que dice "sígueme", que parece venir de la dirección hacia la que debes dirigirte. en.
Todo el mundo está familiarizado con Siri, pero imagina cuántos usos potenciales se podrían abrir para Siri si tan solo tuviera una dimensión espacial, como un ventrílocuo capaz de emitir su voz. Este aumento espacial también podría ayudar a mejorar las reuniones virtuales de gran tamaño, con la voz de cada persona asignada a una ubicación específica, lo que facilitaría saber inmediatamente quién está hablando.
Por supuesto, no todo esto sucederá. Son la versión de ingeniería de un redactor que garabatea ideas para un anuncio. Es posible que muchos de ellos no pasen el corte, pero uno o dos ejemplos podrían ser profundamente útiles.
Ley de Dormehl
Ésta es otra razón por la que Roy Choudhury está tan entusiasmado con el potencial de la informática portátil y sus posibilidades de éxito en el mundo real. Las respuestas sociales dictan mucho más sobre qué tecnologías se popularizan de lo que necesariamente les gustaría a los tecnólogos. Las nuevas tecnologías, por definición, son nuevas. Nuevo puede equivaler a extraño. Para utilizar una formulación mía (llamémosla Ley de Dormehl, para aproximarnos a la posteridad), la utilidad inmediata de cualquier tecnología nueva debe compensar doblemente la tontería inherente a su uso.
"Esto es un problema porque muy pocas tecnologías emergen completamente formadas".
La computadora personal, que la gente usaba en sus hogares, podía permitirse el lujo de hacer poco uso durante sus primeros años en el mercado porque los riesgos sociales de su uso eran muy bajos. Un ordenador portátil, que se utiliza en público, tenía algo en juego. Los wearables, que son particularmente prominentes debido a que se usan en el cuerpo, son visiblemente más extraños que la mayoría de la tecnología. Una pieza de tecnología que se quedará pegada en la cabeza y que parece un implante cibernético en un dron Borg, tiene que ser Brillante y útil de inmediato si el usuario va a considerar que vale la pena el impacto social perjudicial de ser visto. usándolo.
Esto es un problema porque muy pocas tecnologías emergen completamente formadas. En la mayoría de los casos, las primeras generaciones de un producto se basan en promesas erróneas, antes de que surja una oferta más convincente alrededor de la tercera iteración. Si un producto muy visible no da resultados desde el primer día, sus posibilidades de éxito a largo plazo pueden verse frustradas, incluso si finalmente se convierte en un buen producto. Para los fanáticos de la tecnología más antiguos, consideren el dispositivo portátil Apple Newton y su temprano intento de reconocimiento de escritura a mano. Para los fanáticos más jóvenes, la Ley de Dormehl podría explicar el fracaso de Google Glass, que vino con un tremendo estigma y juicio social y funcionó... casi bien.
Los auriculares, como señaló Roy Choudhury, son diferentes. Cualesquiera que sean las batallas que alguna vez hayan existido en torno a ellos, más o menos ya han sido ganadas. "La sociedad ya ha aceptado que la gente use auriculares", afirmó. “… En cierto sentido, ahora sólo es necesario actualizar los algoritmos, los sensores y el hardware. Es sólo un cuello de botella tecnológico y ya no un cuello de botella psicológico y social”.
La promesa de los wearables
El hecho de que se hayan aceptado los auriculares reduce los riesgos y significa que ya no tiene que haber un resultado binario inmediato. Incluso si los objetivos más elevados que describió Roy Choudhury no se logran durante mucho tiempo, la mejora incremental agregará utilidad a un factor de forma probado.
“Lo más importante [son cosas como] ‘por los gestos de mis dientes, puedo detectar convulsiones’ o ‘por mis gestos’. gestos faciales, puedo entender el estado de ánimo de la persona, por lo que se convierte en un Fitbit para el estado de ánimo'”, dicho. “Pero incluso si eso falla, no impide el desarrollo del producto. Sin embargo, si tienen éxito, simplemente transformarán el producto en algo fantástico”.
Roy Choudhury cree que el potencial de la informática portátil es casi ilimitado. “Creo que el camino que queda por recorrer va mucho más allá del discurso”, afirmó. “Yo diría que el discurso es el círculo más interno, que está en el núcleo [de esta tecnología]. Fuera de esa interacción está la acústica en general. Y la acústica exterior son todo tipo de otros sensores y capacidades. Si piensas en cómo vamos a empezar a construir esta plataforma, los frutos más inmediatos son Interacción basada en la voz: "Pon un cronómetro", "Hola Siri, ¿qué tiempo hace hoy?" Pero puede llegar muy, muy lejos. Más allá de eso."
Otros investigadores que trabajan en informática portátil con Roy Choudhury incluyen Yang Zhijian, Yu Lin Wei, Jay Prakash, y Ziyue Li.
Recomendaciones de los editores
- La aplicación para iPhone de ChatGPT ahora tiene Bing integrado
- Apple no convirtió a Siri en un asesino de ChatGPT en la WWDC, y eso me asusta
- Olvídese de ChatGPT: Siri y el Asistente de Google hacen estas 4 cosas mejor
- Apple está construyendo un entrenador de salud con inteligencia artificial para Apple Watch, según un informe
- Este extraño dispositivo de inteligencia artificial puede reemplazar su teléfono inteligente en el futuro