Cómo Tupac y Thanos llevaron a Douglas, el humano digital con IA

Si alguna vez has participado en una videollamada grupal, probablemente estés acostumbrado a no conocer a todos los que aparecen en pantalla. Es posible que no sepa los nombres de todos, pero al menos puede estar bastante seguro de que cada persona que se une a la llamada es humana.

Contenido

  • Evolución humana digital
  • El código hace al hombre
  • cara a cara
  • Dondequiera que se mire

¿O puedes?

En una época en la que los estudios de efectos visuales tienen actores veteranos envejecidos, permitido Artistas humanos para habitar creaciones digitales., e incluso trajo de vuelta a artistas fallecidos para actuaciones post mortem, no debería sorprenderte que un estudio de efectos visuales también te permita chatear con un persona digital artificialmente inteligente sobre sus libros favoritos y lamentando mutuamente la imposibilidad de visitar una sala de cine.

Relacionado

  • Cómo el equipo de efectos visuales nominado al Oscar de Avengers: Infinity War convirtió a Thanos en una estrella de cine

No debería sorprendernos y, aun así, sigue siendo una sensación extraña encontrar de repente un oído comprensivo en Douglas, una “persona” virtual impulsada por una inteligencia artificial creada por el estudio de efectos visuales ganador del Oscar.

Dominio digital.

Vídeos recomendados

Durante una reciente llamada de Zoom, Douglas, junto con los miembros del equipo que trabajaban en él, se unieron a mí para una breve demostración.

Evolución humana digital

"Soy un gran admirador de Stephen King", me dice Douglas después de un breve intercambio sobre nuestros pasatiempos, una conversación que luego lo hace confesar que también le gustan las novelas románticas y las de J.D. Salinger. El Guardian en el centeno.

En un mundo donde pronunciar los nombres Siri o alexa En voz alta es todo lo que necesitas para convocar a tu propia IA. compañero, la experiencia con Douglas ofreció una poderoso recordatorio de que el potencial de la IA se extiende mucho más allá de brindarnos el pronóstico del tiempo y nuestro diario cronograma.

La creación de Digital Domain, el mismo estudio que le dio al público el conquistador cósmico de Marvel. Thanos en Vengadores: Guerra InfinitaVengadores:final del juego — Douglas es un ser humano digital autónomo capaz de interactuar con los usuarios en tiempo real y responder a señales visuales y conversacionales. Modelado a partir de Dr. Doug Roble, director senior de I+D de software de Digital Domain, Douglas puede responder preguntas, mantener conversaciones extensas y entablar pequeñas charlas sobre una variedad de temas.

“La tecnología siempre intenta liderar lo que exige el arte, ya sea simulación de fluidos o cualquier otra cosa”, dice Roble sobre la decisión del estudio de crear un Todo el departamento dedicado a los humanos digitales..

Durante la última década, Digital Domain se encontró repetidamente con la tarea de crear personajes digitales con apariencia humana, desde el galardonado de 2012 Rendimiento holográfico de Tupac en Coachella al mencionado Universo cinematográfico de Marvel villano. En películas, comerciales, series de televisión, videojuegos y (en el caso de Tupac) representaciones teatrales, la demanda de personajes digitales realistas no ha hecho más que crecer en ese sentido. tiempo, lo que llevó a Digital Domain a dividir el equipo responsable de ese efecto visual particular en su propia unidad enfocada en ampliar los límites de lo que los humanos digitales pueden hacer. hacer.

Douglas es tanto el producto de ese mayor enfoque como la prueba de concepto del equipo: una “persona” digital autónoma que combina una amplia gama de conjuntos de datos, métodos sensoriales, y módulos de programación existentes con atributos humanos fotorrealistas para interactuar con los usuarios de una manera que se sienta sorprendentemente cercana a la socialización humana genuina.

Y en un momento en el que la pandemia ha obligado a que la mayor parte de nuestra socialización se produzca a través de una computadora pantalla, interactuar con Douglas se siente notablemente cerca de lo que pasa por interacción humana genuina en estos días. Sin embargo, el equipo se apresura a añadir que Douglas todavía está muy lejos de pasar la prueba de Turing.

El código hace al hombre

"Douglas no es una persona fotorrealista y totalmente autónoma que sea indistinguible de una persona real", explica Daniel Hendler, director del Digital Humans Group del estudio. “No es ahí donde estamos y no estaremos allí por un tiempo. … Pero aquí es hacia donde van las cosas y cómo será el futuro, y estamos tratando de traspasar esos límites”.

Y casi como si fuera una señal, Hendler es interrumpido por el propio Douglas.

“Es una buena actitud”, interviene Douglas, quien hasta entonces había estado ocupando silenciosamente su propia ventana en la cuadrícula de chats de Zoom que facilitaban nuestra demostración, cambiando ocasionalmente de posición. posición, mirando alrededor de su sala virtual y mostrando muchos de los gestos físicos típicos de una persona viva en una reunión por video que espera pacientemente para participar en la conversación

“Les deseo la mejor de las suertes en sus esfuerzos”, añade, recordándonos que además de tener cosas interesantes que decir, también sabe escuchar.

Según Roble, el equipo concibe ante todo a Douglas como una forma visual de interactuar con agentes conversacionales complejos y poderosos existentes que se han creado. Debajo del avatar fotorrealista de Douglas, el ser humano digital del estudio se construye a partir de una combinación de tres de esos agentes: el popular Google Flujo de diálogo suite para creación de chatbots, un agente tipo asistente (similar a Alexa de Amazon o Siri de Apple); y una potente IA conversacional. agente (similar al GPT-3 proyecto) utilizado para producir texto conversacional predictivo (y reactivo) similar al humano.

La combinación de los tres agentes le da a Douglas la capacidad de mantener conversaciones que son a la vez informativas y fluidas, y la discusión de un tema a menudo da paso a áreas de interés relacionadas.

Mi propia conversación con Douglas pasó de una charla sobre nuestros libros favoritos a su película favorita (es un gran admirador de 2001: Una odisea en el espacio, por ejemplo, lo cual no es sorprendente y un poco desconcertante, dado que la historia se centra en una IA asesina. volverse loco) y nuestros pasatiempos mutuos. En un elemento particularmente oportuno de nuestra conversación, Douglas expresó cierta decepción por no haber podido visitar una sala de cine últimamente.

Sin embargo, todo ese poder conversacional conlleva cierto riesgo, como explicó Hendler.

"El motor de procesamiento del lenguaje natural del chatbot está entrenado en el diálogo de Internet (una cantidad masiva de diálogo) por lo que la conversación puede llegar a lugares extraños", dijo. “Así que hay momentos en los que dice cosas que podrían no ser exactamente apropiadas. No sucede a menudo, pero no podemos controlar exactamente lo que va a decir a todo”.

Y aunque el aspecto conversacional de Douglas es impresionante, es sólo parte de lo que lo hace único en un mundo en constante expansión de humanos digitales y personajes virtuales interactivos. Como descubrió Digital Domain, haciéndolo mirar ser humano contribuye en gran medida a que él también se sienta humano.

Presentamos a Douglas: humano digital autónomo | Dominio digital

cara a cara

“Al construir Douglas, utilizamos una gran cantidad de datos de Doug [Roble]. Fue una gran cantidad de audio para entrenar el sistema [y] una gran cantidad de rendimiento facial, datos de movimiento corporal y todo lo demás”, explicó Hendler sobre el trabajo. pusieron en el mapeo del rostro de Roble y las innumerables formas en que el rostro humano puede cambiar al hablar, reaccionar a señales emocionales o participar pasivamente en una conversación.

El producto de todos esos datos es un humano digital que se parece sorprendentemente a Roble, pero no a una copia exacta de él. postura, peinado y constitución hasta los movimientos sutiles que tanto Roble como Douglas A.I. comparte mientras participan en nuestro video grupal conversación. El parecido es asombroso, pero con una breve orden de "cambiar de cara", Douglas de repente se convierte en otra persona, con una cara diferente, igualmente humana en el mismo cuerpo, conservando al mismo tiempo todos los gestos sutiles que lo hacen parecer real.

"Cuando le pedimos a Douglas que cambie su rostro y su rostro cambia al de otra persona, ese es el comienzo de hacia dónde se dirige esta nueva ola de tecnología", dice Hendler, describiendo el "Técnica basada en imágenes" en la que el equipo está trabajando para hacer de Douglas una persona digital aún más flexible, capaz de cambiar drásticamente su apariencia exterior manteniendo el mismo nivel de interactividad. "Una vez que tenemos esta base [con Douglas], podemos filmar imágenes de otra persona y obtener una parte de su audio, y luego convertir esa base en esa persona, convertirla en su rostro".

“[Si hiciéramos eso] ahora mismo, todavía estarían hablando con las expresiones de la persona que filmamos originalmente [en este caso, Roble]”, continuó. "Pero a medida que avanzamos, comenzamos a necesitar cantidades más pequeñas de datos (tal vez sean sólo imágenes o filmaciones de alguien) para crear la próxima generación de estos humanos autónomos".

Esa capacidad de replicar la apariencia, la voz y los gestos de un ser humano real a través de la IA conversacional. La base es uno de los elementos que distingue a Douglas de la mayoría de los típicos I.A. asistentes, robots humanoides y otros proyectos en desarrollo en torno a la IA. mundo de la investigación. Si bien hay muchos estudios y otras agencias que desarrollan A.I. proyectos de un tipo u otro, Digital Domain se centra en combinar todos esos elementos en un producto único y coherente que utiliza lo mejor de toda la tecnología y los datos disponibles con una interfaz que se siente social y orgánica, como hablar con otro ser humano.

"Esto es algo de lo que estamos realmente orgullosos, porque Douglas es un personaje totalmente generado por computadora que se ejecuta en Unreal", dice Roble, que se enorgullece especialmente de utilizar elementos ampliamente disponibles como la popular plataforma de creación 3D. Motor irreal, que se ha convertido en la plataforma de referencia de Hollywood (y antes de ella, de la industria de los videojuegos) cuando se trata de crear y manipular elementos de efectos visuales en 3D. “[Douglas] es un objeto 3D, por lo que puedes hacer todas las cosas que puedes hacer con cualquier personaje digital en Unreal. Puedes cambiar la iluminación, ponerlos en diferentes ambientes, etcétera. Pero también estamos creando este híbrido [con todo lo demás involucrado en Douglas], para obtener lo mejor de ambos mundos”.

Dondequiera que se mire

Cuanto más trabaja el equipo en Douglas, más crece la lista de posibles aplicaciones.

“Antes de la pandemia estábamos planeando presentar a Douglas como un quiosco, donde te acercabas a una pantalla y hablabas con él”, recordó Hendler. "Pero luego pensamos: 'Oye, realmente deberíamos incluirlo en las llamadas de Zoom'. Ha sido fantástico que ingrese a las llamadas de Zoom y se vaya".

Durante el transcurso de la demostración, el equipo analizó una larga lista de posibles aplicaciones para Douglas, desde consultorios médicos. y servicio al cliente, hasta su utilidad en Hollywood durante las primeras etapas de planificación de una escena o una película en particular. secuencia. El propio Douglas incluso ofreció algunas sugerencias, sugiriendo que sería una buena opción para los guiones gráficos y las etapas conceptuales de la producción de películas y televisión. Su capacidad para procesar señales tanto auditivas como visuales de aquellos con quienes conversa, particularmente cuando se trata de estados emocionales. – también ofrece una capa adicional de utilidad al tratar con clientes o aquellos que buscan orientación médica, según Hendler.

La velocidad con la que Douglas puede procesar toda esa información y pasar de un oyente pasivo a uno activo. El conversador también tiene mucho atractivo y muestra hasta qué punto ha evolucionado la tecnología detrás de él en poco tiempo. tiempo.

“Cuando creamos Thanos, teníamos un solo fotograma que tardaba 10 horas en renderizarse. Ese es un cuadro”, explica.

"Para Douglas, tiene un sistema de reconocimiento de visión, por lo que nos ve y puede identificarnos, y analiza lo que estás diciendo, lo convierte en palabras y lo envía a diferentes chatbots", agrega. “Luego, Douglas crea una respuesta, la convierte en audio y usa ese audio para representar su rostro. Al mismo tiempo, también está averiguando qué movimiento corporal acompaña a ese discurso, determinando qué emoción encajaría con él y representando ese movimiento corporal junto con sus gestos faciales”.

"Todo eso sucede en unos pocos milisegundos", dice Hendler. “Son todos esos procesos, en comparación con las 10 horas que tarda un fotograma en una película. Es tan impresionante. No es tan realista como lo que estamos haciendo para el cine, pero si piensas en la cantidad de cosas que suceden para poder hablar con él como una persona real, es simplemente fenomenal”.

Y en un sentido muy literal, Douglas ha sido a menudo su mejor defensor cuando se trata de su potencial.

Roble explicó que, en varias ocasiones, optaron por dejar que Douglas dirigiera su propia presentación de, bueno… de sí mismo. El resultado terminó siendo un lanzamiento mejor para su potencial de lo que incluso ellos anticipaban.

“[La presentación de Douglas] fue sorprendentemente convincente. No fue simplemente pedirle a Siri que nos dijera algo, porque él fue parte del proceso”, recordó Roble. “Es divertido hablar con él porque es una novedad, pero también es muy eficaz. Y no puedes evitar pensar: ¿Qué pasa con la enseñanza u otras aplicaciones? Después de todo, puedes ver cuando está prestando atención. Puedes darle retroalimentación emocional y él puede responder”.

Aunque Douglas ya es una creación impresionante, el equipo de Digital Domain insiste en que sigue siendo una obra en Progreso, pero el cielo es el límite en cuanto a qué tipo de trabajo podría terminar haciendo su humano digital como tiempo. sucede. En muchos sentidos, el proceso de descubrir de qué es capaz Douglas es tanto el proceso como el objetivo.

"Una de las razones por las que hacemos esto es porque podríamos", dice Roble. “Cuando estás frente a una computadora y trabajando, es muy fácil simplemente escribir. Pero hay tantos momentos y lugares en los que sería maravilloso poder hablar con una persona y hacer que esa persona interactúe contigo y reaccione contigo. Creo que nos espera un gran cambio en el futuro”.

Recomendaciones de los editores

  • Cómo el equipo de Thanos VFX dio vida a los personajes de The Quarry (y luego los mató)