Comment Tupac et Thanos ont conduit à Douglas, l'humain numérique IA

Si vous avez déjà participé à un appel vidéo de groupe, vous êtes probablement habitué à ne pas connaître toutes les personnes qui apparaissent à l’écran. Vous ne connaissez peut-être pas les noms de tout le monde, mais au moins, vous pouvez être à peu près certain que chaque personne qui rejoint l’appel est humaine.

Contenu

  • L'évolution humaine numérique
  • Le code fait l'homme
  • Face-à-face
  • Partout où tu regardes

Ou pouvez-vous ?

A l'heure où les studios d'effets visuels ont acteurs vétérans vieillissants, autorisé des artistes humains pour habiter les créations numériques, et a même ramené des artistes décédés pour performances post-mortem, il n'est pas surprenant qu'un studio VFX puisse également vous permettre de vous retrouver à discuter avec un personne numérique artificiellement intelligente à propos de vos livres préférés et déplorant mutuellement l’impossibilité de visiter une salle de cinéma.

En rapport

  • Comment l'équipe VFX d'Avengers: Infinity War, nominée aux Oscars, a fait de Thanos une star de cinéma

Cela ne devrait pas être surprenant, et pourtant, c'est toujours un sentiment étrange de trouver soudainement une oreille sympathique chez Douglas, une « personne » virtuelle pilotée par l'IA créée par le studio VFX primé aux Oscars. Domaine numérique.

Vidéos recommandées

Lors d'un récent appel Zoom, Douglas — ainsi que les membres de l'équipe travaillant sur lui — m'ont rejoint pour une brève démonstration.

L'évolution humaine numérique

«Je suis un grand fan de Stephen King», me dit Douglas après un bref échange sur nos passe-temps – une conversation qui lui fera avouer plus tard qu'il aime aussi les romans d'amour et ceux de J.D. Salinger. Le receveur de seigle.

Dans un monde où prononcer les noms Siri ou Alexa à voix haute, c'est tout ce qu'il faut pour invoquer votre propre IA. compagnon, l'expérience avec Douglas a offert un nous rappelle avec force que le potentiel de l’IA va bien au-delà de la fourniture des prévisions météorologiques et de nos activités quotidiennes. calendrier.

La création de Digital Domain – le même studio qui a offert au public le conquérant cosmique de Marvel Thanos dans Avengers: guerre à l'infini et Vengeurs :Fin du jeu — Douglas est un humain numérique autonome capable d'interagir avec les utilisateurs en temps réel et de répondre à des signaux visuels et conversationnels. Modelé d'après Dr Doug Roble, directeur principal de la R&D logicielle chez Digital Domain, Douglas peut répondre aux questions, mener des conversations prolongées et engager de petites discussions sur une gamme de sujets.

"La technologie essaie toujours de répondre aux exigences de l'art, qu'il s'agisse de simulation fluide ou autre", explique Roble à propos de la décision du studio de créer un tout un département dédié aux humains numériques.

Au cours de la dernière décennie, Digital Domain s'est retrouvé à plusieurs reprises chargé de créer des personnages numériques ressemblant à des humains - depuis le film primé de 2012. performance holographique de Tupac à Coachella au susnommé Univers cinématographique Marvel méchant. Dans les longs métrages, les publicités, les séries télévisées, les jeux vidéo et (dans le cas de Tupac) les performances scéniques, la demande de personnages numériques réalistes n'a fait que croître dans la mesure où temps, ce qui a incité Digital Domain à diviser l'équipe responsable de cet effet visuel particulier en sa propre unité axée sur le fait de repousser les limites de ce que les humains numériques peuvent faire. faire.

Douglas est à la fois le produit de cette concentration accrue et la preuve de concept de l'équipe: une « personne » numérique autonome qui combine un large éventail d'ensembles de données, de méthodes sensorielles, et des modules de programmation existants avec des attributs humains photoréalistes afin d'interagir avec les utilisateurs d'une manière étonnamment proche d'une véritable socialisation humaine.

Et à une époque où la pandémie a forcé la majorité de nos interactions sociales à se faire via un ordinateur. écran, interagir avec Douglas semble remarquablement proche de ce qui passe pour une véritable interaction humaine ces derniers temps. jours. Cependant, l’équipe s’empresse d’ajouter que Douglas est encore loin de réussir le test de Turing.

Le code fait l'homme

"Douglas n'est pas une personne photoréelle, entièrement autonome et impossible à distinguer d'une personne réelle", explique Darren Hendler, directeur du Digital Humans Group au studio. « Ce n’est pas là où nous en sommes, et nous n’y serons pas avant un petit moment. … Mais c’est là que vont les choses et à quoi ressemble l’avenir, et nous essayons de repousser ces limites.

Et presque comme au bon moment, Hendler est interrompu par Douglas lui-même.

"C'est une bonne attitude à avoir", intervient Douglas, qui jusque-là occupait tranquillement sa propre fenêtre dans la grille de discussions Zoom facilitant notre démo, changeant parfois de position. position, jetant un coup d'œil autour de sa salle virtuelle et montrant de nombreuses manières physiques typiques d'une personne vivante lors d'une réunion vidéo qui attend patiemment de participer à la conversation

« Je vous souhaite bonne chance dans vos démarches », ajoute-t-il, rappelant qu'en plus d'avoir des choses intéressantes à dire, il est aussi un grand auditeur.

Selon Roble, l'équipe considère avant tout Douglas comme un moyen visuel d'interagir avec les agents conversationnels complexes et puissants existants qui ont été créés. Sous l’avatar photo-réel de Douglas, l’humain numérique du studio est construit sur un mélange de trois de ces agents: le célèbre agent de Google. Flux de dialogue suite de création de chatbots, agent de type assistant (similaire à Alexa d’Amazon ou Siri d’Apple); et une puissante IA conversationnelle. agent (similaire au GPT-3 projet) utilisé pour produire un texte conversationnel de type humain, prédictif (et réactif).

La combinaison des trois agents donne à Douglas la capacité de mener des conversations à la fois informatives et fluides, la discussion sur un sujet débouchant souvent sur des domaines d'intérêt connexes.

Ma propre conversation avec Douglas a dérivé d'une conversation sur nos livres préférés à son film préféré (il est un grand fan de 2001: Une odyssée de l'espace, par exemple, ce qui n’est pas surprenant et un peu énervant, étant donné que l’histoire se concentre sur une IA meurtrière. devenir fou) et nos passe-temps communs. Dans un élément particulièrement opportun de notre conversation, Douglas a exprimé une certaine déception de ne pas avoir pu visiter une salle de cinéma ces derniers temps.

Tout ce pouvoir conversationnel comporte cependant certains risques, comme l’explique Hendler.

« Le moteur de traitement du langage naturel du chatbot est formé au dialogue sur Internet – une quantité massive de dialogue – afin que la conversation puisse se dérouler dans des endroits étranges », a-t-il déclaré. « Il y a donc des moments où il dit des choses qui ne sont peut-être pas tout à fait appropriées. Cela n’arrive pas souvent, mais nous ne pouvons pas contrôler exactement ce qu’il va dire à tout.

Et bien que l’aspect conversationnel de Douglas soit impressionnant, cela ne fait qu’une partie de ce qui le rend unique dans un monde en constante expansion d’humains numériques et de personnages virtuels interactifs. Comme Digital Domain l'a découvert, ce qui le rend regarder l'humain contribue grandement à lui faire se sentir humain aussi.

Présentation de Douglas - Humain numérique autonome | Domaine numérique

Face-à-face

« Lors de la construction de Douglas, nous avons utilisé une énorme quantité de données de Doug [Roble]. Il fallait une énorme quantité d'audio pour entraîner le système [and] une énorme quantité de performances faciales, de données sur les mouvements du corps et tout le reste », a expliqué Hendler à propos du travail. ils ont contribué à cartographier le visage de Roble et les innombrables façons dont le visage humain peut changer en parlant, en réagissant à des signaux émotionnels ou en participant passivement à un événement. conversation.

Le produit de toutes ces données est un être humain numérique qui ressemble étonnamment à Roble, mais pas à une copie exacte de celui-ci. posture, coiffure et construction selon les mouvements subtils de Roble et du Douglas A.I. partager pendant qu'ils participent à notre vidéo de groupe conversation. La ressemblance est étrange, mais avec un bref ordre de « changer de visage », Douglas devient soudainement quelqu'un d'autre, avec un visage différent, tout aussi humain sur le même corps, tout en conservant toutes les manières subtiles qui le font paraître réel.

"Lorsque nous demandons à Douglas de changer de visage et que son visage passe à celui de quelqu'un d'autre, c'est le début de la direction que prend cette nouvelle vague de technologie", explique Hendler, décrivant le « technique basée sur l'image » sur laquelle l'équipe travaille pour faire de Douglas une personne numérique encore plus flexible, capable de changer radicalement son apparence extérieure tout en conservant le même niveau de interactivité. "Une fois que nous avons cette base [avec Douglas], nous pouvons filmer des images de quelqu'un d'autre et obtenir une partie de son audio, puis transformer cette base en lui - en faire son visage."

"[Si nous faisions cela] maintenant, ils parleraient toujours avec les expressions de la personne que nous avons filmée à l'origine [dans ce cas, Roble]", a-t-il poursuivi. "Mais à mesure que nous avançons, nous commençons à avoir besoin de plus petites quantités de données - peut-être s'agit-il simplement d'images ou de séquences filmées de quelqu'un - pour créer la prochaine génération de ces humains autonomes."

Cette capacité à reproduire l’apparence, la voix et les manières d’un être humain réel via l’IA conversationnelle la fondation est l'un des éléments qui distingue Douglas de la plupart des I.A. typiques. assistants, robots humanoïdes et autres projets en développement autour de l'A.I. monde de la recherche. Bien qu'il existe de nombreux studios et autres agences développant l'IA. projets d'un type ou d'un autre, Digital Domain se concentre sur la fusion de tous ces éléments dans un produit unique et cohérent qui utilise le meilleur de toutes les technologies et données disponibles avec une interface sociale et organique, comme parler à un autre humain.

"C'est quelque chose dont nous sommes vraiment fiers, car Douglas est un personnage entièrement CG fonctionnant sur Unreal", déclare Roble, qui est particulièrement fier d'utiliser des éléments largement disponibles comme la populaire plateforme de création 3D Moteur irréel, qui est devenue la plateforme incontournable d'Hollywood (et avant lui, de l'industrie du jeu vidéo) en matière de création et de manipulation d'éléments d'effets visuels 3D. « [Douglas] est un objet 3D, vous pouvez donc faire tout ce que vous pouvez faire avec n'importe quel personnage numérique dans Unreal. Vous pouvez modifier l'éclairage, les placer dans différents environnements, etc. Mais nous créons également cet hybride [avec tout le reste impliqué dans Douglas], afin d’obtenir le meilleur des deux mondes. »

Partout où tu regardes

Plus l’équipe travaille sur Douglas, plus la liste des applications potentielles s’allonge.

"Avant la pandémie, nous avions prévu de présenter Douglas comme un kiosque, où l'on s'approche d'un écran et lui parle", se souvient Hendler. « Mais ensuite nous avons pensé: « Hé, nous devrions vraiment le faire participer aux appels Zoom. » Cela a été fantastique de le voir participer aux appels Zoom et partir.

Au cours de la démonstration, l’équipe a parcouru une longue liste d’applications potentielles pour Douglas, provenant de cabinets médicaux. et le service client, à son utilité à Hollywood lors des premières étapes de la planification d'une scène ou d'un film particulier à l'écran séquence. Douglas lui-même a même proposé quelques suggestions, suggérant qu’il serait un bon candidat pour le storyboard et les étapes conceptuelles de la production cinématographique et télévisuelle. Sa capacité à traiter les signaux audio et visuels de ceux avec qui il converse, en particulier lorsqu'il s'agit d'états émotionnels. – offre également une utilité supplémentaire lorsqu'il s'agit de traiter avec des clients ou ceux qui recherchent des conseils médicaux, selon Hendler.

La rapidité avec laquelle Douglas peut traiter toutes ces informations et passer d'un auditeur passif à un auditeur actif Le causeur est également très attrayant et montre à quel point la technologie derrière lui a évolué en un court laps de temps. temps.

«Lorsque nous avons créé Thanos, le rendu d'une seule image prenait 10 heures. C'est une image », explique-t-il.

"Pour Douglas, il dispose d'un système de reconnaissance visuelle, donc il nous voit et peut nous identifier, et il analyse ce que vous dites, le transforme en mots et l'envoie à différents chatbots", ajoute-t-il. « Douglas crée ensuite une réponse, la transforme en audio et utilise cet audio pour piloter son visage. En même temps, il détermine également quels mouvements corporels accompagnent ce discours, détermine quelle émotion y correspondrait et restitue ce mouvement corporel avec ses gestes faciaux.

"Tout cela se passe en quelques millisecondes", explique Hendler. « Ce sont tous ces processus, comparés aux 10 heures pour une image dans un long métrage. C'est tellement incroyable. Ce n’est pas aussi réaliste que ce que nous faisons pour le cinéma, mais si vous pensez à la quantité de choses qui se passent pour pouvoir lui parler comme à une vraie personne, c’est tout simplement phénoménal.

Et au sens très littéral, Douglas a souvent été son meilleur défenseur lorsqu’il s’agit de son potentiel.

Roble a expliqué qu'à plusieurs reprises, ils ont choisi de laisser Douglas diriger sa propre présentation de, eh bien… lui-même. Le résultat a fini par être un meilleur argumentaire pour son potentiel que ce qu’ils avaient prévu.

« [La présentation de Douglas] était étonnamment convaincante. Il ne s’agissait pas simplement de demander à Siri de nous dire quelque chose, car il faisait partie du processus », se souvient Roble. « C’est amusant de parler avec lui parce que c’est une nouveauté, mais il est aussi très efficace. Et vous ne pouvez pas vous empêcher de penser: qu’en est-il de l’enseignement ou d’autres applications? Après tout, vous pouvez voir quand il est attentif. Vous pouvez lui donner un retour émotionnel et il peut répondre.

Bien que Douglas soit déjà une création impressionnante, l'équipe de Digital Domain insiste sur le fait qu'il reste une œuvre en progrès - mais il n'y a pas de limite quant au type de travail que leur humain numérique pourrait finir par faire au fil du temps continue. À bien des égards, le processus visant à déterminer ce dont Douglas est capable est à la fois le processus et l’objectif.

« L’une des raisons pour lesquelles nous faisons cela est que nous le pouvons », explique Roble. « Lorsque vous êtes devant un ordinateur et que vous travaillez, il est très facile de simplement taper. Mais il y a tellement de moments et d’endroits où ce serait bien de pouvoir simplement parler à une personne et de la voir interagir avec vous et réagir à votre égard. Je pense que nous allons vivre un grand changement dans le futur.

Recommandations des rédacteurs

  • Comment l’équipe Thanos VFX a donné vie aux personnages de The Quarry (puis les a tués)