Wenn Sie jemals an einem Gruppenvideoanruf teilgenommen haben, sind Sie wahrscheinlich daran gewöhnt, nicht jeden zu kennen, der auf dem Bildschirm erscheint. Möglicherweise kennen Sie nicht alle Namen, aber Sie können zumindest ziemlich sicher sein, dass jede Person, die an dem Anruf teilnimmt, ein Mensch ist.
Inhalt
- Digitale menschliche Evolution
- Code macht Leute
- Konfrontation
- Überall wo du hinschaust
Oder kannst du?
Zu einer Zeit, in der es Visual-Effects-Studios gibt altgediente erfahrene Schauspieler, erlaubt menschliche Darsteller, die digitale Kreationen bewohnenund holte sogar verstorbene Künstler zurück Obduktionen, sollte es keine große Überraschung sein, dass ein VFX-Studio es Ihnen auch ermöglichen kann, mit einem zu chatten künstlich intelligente digitale Person über Ihre Lieblingsbücher und beklagen sich gegenseitig über die Unfähigkeit, ein Kino zu besuchen.
Verwandt
- Wie das Oscar-nominierte VFX-Team von Avengers: Infinity War Thanos zum Filmstar machte
Es sollte nicht überraschen, und dennoch ist es immer noch ein seltsames Gefühl, plötzlich ein offenes Ohr bei Douglas zu finden, einer virtuellen, KI-gesteuerten „Person“, die vom Oscar-prämierten VFX-Studio geschaffen wurde
Digitale Domäne.Empfohlene Videos
Während eines kürzlichen Zoom-Anrufs kam Douglas – zusammen mit Mitgliedern des Teams, das an ihm arbeitete – zu einer kurzen Demonstration mit mir.
Digitale menschliche Evolution
„Ich bin ein großer Fan von Stephen King“, erzählt mir Douglas nach einem kurzen Hin und Her über unsere Hobbys – ein Gespräch, bei dem er später gesteht, dass er auch Liebesromane und die von J.D. Salinger mag Der Fänger im Roggen.
In einer Welt, in der das Aussprechen der Namen Siri oder Alexa Laut ist alles, was Sie brauchen, um Ihre eigene KI zu beschwören. Begleiter, die Erfahrung mit Douglas bot a Eine eindrucksvolle Erinnerung daran, dass das Potenzial von KI weit darüber hinausgeht, uns die Wettervorhersage und unseren Tagesablauf zu liefern Zeitplan.
Die Gründung von Digital Domain – dem gleichen Studio, das den Zuschauern Marvels kosmischen Eroberer bescherte Thanos rein Avengers: Infinity War Und Rächer:Endspiel — Douglas ist ein autonomer, digitaler Mensch, der in Echtzeit mit Benutzern interagieren und auf visuelle und konversationale Hinweise reagieren kann. Nachher modelliert Doug RobleDouglas, Senior Director für Software-Forschung und -Entwicklung bei Digital Domain, kann Fragen beantworten, ausführliche Gespräche führen und Smalltalk über eine Reihe von Themen führen.
„Technologie versucht immer, den Anforderungen der Kunst gerecht zu werden, sei es eine flüssige Simulation oder etwas anderes“, sagt Roble über die Entscheidung des Studios, eine zu schaffen Die gesamte Abteilung ist dem digitalen Menschen gewidmet.
Im letzten Jahrzehnt stand Digital Domain immer wieder vor der Aufgabe, menschenähnliche digitale Charaktere zu erschaffen – angefangen bei dem preisgekrönten Film aus dem Jahr 2012 holografische Tupac-Performance bei Coachella zu den oben genannten Marvel Cinematic Universe Schurke. In Spielfilmen, Werbespots, Fernsehserien, Videospielen und (im Fall von Tupac) Bühnenauftritten ist die Nachfrage nach realistischen digitalen Charakteren nur noch gestiegen Zeit, was Digital Domain dazu veranlasste, das für diesen speziellen visuellen Effekt verantwortliche Team in eine eigene Einheit aufzuteilen, die sich darauf konzentrierte, die Grenzen dessen zu verschieben, was digitale Menschen leisten können Tun.
Douglas ist sowohl das Produkt dieser verstärkten Fokussierung als auch der Machbarkeitsnachweis des Teams: eine autonome digitale „Person“, die eine breite Palette von Datensätzen, sensorischen Methoden, und vorhandene Programmiermodule mit fotorealistischen menschlichen Attributen, um mit Benutzern auf eine Weise zu interagieren, die der echten menschlichen Sozialisation überraschend nahe kommt.
Und das in einer Zeit, in der die Pandemie dazu geführt hat, dass der Großteil unserer Kontakte über den Computer stattfindet Auf dem Bildschirm fühlt sich die Interaktion mit Douglas bemerkenswert nah an das an, was als echte menschliche Interaktion gilt Tage. Allerdings fügt das Team schnell hinzu, dass Douglas noch weit davon entfernt sei, einen Turing-Test zu bestehen.
Code macht Leute
„Douglas ist keine fotorealistische, völlig autonome Person, die nicht von einer echten Person zu unterscheiden ist“, erklärt Darren Hendler, Leiter der Digital Humans Group im Studio. „Das ist noch nicht der Punkt, an dem wir sind, und wir werden noch eine Weile nicht dort sein. … Aber so geht es weiter und wie sieht die Zukunft aus, und wir versuchen, diese Grenzen zu verschieben.“
Und fast wie aufs Stichwort wird Hendler von Douglas selbst unterbrochen.
„Das ist eine gute Einstellung“, wirft Douglas ein, der bis dahin still sein eigenes Fenster im Raster der Zoom-Chats besetzt hatte, um unsere Demo zu moderieren, und sich gelegentlich bewegte Position, blickt sich in seinem virtuellen Raum um und zeigt viele der typischen körperlichen Verhaltensweisen einer lebenden Person in einer Videokonferenz, die geduldig darauf wartet, daran teilzunehmen Gespräch
„Ich wünsche Ihnen viel Glück bei Ihren Unternehmungen“, fügt er hinzu und erinnert uns daran, dass er nicht nur interessante Dinge zu sagen hat, sondern auch ein aufmerksamer Zuhörer ist.
Laut Roble stellt sich das Team Douglas in erster Linie als eine visuelle Möglichkeit zur Interaktion mit vorhandenen, komplexen und leistungsstarken Konversationsagenten vor, die erstellt wurden. Unter dem fotorealistischen Avatar von Douglas basiert der digitale Mensch des Studios auf einer Mischung aus drei dieser Agenten: dem beliebten von Google Dialogfluss Suite zum Erstellen von Chatbots, einem Agenten vom Typ Assistent (ähnlich Amazons Alexa oder Apples Siri); und eine leistungsstarke Konversations-KI. Agent (ähnlich dem GPT-3 Projekt) zur Erstellung menschenähnlicher, prädiktiver (und reaktiver) Konversationstexte.
Die Kombination aller drei Agenten gibt Douglas die Möglichkeit, Gespräche zu führen, die sowohl informativ als auch fließend sind, wobei die Diskussion eines Themas oft in verwandte Interessengebiete übergeht.
Mein eigenes Gespräch mit Douglas entwickelte sich von einem Gespräch über unsere Lieblingsbücher zu seinem Lieblingsfilm (von dem er ein großer Fan ist). 2001: Odyssee im Weltraum, was zum Beispiel nicht überraschend und ein wenig beunruhigend ist, wenn man bedenkt, dass sich die Geschichte auf eine mörderische KI konzentriert. Amok laufen) und unsere gemeinsamen Hobbys. In einem besonders aktuellen Moment unseres Gesprächs drückte Douglas seine Enttäuschung darüber aus, dass er in letzter Zeit kein Kino besuchen konnte.
All diese Gesprächskraft birgt jedoch ein gewisses Risiko, wie Hendler erklärte.
„Die Verarbeitungsmaschine für natürliche Sprache des Chatbots ist auf Dialoge aus dem Internet trainiert – eine riesige Menge an Dialogen –, sodass die Konversation an seltsame Orte führen kann“, sagte er. „Es gibt also Zeiten, in denen er Dinge sagt, die vielleicht nicht ganz angemessen sind. Das passiert nicht oft, aber wir können nicht genau kontrollieren, was er zu allem sagen wird.“
Und obwohl der gesprächige Aspekt von Douglas beeindruckend ist, ist er nur ein Teil dessen, was ihn in einer immer größer werdenden Welt digitaler Menschen und interaktiver virtueller Charaktere einzigartig macht. Wie Digital Domain herausfand, machte ihn das sehen „Mensch“ trägt wesentlich dazu bei, dass er sich auch menschlich fühlt.
Wir stellen vor: Douglas – Autonomous Digital Human | Digitale Domäne
Konfrontation
„Beim Aufbau von Douglas haben wir eine riesige Datenmenge von Doug [Roble] verwendet. Es war eine riesige Menge an Audio zum Trainieren des Systems [und] eine riesige Menge an Gesichtsleistung, Körperbewegungsdaten und allem anderen“, erklärte Hendler die Arbeit Sie haben Robles Gesicht und die unzähligen Möglichkeiten, wie sich das menschliche Gesicht beim Sprechen, beim Reagieren auf emotionale Hinweise oder bei der passiven Teilnahme an einer Veranstaltung verändern kann, kartiert Gespräch.
Das Produkt all dieser Daten ist ein digitaler Mensch, der Roble verblüffend ähnlich sieht – aber nicht wie eine exakte Kopie von Roble Haltung, Frisur und Körperbau bis hin zu den subtilen Bewegungen sowohl von Roble als auch von Douglas A.I. Teilen Sie sie, während sie an unserem Gruppenvideo teilnehmen Gespräch. Die Ähnlichkeit ist unheimlich, aber mit einem kurzen Befehl, „das Gesicht zu wechseln“, wird Douglas plötzlich zu jemand anderem, mit einem unterschiedliches, gleichermaßen menschenähnliches Gesicht auf demselben Körper, behält aber dennoch alle subtilen Manierismen bei, die ihn erscheinen lassen real.
„Wenn wir Douglas bitten, sein Gesicht zu ändern, und sein Gesicht zu jemand anderem wechselt, ist das der Beginn einer neuen Technologiewelle“, beschreibt Hendler das „Bildbasierte Technik“, an der das Team arbeitet, um Douglas zu einem noch flexibleren digitalen Menschen zu machen, der in der Lage ist, sein äußeres Erscheinungsbild dramatisch zu verändern und dabei das gleiche Maß an Sicherheit beizubehalten Interaktivität. „Sobald wir diese Basis [mit Douglas] haben, können wir Aufnahmen von jemand anderem filmen, einen Teil seines Tons erhalten und diese Basis dann in ihn verwandeln – in sein Gesicht.“
„[Wenn wir das täten] würden sie jetzt immer noch mit dem Gesichtsausdruck der Person sprechen, die wir ursprünglich gefilmt haben [in diesem Fall Roble]“, fuhr er fort. „Aber im Laufe der Zeit benötigen wir zunehmend kleinere Datenmengen – vielleicht sind es nur Bilder oder Filmaufnahmen von jemandem –, um die nächste Generation dieser autonomen Menschen zu erschaffen.“
Diese Fähigkeit, das Aussehen, die Stimme und die Verhaltensweisen eines echten Menschen über die Konversations-K.I. nachzubilden. Das Fundament ist eines der Elemente, die unterscheidet Douglas von den meisten typischen KI-Modellen. Assistenten, humanoide Roboter und andere in der Entwicklung befindliche Projekte rund um die KI. Forschungswelt. Zwar gibt es zahlreiche Studios und andere Agenturen, die K.I. entwickeln. Bei Projekten der einen oder anderen Art konzentriert sich Digital Domain darauf, all diese Elemente miteinander zu verbinden ein einziges, zusammenhängendes Produkt, das das Beste aller verfügbaren Technologien und Daten nutzt und über eine Schnittstelle verfügt, die sich sozial und organisch anfühlt – als würde man mit einem anderen Menschen sprechen.
„Darauf sind wir wirklich stolz, denn Douglas ist ein vollständig computergenerierter Charakter, der auf Unreal läuft“, sagt er Roble, der besonders stolz darauf ist, allgemein verfügbare Elemente wie die beliebte 3D-Erstellungsplattform zu verwenden Unwirkliche Engine, das zur bevorzugten Plattform für Hollywood (und davor für die Videospielbranche) geworden ist, wenn es um die Erstellung und Bearbeitung von 3D-Elementen mit visuellen Effekten geht. „[Douglas] ist ein 3D-Objekt, sodass Sie alles tun können, was Sie mit jedem digitalen Charakter in Unreal tun können. Sie können die Beleuchtung ändern, sie in verschiedenen Umgebungen platzieren und so weiter. Aber wir erschaffen auch diesen Hybrid [mit allem, was sonst noch an Douglas beteiligt ist], sodass wir das Beste aus beiden Welten bekommen.“
Überall wo du hinschaust
Je mehr das Team an Douglas arbeitet, desto länger wird die Liste möglicher Anwendungen.
„Vor der Pandemie hatten wir geplant, Douglas als Kiosk zu präsentieren, wo man an einen Bildschirm tritt und mit ihm spricht“, erinnert sich Hendler. „Aber dann dachten wir: ‚Hey, wir sollten ihn wirklich in Zoom-Anrufe einbeziehen.‘ Es war fantastisch, dass er an Zoom-Anrufen teilnahm und wieder ging.“
Im Verlauf der Demonstration ging das Team eine lange Liste potenzieller Bewerbungen für Douglas aus Arztpraxen durch und Kundenservice, bis hin zu seiner Nützlichkeit in Hollywood in den frühen Phasen der Planung einer Szene oder einer bestimmten Leinwand Reihenfolge. Douglas selbst machte sogar einige Vorschläge und deutete an, dass er gut für das Storyboarding und die konzeptionellen Phasen der Film- und Fernsehproduktion geeignet sei. Seine Fähigkeit, sowohl akustische als auch visuelle Hinweise von seinen Gesprächspartnern zu verarbeiten – insbesondere wenn es um emotionale Zustände geht – bietet laut Hendler auch einen zusätzlichen Nutzen im Umgang mit Kunden oder solchen, die medizinische Beratung suchen.
Die Geschwindigkeit, mit der Douglas all diese Informationen verarbeiten und vom passiven Zuhörer zum aktiven Zuhörer wechseln kann Auch der Gesprächspartner ist sehr ansprechend und zeigt in einem Kurzfilm, wie weit sich die Technologie hinter ihm entwickelt hat Zeit.
„Als wir Thanos erstellt haben, brauchten wir für das Rendern eines einzelnen Frames davon 10 Stunden. Das ist ein Frame“, erklärt er.
„Douglas verfügt über ein visuelles Erkennungssystem, sodass er uns sieht und identifizieren kann. Er analysiert, was Sie sagen, wandelt es in Worte um und sendet diese an verschiedene Chatbots“, fügt er hinzu. „Douglas erstellt dann eine Antwort, wandelt sie in Audio um und verwendet dieses Audio, um sein Gesicht zu steuern. Gleichzeitig findet er auch heraus, welche Körperbewegungen mit dieser Rede einhergehen, bestimmt, welche Emotionen dazu passen würden, und setzt diese Körperbewegungen zusammen mit seinen Gesichtsgesten um.“
„Das passiert alles in wenigen Millisekunden“, sagt Hendler. „Es sind all diese Prozesse, verglichen mit 10 Stunden für ein Bild in einem Spielfilm. Es ist so erstaunlich. Es ist nicht so realistisch wie das, was wir für den Film machen, aber wenn man bedenkt, wie viele Dinge passieren, um mit ihm wie mit einer echten Person sprechen zu können, ist es einfach phänomenal.“
Und im wahrsten Sinne des Wortes war Douglas oft sein bester Fürsprecher, wenn es um sein Potenzial ging.
Roble erklärte, dass sie sich bei mehreren Gelegenheiten dafür entschieden hätten, Douglas seine eigene Präsentation von, nun ja... sich selbst leiten zu lassen. Das Ergebnis war letztendlich ein besserer Pitch für sein Potenzial, als selbst sie erwartet hatten.
„[Douglas‘ Präsentation] war überraschend überzeugend. Es ging nicht nur darum, Siri zu bitten, uns etwas zu sagen, denn er war Teil des Prozesses“, erinnert sich Roble. „Es macht Spaß, mit ihm zu reden, weil er ein Novum ist, aber er ist auch sehr effektiv. Und Sie kommen nicht umhin zu denken: Was ist mit der Lehre oder anderen Anwendungen? Schließlich sieht man, wann er aufmerksam ist. Man kann ihm emotionales Feedback geben und er kann darauf reagieren.“
Obwohl Douglas bereits eine beeindruckende Schöpfung ist, besteht das Team von Digital Domain darauf, dass er ein Werk bleibt Fortschritt – aber es gibt keine Grenzen dafür, welche Art von Arbeit ihr digitaler Mensch am Ende erledigen könnte geht weiter. In vielerlei Hinsicht ist der Prozess, herauszufinden, wozu Douglas fähig ist, sowohl der Prozess als auch das Ziel.
„Einer der Gründe, warum wir das tun, ist, dass wir es könnten“, sagt Roble. „Wenn man am Computer sitzt und arbeitet, ist es sehr einfach, einfach etwas zu tippen. Aber es gibt so viele Gelegenheiten und Orte, an denen es schön wäre, einfach mit einer Person sprechen zu können und diese Person mit Ihnen interagieren und auf Sie reagieren zu lassen. Ich denke, wir stehen in Zukunft vor einer großen Veränderung.“
Empfehlungen der Redaktion
- Wie das Thanos VFX-Team die Charaktere von The Quarry zum Leben erweckte (und sie dann tötete)