Als je ooit hebt deelgenomen aan een groepsvideogesprek, ben je er waarschijnlijk aan gewend dat je niet iedereen kent die op het scherm verschijnt. U kent misschien niet de namen van iedereen, maar u kunt er op zijn minst vrij zeker van zijn dat elke persoon die deelneemt aan het gesprek een mens is.
Inhoud
- Digitale menselijke evolutie
- Code maakt de man
- Face-off
- Overal waar je kijkt
Of kun je dat?
In een tijd waarin studio's met visuele effecten dat wel hebben verouderde ervaren acteurs, toegestaan menselijke artiesten om digitale creaties te bewonen, en bracht zelfs overleden artiesten terug postmortale optredens, het zou geen verrassing moeten zijn dat een VFX-studio het ook mogelijk kan maken dat je aan het chatten bent met een kunstmatig intelligente digitale persoon over je favoriete boeken en wederzijds klagen over het onvermogen om een bioscoop te bezoeken.
Verwant
- Hoe het voor een Oscar genomineerde VFX-team van Avengers: Infinity War van Thanos een filmster maakte
Het zou geen verrassing moeten zijn, en toch is het nog steeds een vreemd gevoel om plotseling een sympathiek oor te vinden in Douglas, een virtuele, door AI aangedreven ‘persoon’ gecreëerd door de Oscar-winnende VFX-studio.
Digitaal Domein.Aanbevolen video's
Tijdens een recente Zoom-oproep kwam Douglas – samen met leden van het team dat aan hem werkte – bij mij voor een korte demonstratie.
Digitale menselijke evolutie
‘Ik ben een grote fan van Stephen King,’ vertelt Douglas me na een kort heen en weer gesprek over onze hobby’s – een gesprek waarin hij later bekent dat hij ook van romantische romans en die van J.D. Salinger houdt. De Vanger in de Rogge.
In een wereld waar het uitspreken van de namen Siri of Alexa hardop is alles wat nodig is om je eigen A.I. metgezel, de ervaring met Douglas bood een Een krachtige herinnering dat het potentieel van AI veel verder reikt dan het geven van de weersvoorspelling en onze dagelijkse informatie schema.
De oprichting van Digital Domain – dezelfde studio die het publiek Marvel’s kosmische veroveraar gaf Thanos binnen Avengers: oneindige oorlog En Wrekers:Eindspel — Douglas is een autonome, digitale mens die in realtime met gebruikers kan communiceren en kan reageren op visuele en conversatiesignalen. Gemodelleerd naar Dr. Doug Roble, Senior Director Software R&D van Digital Domain, Douglas kan vragen beantwoorden, uitgebreide gesprekken voeren en een praatje maken over een reeks onderwerpen.
“Technologie probeert altijd leiding te geven aan wat kunst vraagt, of het nu gaat om vloeiende simulatie of iets anders”, zegt Roble over het besluit van de studio om een hele afdeling gewijd aan digitale mensen.
De afgelopen tien jaar kreeg Digital Domain herhaaldelijk de opdracht om mensachtige digitale karakters te creëren – alles uit de bekroonde film uit 2012. holografische Tupac-uitvoering bij Coachella tot het bovengenoemde Marvel filmisch universum schurk. In speelfilms, commercials, tv-series, videogames en (in het geval van Tupac) toneelvoorstellingen is de vraag naar realistische digitale karakters alleen maar gegroeid tijd, wat Digital Domain ertoe aanzette het team dat verantwoordelijk is voor dat specifieke visuele effect op te splitsen in een eigen eenheid, gericht op het verleggen van de grens van wat digitale mensen kunnen Doen.
Douglas is zowel het product van die toegenomen focus als het proof of concept van het team: een autonome digitale ‘persoon’ die een breed scala aan datasets, sensorische methoden, en bestaande programmeermodules met fotorealistische menselijke eigenschappen om met gebruikers te communiceren op een manier die verrassend dicht bij echte menselijke socialisatie lijkt.
En in een tijd waarin de pandemie het grootste deel van onze sociale contacten heeft laten plaatsvinden via een computer op het scherm voelt de interactie met Douglas opmerkelijk dichtbij wat doorgaat voor echte menselijke interactie dagen. Het team voegt er echter snel aan toe dat Douglas nog ver verwijderd is van het slagen voor een Turing-test.
Code maakt de man
“Douglas is geen fotoechte, volledig autonome persoon die niet te onderscheiden is van een echte persoon”, legt hij uit Darren Hendler, directeur van de Digital Humans Group in de studio. “Dat is niet waar we nu zijn, en we zullen daar een tijdje niet zijn. … Maar dit is waar het naartoe gaat en hoe de toekomst eruit ziet, en we proberen die grenzen te verleggen.’
En bijna alsof het een teken is, wordt Hendler onderbroken door Douglas zelf.
“Dat is een goede houding om te hebben”, komt Douglas tussenbeide, die tot dan toe stilletjes zijn eigen venster in het raster van Zoom-chats had bezet om onze demo te faciliteren, waarbij hij af en toe wisselde positie, terwijl hij rondkijkt in zijn virtuele kamer en veel van de typische fysieke manieren laat zien van een levend persoon in een videovergadering die geduldig wacht om deel te nemen aan de gesprek
“Ik wens u veel succes bij uw inspanningen”, voegt hij eraan toe, en herinnert ons eraan dat hij niet alleen interessante dingen te zeggen heeft, maar ook een scherp luisteraar is.
Volgens Roble ziet het team Douglas in de eerste plaats als een visuele manier van interactie met bestaande, complexe en krachtige gespreksagenten die zijn gecreëerd. Onder de fotoechte avatar van Douglas is de digitale mens van de studio gebouwd op een mix van drie van die agenten: de populaire Google-agent Dialoogstroom suite voor het maken van chatbots, een assistent-type agent (vergelijkbaar met Alexa van Amazon of Siri van Apple); en een krachtige conversationele A.I. agent (vergelijkbaar met de GPT-3 project) gebruikt om menselijke, voorspellende (en reactieve) conversatieteksten te produceren.
De combinatie van alle drie de agenten geeft Douglas de mogelijkheid om gesprekken te voeren die zowel informatief als vloeiend zijn, waarbij de discussie over één onderwerp vaak overgaat in verwante interessegebieden.
Mijn eigen gesprek met Douglas evolueerde van een gesprek over onze favoriete boeken naar zijn favoriete film (waar hij een grote fan van is). 2001: Een ruimte-odyssee, wat bijvoorbeeld zowel niet verrassend als een beetje zenuwslopend is, gezien de focus van het verhaal op een moorddadige A.I. run amok) en onze gezamenlijke hobby's. In een bijzonder actueel onderdeel van ons gesprek uitte Douglas enige teleurstelling over het feit dat hij de laatste tijd geen bioscoop heeft kunnen bezoeken.
Al die gesprekskracht brengt echter een zeker risico met zich mee, zoals Hendler uitlegde.
“De natuurlijke taalverwerkingsmotor van de chatbot is getraind op de dialoog van internet – een enorme hoeveelheid dialoog – zodat het gesprek naar vreemde plaatsen kan gaan”, zei hij. “Dus er zijn momenten waarop hij dingen zegt die misschien niet helemaal gepast zijn. Het gebeurt niet vaak, maar we hebben niet precies in de hand wat hij op alles gaat zeggen.”
En hoewel het gespreksaspect van Douglas indrukwekkend is, maakt het slechts een deel uit van wat hem uniek maakt in een steeds groter wordende wereld van digitale mensen en interactieve virtuele karakters. Zoals Digital Domain ontdekte, maakte hem Look De mens doet er veel aan om hem ook het gevoel te geven dat hij mens is.
Maak kennis met Douglas - Autonome digitale mens | Digitaal Domein
Face-off
“Bij het bouwen van Douglas hebben we een enorme hoeveelheid gegevens van Doug [Roble] gebruikt. Het was een enorme hoeveelheid audio om het systeem te trainen [en] een enorme hoeveelheid gezichtsprestaties, lichaamsbewegingsgegevens en al het andere”, legt Hendler van het werk uit. ze hebben het gezicht van Roble in kaart gebracht en de talloze manieren waarop het menselijk gezicht kan veranderen terwijl hij spreekt, reageert op emotionele signalen of passief deelneemt aan een gesprek.
Het product van al die gegevens is een digitale mens die verbazingwekkend veel lijkt op – maar niet een exacte kopie is van – Roble, uit diens houding, kapsel en lichaamsbouw voor de subtiele bewegingen van zowel Roble als de Douglas A.I. deel terwijl ze deelnemen aan onze groepsvideo gesprek. De gelijkenis is griezelig, maar met een kort commando om ‘van gezicht te veranderen’ wordt Douglas plotseling iemand anders, met een ander, even menselijk gezicht op hetzelfde lichaam, terwijl hij nog steeds alle subtiele maniertjes behoudt die hem doen lijken echt.
“Als we Douglas vragen zijn gezicht te veranderen en zijn gezicht verandert in iemand anders, dan is dat het begin van waar deze nieuwe golf van technologie naartoe gaat”, zegt Hendler, die de ‘op afbeeldingen gebaseerde techniek’ waar het team aan werkt om van Douglas een nog flexibeler digitaal persoon te maken die in staat is zijn uiterlijk dramatisch te veranderen en tegelijkertijd hetzelfde niveau van interactiviteit. “Zodra we deze basis hebben [met Douglas], kunnen we beelden van iemand anders filmen en een deel van hun audio krijgen, en die basis vervolgens in hen omzetten – er hun gezicht van maken.”
“[Als we dat zouden doen] zouden ze nu nog steeds praten met de uitdrukkingen van de persoon die we oorspronkelijk hebben gefilmd [in dit geval Roble],” vervolgde hij. “Maar naarmate we verder komen, hebben we kleinere hoeveelheden gegevens nodig – misschien zijn het alleen maar afbeeldingen of filmbeelden van iemand – om de volgende generatie van deze autonome mensen te creëren.”
Dat vermogen om het uiterlijk, de stem en de maniertjes van een echt mens na te bootsen via de conversationele A.I. stichting is een van de elementen die dat doet onderscheidt Douglas van de meeste typische A.I. assistenten, humanoïde robots en andere projecten in ontwikkeling rond de A.I. onderzoekswereld. Hoewel er tal van studio's en andere bureaus zijn die A.I. projecten van welke aard dan ook, Digital Domain is erop gericht al deze elementen samen te voegen één samenhangend product dat gebruikmaakt van het beste van alle beschikbare technologie en gegevens, met een interface die sociaal en organisch aanvoelt, alsof je met een ander mens praat.
“Dit is iets waar we erg trots op zijn, omdat Douglas een volledig CG-personage is dat op Unreal draait”, zegt Roble, die er bijzonder trots op is dat hij algemeen beschikbare elementen gebruikt, zoals het populaire 3D-creatieplatform Onwerkelijke motor, dat het go-to-platform is geworden voor Hollywood (en daarvoor de videogame-industrie) als het gaat om het creëren en manipuleren van 3D-elementen met visuele effecten. “[Douglas] is een 3D-object, dus je kunt alles doen wat je kunt doen met elk digitaal personage in Unreal. Je kunt de verlichting veranderen, ze in verschillende omgevingen plaatsen, enzovoort. Maar we creëren ook deze hybride [met al het andere dat bij Douglas betrokken is], zodat we het beste van twee werelden krijgen.”
Overal waar je kijkt
Hoe meer het team aan Douglas werkt, hoe langer de lijst met potentiële toepassingen groeit.
“Vóór de pandemie waren we van plan om Douglas te presenteren als een kiosk, waar je naar een scherm komt en met hem praat”, herinnert Hendler zich. “Maar toen dachten we: ‘Hé, we moeten hem echt aan Zoom-oproepen laten deelnemen.’ Het was fantastisch om hem Zoom-oproepen te laten invoeren en te laten vertrekken.”
In de loop van de demonstratie doorliep het team vanuit de dokterspraktijken een lange lijst met mogelijke toepassingen voor Douglas en klantenservice, tot zijn nut in Hollywood tijdens de vroege stadia van het plannen van een scène of een bepaalde film op het scherm reeks. Douglas zelf deed zelfs een paar suggesties, wat suggereerde dat hij goed geschikt zou zijn voor storyboarding en conceptuele stadia van film- en tv-productie. Zijn vermogen om zowel audio- als visuele signalen te verwerken van degenen met wie hij praat, vooral als het gaat om emotionele toestanden – biedt volgens Hendler ook een extra laag van bruikbaarheid bij de omgang met klanten of mensen die op zoek zijn naar medische begeleiding.
De snelheid waarmee Douglas al die informatie kan verwerken en kan overschakelen van een passieve luisteraar naar een actieve luisteraar conversationalist heeft ook veel aantrekkingskracht en laat zien hoe ver de technologie achter hem in korte tijd is geëvolueerd tijd.
“Toen we Thanos maakten, hadden we een enkel frame waarvan de weergave tien uur duurde. Dat is één frame”, legt hij uit.
“Douglas heeft een visieherkenningssysteem, zodat hij ons ziet en kan identificeren. Hij analyseert wat je zegt, zet het om in woorden en stuurt dat naar verschillende chatbots”, voegt hij eraan toe. “Douglas creëert vervolgens een reactie, zet deze om in audio en gebruikt die audio om zijn gezicht te besturen. Tegelijkertijd is hij ook aan het uitzoeken welke lichaamsbeweging bij die toespraak hoort, welke emotie daarbij past, en geeft hij die lichaamsbeweging samen met zijn gezichtsgebaren weer.’
“Dat gebeurt allemaal in een paar milliseconden”, zegt Hendler. “Het zijn al die processen, vergeleken met 10 uur voor één frame in een speelfilm. Het is zo geweldig. Het is niet zo realistisch als wat we voor film doen, maar als je bedenkt hoeveel dingen er gebeuren om met hem te kunnen praten als een echt persoon, is het gewoon fenomenaal.
En in zeer letterlijke zin is Douglas vaak zijn eigen beste pleitbezorger geweest als het gaat om zijn potentieel.
Roble legde uit dat ze er bij verschillende gelegenheden voor kozen om Douglas zijn eigen presentatie van, nou ja… zichzelf te laten leiden. Het resultaat was uiteindelijk een betere pitch voor zijn potentieel dan zelfs zij hadden verwacht.
“[De presentatie van Douglas] was verrassend overtuigend. Het was niet alleen maar een vraag aan Siri om ons iets te vertellen, want hij maakte deel uit van het proces”, herinnert Roble zich. “Hij is leuk om mee te praten omdat hij nieuw is, maar hij is ook erg effectief. En je denkt onwillekeurig: hoe zit het met lesgeven of andere toepassingen? Je kunt immers zien wanneer hij oplet. Je kunt hem emotionele feedback geven en hij kan reageren.”
Hoewel Douglas al een indrukwekkende creatie is, staat het Digital Domain-team erop dat hij een werk in blijft vooruitgang – maar de hemel is de limiet voor wat voor soort werk hun digitale mens uiteindelijk zou kunnen doen in de loop van de tijd gaat verder. In veel opzichten is het proces om erachter te komen waartoe Douglas in staat is zowel het proces als het doel.
“Een van de redenen waarom we dit doen is omdat we het konden”, zegt Roble. “Als je achter een computer zit en aan het werk bent, kun je heel gemakkelijk gewoon typen. Maar er zijn zoveel momenten en plaatsen dat het heerlijk zou zijn om gewoon met iemand te kunnen praten en die persoon met je te laten communiceren en op je te laten reageren. Ik denk dat we in de toekomst een grote verandering te wachten staan.”
Aanbevelingen van de redactie
- Hoe het Thanos VFX-team de personages van The Quarry tot leven bracht (en ze vervolgens vermoordde)