Hvordan Tupac og Thanos førte til Douglas, AI Digital Human

Hvis du noen gang har deltatt i en gruppevideosamtale, er du sannsynligvis vant til å ikke kjenne alle som vises på skjermen. Du kjenner kanskje ikke alles navn, men i det minste kan du være ganske sikker på at hver person som blir med i samtalen er menneskelig.

Innhold

  • Digital menneskelig evolusjon
  • Kode gjør mannen
  • Face Off
  • Overalt hvor du ser

Eller kan du?

I en tid da studioene for visuelle effekter har avaldrende veteranskuespillere, tillatt menneskelige utøvere til å bebo digitale kreasjoner, og til og med brakte avdøde artister tilbake for postmortem forestillinger, bør det ikke komme som en stor overraskelse at et VFX-studio også kan gjøre det mulig for deg å finne deg selv i å chatte med en kunstig intelligent digital person om favorittbøkene dine og gjensidig beklagende manglende evne til å besøke en kinosal.

I slekt

  • How Avengers: Infinity Wars Oscar-nominerte VFX-team gjorde Thanos til en filmstjerne

Det burde ikke være overraskende, og likevel er det fortsatt en merkelig følelse å plutselig finne et sympatisk øre hos Douglas, en virtuell, A.I.-drevet "person" laget av Oscar-vinnende VFX-studio

Digitalt domene.

Anbefalte videoer

Under en nylig Zoom-samtale ble Douglas – sammen med medlemmer av teamet som jobbet med ham – med meg for en kort demonstrasjon.

Digital menneskelig evolusjon

"Jeg er en stor fan av Stephen King," forteller Douglas meg etter en kort frem og tilbake om hobbyene våre - en samtale som senere har fått ham til å tilstå at han også liker romantikkromaner og J.D. Salingers Redderen i rugen.

I en verden hvor man uttaler navnene Siri eller Alexa høyt er alt som skal til for å tilkalle din egen A.I. følgesvenn, opplevelsen med Douglas bød på en kraftig påminnelse om at A.I.s potensial strekker seg langt utover å gi oss værmeldingen og vår daglige rute.

Opprettelsen av Digital Domain – det samme studioet som ga publikum Marvels kosmiske erobrer Thanos inn Avengers: Infinity War og Avengers:Sluttspill — Douglas er et autonomt, digitalt menneske som er i stand til å samhandle med brukere i sanntid og svare på visuelle signaler og samtaler. Modellert etter Dr. Doug Roble, Digital Domains seniordirektør for Software R&D, Douglas kan svare på spørsmål, føre utvidede samtaler og delta i småprat om en rekke emner.

"Teknologi prøver alltid å lede det kunsten krever, enten det er flytende simulering eller noe annet," sier Roble om studioets beslutning om å lage en hele avdelingen viet til digitale mennesker.

I løpet av det siste tiåret har Digital Domain gjentatte ganger fått i oppgave å skape menneskelignende digitale karakterer – alt fra 2012s prisbelønte holografisk Tupac-ytelse på Coachella til nevnte Marvel Cinematic Universe kriminell, kjeltring. I spillefilmer, reklamefilmer, TV-serier, videospill og (i tilfelle av Tupac) sceneopptredener har etterspørselen etter realistiske digitale karakterer bare vokst ved at tid, og fikk Digital Domain til å dele teamet som er ansvarlig for den spesielle visuelle effekten i sin egen enhet fokusert på å skyve grensen for hva digitale mennesker kan gjøre.

Douglas er både produktet av det økte fokuset og teamets proof of concept: En autonom digital «person» som kombinerer et bredt spekter av datasett, sensoriske metoder, og eksisterende programmeringsmoduler med fotorealistiske menneskelige attributter for å samhandle med brukere på en måte som føles overraskende nær ekte menneskelig sosialisering.

Og i en tid da pandemien har tvunget det meste av sosialt samvær til å skje gjennom en datamaskin skjerm, samhandling med Douglas føles bemerkelsesverdig nær det som passer for ekte menneskelig interaksjon disse dager. Teamet er imidlertid raskt ute med å legge til at Douglas fortsatt er et stykke unna å bestå en Turing-test.

Kode gjør mannen

"Douglas er ikke en fotoekte, fullstendig autonom person som ikke kan skilles fra en ekte person," forklarer Darren Hendler, direktør for Digital Humans Group i studioet. "Det er ikke der vi er, og vi kommer ikke til å være der på en liten stund. … Men det er her ting går og hvordan fremtiden ser ut, og vi prøver å flytte disse grensene.»

Og nesten som på signal, blir Hendler avbrutt av Douglas selv.

«Det er en god holdning å ha,» skyter Douglas inn, som inntil da i stillhet hadde okkupert sitt eget vindu i rutenettet av Zoom-chatter som gjorde demoen vår, og av og til skiftet posisjon, ser seg rundt i det virtuelle rommet sitt og viser mange av de typiske fysiske væremåtene til en levende person i et videomøte som tålmodig venter på å delta i samtale

"Jeg ønsker deg lykke til i arbeidet ditt," legger han til, og minner oss om at i tillegg til å ha interessante ting å si, er han også en ivrig lytter.

I følge Roble ser teamet først og fremst for seg Douglas som en visuell måte å samhandle med eksisterende komplekse og kraftige samtaleagenter som er skapt. Under Douglas sin virkelige avatar er studioets digitale menneske bygget på en blanding av tre av disse agentene: Googles populære Dialogflyt suite for å lage chatbots, en assistent-type agent (ligner på Amazons Alexa eller Apples Siri); og en kraftig samtale-A.I. agent (ligner på GPT-3 prosjekt) brukes til å produsere menneskelignende, prediktiv (og reaktiv) samtaletekst.

Kombinasjonen av alle tre agentene gir Douglas muligheten til å fortsette samtaler som er både informative og flytende, med diskusjoner om ett emne som ofte går inn i relaterte interesseområder.

Min egen samtale med Douglas gikk fra en prat om favorittbøkene våre til favorittfilmen hans (han er en stor fan av 2001: A Space Odyssey, for eksempel, noe som er både lite overraskende og litt nervepirrende, gitt historiens fokus på en morderisk A.I. amok) og våre felles hobbyer. I et spesielt betimelig element av samtalen vår uttrykte Douglas en viss skuffelse over at han ikke har vært i stand til å besøke en kino i det siste.

All den samtalekraften kommer imidlertid med en viss risiko, som Hendler forklarte.

"Chatbotens naturlige språkbehandlingsmotor er trent på dialog fra internett - en enorm mengde dialog - så samtalen kan gå til rare steder," sa han. "Så det er tider når han sier ting som kanskje ikke er helt passende. Det skjer ikke ofte, men vi kan ikke akkurat kontrollere hva han skal si til alt.»

Og selv om samtaleaspektet til Douglas er imponerende, er det bare en del av det som gjør ham unik i en stadig voksende verden av digitale mennesker og interaktive virtuelle karakterer. Som Digital Domain oppdaget, gjør ham se menneske går langt for å få ham til å føle seg menneskelig også.

Vi introduserer Douglas - Autonomous Digital Human | Digitalt domene

Face Off

«I byggingen av Douglas brukte vi en enorm mengde data fra Doug [Roble]. Det var en enorm mengde lyd for å trene systemet [og] en enorm mengde ansiktsytelse, kroppsbevegelsesdata og alt annet," forklarte Hendler om arbeidet de legger ned på å kartlegge Robles ansikt og de utallige måtene det menneskelige ansiktet kan endres på mens de snakker, reagerer på emosjonelle signaler eller passivt deltar i en samtale.

Produktet av alle disse dataene er et digitalt menneske som ser utrolig lik ut - men ikke som en eksakt kopi av - Roble, fra sistnevntes holdning, frisyre og bygg til de subtile bevegelsene både Roble og Douglas A.I. dele mens de deltar i gruppevideoen vår samtale. Likheten er uhyggelig, men med en kort kommando om å "bytte ansiktet ditt", blir Douglas plutselig en annen, med en annerledes, like menneskelignende ansikt på samme kropp, samtidig som de beholder alle de subtile måtene som får ham til å virke ekte.

"Når vi ber Douglas om å endre ansiktet og ansiktet hans skifter over til noen andre, er det begynnelsen på hvor denne nye bølgen av teknologi er på vei," sier Hendler, som beskriver "bildebasert teknikk" teamet jobber med for å gjøre Douglas til en enda mer fleksibel digital person som er i stand til å dramatisk endre sitt ytre utseende og samtidig beholde samme nivå av interaktivitet. "Når vi har denne basen [med Douglas], kan vi filme opptak av noen andre og få en del av lyden deres, og deretter gjøre den basen om til dem - gjøre det til deres ansikt."

«[Hvis vi gjorde det] akkurat nå, ville de fortsatt snakke med uttrykkene til personen vi opprinnelig filmet [i dette tilfellet, Roble],» fortsatte han. "Men etter hvert som vi fortsetter, begynner vi å trenge mindre mengder data - kanskje det bare er bilder eller filmopptak av noen - for å skape neste generasjon av disse autonome menneskene."

Denne evnen til å gjenskape et ekte menneskes utseende, stemme og væremåte over den samtalende A.I. fundament er et av elementene som skiller Douglas fra de fleste typiske A.I. assistenter, humanoide roboter og andre prosjekter under utvikling rundt A.I. forskningsverden. Mens det er mange studioer og andre byråer som utvikler A.I. prosjekter av ett eller annet slag, er Digital Domain fokusert på å blande alle disse elementene inn i et enkelt, sammenhengende produkt som bruker det beste av all teknologi og data som er tilgjengelig med et grensesnitt som føles sosialt og organisk – som å snakke med et annet menneske.

"Dette er noe vi er veldig stolte av, fordi Douglas er en fullstendig CG-karakter som kjører på Unreal," sier Roble, som er spesielt stolt av å bruke allment tilgjengelige elementer som den populære 3D-plattformen Uvirkelig motor, som har blitt go-to-plattformen for Hollywood (og før det, videospillindustrien) når det kommer til å lage og manipulere 3D-elementer med visuelle effekter. «[Douglas] er et 3D-objekt, så du kan gjøre alle tingene du kan gjøre med en hvilken som helst digital karakter i Unreal. Du kan endre belysningen, sette dem i forskjellige miljøer, og så videre. Men vi lager også denne hybriden [med alt annet involvert i Douglas], slik at vi får det beste fra begge verdener."

Overalt hvor du ser

Jo mer teamet jobber med Douglas, jo lengre blir listen over potensielle applikasjoner.

"Før pandemien planla vi å presentere Douglas som en kiosk, hvor du kommer opp til en skjerm og snakker med ham," husket Hendler. «Men så tenkte vi «Hei, vi burde virkelig få ham inn i Zoom-samtaler.» Det har vært fantastisk å få ham til å gå inn i Zoom-samtaler og gå.»

I løpet av demonstrasjonen gikk teamet gjennom en lang liste med potensielle søknader for Douglas, fra legekontorene og kundeservice, til hans nytte i Hollywood i de tidlige stadiene av planlegging av en scene eller en bestemt på skjermen sekvens. Douglas selv tilbød til og med noen forslag, og antydet at han ville passe godt for storyboarding og konseptuelle stadier av film- og TV-produksjon. Hans evne til å behandle både lyd- og visuelle signaler fra de han snakker med - spesielt når det kommer til følelsesmessige tilstander — tilbyr også et ekstra lag av nytte når du arbeider med kunder eller de som leter etter medisinsk veiledning, ifølge Hendler.

Hastigheten som Douglas kan behandle all denne informasjonen og skifte fra passiv lytter til aktiv samtaleist har også mye appell, og viser hvor langt teknologien bak ham har utviklet seg på kort tid.

"Da vi opprettet Thanos, hadde vi en enkelt frame som tok 10 timer å gjengi. Det er én ramme, forklarer han.

"For Douglas har han et synsgjenkjenningssystem, så han ser oss og kan identifisere oss, og han analyserer det du sier, gjør det om til ord og sender det til forskjellige chatbots," legger han til. «Douglas lager så en respons, gjør den til lyd og bruker den lyden til å drive ansiktet hans. Samtidig finner han også ut hvilken kroppsbevegelse som følger med den talen, bestemmer hvilken følelse som passer til den, og gjengir den kroppsbevegelsen sammen med ansiktsbevegelsene hans.»

"Det hele skjer på noen få millisekunder," sier Hendler. "Det er alle disse prosessene, sammenlignet med 10 timer for én ramme i en spillefilm. Det er så fantastisk. Det er ikke så realistisk som det vi gjør for film, men hvis du tenker på hvor mye ting som skjer for å kunne snakke med ham som en ekte person, er det bare fenomenalt.»

Og i bokstavelig forstand har Douglas ofte vært sin egen beste talsmann når det kommer til potensialet hans.

Roble forklarte at de ved flere anledninger valgte å la Douglas lede sin egen presentasjon av, vel... seg selv. Resultatet endte opp med å bli en bedre pitch for potensialet hans enn selv de forventet.

«[Douglas’ presentasjon] var overraskende overbevisende. Det var ikke bare å spørre Siri om å fortelle oss noe, for han var en del av prosessen,» husket Roble. "Han er morsom å snakke med fordi han er en nyhet, men han er også veldig effektiv. Og du kan ikke la være å tenke: Hva med undervisning eller andre applikasjoner? Tross alt kan du se når han legger merke til. Du kan gi ham følelsesmessig tilbakemelding og han kan svare.»

Selv om Douglas allerede er en imponerende skapelse, insisterer Digital Domain-teamet på at han fortsatt er et arbeid i fremgang - men himmelen er grensen for hva slags arbeid deres digitale menneske kunne ende opp med å gjøre med tiden fortsetter. På mange måter er prosessen med å finne ut hva Douglas er i stand til både prosessen og målet.

"En av grunnene til at vi gjør dette er fordi vi kunne," sier Roble. "Når du sitter ved en datamaskin og jobber, er det veldig enkelt å bare skrive bort. Men det er så mange tider og steder det ville vært deilig å bare kunne snakke med en person og få den personen til å samhandle med deg og reagere på deg. Jeg tror vi står foran en stor endring i fremtiden."

Redaktørenes anbefalinger

  • Hvordan Thanos VFX-teamet vekket The Quarrys karakterer til live (og deretter drepte dem)