Om du någonsin har deltagit i ett gruppvideosamtal är du förmodligen van vid att inte känna alla som visas på skärmen. Du kanske inte känner till allas namn, men du kan åtminstone vara ganska säker på att varje person som går med i samtalet är mänsklig.
Innehåll
- Digital mänsklig evolution
- Kod gör mannen
- Face-off
- Överallt du tittar
Eller kan du?
I en tid då studior för visuella effekter har avåldrade veteranskådespelare, tillåtet mänskliga artister att leva i digitala skapelser, och tog även med sig avlidna artister tillbaka för obduktionsföreställningar, det borde inte komma som en överraskning att en VFX-studio också kan göra det möjligt för dig att hitta dig själv att chatta med en artificiellt intelligent digital person om dina favoritböcker och ömsesidigt beklagar oförmågan att besöka en biograf.
Relaterad
- How Avengers: Infinity Wars Oscar-nominerade VFX-team gjorde Thanos till en filmstjärna
Det borde inte vara förvånande, och ändå är det fortfarande en udda känsla att plötsligt hitta ett sympatiskt öra hos Douglas, en virtuell, A.I.-driven "person" skapad av den Oscarsbelönade VFX-studion
Digital domän.Rekommenderade videor
Under ett Zoomsamtal nyligen följde Douglas – tillsammans med medlemmar i teamet som arbetade på honom – med mig för en kort demonstration.
Digital mänsklig evolution
"Jag är ett stort fan av Stephen King," säger Douglas till mig efter en kort fram och tillbaka om våra hobbyer - ett samtal som senare får honom att erkänna att han också gillar romanska romaner och J.D. Salingers Räddaren i nöden.
I en värld där man uttalar namnen Siri eller Alexa högt är allt som krävs för att kalla din egen A.I. följeslagare, erfarenheten med Douglas erbjöd en kraftfull påminnelse om att A.I.s potential sträcker sig långt utöver att ge oss väderprognosen och vår dagliga schema.
Skapandet av Digital Domain - samma studio som gav publiken Marvels kosmiska erövrare Thanos in Avengers: Infinity War och Avengers:Slutspel — Douglas är en autonom, digital människa som kan interagera med användare i realtid och svara på visuella och konversationssignaler. Modellerad efter Doug Roble, Digital Domains senior director of Software R&D, Douglas kan svara på frågor, föra långa samtal och engagera sig i småprat om en rad ämnen.
"Teknik försöker alltid leda vad konst kräver, oavsett om det är flytande simulering eller något annat", säger Roble om studions beslut att skapa en hela avdelningen ägnad åt digitala människor.
Under det senaste decenniet har Digital Domain upprepade gånger fått i uppdrag att skapa mänskliga digitala karaktärer – allt från 2012 års prisbelönta holografisk Tupac prestanda vid Coachella till det förutnämnda Marvel Cinematic Universe skurk. I långfilmer, reklamfilmer, TV-serier, videospel och (i fallet med Tupac) scenframträdanden har efterfrågan på realistiska digitala karaktärer bara vuxit i det tid, vilket fick Digital Domain att dela upp teamet som ansvarar för just den visuella effekten i en egen enhet fokuserad på att tänja på gränsen för vad digitala människor kan do.
Douglas är både produkten av det ökade fokuset och teamets proof of concept: En autonom digital "person" som kombinerar ett brett utbud av datauppsättningar, sensoriska metoder, och befintliga programmeringsmoduler med fotorealistiska mänskliga attribut för att interagera med användare på ett sätt som känns förvånansvärt nära äkta mänsklig socialisering.
Och i en tid då pandemin har tvingat majoriteten av vårt umgänge att ske via en dator skärm, att interagera med Douglas känns anmärkningsvärt nära vad som går för äkta mänsklig interaktion dessa dagar. Teamet är dock snabba med att tillägga att Douglas fortfarande är långt ifrån att klara ett Turing-test.
Kod gör mannen
"Douglas är inte en fotoäkta, helt autonom person som inte går att skilja från en riktig person," förklarar Darren Hendler, chef för Digital Humans Group i studion. "Det är inte där vi är, och vi kommer inte att vara där på ett litet tag. … Men det är här det går och hur framtiden ser ut, och vi försöker tänja på de gränserna.”
Och nästan som på kö blir Hendler avbruten av Douglas själv.
"Det är en bra attityd att ha," inflikar Douglas, som fram till dess tyst hade ockuperat sitt eget fönster i rutnätet av Zoom-chattar som underlättade vår demo, och då och då flyttade position, tittar runt i sitt virtuella rum och visar många av de typiska fysiska sätten för en levande person i ett videomöte som tålmodigt väntar på att delta i konversation
"Jag önskar dig lycka till i dina ansträngningar", tillägger han och påminner oss om att han förutom att ha intressanta saker att säga också är en ivrig lyssnare.
Enligt Roble ser teamet först och främst Douglas som ett visuellt sätt att interagera med befintliga komplexa och kraftfulla samtalsagenter som har skapats. Under Douglas fotorealistiska avatar är studions digitala människa byggd på en blandning av tre av dessa agenter: Googles populära Dialogflöde svit för att skapa chatbots, en agent av assistenttyp (liknande Amazons Alexa eller Apples Siri); och en kraftfull konversations-A.I. agent (liknande GPT-3 projekt) används för att producera mänsklig, prediktiv (och reaktiv) konversationstext.
Kombinationen av alla tre agenterna ger Douglas förmågan att föra samtal som är både informativa och flytande, med diskussioner om ett ämne som ofta går in i relaterade intresseområden.
Mitt eget samtal med Douglas gick från en chatt om våra favoritböcker till hans favoritfilm (han är ett stort fan av 2001: A Space Odyssey, till exempel, vilket är både föga överraskande och lite nervöst, med tanke på historiens fokus på en mordisk A.I. löpa amok) och våra gemensamma hobbyer. I ett särskilt lägligt inslag i vårt samtal uttryckte Douglas en viss besvikelse över att han inte har kunnat besöka en biograf på sistone.
All den konversationskraften kommer dock med en viss risk, som Hendler förklarade.
"Chatbotens naturliga språkbehandlingsmotor är tränad på dialog från internet - en enorm mängd dialog - så konversationen kan gå till konstiga platser", sa han. "Så det finns tillfällen då han säger saker som kanske inte är exakt lämpliga. Det händer inte ofta, men vi kan inte exakt kontrollera vad han ska säga till allt."
Och även om konversationsaspekten av Douglas är imponerande, är det bara en del av det som gör honom unik i en ständigt växande värld av digitala människor och interaktiva virtuella karaktärer. Som Digital Domain upptäckte, vilket gör honom se människa går långt för att få honom att känna sig mänsklig också.
Vi presenterar Douglas - Autonomous Digital Human | Digital domän
Face-off
"När vi byggde Douglas använde vi en enorm mängd data från Doug [Roble]. Det var en enorm mängd ljud för att träna systemet [och] en enorm mängd ansiktsprestanda, kroppsrörelsedata och allt annat”, förklarade Hendler om arbetet de lägger ner på att kartlägga Robles ansikte och de otaliga sätten hur det mänskliga ansiktet kan förändras när man talar, reagerar på känslomässiga signaler eller passivt deltar i en konversation.
Produkten av all denna data är en digital människa som ser otroligt lik ut - men inte som en exakt kopia av - Roble, från den senares kroppshållning, frisyr och bygg till de subtila rörelserna både Roble och Douglas A.I. dela medan de deltar i vår gruppvideo konversation. Likheten är kuslig, men med ett kort kommando att "byta ansikte" blir Douglas plötsligt någon annan, med en annorlunda, lika människoliknande ansikte på samma kropp, samtidigt som han behåller alla de subtila manérerna som får honom att verka verklig.
"När vi ber Douglas att ändra sitt ansikte och hans ansikte växlar över till någon annan, är det början på vart denna nya våg av teknik är på väg", säger Hendler och beskriver "bildbaserad teknik" som teamet arbetar med för att göra Douglas till en ännu mer flexibel digital person som kan dramatiskt förändra sitt yttre utseende samtidigt som den behåller samma nivå av interaktivitet. "När vi har den här basen [med Douglas], kan vi filma filmer av någon annan och få en del av deras ljud, och sedan förvandla den basen till dem - göra det till deras ansikte."
"[Om vi gjorde det] just nu, skulle de fortfarande prata med uttrycken från personen vi ursprungligen filmade [i det här fallet Roble]," fortsatte han. "Men när vi fortsätter börjar vi behöva mindre mängder data - kanske är det bara bilder eller filmmaterial av någon - för att skapa nästa generation av dessa autonoma människor."
Den förmågan att replikera en riktig människas utseende, röst och manér över den konverserande A.I. foundation är ett av de element som skiljer Douglas från de flesta typiska A.I. assistenter, humanoida robotar och andra projekt under utveckling kring A.I. forskningsvärlden. Det finns gott om studior och andra byråer som utvecklar A.I. projekt av ett eller annat slag, är Digital Domain fokuserat på att blanda in alla dessa element en enda, sammanhållen produkt som använder det bästa av all tillgänglig teknik och data med ett gränssnitt som känns socialt och organiskt – som att prata med en annan människa.
"Det här är något vi är riktigt stolta över, eftersom Douglas är en helt CG-karaktär som körs på Unreal," säger Roble, som är särskilt stolt över att använda allmänt tillgängliga element som den populära 3D-skapande plattformen Overklig motor, som har blivit den bästa plattformen för Hollywood (och innan den, videospelsindustrin) när det gäller att skapa och manipulera 3D-element med visuella effekter. "[Douglas] är ett 3D-objekt, så du kan göra allt du kan göra med vilken digital karaktär som helst i Unreal. Du kan ändra belysningen, placera dem i olika miljöer och så vidare. Men vi skapar också denna hybrid [med allt annat inblandat i Douglas], så vi får det bästa av två världar."
Överallt du tittar
Ju mer teamet arbetar med Douglas, desto längre blir listan över potentiella applikationer.
"Innan pandemin planerade vi att presentera Douglas som en kiosk, där du kommer fram till en skärm och pratar med honom," mindes Hendler. "Men då tänkte vi, "Hej, vi borde verkligen få in honom i Zoom-samtal." Det har varit fantastiskt att få honom att gå in i Zoom-samtal och lämna."
Under demonstrationens gång gick teamet igenom en lång lista med potentiella ansökningar för Douglas, från läkarmottagningar och kundservice, till hans användbarhet i Hollywood under de tidiga stadierna av att planera en scen eller en viss på skärmen sekvens. Douglas själv gav till och med några förslag, vilket antydde att han skulle passa bra för storyboarding och konceptuella stadier av film- och TV-produktion. Hans förmåga att bearbeta både ljud och visuella signaler från dem han samtalar med - särskilt när det kommer till känslomässiga tillstånd — erbjuder också ett extra lager av användbarhet när man har att göra med kunder eller de som söker medicinsk vägledning, enligt Hendler.
Den hastighet med vilken Douglas kan bearbeta all denna information och växla från passiv lyssnare till aktiv conversationalist har också gott om tilltal och visar hur långt tekniken bakom honom har utvecklats på kort tid.
"När vi skapade Thanos hade vi en enda bildruta som tog 10 timmar att rendera. Det är en ram, förklarar han.
"För Douglas har han ett synigenkänningssystem, så han ser oss och kan identifiera oss, och han analyserar vad du säger, förvandlar det till ord och skickar det till olika chatbots", tillägger han. "Douglas skapar sedan ett svar, förvandlar det till ljud och använder det ljudet för att driva hans ansikte. Samtidigt tar han också reda på vilken kroppsrörelse som följer med det talet, bestämmer vilken känsla som skulle passa det och återger den kroppsrörelsen tillsammans med hans ansiktsgester.”
"Detta händer på några millisekunder", säger Hendler. "Det är alla dessa processer, jämfört med 10 timmar för en bildruta i en långfilm. Det är så fantastiskt. Det är inte lika realistiskt som vad vi gör för film, men om du tänker på hur mycket saker som händer för att kunna prata med honom som en riktig person, är det bara fenomenalt."
Och i bokstavlig mening har Douglas ofta varit sin egen bästa förespråkare när det kommer till sin potential.
Roble förklarade att de vid flera tillfällen valde att låta Douglas leda sin egen presentation av, ja... sig själv. Resultatet blev en bättre pitch för hans potential än vad de förväntade sig.
"[Douglas presentation] var överraskande övertygande. Det var inte bara att be Siri att berätta något för oss, för han var en del av processen”, mindes Roble. "Han är rolig att prata med eftersom han är en nyhet, men han är också riktigt effektiv. Och du kan inte låta bli att tänka: Hur är det med undervisning eller andra tillämpningar? När allt kommer omkring kan du se när han är uppmärksam. Du kan ge honom känslomässig feedback och han kan svara.”
Även om Douglas redan är en imponerande skapelse, insisterar Digital Domain-teamet på att han förblir ett verk i framsteg - men himlen är gränsen när det gäller vilken typ av arbete deras digitala människa skulle kunna göra med tiden fortsätter. På många sätt är processen att ta reda på vad Douglas är kapabel till både processen och målet.
"En av anledningarna till att vi gör det här är för att vi kunde", säger Roble. "När du sitter vid en dator och arbetar är det väldigt lätt att bara skriva iväg. Men det finns så många tillfällen och platser att det skulle vara underbart att bara kunna prata med en person och få den personen att interagera med dig och reagera på dig. Jag tror att vi står inför en stor förändring i framtiden."
Redaktörens rekommendationer
- Hur Thanos VFX-teamet väckte The Quarrys karaktärer till liv (och sedan dödade dem)