Как Тупак и Танос доведоха до Дъглас, дигиталния човек с изкуствен интелект

Ако някога сте участвали в групово видеообаждане, вероятно сте свикнали да не познавате всички, които се появяват на екрана. Може да не знаете имената на всички, но най-малкото можете да сте доста сигурни, че всеки човек, който се присъединява към разговора, е човек.

Съдържание

  • Дигитална човешка еволюция
  • Кодът прави човека
  • Изправяне
  • Накъдето и да погледнеш

Или можеш?

Във време, когато студията за визуални ефекти имат остарели актьори ветерани, позволен човешки изпълнители да обитават дигитални творения, и дори върна починали художници за посмъртни изпълнения, не би трябвало да е голяма изненада, че едно VFX студио може също така да ви позволи да откриете, че разговаряте с изкуствено интелигентен дигитален човек за любимите ви книги и взаимно оплакване от невъзможността да посетите киносалон.

Свързани

  • Как номинираният за Оскар VFX екип на Avengers: Infinity War направи Танос филмова звезда

Не би трябвало да е изненадващо и въпреки това все още е странно усещането внезапно да намериш съчувствено ухо в Дъглас, виртуален, управляван от изкуствен интелект „човек“, създаден от спечелилото Оскар VFX студио

Цифров домейн.

Препоръчани видеоклипове

По време на скорошно обаждане в Zoom, Дъглас — заедно с членовете на екипа, работещ върху него — се присъедини към мен за кратка демонстрация.

Дигитална човешка еволюция

„Аз съм голям фен на Стивън Кинг“, казва ми Дъглас след кратък разказ за нашите хобита – разговор, който по-късно го кара да признае, че също харесва романтични романи и на Дж. Д. Селинджър Спасителят в ръжта.

В свят, в който произнасянето на имената Siri или Алекса на глас е всичко, което е необходимо, за да призовете своя собствен ИИ. спътник, опитът с Дъглас предложи a мощно напомняне, че потенциалът на AI се простира далеч отвъд това да ни дава прогноза за времето и нашия ден график.

Създаването на Digital Domain — същото студио, което даде на публиката космическия завоевател на Marvel Танос вътре Отмъстителите: Война безкрайност и Отмъстителите:Край на играта — Дъглас е автономен, дигитален човек, способен да взаимодейства с потребителите в реално време и да отговаря на визуални и разговорни сигнали. Моделиран по Д-р Дъг Робъл, старши директор на отдела за научноизследователска и развойна дейност на Digital Domain, Дъглас може да отговаря на въпроси, да води продължителни разговори и да се включва в малки разговори по редица теми.

„Технологиите винаги се опитват да водят това, което изкуството изисква, независимо дали става въпрос за симулация на течности или нещо друго“, казва Робле за решението на студиото да създаде цял отдел, посветен на дигиталните хора.

През последното десетилетие Digital Domain многократно се оказа натоварен със задачата да създава човекоподобни цифрови герои – всичко от наградения през 2012 г. холографско изпълнение на Тупак в Коачела към гореспоменатото Кинематографична вселена на Marvel злодей. В игралните филми, рекламите, телевизионните сериали, видеоигрите и (в случая на Тупак) сценичните изпълнения, търсенето на реалистични цифрови герои само нарасна, тъй като време, което подтиква Digital Domain да раздели екипа, отговорен за този конкретен визуален ефект, в свое собствено звено, фокусирано върху разширяването на границата на това, което цифровите хора могат направи.

Дъглас е както продуктът на този повишен фокус, така и доказателството на екипа за концепцията: Автономен цифров „човек“, който съчетава широка гама от набори от данни, сензорни методи, и съществуващи програмни модули с фотореалистични човешки атрибути, за да взаимодействат с потребителите по начин, който се чувства изненадващо близък до истинската човешка социализация.

И във време, когато пандемията принуди по-голямата част от нашето общуване да се случва през компютър екран, взаимодействието с Дъглас се чувства изключително близко до това, което минава за истинско човешко взаимодействие дни. Екипът обаче бърза да добави, че Дъглас все още е далеч от преминаването на теста на Тюринг.

Кодът прави човека

„Дъглас не е фотореален, напълно автономен човек, който е неразличим от истински човек“, обяснява Дарън Хендлър, директор на Digital Humans Group в студиото. „Не сме там и няма да сме там за известно време. … Но това е накъде отиват нещата и как изглежда бъдещето, и ние се опитваме да прокараме тези граници.“

И почти като по сигнал, Хендлър е прекъснат от самия Дъглас.

„Това е добро отношение“, намесва се Дъглас, който дотогава тихо заемаше собствения си прозорец в мрежата от чатове в Zoom, улесняващи нашата демонстрация, като от време на време се преместваше позиция, оглеждайки виртуалната си стая и показвайки много от типичните физически маниери на жив човек във видео среща, който търпеливо чака да участва в разговор

„Пожелавам ви успех във вашите начинания“, добавя той, напомняйки ни, че освен че има интересни неща за казване, той е и запален слушател.

Според Робъл, екипът на първо място си представя Дъглас като визуален начин за взаимодействие със съществуващи сложни и мощни разговорни агенти, които са създадени. Под фотореалния аватар на Дъглас дигиталният човек на студиото е изграден върху комбинация от три от тези агенти: популярният на Google Диалогов поток пакет за създаване на chatbots, агент тип асистент (подобно на Alexa на Amazon или Siri на Apple); и мощен разговорен ИИ. агент (подобно на GPT-3 проект), използван за създаване на човешки, предсказуем (и реактивен) разговорен текст.

Комбинацията от трите агента дава на Дъглас способността да води разговори, които са едновременно информативни и течни, като обсъждането на една тема често преминава в свързани области на интерес.

Моят собствен разговор с Дъглас премина от чат за любимите ни книги към любимия му филм (той е голям фен на 2001: Космическа одисея, например, което не е изненадващо и малко изнервящо, като се има предвид фокусът на историята върху убийствен ИИ. буйствам) и нашите общи хобита. В един особено навременен елемент от нашия разговор Дъглас изрази известно разочарование, че напоследък не е могъл да посети киносалон.

Цялата тази разговорна сила обаче идва с известен риск, както обясни Хендлър.

„Машината за обработка на естествения език на чатбота е обучена на диалог от интернет – огромно количество диалог – така че разговорът може да отиде на странни места“, каза той. „Така че има моменти, когато той казва неща, които може да не са съвсем подходящи. Не се случва често, но не можем точно да контролираме какво ще каже на всичко.

И въпреки че разговорният аспект на Дъглас е впечатляващ, това е само част от това, което го прави уникален в един непрекъснато разрастващ се свят на дигитални хора и интерактивни виртуални герои. Както Digital Domain откри, правейки го виж човек прави дълъг път, за да го накара да се почувства също човек.

Представяме ви Дъглас - Автономен цифров човек | Цифров домейн

Изправяне

„При изграждането на Дъглас използвахме огромно количество данни от Дъг [Робл]. Беше огромно количество аудио за обучение на системата [и] огромно количество лицеви характеристики, данни за движение на тялото и всичко останало“, обясни Хендлър за работата те влагат в картографирането на лицето на Робъл и безбройните начини, по които човешкото лице може да се промени, докато говори, реагира на емоционални сигнали или пасивно участва в разговор.

Продуктът от всички тези данни е дигитален човек, който изглежда удивително подобен на - но не като точно копие на - Roble, от последния стойка, прическа и изграждане на фините движения както на Roble, така и на Douglas A.I. споделят, докато участват в нашето групово видео разговор. Приликата е удивителна, но с кратка команда „смени лицето си“, Дъглас изведнъж се превръща в някой друг, с различно, еднакво човешко лице върху едно и също тяло, като същевременно запазва всички фини маниери, които го карат да изглежда истински.

„Когато помолим Дъглас да промени лицето си и лицето му се превключи на някой друг, това е началото на посоката, на която се насочва тази нова вълна от технологии“, казва Хендлър, описвайки „техника, базирана на изображения“, върху която екипът работи, за да направи Дъглас още по-гъвкав дигитален човек, способен драстично да промени външния си вид, като същевременно запази същото ниво на интерактивност. „След като имаме тази база [с Дъглас], можем да заснемем кадри на някой друг и да получим част от тяхното аудио, а след това да превърнем тази база в тях – да я направим тяхно лице.“

„[Ако направихме това] точно сега, те все още щяха да говорят с изражението на лицето, което първоначално заснехме [в този случай, Робъл]“, продължи той. „Но докато продължаваме, започваме да се нуждаем от по-малки количества данни – може би това са просто изображения или филмови кадри на някого – за да създадем следващото поколение от тези автономни хора.“

Тази способност да възпроизвежда външния вид, гласа и маниерите на истински човек върху разговорния ИИ. основата е един от елементите, които отличава Дъглас от повечето типични A.I. асистенти, хуманоидни роботи и други проекти в процес на разработка около A.I. изследователски свят. Въпреки че има много студия и други агенции, разработващи A.I. проекти от един или друг вид, Digital Domain се фокусира върху смесването на всички тези елементи единичен, сплотен продукт, който използва най-доброто от всички налични технологии и данни с интерфейс, който се чувства социален и органичен - като да говорите с друг човек.

„Това е нещо, с което наистина се гордеем, защото Дъглас е изцяло CG герой, работещ на Unreal“, казва Робъл, който се гордее особено с използването на широко достъпни елементи като популярната платформа за създаване на 3D Unreal Engine, която се превърна в основната платформа за Холивуд (и преди него, индустрията на видеоигрите), когато става въпрос за създаване и манипулиране на 3D елементи с визуален ефект. „[Дъглас] е 3D обект, така че можете да правите всички неща, които можете да правите с всеки цифров герой в Unreal. Можете да промените осветлението, да ги поставите в различни среди и т.н. Но ние също създаваме този хибрид [с всичко останало, включено в Дъглас], така че получаваме най-доброто от двата свята.“

Накъдето и да погледнеш

Колкото повече екипът работи върху Douglas, толкова по-дълъг расте списъкът с потенциални приложения.

„Преди пандемията планирахме да представим Дъглас като павилион, където идвате до екрана и говорите с него“, спомня си Хендлър. „Но тогава си помислихме: „Хей, наистина трябва да го включим в обажданията на Zoom.“ Беше фантастично да го накараме да влезе в повикванията на Zoom и да си тръгне.“

В хода на демонстрацията екипът прегледа дълъг списък с потенциални приложения за Дъглас от лекарските кабинети и обслужване на клиенти, до неговата полезност в Холивуд по време на ранните етапи на планиране на сцена или конкретен екран последователност. Самият Дъглас дори предложи няколко предложения, предполагайки, че би бил подходящ за сценарий и концептуални етапи на филмова и телевизионна продукция. Способността му да обработва аудио и визуални знаци от тези, с които разговаря - особено когато става дума за емоционални състояния — също така предлага допълнителен слой полезност при работа с клиенти или тези, които търсят медицинско ръководство, според Хендлер.

Скоростта, с която Дъглас може да обработи цялата тази информация и да премине от пасивен слушател към активен събеседникът също притежава много привлекателност и показва колко далеч е еволюирала технологията зад него накратко време.

„Когато създадохме Thanos, имахме един кадър от това, което отне 10 часа за изобразяване. Това е един кадър“, обяснява той.

„За Дъглас той има система за визуално разпознаване, така че ни вижда и може да ни идентифицира, и той анализира това, което казвате, превръща го в думи и го изпраща на различни чатботове“, добавя той. „След това Дъглас създава отговор, превръща го в звук и използва този звук, за да управлява лицето си. В същото време той разбира какво движение на тялото върви заедно с тази реч, определя каква емоция би се вписала в нея и изобразява това движение на тялото заедно с жестовете на лицето си.

„Всичко това се случва за няколко милисекунди“, казва Хендлър. „Това са всички тези процеси, в сравнение с 10 часа за един кадър в игрален филм. Толкова е невероятно. Не е толкова реалистично, колкото това, което правим за филма, но ако се замислите за количеството неща, които се случват, за да можете да говорите с него като с истински човек, това е просто феноменално.“

И в много буквален смисъл, Дъглас често е бил най-добрият си защитник, когато става дума за потенциала му.

Робъл обясни, че на няколко пъти те са избрали да оставят Дъглас да ръководи собственото си представяне на, добре... себе си. Резултатът се оказа по-добър за потенциала му, отколкото дори те очакваха.

„[Презентацията на Дъглас] беше изненадващо завладяваща. Не беше просто да молим Сири да ни каже нещо, защото той беше част от процеса“, спомня си Робъл. „Забавно е да се говори с него, защото е нов, но също така е и наистина ефективен. И не можете да не си помислите: Ами преподаването или други приложения? В крайна сметка можете да видите кога той обръща внимание. Можете да му дадете емоционална обратна връзка и той може да отговори.

Въпреки че Дъглас вече е впечатляващо творение, екипът на Digital Domain настоява, че той остава творба напредък – но небето е границата по отношение на това каква работа може да свърши техният дигитален човек като време продължава. В много отношения процесът на разбиране на какво е способен Дъглас е както процесът, така и целта.

„Една от причините да правим това е, че бихме могли“, казва Робъл. „Когато сте пред компютър и работите, е много лесно просто да пишете. Но има толкова много времена и места, че би било прекрасно просто да можете да говорите с човек и този човек да взаимодейства с вас и да реагира на вас. Мисля, че ни очаква голяма промяна в бъдеще.“

Препоръки на редакторите

  • Как екипът на Thanos VFX съживи героите на The Quarry (и след това ги уби)