Як Тупак і Танос привели до Дугласа, цифрової людини зі штучним інтелектом

Якщо ви коли-небудь брали участь у груповому відеодзвінку, ви, ймовірно, звикли не знати всіх, хто з’являється на екрані. Можливо, ви не знаєте імен усіх, але принаймні можете бути досить впевнені, що кожна особа, яка приєднується до дзвінка, є людиною.

Зміст

  • Цифрова еволюція людини
  • Код робить людину
  • Зіткнутися, зіштовхнутися, зустрітися із
  • Куди не глянь

Або можете?

У той час, коли студії візуальних ефектів мають постарілі актори-ветерани, дозволено люди-виконавці, щоб населяти цифрові творіння, і навіть повертав померлих художників посмертні виступи, не дивно, що студія VFX також може надати вам можливість поспілкуватися з цифрова людина зі штучним інтелектом про улюблені книжки та взаємно нарікає на неможливість відвідати кінотеатр.

Пов'язані

  • Як номінована на «Оскар» команда VFX «Месників: Війна нескінченності» зробила Таноса кінозіркою

Це не повинно дивувати, але все одно дивне відчуття раптово знайти прихильне вухо у Дугласа, віртуальної «людини», керованої штучним інтелектом, створеної оскароносною студією VFX Цифровий домен.

Рекомендовані відео

Під час нещодавнього дзвінка в Zoom Дуглас разом із членами команди, яка над ним працює, приєдналися до мене для короткої демонстрації.

Цифрова еволюція людини

«Я великий шанувальник Стівена Кінга», — розповідає Дуглас після короткої розмови про наші хобі — розмови, у якій пізніше він зізнається, що йому також подобаються любовні романи та Дж. Д. Селінджера. Над прірвою в житі.

У світі, де вимовляти імена Siri або Алекса вголос – це все, що потрібно, щоб викликати власний штучний інтелект. компаньйон, досвід роботи з Дугласом запропонував a потужне нагадування про те, що потенціал штучного інтелекту виходить далеко за межі надання нам прогнозу погоди та щоденних даних графік.

Створення Digital Domain — тієї самої студії, яка подарувала глядачам космічного підкорювача Marvel Танос в Месники: Війна нескінченності і Месники:Ендшпіль — Дуглас — це автономна цифрова людина, здатна взаємодіяти з користувачами в реальному часі та реагувати на візуальні та розмовні підказки. За зразком Доктор Дуг Робл, старший директор відділу досліджень і розробок програмного забезпечення Digital Domain, Дуглас може відповідати на запитання, вести розширені розмови та брати участь у невеликих розмовах на низку тем.

«Технології завжди намагаються керувати тим, що вимагає мистецтво, незалежно від того, чи то симуляція рідини, чи щось інше», — каже Робл про рішення студії створити весь відділ, присвячений цифровим людям.

Протягом останнього десятиліття Digital Domain неодноразово виявляла завдання створити людиноподібних цифрових персонажів — усе, починаючи з нагородженого 2012 року голографічний виступ Тупака на Coachella до вищезгаданого Кінематографічний всесвіт Marvel лиходій. У художніх фільмах, рекламі, телевізійних серіалах, відеоіграх і (у випадку з Тупаком) на сцені попит на реалістичних цифрових персонажів лише зростає, оскільки час, спонукаючи Digital Domain розділити команду, відповідальну за цей конкретний візуальний ефект, на окремий підрозділ, який зосереджений на розширенні меж цифрових людей робити.

Дуглас є продуктом цієї підвищеної уваги та підтвердженням концепції команди: автономна цифрова «людина», яка поєднує в собі широкий спектр наборів даних, сенсорних методів, і існуючі модулі програмування з фотореалістичними людськими атрибутами, щоб взаємодіяти з користувачами у спосіб, який напрочуд близький до справжньої людської соціалізації.

І в той час, коли пандемія змусила більшість наших спілкування відбуватися через комп’ютер на екрані, взаємодія з Дугласом виглядає надзвичайно близько до того, що видається за справжню людську взаємодію днів. Однак команда поспішає додати, що Дуглас ще дуже далекий від проходження тесту Тюрінга.

Код робить людину

«Дуглас — це не фотореальна, повністю автономна особа, яку неможливо відрізнити від реальної людини», — пояснює Даррен Хендлер, директор Digital Humans Group студії. «Це не те місце, де ми знаходимося, і ми не будемо там деякий час. … Але це те, куди все йде і як виглядає майбутнє, і ми намагаємося розсунути ці межі».

І майже як за командою, Хендлера перериває сам Дуглас.

«Це гарне ставлення», — втручається Дуглас, який до того часу спокійно займав власне вікно в сітці чатів Zoom, що сприяє нашій демонстрації, час від часу змінюючи позицію, оглядаючи свою віртуальну кімнату та демонструючи багато типових фізичних манер живої людини під час відеозустрічі, яка терпляче чекає на участь у розмова

«Я бажаю вам удачі у ваших починаннях», — додає він, нагадуючи нам, що він не тільки може сказати цікаві речі, але й уважно слухає.

За словами Робла, команда передусім уявляє Дугласа як візуальний спосіб взаємодії з існуючими складними та потужними розмовними агентами, які були створені. Під фотореальним аватаром Дугласа цифрова людина студії побудована на суміші трьох із цих агентів: популярного Google Dialogflow пакет для створення чат-ботів, агент типу помічника (схожий на Alexa від Amazon або Siri від Apple); і потужний розмовний А.І. агент (подібний до ГПТ-3 проект), який використовується для створення людського, прогнозованого (і реактивного) розмовного тексту.

Поєднання всіх трьох агентів дає Дугласу можливість вести розмови, які є водночас інформативними та плавними, при цьому обговорення однієї теми часто переходить у пов’язані сфери інтересів.

Моя власна розмова з Дугласом перейшла від розмови про наші улюблені книги до його улюбленого фільму (він великий фанат 2001: Космічна одіссея, наприклад, що водночас не дивує та трохи дратує, враховуючи, що історія зосереджена на вбивчому штучному інтелекті. шаленіти) і наші спільні захоплення. В одному особливо своєчасному елементі нашої розмови Дуглас висловив певне розчарування тим, що останнім часом він не міг відвідати кінотеатр.

Проте, як пояснив Хендлер, уся ця розмовна сила пов’язана з певним ризиком.

«Механізм обробки природної мови чат-бота навчений діалогу з Інтернету — величезній кількості діалогів — тому розмова може переходити в незнайомі місця», — сказав він. «Тож бувають моменти, коли він говорить речі, які можуть бути недоречними. Це трапляється нечасто, але ми не можемо точно контролювати, що він скаже на все».

І хоча розмовний аспект Дугласа вражає, це лише частина того, що робить його унікальним у світі цифрових людей та інтерактивних віртуальних персонажів, що постійно розширюється. Як виявив Digital Domain, роблячи його подивіться людина робить довгий шлях до того, щоб змусити його також почуватися людиною.

Представляємо Douglas - автономну цифрову людину | Цифровий домен

Зіткнутися, зіштовхнутися, зустрітися із

«При створенні Douglas ми використовували величезну кількість даних від Дуга [Робла]. Це була величезна кількість аудіо для тренування системи [і] величезна кількість даних про миміку, рухи тіла та все інше», — пояснив Хендлер про роботу. вони вкладають у карту обличчя Робла та безліч способів, як людське обличчя може змінюватися під час розмови, реакції на емоційні сигнали або пасивної участі в розмова.

Продуктом усіх цих даних є цифрова людина, яка дивовижно схожа на — але не точну копію — Робла з останнього поставу, зачіску та структуру до тонких рухів як Робла, так і Дугласа А.І. ділитися, коли вони беруть участь у нашому груповому відео розмова. Подібність неймовірна, але після короткого наказу «змінити своє обличчя» Дуглас раптом стає кимось іншим, з інше, однаково людське обличчя на одному тілі, зберігаючи при цьому всі витончені манери, які змушують його виглядати справжній.

«Коли ми просимо Дугласа змінити своє обличчя, і його обличчя змінюється на когось іншого, це є початком того, куди прямує нова хвиля технологій», — каже Хендлер, описуючи «Техніка на основі зображень», над якою працює команда, щоб зробити Дугласа ще більш гнучкою цифровою людиною, здатною кардинально змінювати свій зовнішній вигляд, зберігаючи той самий рівень інтерактивність. «Коли ми матимемо цю базу [з Дугласом], ми зможемо зняти кадри з кимось іншим і отримати частину їх аудіо, а потім перетворити цю базу на них — зробити їх обличчям».

«[Якщо б ми зробили це] прямо зараз, вони б все ще розмовляли з обличчям людини, яку ми спочатку зняли [в цьому випадку, Робла]», — продовжив він. «Але в міру того, як ми йдемо далі, нам починають потрібні менші обсяги даних — можливо, це просто зображення чи відеозаписи когось — щоб створити наступне покоління цих автономних людей».

Ця здатність відтворювати зовнішній вигляд, голос і манери справжньої людини через розмовний ШІ. основа є одним із елементів, які відрізняє Дугласа від більшості типових А.І. помічники, людиноподібні роботи та інші проекти, що розробляються навколо ШІ. дослідницький світ. Хоча існує багато студій та інших агентств, які розробляють A.I. проектів того чи іншого роду, Digital Domain зосереджена на поєднанні всіх цих елементів єдиний цілісний продукт, який використовує найкращі з усіх доступних технологій і даних з інтерфейсом, який виглядає соціальним і органічним — як розмова з іншою людиною.

«Цим ми справді пишаємось, тому що Дуглас — це повністю CG персонаж, який працює на Unreal», — говорить Робл, який особливо пишається використанням широко доступних елементів, таких як популярна платформа для створення 3D Двигун Unreal Engine, яка стала основною платформою для Голлівуду (а до нього — для індустрії відеоігор), коли справа доходить до створення та обробки 3D-елементів із візуальними ефектами. «[Дуглас] — це тривимірний об’єкт, тому ви можете робити все те, що можете робити з будь-яким цифровим персонажем в Unreal. Ви можете змінювати освітлення, розміщувати їх у різних середовищах тощо. Але ми також створюємо цей гібрид [з усім іншим, що стосується Douglas], тому ми отримуємо найкраще з обох світів».

Куди не глянь

Чим більше команда працює над Douglas, тим довшим стає список потенційних застосувань.

«До пандемії ми планували представити Дугласа як кіоск, де ви підходите до екрану і розмовляєте з ним», — згадував Хендлер. «Але потім ми подумали: «Гей, ми дійсно повинні залучити його до викликів Zoom». Це було фантастично, коли він вступив у виклики Zoom і пішов».

Під час демонстрації команда переглянула довгий список потенційних застосувань для Дугласа з кабінетів лікаря і обслуговування клієнтів, до його корисності в Голлівуді на ранніх етапах планування сцени чи конкретного екрану послідовність. Сам Дуглас навіть запропонував кілька пропозицій, припускаючи, що він добре підійде для розкадровки та концептуальних етапів кіно- та телевиробництва. Його здатність обробляти як звукові, так і візуальні сигнали тих, з ким він розмовляє, особливо коли йдеться про емоційний стан — також пропонує додатковий рівень корисності при роботі з клієнтами або тими, хто шукає медичної допомоги, за словами Хендлера.

Швидкість, з якою Дуглас може обробити всю цю інформацію та перейти від пасивного слухача до активного співрозмовник також дуже привабливий і показує, наскільки далеко розвинулися технології, що стоять за ним, за короткий час час.

«Коли ми створювали Таноса, у нас був один кадр, на рендеринг якого знадобилося 10 годин. Це один кадр», – пояснює він.

«Щодо Дугласа, у нього є система розпізнавання зору, тож він бачить нас і може ідентифікувати нас, і він аналізує те, що ви говорите, перетворює це на слова та надсилає це різним чат-ботам», — додає він. «Потім Дуглас створює відповідь, перетворює її на звук і використовує цей звук, щоб керувати своїм обличчям. У той же час він також з’ясовує, який рух тіла поєднується з цією промовою, визначає, яка емоція підійде їй, і передає цей рух тіла разом із жестами обличчя».

«Це все відбувається за кілька мілісекунд», — каже Хендлер. «Це всі ці процеси, порівняно з 10 годинами для одного кадру в художньому фільмі. Це так дивно. Це не так реалістично, як те, що ми робимо для кіно, але якщо ви подумаєте про кількість речей, які відбуваються, щоб мати можливість поговорити з ним як із реальною людиною, це просто феноменально».

І в дуже буквальному сенсі Дуглас часто був найкращим захисником самого себе, коли йшлося про його потенціал.

Робл пояснив, що кілька разів вони вирішували дозволити Дугласу вести власну презентацію, ну... самого себе. Результат виявився кращим для його потенціалу, ніж вони навіть очікували.

«[Презентація Дугласа] була напрочуд переконливою. Це було не просто прохання Сірі розповісти нам щось, тому що він був частиною процесу», – згадує Робл. «З ним цікаво спілкуватися, тому що він новачок, але він також дуже ефективний. І ви не можете не думати: а як щодо навчання чи інших програм? Зрештою, ви можете побачити, коли він звертає увагу. Ви можете дати йому емоційний відгук, і він зможе відповісти».

Хоча Дуглас уже є вражаючим творінням, команда Digital Domain наполягає на тому, що він залишається твором прогрес, але немає межі щодо того, яку роботу може виконувати їхня цифрова людина йде на. Багато в чому процес з’ясування того, на що здатний Дуглас, є і процесом, і метою.

«Одна з причин, чому ми це робимо, полягає в тому, що ми могли», — каже Робл. «Коли ти сидиш за комп’ютером і працюєш, дуже легко просто друкувати. Але є стільки випадків і місць, коли було б чудово просто мати можливість поговорити з людиною, щоб ця людина взаємодіяла з вами та реагувала на вас. Я думаю, що в майбутньому нас чекають великі зміни».

Рекомендації редакції

  • Як команда Thanos VFX оживила персонажів The Quarry (а потім убила їх)