Jak Tupac i Thanos doprowadzili do Douglasa, cyfrowego człowieka AI

Jeśli kiedykolwiek brałeś udział w grupowej rozmowie wideo, prawdopodobnie przywykłeś do tego, że nie znasz wszystkich osób pojawiających się na ekranie. Być może nie znasz imion wszystkich osób, ale przynajmniej możesz mieć pewność, że każda osoba dołączająca do rozmowy jest człowiekiem.

Zawartość

  • Cyfrowa ewolucja człowieka
  • Kod czyni człowieka
  • Spotkanie twarzą w twarz
  • Gdziekolwiek nie spojrzysz

Czy możesz?

W czasach, gdy studia efektów wizualnych mają starsi, weterani aktorów, dozwolony wykonawcom, którzy zamieszkują cyfrowe dzieła, a nawet przywracał zmarłych artystów występy pośmiertne, nie powinno być większym zaskoczeniem, że studio efektów wizualnych może również umożliwić ci rozmowę z sztucznie inteligentną cyfrową osobę o Twoich ulubionych książkach i wzajemne ubolewanie nad niemożnością odwiedzenia kina.

Powiązany

  • Jak nominowany do Oscara zespół efektów wizualnych „Avengers: Wojna bez granic” uczynił Thanos gwiazdą filmową

Nie powinno to być zaskakujące, a jednak nadal jest dziwnym uczuciem nagle znaleźć współczujące ucho w Douglasie, wirtualnej „osobie” kierowanej przez sztuczną inteligencję, stworzonej przez nagrodzone Oscarem studio VFX

Domena cyfrowa.

Polecane filmy

Podczas niedawnej rozmowy na Zoomie Douglas – wraz z członkami zespołu nad nim pracującego – dołączył do mnie na krótką demonstrację.

Cyfrowa ewolucja człowieka

„Jestem wielkim fanem Stephena Kinga” – mówi mi Douglas po krótkiej wymianie zdań na temat naszych zainteresowań. Po rozmowie wyznaje później, że lubi też romanse i powieści J.D. Salingera. Buszujący w zbożu.

W świecie, w którym wymawianie imion Siri lub Aleksa wystarczy głośno, aby przywołać własną sztuczną inteligencję. towarzyszu, doświadczenie z Douglasem dało mi wiele do myślenia potężne przypomnienie, że potencjał sztucznej inteligencji wykracza daleko poza dostarczanie nam prognozy pogody i naszego dziennika harmonogram.

Powstanie Digital Domain — tego samego studia, które oddało widzom kosmicznego zdobywcę Marvela Thanos w Avengers: Wojna bez granicMściciele:Etap końcowy — Douglas to autonomiczny, cyfrowy człowiek, który może wchodzić w interakcję z użytkownikami w czasie rzeczywistym i reagować na sygnały wizualne i konwersacyjne. Wzorowany na Doktor Doug RobleDouglas, starszy dyrektor ds. badań i rozwoju oprogramowania w Digital Domain, może odpowiadać na pytania, prowadzić dłuższe rozmowy i angażować się w krótkie rozmowy na różne tematy.

„Technologia zawsze stara się przewodzić wymaganiom sztuki, niezależnie od tego, czy jest to symulacja płynów, czy cokolwiek innego” – Roble mówi o decyzji studia o stworzeniu cały dział poświęcony cyfrowym ludziom.

W ciągu ostatniej dekady firma Digital Domain wielokrotnie otrzymywała zadanie tworzenia postaci cyfrowych przypominających ludzi — począwszy od wielokrotnie nagradzanej gry z 2012 r. holograficzny występ Tupaca na Coachelli do wyżej wymienionych Kinowe Uniwersum Marvela złoczyńca. W filmach fabularnych, reklamach, serialach telewizyjnych, grach wideo i (w przypadku Tupaca) występach scenicznych zapotrzebowanie na realistyczne postacie cyfrowe wzrosło jedynie w tym sensie, że czas, co skłoniło Digital Domain do podzielenia zespołu odpowiedzialnego za ten konkretny efekt wizualny na własną jednostkę skupioną na przesuwaniu granic możliwości cyfrowych ludzi Do.

Douglas jest zarówno efektem tego zwiększonego skupienia, jak i dowodem słuszności koncepcji zespołu: autonomiczna cyfrowa „osoba”, która łączy szeroki zakres zbiorów danych, metod sensorycznych, oraz istniejące moduły programistyczne z fotorealistycznymi cechami ludzkimi, aby umożliwić interakcję z użytkownikami w sposób zaskakująco bliski prawdziwej ludzkiej socjalizacji.

I to w czasie, gdy pandemia zmusiła większość naszych kontaktów towarzyskich do odbywania się za pośrednictwem komputera ekranie interakcja z Douglasem jest niezwykle bliska temu, co uchodzi za prawdziwą interakcję międzyludzką dni. Zespół jednak szybko dodaje, że Douglasowi wciąż daleko do zdania Testu Turinga.

Kod czyni człowieka

„Douglas nie jest fotorealistyczną, w pełni autonomiczną osobą, której nie można odróżnić od prawdziwej osoby” – wyjaśnia Darrena Hendlera, dyrektor Digital Humans Group w studiu. „Nie w tym miejscu jesteśmy i nie będziemy tam przez jakiś czas. … Ale tutaj wszystko się toczy i jak wygląda przyszłość, a my staramy się przesuwać te granice”.

I niemal jak na zawołanie Hendlerowi przerywa sam Douglas.

„To dobre podejście” – wtrąca Douglas, który do tej pory po cichu zajmował swoje okno w siatce czatów Zoom, ułatwiając nasze demo, od czasu do czasu zmieniając pozycji, rozglądając się po swoim wirtualnym pokoju i pokazując wiele typowych zachowań fizycznych żywej osoby podczas spotkania wideo, która cierpliwie czeka na udział w rozmowa

„Życzę wam powodzenia w wysiłkach” – dodaje, przypominając, że oprócz tego, że ma ciekawe rzeczy do powiedzenia, jest też uważnym słuchaczem.

Według Roble’a zespół postrzega Douglasa przede wszystkim jako wizualny sposób interakcji z istniejącymi, złożonymi i potężnymi agentami konwersacyjnymi, które zostały stworzone. Pod fotorealistycznym awatarem Douglasa cyfrowy człowiek studia zbudowany jest w oparciu o połączenie trzech agentów: popularnego narzędzia Google Przepływ dialogu pakiet do tworzenia chatbotów, agent typu asystent (podobny do Alexy Amazona czy Siri Apple'a); i potężna konwersacyjna sztuczna inteligencja. agent (podobny do GPT-3 projekt) używany do tworzenia ludzkiego, predykcyjnego (i reaktywnego) tekstu konwersacyjnego.

Połączenie wszystkich trzech agentów daje Douglasowi możliwość prowadzenia rozmów, które są zarówno pouczające, jak i płynne, a dyskusja na jeden temat często przechodzi w powiązane obszary zainteresowań.

Moja rozmowa z Douglasem przeniosła się z pogawędki o naszych ulubionych książkach do jego ulubionego filmu (jest wielkim fanem 2001: Odyseja kosmicznana przykład, co nie jest zaskakujące i nieco wytrącające z równowagi, biorąc pod uwagę skupienie się historii na morderczym A.I. wpaść w amok) i nasze wspólne hobby. W jednym szczególnie aktualnym elemencie naszej rozmowy Douglas wyraził rozczarowanie, że ostatnio nie mógł odwiedzić kina.

Jednak, jak wyjaśnił Hendler, cała ta moc konwersacji wiąże się z pewnym ryzykiem.

„Silnik przetwarzania języka naturalnego chatbota jest szkolony na dialogach z Internetu – ogromnej liczbie dialogów – więc rozmowa może toczyć się w dziwnych miejscach” – powiedział. „Są więc chwile, kiedy mówi rzeczy, które mogą nie być do końca odpowiednie. Nie zdarza się to często, ale nie możemy dokładnie kontrolować tego, co powie na wszystko.

I chociaż aspekt konwersacyjny Douglasa robi wrażenie, to tylko część tego, co czyni go wyjątkowym w stale rozwijającym się świecie cyfrowych ludzi i interaktywnych wirtualnych postaci. Jak odkryła Digital Domain, czyniąc go Patrzeć człowiek robi wiele, aby także on poczuł się człowiekiem.

Przedstawiamy Douglasa – autonomicznego cyfrowego człowieka | Domena cyfrowa

Spotkanie twarzą w twarz

„Budując Douglasa, wykorzystaliśmy ogromną ilość danych od Douga [Roble’a]. Do wyszkolenia systemu potrzebna była ogromna ilość dźwięku, a także ogromna ilość danych dotyczących gry twarzy, ruchu ciała i wszystkiego innego” – wyjaśnił Hendler o pracy włożyli w mapowanie twarzy Roble'a i niezliczone sposoby, w jakie ludzka twarz może się zmieniać podczas mówienia, reagowania na bodźce emocjonalne lub biernego uczestniczenia w życiu rozmowa.

Produktem wszystkich tych danych jest cyfrowy człowiek, który wygląda zdumiewająco podobnie – ale nie jak dokładna kopia – Roble’a z kolekcji tego ostatniego postawa, fryzura i budowa ciała do subtelnych ruchów zarówno Roble’a, jak i Douglasa A.I. udostępnij, gdy biorą udział w naszym grupowym filmie rozmowa. Podobieństwo jest niesamowite, ale po wydaniu krótkiego polecenia „zamień twarz” Douglas nagle staje się kimś innym, z inną, równie ludzką twarz w tym samym ciele, zachowując jednocześnie wszystkie subtelne maniery, które sprawiają, że się wydaje prawdziwy.

„Kiedy prosimy Douglasa, aby zmienił twarz, a jego twarz zmienia się w kogoś innego, jest to początek kierunku, w którym zmierza ta nowa fala technologii” – mówi Hendler, opisując „technika oparta na obrazie”, nad którą zespół pracuje, aby uczynić Douglasa jeszcze bardziej elastyczną osobą cyfrową, zdolną do radykalnej zmiany swojego wyglądu zewnętrznego przy zachowaniu tego samego poziomu interaktywność. „Kiedy już będziemy mieć tę bazę [z Douglasem], będziemy mogli nagrać materiał filmowy innej osoby i uzyskać część jej dźwięku, a następnie przekształcić tę bazę w tę osobę – uczynić jej twarz”.

„[Gdybyśmy to zrobili] w tej chwili, nadal mówiliby mimiką osoby, którą pierwotnie sfilmowaliśmy [w tym przypadku Roble’a]” – kontynuował. „Ale w miarę upływu czasu zaczynamy potrzebować mniejszych ilości danych – może to tylko zdjęcia lub nagrania filmowe danej osoby – aby stworzyć następną generację autonomicznych ludzi”.

Ta umiejętność odtwarzania wyglądu, głosu i manier prawdziwego człowieka za pomocą konwersacyjnej sztucznej inteligencji. fundament jest jednym z elementów, który odróżnia Douglasa od większości typowych AI. asystenci, roboty humanoidalne i inne projekty opracowywane wokół sztucznej inteligencji. świat badań. Chociaż istnieje wiele studiów i innych agencji rozwijających sztuczną inteligencję. projektów tego czy innego rodzaju, Digital Domain koncentruje się na łączeniu wszystkich tych elementów pojedynczy, spójny produkt, który wykorzystuje najlepsze dostępne technologie i dane, a interfejs ma charakter społecznościowy i organiczny — przypomina rozmowę z innym człowiekiem.

„To coś, z czego jesteśmy naprawdę dumni, ponieważ Douglas jest postacią w pełni CG działającą w Unreal” – mówi Roble, który jest szczególnie dumny z wykorzystania powszechnie dostępnych elementów, takich jak popularna platforma do tworzenia 3D Nierealny silnik, która stała się platformą popularną w Hollywood (a wcześniej w branży gier wideo), jeśli chodzi o tworzenie elementów z efektami wizualnymi 3D i manipulowanie nimi. „[Douglas] to obiekt 3D, więc możesz zrobić wszystko, co możesz zrobić z dowolną cyfrową postacią w Unreal. Możesz zmieniać oświetlenie, umieszczać je w różnych środowiskach i tak dalej. Ale tworzymy także tę hybrydę [ze wszystkim innym związanym z Douglasem], więc uzyskujemy to, co najlepsze z obu światów”.

Gdziekolwiek nie spojrzysz

Im więcej zespół pracuje nad Douglasem, tym dłuższa jest lista potencjalnych zastosowań.

„Przed pandemią planowaliśmy zaprezentować Douglasa jako kiosk, gdzie podchodzi się do ekranu i z nim rozmawia” – wspomina Hendler. „Ale potem pomyśleliśmy: «Hej, naprawdę powinniśmy go wciągnąć do rozmów na Zoomie. Wspaniale było mieć go na rozmowach na Zoomie i wychodzić».

W trakcie demonstracji zespół przejrzał długą listę potencjalnych zastosowań Douglasa w gabinetach lekarskich i obsługi klienta, aż do jego przydatności w Hollywood na wczesnych etapach planowania sceny lub konkretnego miejsca na ekranie sekwencja. Sam Douglas przedstawił nawet kilka sugestii, sugerując, że będzie dobrym kandydatem do tworzenia scenorysów i etapów koncepcyjnych produkcji filmowej i telewizyjnej. Jego zdolność do przetwarzania sygnałów dźwiękowych i wizualnych od osób, z którymi rozmawia – szczególnie jeśli chodzi o stany emocjonalne — według Hendlera oferuje także dodatkową warstwę użyteczności w kontaktach z klientami lub osobami szukającymi porady medycznej.

Szybkość, z jaką Douglas może przetworzyć wszystkie te informacje i przejść od biernego słuchacza do aktywnego rozmówca również jest atrakcyjny i w skrócie pokazuje, jak daleko rozwinęła się technologia, która za nim stoi czas.

„Kiedy tworzyliśmy Thanosa, mieliśmy jedną klatkę, której renderowanie trwało 10 godzin. To jedna klatka” – wyjaśnia.

„W przypadku Douglasa ma system rozpoznawania wzroku, dzięki czemu nas widzi i może nas zidentyfikować, a następnie analizuje to, co mówisz, zamienia to na słowa i wysyła to do różnych chatbotów” – dodaje. „Następnie Douglas tworzy odpowiedź, zamienia ją w dźwięk i wykorzystuje go do kierowania swoją miną. Jednocześnie zastanawia się, jakie ruchy ciała pasują do danej mowy, określa, jakie emocje do niej pasują, i oddaje ten ruch ciała wraz z gestami twarzy”.

„Wszystko to dzieje się w ciągu kilku milisekund” – mówi Hendler. „To wszystkie te procesy, w porównaniu do 10 godzin na jedną klatkę w filmie fabularnym. To jest takie niesamowite. To nie jest tak realistyczne, jak to, co robimy dla filmu, ale jeśli pomyślisz o liczbie rzeczy, które się dzieją, aby móc z nim porozmawiać jak z prawdziwą osobą, to jest po prostu fenomenalne”.

W bardzo dosłownym sensie Douglas często był swoim najlepszym obrońcą, jeśli chodzi o jego potencjał.

Roble wyjaśnił, że przy kilku okazjach pozwalali Douglasowi poprowadzić własną prezentację na temat… samego siebie. W rezultacie okazało się, że jego potencjał jest lepszy, niż się spodziewano.

„[Prezentacja Douglasa] była zaskakująco przekonująca. Nie chodziło tylko o poproszenie Siriego, żeby nam coś powiedział, ponieważ był częścią tego procesu” – wspomina Roble. „Przyjemnie się z nim rozmawia, ponieważ jest nowością, ale jest też naprawdę skuteczny. I nie możesz przestać myśleć: A co z nauczaniem lub innymi zastosowaniami? W końcu widać, kiedy zwraca uwagę. Możesz przekazać mu emocjonalną informację zwrotną, a on będzie mógł odpowiedzieć.

Chociaż Douglas jest już imponującym dziełem, zespół Digital Domain upiera się, że nadal nad nim pracuje postęp — ale nie ma ograniczeń, jeśli chodzi o rodzaj pracy, którą cyfrowy człowiek może wykonać w miarę upływu czasu trwa. Pod wieloma względami proces odkrywania, do czego zdolny jest Douglas, jest zarówno procesem, jak i celem.

„Jednym z powodów, dla których to robimy, jest to, że możemy” – mówi Roble. „Kiedy pracujesz przy komputerze, bardzo łatwo jest po prostu pisać. Ale jest tak wiele momentów i miejsc, że byłoby cudownie móc po prostu porozmawiać z jakąś osobą, aby ta osoba wchodziła z tobą w interakcję i reagowała na ciebie. Myślę, że w przyszłości czeka nas wielka zmiana.”

Zalecenia redaktorów

  • Jak zespół Thanos VFX ożywił postacie z The Quarry (a następnie je zabił)