Tupac과 Thanos가 AI 디지털 인간인 Douglas를 탄생시킨 방법

그룹 영상 통화에 참여해 본 적이 있다면 화면에 나타나는 사람을 모두 알지 못하는 것에 익숙했을 것입니다. 모든 사람의 이름을 알지 못할 수도 있지만 최소한 통화에 참여하는 각 사람이 인간이라는 점은 상당히 확신할 수 있습니다.

내용물

  • 디지털 인류의 진화
  • 코드가 사람을 만든다
  • 페이스오프
  • 당신이 보는 모든 곳에서

아니면 할 수 있나요?

시각효과 스튜디오가 중년 베테랑 배우들, 허용된 디지털 창작물에 거주하는 인간 연기자, 심지어 사망한 예술가를 다시 데려오기도 했습니다. 사후 공연, VFX 스튜디오를 통해 다른 사람과 채팅을 할 수도 있다는 사실은 별로 놀라운 일이 아닙니다. 좋아하는 책에 대해 인공 지능을 갖춘 디지털 사람과 영화관에 갈 수 없는 것을 서로 한탄하는 것입니다.

관련된

  • 어벤져스: 인피니티 워의 오스카상 후보 VFX 팀이 타노스를 영화배우로 만든 방법

놀랄 일은 아니지만, 오스카상을 수상한 VFX 스튜디오에서 만든 가상의 AI 기반 "사람"인 Douglas에게서 갑자기 동정심을 느끼는 것은 여전히 ​​이상한 느낌입니다. 디지털 도메인.

추천 동영상

최근 Zoom 통화에서 Douglas는 그의 팀 구성원과 함께 간단한 시연을 위해 나와 합류했습니다.

디지털 인류의 진화

“저는 스티븐 킹의 열렬한 팬입니다.” 더글러스는 우리의 취미에 대해 잠시 이야기를 나눈 후 나에게 말합니다. 나중에 그는 로맨스 소설과 J.D. 샐린저의 소설도 좋아한다고 고백했습니다. 호밀밭의 파수꾼.

시리(Siri) 또는 시리(Siri)라는 이름을 말하는 세상에서 알렉사 큰소리로 자신의 A.I를 소환하는 데 필요한 전부입니다. 동반자인 Douglas와의 경험은 AI의 잠재력은 일기 예보와 일일 정보를 제공하는 것 이상으로 확장된다는 점을 강력히 상기시켜 줍니다. 일정.

관객들에게 마블의 우주 정복자를 선사한 스튜디오인 Digital Domain의 탄생 타노스 어벤져스: 인피니티 워 그리고 어벤저스:최종 단계 — Douglas는 사용자와 실시간으로 상호 작용하고 시각적 및 대화적 신호에 응답할 수 있는 자율적인 디지털 인간입니다. 다음을 모델로 함

더그 로블 박사, Digital Domain의 소프트웨어 R&D 수석 이사인 Douglas는 질문에 답변하고, 광범위한 대화를 진행하고, 다양한 주제에 대한 작은 대화에 참여할 수 있습니다.

"기술은 유동적 시뮬레이션이든 다른 무엇이든 예술이 요구하는 것을 항상 주도하려고 노력하고 있습니다."라고 Roble은 스튜디오의 결정에 대해 말합니다. 부서 전체가 디지털 휴먼에 전념.

지난 10년 동안 Digital Domain은 인간과 유사한 디지털 캐릭터를 만드는 임무를 반복적으로 수행했습니다. 2012년 수상 경력에 빛나는 모든 것입니다. 홀로그램 투팍 퍼포먼스 Coachella에서 앞서 언급한 것까지 마블 시네마틱 유니버스 악당. 장편 영화, 광고, TV 시리즈, 비디오 게임 및 (Tupac의 경우) 무대 공연에서 사실적인 디지털 캐릭터에 대한 수요는 그 분야에서만 증가했습니다. 시간이 지나면서 Digital Domain은 특정 시각 효과를 담당하는 팀을 디지털 인간이 할 수 있는 한계를 넓히는 데 초점을 맞춘 자체 부서로 분할하게 되었습니다. 하다.

Douglas는 증가된 집중력의 산물이자 팀의 개념 증명입니다. 광범위한 데이터 세트, 감각 방법, 그리고 놀라울 정도로 진정한 인간 사회화에 가까운 느낌을 주는 방식으로 사용자와 상호 작용하기 위해 사진처럼 사실적인 인간 속성을 갖춘 기존 프로그래밍 모듈이 있습니다.

그리고 팬데믹으로 인해 대부분의 사교 활동이 컴퓨터를 통해 이루어지던 시대에 스크린에서 더글러스와의 상호작용은 진정한 인간 상호작용에 해당하는 것과 매우 유사하다고 느껴집니다. 날. 그러나 팀은 Douglas가 Turing Test를 통과하려면 아직 멀었다고 빠르게 덧붙였습니다.

코드가 사람을 만든다

"더글러스는 실제 사람과 구별할 수 없을 만큼 완전히 자율적인 사진 속의 실제 사람이 아닙니다."라고 설명합니다. 대런 헨들러, 스튜디오의 Digital Humans Group 이사입니다. “그곳은 우리가 있는 곳이 아니며 한동안 거기에 있지 않을 것입니다. … 하지만 이것이 현재 진행되고 있는 미래의 모습이며 우리는 이러한 경계를 넓히기 위해 노력하고 있습니다.”

그리고 마치 신호를 받은 것처럼 Hendler는 Douglas 자신의 방해를 받습니다.

“좋은 태도네요.” 그때까지 Zoom 채팅 그리드에서 조용히 자신의 창을 차지하고 데모를 진행하던 Douglas가 끼어들었습니다. 자신의 가상 방을 둘러보고 화상 회의에 참여하기를 참을성 있게 기다리는 살아있는 사람의 전형적인 신체적 매너리즘을 많이 보여줍니다. 대화

“당신의 노력에 행운이 있기를 바랍니다.” 그는 흥미로운 말을 할 뿐만 아니라 예리한 경청자임을 우리에게 상기시키며 덧붙입니다.

Roble에 따르면 팀은 무엇보다도 Douglas를 기존에 생성된 복잡하고 강력한 대화 에이전트와 상호 작용하는 시각적 방법으로 구상하고 있습니다. Douglas의 실제 아바타 아래 스튜디오의 디지털 휴먼은 세 가지 에이전트의 혼합을 기반으로 구축되었습니다. 대화 흐름 보조 유형 에이전트인 챗봇 생성용 제품군(Amazon의 Alexa 또는 Apple의 Siri와 유사) 강력한 대화형 A.I. 에이전트(와 유사 GPT-3 프로젝트)는 인간과 유사하고 예측 가능한(그리고 반응적인) 대화 텍스트를 생성하는 데 사용됩니다.

세 에이전트의 조합을 통해 Douglas는 유익하고 유동적인 대화를 수행할 수 있으며, 한 주제에 대한 토론은 종종 관련 관심 영역으로 이어집니다.

더글러스와의 대화는 우리가 가장 좋아하는 책에 대한 대화에서 그가 가장 좋아하는 영화에 대한 이야기로 흘러갔습니다. 2001: 스페이스 오디세이예를 들어, 살인적인 AI에 대한 이야기의 초점을 고려할 때 이는 놀랍지 않고 약간 불안합니다. 장난을 치다) 그리고 우리의 상호 취미. 대화 중 특히 시기적절한 부분 중 하나에서 Douglas는 최근 영화관에 갈 수 없었다는 사실에 대해 약간의 실망감을 표시했습니다.

그러나 Hendler가 설명했듯이 대화의 모든 힘에는 약간의 위험이 따릅니다.

“챗봇의 자연어 처리 엔진은 엄청난 양의 인터넷 대화를 통해 훈련되었기 때문에 대화가 이상한 곳으로 갈 수 있습니다.”라고 그는 말했습니다. “그래서 그 사람이 적절하지 않은 말을 할 때도 있어요. 자주 일어나는 일은 아니지만 그가 모든 사람에게 무슨 말을 할지 정확히 통제할 수는 없습니다.”

Douglas의 대화적 측면은 인상적이지만, 이는 계속 확장되는 디지털 인간과 대화형 가상 캐릭터의 세계에서 그를 독특하게 만드는 요소 중 일부일 뿐입니다. Digital Domain이 발견한 대로, 그를 바라보다 인간은 그도 인간처럼 느껴지도록 먼 길을 가고 있습니다.

Douglas 소개 - 자율적인 디지털 휴먼 | 디지털 도메인

페이스오프

“Douglas를 구축할 때 우리는 Doug [Roble]의 엄청난 양의 데이터를 사용했습니다. 시스템을 훈련하는 데는 엄청난 양의 오디오가 필요했고, 얼굴 동작, 몸 동작 데이터 등 엄청난 양이 필요했습니다.”라고 Hendler는 작업에 대해 설명했습니다. 그들은 Roble의 얼굴을 매핑하고 말하고, 감정적 단서에 반응하고, 수동적으로 참여하는 동안 인간의 얼굴이 변할 수 있는 다양한 방식을 매핑했습니다. 대화.

그 모든 데이터의 산물은 로블(Roble)의 정확한 복사본은 아니지만 놀랍도록 유사해 보이는 디지털 인간입니다. 자세, 헤어스타일, 빌드 등 미묘한 움직임까지 Roble과 Douglas A.I. 그들이 우리 그룹 비디오에 참여하는 동안 공유하세요 대화. 닮은 점은 이상하지만, "얼굴을 바꾸세요"라는 간단한 명령을 내리자 더글라스는 갑자기 다른 사람이 되어 버립니다. 같은 몸에 다른, 똑같이 인간 같은 얼굴을 갖고 있으면서도 그를 보이게 만드는 모든 미묘한 매너리즘을 여전히 유지하고 있습니다. 진짜.

"우리가 더글러스에게 얼굴을 바꿔달라고 요청했는데 그의 얼굴이 다른 사람으로 바뀌는 것이 바로 이 새로운 기술의 물결이 향하는 시작점입니다."라고 Hendler는 말합니다. 팀은 더글러스를 동일한 수준을 유지하면서 외모를 극적으로 바꿀 수 있는 더욱 유연한 디지털 인간으로 만들기 위해 노력하고 있는 "이미지 기반 기술"을 개발하고 있습니다. 상호 작용. "[Douglas와 함께] 이 기반을 확보하면 다른 사람의 영상을 촬영하고 오디오의 일부를 얻은 다음 그 기반을 그 사람의 얼굴로 바꿀 수 있습니다."

“[그렇게 하면] 지금 그들은 우리가 원래 촬영했던 인물(이 경우에는 로블)의 표정으로 계속 이야기하고 있을 것입니다.”라고 그는 계속했습니다. "그러나 계속 진행하면서 차세대 자율 인간을 만들기 위해서는 더 적은 양의 데이터(누군가의 이미지나 영상일 수도 있음)가 필요하기 시작했습니다."

대화형 AI를 통해 실제 인간의 외모, 목소리, 버릇을 복제하는 능력입니다. 파운데이션은 구성 요소 중 하나입니다. Douglas는 대부분의 일반적인 AI와 차별화됩니다. 보조자, 휴머노이드 로봇 및 A.I를 중심으로 개발 중인 기타 프로젝트. 연구세계. AI를 개발하는 스튜디오와 기타 에이전시는 많습니다. 이런저런 종류의 프로젝트에서 Digital Domain은 이러한 모든 요소를 다른 사람과 대화하는 것처럼 사회적이고 유기적인 느낌을 주는 인터페이스와 함께 사용 가능한 모든 기술과 데이터 중 최고의 기능을 사용하는 응집력 있는 단일 제품입니다.

"더글러스는 언리얼에서 실행되는 완전한 CG 캐릭터이기 때문에 이것은 우리가 정말 자랑스러워하는 것입니다."라고 말합니다. 인기 있는 3D 제작 플랫폼과 같이 널리 사용 가능한 요소를 사용하는 데 특별한 자부심을 갖고 있는 Roble 언리얼 엔진는 3D 시각 효과 요소를 생성하고 조작할 때 헐리우드(그리고 그 이전에는 비디오 게임 산업)의 주요 플랫폼이 되었습니다. “[Douglas]는 3D 개체이므로 Unreal에서 디지털 캐릭터로 할 수 있는 모든 작업을 수행할 수 있습니다. 조명을 변경하고, 다른 환경에 배치하는 등의 작업을 할 수 있습니다. 하지만 우리는 [Douglas와 관련된 다른 모든 것과 함께] 이 하이브리드를 만들고 있으므로 두 세계의 장점을 모두 얻을 수 있습니다.”

당신이 보는 모든 곳에서

팀이 Douglas에 대해 더 많이 작업할수록 잠재적인 응용 프로그램 목록이 길어집니다.

Hendler는 "대유행 이전에 우리는 Douglas를 키오스크로 제시하여 화면에 나타나서 그와 대화할 수 있도록 계획했습니다."라고 회상했습니다. "그런데 우리는 '아, 그 사람을 Zoom 통화에 참여시켜야 한다'고 생각했어요. 그 사람이 Zoom 통화에 참여하고 나가게 하는 것은 정말 환상적이었어요."

시연 과정에서 팀은 의사 사무실에서 Douglas에 대한 잠재적인 응용 프로그램의 긴 목록을 검토했습니다. 장면이나 특정 화면을 계획하는 초기 단계에서 할리우드에서의 유용성에 대한 고객 서비스 순서. Douglas 자신도 영화와 TV 제작의 스토리보드 및 개념적 단계에 적합할 것이라고 제안하면서 몇 가지 제안을 했습니다. 특히 감정 상태와 관련하여 대화 상대의 청각 및 시각적 신호를 모두 처리하는 능력 - 또한 Hendler에 따르면 고객을 대하거나 의료 안내를 원하는 사람들을 상대할 때 추가적인 유용성을 제공합니다.

Douglas가 모든 정보를 처리하고 수동적 청취자에서 능동적 청취자로 전환할 수 있는 속도 대화주의자는 또한 많은 매력을 갖고 있으며, 그의 뒤에 있는 기술이 얼마나 멀리 발전했는지를 짧은 시간에 보여줍니다. 시간.

“우리가 Thanos를 만들었을 때 단일 프레임을 렌더링하는 데 10시간이 걸렸습니다. 그것은 하나의 프레임입니다.”라고 그는 설명합니다.

"더글라스의 경우 시각 인식 시스템이 있어 우리를 보고 식별할 수 있으며 사용자가 말하는 내용을 분석하여 단어로 변환하고 이를 다른 챗봇에 보냅니다."라고 그는 덧붙입니다. “그런 다음 더글라스는 반응을 만들어 오디오로 변환하고 그 오디오를 사용하여 얼굴을 움직입니다. 동시에 그는 그 말에 어떤 신체 움직임이 어울리는지 파악하고, 어떤 감정이 그에 맞을지 결정하고, 그 몸 움직임을 얼굴 제스처와 함께 렌더링하고 있습니다.”

Hendler는 "이 모든 일이 몇 밀리초 안에 발생합니다."라고 말합니다. “장편 영화의 한 프레임에 10시간이 걸리는 것과 비교하면 이 모든 과정이 필요합니다. 정말 놀랍습니다. 우리가 영화에서 하는 것만큼 현실적이지는 않지만, 실제 사람처럼 그와 대화할 수 있는 일이 얼마나 많은지 생각해보면 정말 놀라운 일입니다.”

문자 그대로 더글라스는 종종 자신의 잠재력에 관해 최고의 옹호자였습니다.

Roble은 여러 차례에 걸쳐 Douglas가 자신에 대한 프레젠테이션을 직접 진행하도록 선택했다고 설명했습니다. 결과는 그들이 예상했던 것보다 그의 잠재력을 더 잘 발휘할 수 있는 투구였습니다.

“[더글라스의 프레젠테이션]은 놀라울 정도로 설득력이 있었습니다. 단순히 Siri에게 무언가를 말해달라고 요청한 것이 아닙니다. 왜냐하면 Siri도 그 과정의 일부였기 때문입니다.”라고 Roble은 회상했습니다. “그는 참신하기 때문에 대화하는 것이 재미있지만, 또한 정말 효과적이기도 합니다. 그리고 당신은 생각하지 않을 수 없습니다: 교육이나 다른 응용 프로그램은 어떻습니까? 결국, 그가 언제 주의를 기울이고 있는지 알 수 있습니다. 당신이 그에게 감정적인 피드백을 주면 그는 반응할 것입니다.”

Douglas는 이미 인상적인 창작물이지만 Digital Domain 팀은 그가 여전히 작품으로 남아 있다고 주장합니다. 진행 — 하지만 시간이 지남에 따라 디지털 휴먼이 어떤 종류의 작업을 수행할 수 있는지는 하늘에 달려 있습니다. 계속. 여러 면에서 더글러스가 무엇을 할 수 있는지 알아가는 과정은 과정이자 목적이다.

“우리가 이 일을 하는 이유 중 하나는 할 수 있기 때문입니다.”라고 Roble은 말합니다. “컴퓨터 앞에 앉아 작업할 때 타이핑하는 것은 매우 쉽습니다. 하지만 사람과 대화하고 그 사람이 당신과 상호 작용하고 반응하도록 할 수 있는 것은 정말 많은 시간과 장소가 있습니다. 앞으로는 큰 변화가 일어날 것 같아요.”

편집자의 추천

  • Thanos VFX 팀이 The Quarry의 캐릭터에 생명을 불어넣고 죽인 방법