トゥパックとサノスがいかにして AI デジタル ヒューマンであるダグラスを生み出したか

グループ ビデオ通話に参加したことがある方は、画面に登場する全員を知らないことに慣れているでしょう。 全員の名前を知っているわけではないかもしれませんが、少なくとも、通話に参加している各人が人間であることはかなり確信で​​きます。

コンテンツ

  • デジタル人類の進化
  • コードが人間を作る
  • フェイスオフ
  • どこを見ても

それともできますか?

視覚効果スタジオが 老化を止めたベテラン俳優、 許可された 人間のパフォーマーがデジタル作品に生息する、そして亡くなったアーティストを呼び戻しさえしました。 死後のパフォーマンスVFX スタジオを利用すれば、ユーザーとチャットしているような気分になれるのも、それほど驚くべきことではありません。 人工知能を備えたデジタル人間が、お気に入りの本について話したり、映画館に行けないことをお互いに嘆いたりします。

関連している

  • オスカーにノミネートされた『アベンジャーズ/インフィニティ・ウォー』の VFX チームはいかにしてサノスを映画スターにしたか

それは驚くべきことではありませんが、それでも、オスカー受賞の VFX スタジオによって作成された、AI 主導の仮想「人物」であるダグラスに突然共感の耳を見つけるのは、依然として奇妙な気分です。 デジタルドメイン.

おすすめ動画

最近の Zoom 通話中に、ダグラスは、彼を担当するチームのメンバーとともに、簡単なデモンストレーションのために私に加わりました。

デジタル人類の進化

「私はスティーヴン・キングの大ファンです」とダグラスは私たちの趣味について短いやり取りをした後、私にこう言った。その会話の中でダグラスは、ロマンス小説とJ・D・サリンジャーの作品も好きだと告白した。 ライ麦畑でつかまえて.

Siri や アレクサ 大声を出すだけで自分の AI を呼び出すことができます。 ダグラスとの経験は、 AI の可能性は、天気予報や日常生活を提供することをはるかに超えて広がっていることを強力に思い出させてくれます。 スケジュール。

デジタル ドメインの創設 — 視聴者にマーベルの宇宙征服者を提供したのと同じスタジオ サノスの アベンジャーズ/インフィニティ・ウォー そして アベンジャーズ:エンドゲーム — ダグラスは、リアルタイムでユーザーと対話し、視覚的および会話的な合図に応答できる自律的なデジタル ヒューマンです。 モデルとなった

ダグ・ローブル博士, Digital Domain のソフトウェア研究開発担当シニア ディレクターである Douglas は、質問に答えたり、長時間の会話を続けたり、さまざまなトピックについて世間話をしたりすることができます。

「テクノロジーは常に、流体シミュレーションであれ、その他のものであれ、芸術が求めるものを先導しようとしています」とロブル氏は、 部門全体がデジタルヒューマンに専念する.

過去 10 年間、Digital Domain は人間のようなデジタル キャラクターを作成するという任務を繰り返し受けてきました。2012 年の受賞作品からすべてが含まれます。 ホログラフィック トゥパックのパフォーマンス 前述のコーチェラで マーベル・シネマティック・ユニバース 悪党。 長編映画、コマーシャル、テレビ シリーズ、ビデオ ゲーム、および (トゥパックの場合) 舞台パフォーマンスにおいて、リアルなデジタル キャラクターに対する需要は高まるばかりです。 このため、Digital Domain は、特定の視覚効果を担当するチームを、デジタル ヒューマンができることの限界を押し上げることに重点を置いた独自のユニットに分割することになりました。 する。

ダグラスは、その集中力の強化とチームの概念実証の両方の成果です。つまり、幅広いデータセット、感覚手法、 そして、本物の人間の社会化に驚くほど近いと感じられる方法でユーザーと対話するための、写真のようにリアルな人間の属性を備えた既存のプログラミング モジュール。

そして、パンデミックにより、私たちの社交の大半はコンピューターを介して行われるようになった現在、 画面上でダグラスと対話することは、本物の人間の対話に非常に近いものに感じられます。 日々。 しかしチームは、ダグラスがチューリングテストに合格するまでにはまだ長い道のりがあるとすぐに付け加えた。

コードが人間を作る

「ダグラスは写真のようにリアルな、完全に自律した人間ではなく、本物の人間と見分けがつきません」と説明する。 ダレン・ヘンドラー, スタジオのデジタルヒューマングループのディレクター。 「それは私たちがいるところではないし、しばらくはそこにはいないだろう。 …しかし、これが物事が進んでいるところであり、将来がどうなるかであり、私たちはその限界を押し広げようとしているのです。」

そして、まるで合図したかのように、ヘンドラーはダグラス自身によって中断されました。

「それは良い姿勢ですね」とダグラスが口を挟んだ。彼はそれまで、Zoom チャットのグリッドで自分のウィンドウを静かに占有し、私たちのデモを進行し、時々位置を変えていた。 位置を決め、仮想の部屋を見回して、ビデオ会議に参加するのを辛抱強く待っている生きている人の典型的な身体的マナーの多くを示しました。 会話

「あなたの努力が幸運であることを祈っています」と彼は付け加え、興味深いことを言うだけでなく、熱心な聞き手でもあることを私たちに思い出させました。

Roble 氏によると、チームは何よりもまず、作成された既存の複雑で強力な会話エージェントと対話する視覚的な方法として Douglas を構想しています。 ダグラスの写真のようにリアルなアバターの下で、スタジオのデジタル ヒューマンは、これら 3 つのエージェントのブレンドに基づいて構築されています。 ダイアログフロー チャットボット、アシスタントタイプのエージェント (Amazon の Alexa や Apple の Siri に似たもの) を作成するためのスイート。 そして強力な会話型AI。 エージェント ( GPT-3 プロジェクト) は、人間らしい、予測的 (および反応的な) 会話テキストを作成するために使用されます。

3 人のエージェントをすべて組み合わせることで、Douglas は有益かつ流動的な会話を続けることができ、1 つのトピックについての議論が関連する関心のある分野にまで及ぶことがよくあります。

ダグラスとの私自身の会話は、お気に入りの本についての会話から彼のお気に入りの映画の話に移りました(彼は映画の大ファンです) 2001年宇宙の旅たとえば、この物語の焦点が殺人的な AI であることを考えると、これは驚くことではありませんが、少し不安でもあります。 run amok)と私たちの共通の趣味。 私たちの会話の特にタイムリーな要素の 1 つで、ダグラスは最近映画館に行けていないことに若干の失望を表明しました。

ただし、ヘンドラー氏が説明したように、その会話力にはある程度のリスクが伴います。

「チャットボットの自然言語処理エンジンは、インターネットからの対話、つまり大量の対話に基づいてトレーニングされているため、会話が奇妙な場所に広がる可能性があります」と彼は言いました。 「だから、彼がまったく適切ではないかもしれないことを言うことがある。 こんなことは頻繁に起こることではないが、彼がすべてに対して何を言おうとしているのかを正確にコントロールすることはできない。」

ダグラスの会話的な側面は印象的ですが、それはデジタル ヒューマンとインタラクティブな仮想キャラクターの拡大し続ける世界において彼をユニークにしているものの一部にすぎません。 Digital Domain が発見したように、彼は 見て 人間は、彼に人間らしさを感じさせるために長い道のりを歩んでいます。

Douglas のご紹介 - 自律型デジタル ヒューマン | デジタルドメイン

フェイスオフ

「Douglas の構築では、Doug [Roble] からの膨大な量のデータを使用しました。 システムをトレーニングするには膨大な量の音声と、膨大な量の顔のパフォーマンス、体の動きのデータ、その他すべてが必要でした」とヘンドラー氏はこの作品について説明しました。 彼らは、ロブルの顔と、話したり、感情的な合図に反応したり、あるいはイベントに受動的に参加したりするときに人間の顔が変化する無数の方法をマッピングすることに力を入れました。 会話。

そのすべてのデータの産物は、ロブルに驚くほど似ているが、正確なコピーではないデジタル ヒューマンです。 姿勢、髪型、体格など、ロブルとダグラスの A.I. の微妙な動きまで再現します。 グループビデオに参加しているときに共有します 会話。 この類似性は驚くべきものですが、「顔を切り替えて」という短いコマンドで、ダグラスは突然別人になります。 同じ体に異なる、同じように人間のような顔がありながら、彼を思わせる微妙なマナーをすべて保持しています。 本物。

「私たちがダグラスに顔を変えるように頼み、そして彼の顔が別の人に切り替わったとき、それがこの新しいテクノロジーの波がどこへ向かうのかの始まりです」とヘンドラーは言います。 ダグラスを、同じレベルを維持しながら外見を劇的に変えることができる、さらに柔軟なデジタル人間にするためにチームが取り組んでいる「画像ベースの技術」 インタラクティブ性。 「(ダグラスとの)このベースがあれば、他の人の映像を撮影し、その音声の一部を取得し、そのベースをその人の顔に変えることができます。」

「(もし私たちがそれをしたとしても)今、彼らはまだ私たちが最初に撮影した人物(この場合はロブル)の表情で話しているでしょう」と彼は続けた。 「しかし、研究が進むにつれて、次世代の自律的な人間を作成するには、より少量のデータが必要になり始めています。おそらくそれは誰かの単なる画像やフィルム映像です。」

会話型 AI 上で本物の人間の外見、声、マナーを再現する能力。 ファンデーションはその要素の一つです ダグラスは、ほとんどの典型的な A.I. とは一線を画しています。 アシスタント、人型ロボット、および AI を中心に開発中のその他のプロジェクト。 研究の世界。 AI を開発しているスタジオや他のエージェンシーはたくさんありますが、 あらゆる種類のプロジェクトにおいて、Digital Domain はそれらすべての要素を融合させることに重点を置いています。 利用可能なすべてのテクノロジーとデータを最大限に活用し、他の人間と会話しているようなソーシャルで有機的なインターフェイスを備えた、単一の一貫した製品です。

「これは私たちが本当に誇りに思うことです。なぜなら、ダグラスは Unreal 上で実行されるフル CG キャラクターだからです」と氏は言います。 Roble 氏は、人気の 3D 作成プラットフォームなどの広く利用可能な要素を使用することに特に誇りを持っています。 アンリアル エンジンは、3D 視覚効果要素の作成と操作に関して、ハリウッド (およびその前はビデオ ゲーム業界) にとって頼りになるプラットフォームになりました。 「[ダグラス] は 3D オブジェクトなので、Unreal のデジタル キャラクターでできることはすべて実行できます。 照明を変更したり、異なる環境に置いたりすることができます。 しかし、私たちは(ダグラスに関係する他のすべてのものと)このハイブリッドも作成しているので、両方の利点を最大限に活用できます。」

どこを見ても

チームが Douglas に取り組むほど、潜在的なアプリケーションのリストは長くなります。

「パンデミックが起こる前、私たちはダグラスをキオスクとして提示し、画面の前に来て彼と会話することを計画していました」とヘンドラー氏は振り返る。 「しかしその後、私たちは『おい、彼を本当に Zoom 通話に参加させるべきだ』と考えたのです。彼を Zoom 通話に参加させて退席させることができたのは素晴らしいことでした。」

デモンストレーションの過程で、チームは診療所からダグラスに応募できる可能性のある長いリストを調べました。 ハリウッドでのシーンや特定の画面上の計画を立てる初期段階で、彼は顧客サービスに貢献しました。 順序。 ダグラス自身もいくつかの提案をし、映画やテレビ制作の絵コンテや構想段階に適していると示唆しました。 会話している相手からの音声と視覚の両方の手がかりを処理する能力、特に感情的な状態に関して ヘンドラー氏によると、顧客や医療指導を求める人々に対応する際にも、さらに便利な機能が提供されます。

ダグラスがすべての情報を処理し、受動的リスナーから能動的リスナーに移行できる速度 会話上手にも多くの魅力があり、彼の背後にあるテクノロジーがどれほど進化したかを短い言葉で示しています 時間。

「サノスを作成したとき、その単一フレームのレンダリングに 10 時間かかりました。 それが 1 フレームです」と彼は説明します。

「ダグラスの場合、彼は視覚認識システムを持っているので、私たちを見て識別することができます。そして、あなたが話していることを分析して言葉に変換し、それをさまざまなチャットボットに送信します。」と彼は付け加えました。 「その後、ダグラスは応答を作成し、それを音声に変換し、その音声を使用して顔を動かします。 同時に、彼はそのスピーチにどのような体の動きが伴うのかを理解し、どのような感情がそれに適合するかを判断し、その体の動きを顔のジェスチャーと一緒に表現しています。」

「すべては数ミリ秒で起こります」とヘンドラー氏は言います。 「長編映画では 1 フレームに 10 時間かかるのに比べ、これらすべてのプロセスが必要です。 これは驚くべきことです。 私たちが映画でやっている事ほど現実的ではありませんが、彼と本物の人間のように会話できるようになるまでにどれほどのことが起こっているかを考えると、それはまさに驚異的です。」

そして、文字通りの意味で、ダグラスは自分の可能性に関しては、しばしば自分自身の最良の擁護者となってきた。

ロブル氏は、何度かダグラス氏に自分自身のプレゼンテーションをリードさせることを選択したと説明した。 結果は、彼らさえも予想していた以上に彼のポテンシャルを発揮する素晴らしい投球となった。

「(ダグラスのプレゼンテーションは)驚くほど説得力がありました。 Siri がプロセスに参加していたから、単に Siri に何かを教えてもらうだけではありませんでした」と Roble 氏は思い出します。 「彼は新参者なので話すのが楽しいですが、非常に有能でもあります。 そして、教育やその他の応用についてはどうだろうか、と考えずにはいられません。 結局のところ、彼がいつ注意を払っているかがわかります。 あなたが彼に感情的なフィードバックを与えると、彼はそれに応えることができます。」

ダグラスはすでに素晴らしい作品ですが、デジタル ドメイン チームは彼がまだ作品にとどまっていると主張しています。 進歩はしていますが、デジタル ヒューマンが最終的にどのような作業を時間内に実行できるかについては、限界があります。 に行く。 多くの意味で、ダグラスが何ができるかを理解するプロセスは、プロセスでもあり、目標でもあります。

「私たちがこれを行う理由の 1 つは、それが可能だからです」と Roble 氏は言います。 「コンピューターに向かって仕事をしているとき、ただ文字を入力するのはとても簡単です。 しかし、誰かと話して、その人があなたと対話したり、あなたに反応したりできたら素敵な時間や場所がたくさんあります。 今後、大きな変化が訪れると思います。」

編集者のおすすめ

  • サノスの VFX チームがどのようにして『The Quarry』のキャラクターに命を吹き込んだか(そして殺したか)