プログラマーが人工知能を訓練してテキストから顔を描画する

T2F トレーニングのタイムラプス

プログラマーのアニメシュ カルネワール氏は、本で説明されている登場人物が現実にどのように現れるかを知りたいと考え、人工知能に目を向けて、これらの架空の人物を適切に表現できるかどうかを確認しました。 T2F と呼ばれるこの研究プロジェクトは、敵対的生成ネットワーク (GAN) を使用してテキストをエンコードし、顔画像を合成します。

簡単に言えば、GAN は次のもので構成されます。 互いに議論する 2 つのニューラル ネットワーク 最高の結果を生み出すために。 たとえば、ネットワーク No. 1 の仕事は、ネットワーク No. 2 を騙して、レンダリングされたイメージが本物の写真であると信じ込ませることですが、ネットワーク No. 2 は、その疑惑の写真が単なるレンダリングされたイメージであることを証明しようとします。 この往復のプロセスにより、最終的にネットワーク 2 がだまされるまでレンダリング プロセスが微調整されます。

おすすめ動画

Karnewar 氏は、 コペンハーゲン大学の研究者によって提供された Face2Text と呼ばれるデータセット、400 個のランダムな画像の自然言語記述が含まれています。

「画像内の人物に付けられた不本意で無関係なキャプションを削除するために、説明文が整理されました」と彼は書いている。 「説明の中には、顔の特徴を説明するだけでなく、写真から暗黙の情報を提供するものもあります。」

Karnewar の T2F プロジェクトから得られた結果は、厳密にはフォトリアリスティックではありませんが、始まりではあります。 上に埋め込まれたビデオは、GAN がイラストをレンダリングするためにどのようにトレーニングされたかをタイムラプスで示しています。 テキストから、単色の色のブロックで始まり、粗いが識別可能なピクセル化されたブロックで終わる レンダリング。

「高解像度 (32 x 32 および 64 x 64) で生成されたサンプルには、低解像度で生成されたサンプルに比べてバックグラウンド ノイズが多いことがわかりました」と Karnewar 氏は説明します。 「データ量が不足しているためだと認識しています(画像が 400 枚しかありません)。」

敵対的ネットワークを訓練するために使用される技術は「」と呼ばれます。GAN の漸進的な成長

」により、時間の経過とともに品質と安定性が向上します。 ビデオが示すように、画像ジェネレーターは非常に低い解像度から開始します。 新しいレイヤーはゆっくりとモデルに導入され、時間の経過とともにトレーニングが進行するにつれて詳細が増加します。

「GAN の漸進的成長は、より速く、より安定した方法で GAN をトレーニングするための驚異的な技術です」と彼は付け加えました。 「これは、他の論文からのさまざまな新しい寄稿と組み合わせることができます。」

提供された例では、テキスト説明は、長い茶色の髪を片側に流し、穏やかな顔立ちをしており、化粧をしていない 20 代後半の女性を示しています。 「カジュアル」で「リラックス」しています。 別の記述では、細長い顔、突出した鼻、茶色の目、後退した髪の生え際、短い口ひげを持つ 40 代の男性が描かれています。 最終結果は非常にピクセル化されていますが、最終的なレンダリングでは、AI がどのように処理するかについて大きな進歩が見られます。 顔を最初から生成できます。

Karnewar 氏は、Flicker8K や Coco キャプションなどの追加のデータセットを統合するためにプロジェクトをスケールアウトする予定だと述べています。 最終的には、T2F は法執行分野などで、テキストの説明に基づいて被害者や犯罪者を特定するために使用される可能性があります。 彼はプロジェクトへの提案や貢献を歓迎します。

コードにアクセスして貢献するには、 ここから Github の Karnewar のリポジトリにアクセスしてください.

編集者のおすすめ

  • 科学者は AI を使用しています。 人工的な人間の遺伝暗号を作成する
  • AI の台頭の再考: 2010 年以来、人工知能はどこまで進歩しましたか?
  • Intel と Facebook が協力して Cooper Lake の人工知能を強化

ライフスタイルをアップグレードするDigital Trends は、読者が最新ニュース、楽しい製品レビュー、洞察力に富んだ社説、ユニークなスニーク ピークをすべて提供して、ペースの速いテクノロジーの世界を監視するのに役立ちます。