Meta がビデオ用に DALL-E を作成しました。不気味でありながら素晴らしいものです

Meta は、ユーザーが入力した説明をビデオに変換できるクレイジーな人工知能モデルを発表しました。システムは次のように呼ばれますビデオを作りますこれは、Web 上の AI 生成コンテンツの最新トレンドです。

このシステムは、「海で波をサーフィンするロボット」や「サンゴ礁を泳ぐカクレクマノミ」などの短い説明を受け入れ、その説明の短い GIF を動的に生成します。超現実的、現実的、様式化された 3 つの異なるスタイルのビデオから選択することもできます。

によるとフェイスブックの投稿 Meta CEO の Mark Zuckerberg 氏によると、ビデオには動きが必要なため、書かれたテキストをビデオに翻訳するのは非常に困難です。

おすすめ動画

「システムは各ピクセルを正確に生成するだけでなく、ピクセルが時間の経過とともにどのように変化するかを予測する必要があるため、写真よりもビデオを生成する方がはるかに困難です。 Make-A-Video は、システムが物理世界の動きを理解し、それを従来のテキストから画像への生成に適用できるようにする教師なし学習のレイヤーを追加することで、この問題を解決します。」

Meta の AI 研究チームは、紙システムがどのように動作するか、また現在のテキストから画像への変換 (T2I) 方式との違いについて説明します。他の機械語モデルとは異なり、Meta の Text-to-Video (T2V) メソッドは、事前定義されたテキストとビデオのペアを使用しません。たとえば、「歩く男性」と実際に歩く男性の動画を組み合わせることはありません。

これが人気のある T2I アプリケーションである DALL-E によく似ていると思われる方も、そう遠くないでしょう。 DALL-E の人気が高まって以来、他の T2I アプリケーションも展開されています。 TikTokがフィルターをリリース 8 月には、入力した単語に基づいて絵画風の画像を生成する AI Greenscreen と呼ばれるものが発表されました。