『2024年人工知能指数報告』- 2.5 動画

この章では、2つのモデルLDMとEmuを紹介します。

LDM vs. LVG

ミュンヘン大学(LMU)とNVIDIAの研究チームは、高品質な画像生成に従来使用されてきた潜在拡散モデル(LDM)を応用し、高解像度のビデオを作成することに成功しました。

LDMは、2022年に公開された他の最先端の方法、例えば長尺ビデオ生成敵対ネットワーク(Long Video GAN, LVG)などよりも、解像度の質において明らかに優れています。

LDM Paper https://arxiv.org/pdf/2304.08818.pdf。

Emu Video

昨年末、Metaの研究者たちは新しいトランスフォーマーベースのビデオ生成モデルであるEmu Videoを開発しました。

Emu Videoは、画像の質や忠実度において、以前に公開された最新のビデオ生成手法を上回っており、これは人間の評価者が対比テストで示した好みの割合に基づいています。

エミュは、Instagram上の一部のAI画像編集ツールを含む多くの生成型AI体験をサポートしています。これらのツールでは、ユーザーが写真を撮影し、その視覚的なスタイルや背景を変更することができます。さらに、Meta AIのImagine機能では、ユーザーがアシスタントとの会話や私たちのアプリファミリー内のグループチャットの中でリアルな画像を生成することが可能です。

エミュのビデオ生成技術において、プロセスはまずテキストプロンプトに基づいて画像Iを生成し、その後、生成された画像とテキストというより強い条件を使用してビデオVを生成します。エミュモデルFに画像を条件として組み込むためには、画像を時間軸上でゼロパディングし、どのフレームがゼロパディングされているかを示すバイナリマスクとノイズ入力と結合します。

Emu Paper https://arxiv.org/pdf/2311.10709.pdf。