Champ - 人体画像の静止画からアニメーションを生成

今日は、南京大学、復旦大学および阿里から発表された論文を共有します:『Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance』。

効果

プロジェクト紹介

Champは、潜在拡散フレームワーク内で3D人体パラメトリックモデルを使用して人間の画像アニメーションを行う方法であり、現在の人間生成技術における形状アライメントとモーションガイダンスを強化します。この手法は、SMPL(Skinned Multi-Person Linear)モデルを3D人体パラメトリックモデルとして利用し、身体の形状と姿勢の統一的な表現を構築します。これにより、ソースビデオから複雑な人体ジオメトリと運動特性を正確にキャプチャすることができます。具体的には、ChampはSMPLシーケンスから得られるレンダリング深度画像、法線図、セマンティックマップおよび骨格ベースの運動ガイドを組み合わせ、詳細な3D形状と姿勢属性を潜在拡散モデルの条件に豊かに反映させます。Champはさらに、形状と運動潜在表現を空間領域で融合するために自己注意機構を統合したマルチレイヤーモーションフュージョンモジュールを採用しています。3D人体パラメトリックモデルを運動ガイドとして表現することで、Champはリファレンス画像とソースビデオの運動間でパラメトリックな形状アライメントを実行できます。基準データセットでの実験評価では、この手法が生成する高品質な人体アニメーションが姿勢と形状変化を正確に捉えていることが示されました。さらに、Champは提案されたwildデータセット上でも優れた汎化能力を示しました。

Showcases

提案された手法は、リファレンス画像と事前に設定された動作シーケンスを組み合わせて、時間的に一貫性があり視覚的にリアルな人体画像アニメーションを生成する新しい能力を示しました。また、生成されたビデオにおいて形状アライメントと運動ガイドを改善する能力も示しました。この手法は、顕著なドメイン変化を含む肖像画など、様々なタイプのキャラクターをアニメ化するのに役立ちます。例えば:

(a) 白いドレスと毛皮のコートを着た女性を描いた新古典主義の油絵。

(b) 水彩画による女性の肖像画。

(c) 「アルメニア女王」というタイトルの油絵。

さらに、この手法はテキストからイメージ拡散モデルで派生したキャラクターをアニメ化することも可能です。以下のようなプロンプトを含みます:

(d) 黄色のドレスを着た女性の肖像画、ヘヴィメタル漫画カバーアート、宇宙テーマ。

(e) 銀のドレスを着てポーズを取る女性、CG Societyで流行り、未来派、明るい青い目。

(f) 最後の気宗であるアンガのリアリスティックな描写、彼が強力なアバターステートで全ての弯曲要素を掌握している様子を示すもの。

Framework

多層的な動きの条件とそれに応じたクロスアテンションマップ。

各グループの画像(上部)には、対応するSMPLシーケンスからレンダリングされた深度図、法線図、セマンティックマップおよびDWpose骨格の表現が含まれています。その後の画像(下部)は、自己注意を指導する出力を示しています。

比較

基準データセット上で最先端の手法との定性的な比較を行いました。

未見のドメイン画像をアニメ化するための定性的な比較。

形状変化データに関する比較。