AnchorCrafter：人間と物体のインタラクションビデオ生成技術を使用して、ネットワーク放送主をアニメ化し商品を宣伝

2024-12-05ルネー創業犬

と一部の大学が協力して行っているプロジェクトで、現在は論文のみが公開されており、コードはまだオープンソース化されていません。

それは、ターゲットの人間画像とカスタムアイテムを含む2Dビデオを生成し、高い視覚的忠実度と制御可能なインタラクションを実現する革新的な拡散型生成システムです。

核心的な革新点

任意の多視点からの物体の外観認識能力を強化し、同時に物体と人体の外観特徴を分離します。
物体の軌道制御と遮蔽管理の難題を解決することで、複雑な人間-物体のインタラクションを実現しました。
物体の詳細に焦点を当てた学習の最適化を行う新しい訓練目標を導入しました。

方法

1. AnchorCrafter の訓練プロセス

AnchorCrafter は、ビデオ拡散モデルに基づき、以下により高品質な人-物インタラクションビデオ生成を実現します：

：人体と多視点物体の特徴をビデオ生成プロセスに注入し、生成結果に高い外観再現性を持たせます。
：専門的に設計されたモジュールを使用して物体の動きを制御し、人体動作との自然なインタラクションを実現します。
：学習目標を最適化し、人間-物体のインタラクション領域の詳細に更高的な重みを与え、物体の詳細表現を向上させる。

2. HOI-外観認識

HOI-外観認識モジュールは、人体と物体の外観特徴を効率的に融合することを目指している：

：多視点物体特徴融合技術を用いて目標物体の特徴 ( f_O ) を抽出します。
：目標物体の特徴 ( f_O ) と人体参照特徴 ( f_H ) を組み合わせて、人-物の双方向特徴表現を構築します。
：人体と物体の外観特徴を解耦することで、生成動画における物体の外観の一貫性と多角度の詳細再現を強化します。

対比