バイトダンスの INFP - 二人対話シーンのリップシンク動画生成

今日は音声駆動アバターのプロジェクトを見ました:バイトダンスの

INFPは16型人格(MBTI)ではありません。このINFPという名称は、以下の特性を持つフレームワークを指します:Interactive(インタラクティブ性が高い)、Natural(自然で滑らか)、Flash(即時応答)、Person-generic(汎用性が高い)。

INFPは二人の対話シーン向けに設計された音声駆動型インタラクティブアバタージェネレーションフレームワークです。このフレームワークは、ステレオ音声対話データと任意のエージェントの単一肖像画像を入力し、リアルな顔の表情やリズミカルな頭部動作を含む音声、非音声およびインタラクティブビデオを動的に生成します。INFPは軽量化と高性能を兼ね備えており、ビデオ会議などの即時通信シーンに非常に適しています。

方法

INFPは、入力された二人の対話音声に基づいてエージェントの「話す」状態と「聞く」状態を動的に切り替えます。このプロセスは、二つの重要な段階を通じて実現されます:

  • モデルは、本物の対話ビデオから顔のコミュニケーション行動を学習し、それを低次元の運動潜在空間に投影し、運動潜在符号を使用して静止画像の動作表現を動的に生成します。
  • モデルは、入力された二人の対話音声をデノイズ学習を通じて運動潜在符号にマッピングし、これによりインタラクティブなシーンにおける音声駆動型アバター生成を実現します。

図示

既存のインタラクティブアバター生成手法(左図)では、キャラクターを手動で割り当て、明確にロール状態を切り替えなければなりません。一方、INFP(右図)は統一フレームワークであり、さまざまな会話状態に対してダイナミックかつ自然に適応できます。

動作の多様性

  • INFP方式は、異なる音声入力に応じて、同じ参考画像に対して適切な動作効果を生成することができます。

分布外のサポート

  • 非人間のアバターや横顔画像の現実的な表現の生成をサポートします。

即時通信

  • INFPの高速推論能力(Nvidia Tesla A10上で40 fps以上)により、私たちの手法はリアルタイムでのエージェント間通信を実現し、人間とエージェントのインタラクションもサポートしています。

SOTA手法との比較

インタラクティブなアバター生成

  • 既存の方法が「聞き手」と「話者」の役割を手動で切り替える必要があるのに対し、私たちの方法はさまざまな状態に動的に適応できるため、よりスムーズで自然な表現を実現します。

関連タスクへの自然な適合

  • INFPは、修正を加えずに、「話すアバター生成」や「聞くアバター生成」などの関連タスクに簡単に適合することができます。

他のリップシンク方法との比較

話すアバターの生成

  • 高度に正確なリップシンクを実現。
  • 歌唱ビデオの生成をサポート。
  • 多言語生成。

リスニングアバター生成

  • 高精細で自然な顔の動作を生成する。