バイトダンスの INFP - 二人対話シーンのリップシンク動画生成

今日は音声駆動アバターのプロジェクトを見ました：バイトダンスの

INFPは16型人格（MBTI）ではありません。このINFPという名称は、以下の特性を持つフレームワークを指します：Interactive（インタラクティブ性が高い）、Natural（自然で滑らか）、Flash（即時応答）、Person-generic（汎用性が高い）。

INFPは二人の対話シーン向けに設計された音声駆動型インタラクティブアバタージェネレーションフレームワークです。このフレームワークは、ステレオ音声対話データと任意のエージェントの単一肖像画像を入力し、リアルな顔の表情やリズミカルな頭部動作を含む音声、非音声およびインタラクティブビデオを動的に生成します。INFPは軽量化と高性能を兼ね備えており、ビデオ会議などの即時通信シーンに非常に適しています。

方法

INFPは、入力された二人の対話音声に基づいてエージェントの「話す」状態と「聞く」状態を動的に切り替えます。このプロセスは、二つの重要な段階を通じて実現されます：

モデルは、本物の対話ビデオから顔のコミュニケーション行動を学習し、それを低次元の運動潜在空間に投影し、運動潜在符号を使用して静止画像の動作表現を動的に生成します。
モデルは、入力された二人の対話音声をデノイズ学習を通じて運動潜在符号にマッピングし、これによりインタラクティブなシーンにおける音声駆動型アバター生成を実現します。