Snapのワンダーランド:一枚の画像から3Dシーンを生成する技術

、今日はSnapのプロジェクト「Wonderland」を見てみましょう。これは単一の画像から3次元シーンを生成します。伝統的な3D再構築方法と比較して、その利点は効率的な生成、広範な適用可能性、および優れた3Dシーン表現にあります。

概要

初めて、拡散モデルの潜在空間を効果的に利用して3D再構築モデルを構築し、効率的な3Dシーン生成を実現できることを証明しました。

  1. 3Dシーンの一括生成

  2. 自己回帰生成による3Dシーンナビゲーション

  3. カメラ軌跡に基づくビデオ生成

  4. 複数カメラ軌跡によるシーン探査

方法

一枚の単一画像が与えられたとき、カメラガイドのビデオ拡散モデルを使用してカメラ軌跡に沿って3D認識のビデオ潜在空間(3D-aware video latent)を生成します。この潜在空間は、潜在空間ベースの大規模再構築モデル(LaLRM)によって利用され、前向き方式で3Dシーンを構築します。ビデオ拡散モデルは二分岐のカメラ調節メカニズムを採用し、カメラ姿勢の精密な制御を実現します。LaLRMは潜在空間内で動作し、広視野角で高精細な3Dシーンを効率的に再構築します。