『2024年人工知能指数レポート』- 2.4 3D画像生成哪家強?

記事の第2.4章では、AI画像生成について説明しています。以前の記事ではすでに多次にわたり画像生成技術について議論してきました。本日は、その中でも特に3D画像の生成に焦点を当てます。報告書には、4つの3D生成モデルが言及されています:MVDream、Instruct-NeRF2NeRF、Skoltech3D、RealFusionです。

モデルの効果

MVDream

Instruct-NeRF2NeRF

Skoltech3D

RealFusion

MVDream

MVDreamは、バイトダンスとカリフォルニア大学サンディエゴ校の研究者たちによって共同開発された次世代の3D生成システムです。このシステムは、3D画像生成分野における複数の難題を成功裏に克服しました。従来のAI研究において、テキストプロンプトから3Dジオメトリやモデルを作成することは大きな挑戦でした。「多面体問題」(テキストプロンプトの記述に基づくコンテキスト再構築の不正確さ)や「コンテンツドリフト」(異なる3Dビュー間の一貫性の欠如)などの問題があります。MVDreamはこれらの問題を先進的な技術で解決しました。

定量評価において、MVDreamが生成したモデルのInception Score(IS)およびCLIPスコアは、訓練データセット内のスコアと同等であり、これはその生成画像の高品質を示しています。下図をご覧ください。

Githubリンク🔗:https://github.com/bytedance/MVDream

Instruct-NeRF2NeRF

Instruct-NeRF2NeRFは、バークレー大学の研究者が開発した新しいモデルで、画像ベースの拡散モデルを利用して3Dジオメトリに対する反復的なテキストベース編集を行います。この方法は、新しい編集済み画像を効率的に生成し、現在の最先端の手法よりも高い一貫性を実現し、厳密にテキスト指示に従います。下図をご覧ください。

このモデルは、テキスト指示が3D画像編集における強力な応用可能性を持つことを示しており、3Dジオメトリ編集に対して新しい効率的な解決策を提供します。

Githubリンク🔗:https://github.com/ayaanzhaque/instruct-nerf2nerf

Skoltech3D

2023年、国際研究チームがSkoltech3Dを発表しました。これは、多視点3D表面再構築用の新しい大規模データセットです。このデータセットには、107のシーンから撮影された140万枚の画像が含まれており、各シーンは100の異なる視点から撮影され、14種類の異なる照明条件下で撮影されました。これにより、既存の3D再構築データセットにおいて顕著な改善が見られます。下図をご覧ください。

この豊富なデータセットは、特にデータ不足がしばしばボトルネックとなる3D画像処理分野において、特定のタスク向けのAIシステム開発を大幅に推進しました。Skoltech3Dは、多様な視点と照明条件を提供することで、研究者にこれまでにない資源を提供し、3D再構築技術の探求と改善を支援します。

Githubリンク🔗:https://github.com/Skoltech-3D/sk3d_data

RealFusion

RealFusionは、オックスフォード大学の研究者が開発した新しい手法で、単一の画像から完全な3Dモデルを生成します。これは、単一画像からの情報が不十分な場合でも全方位360度の再構築を行うという課題を克服します。この手法は、既存の2D画像ジェネレーターを使用して複数の視点から物体の画像を生成し、その後、それらの視点を統合して包括的な360度モデルを作成します。2021年の最新技術(例えば自己監督学習法Shelf-Supervised)と比較すると、RealFusionはさまざまな物体に対してより正確な3D再構築を提供します。下図をご覧ください。

この技術は、単一視点から得られた画像に対して革新的な解決策を提供し、複数の生成されたビューを統合することで、3Dモデルの精度と詳細度を大幅に向上させました。RealFusionは、限られた視点データから高品質の3Dモデルを構築する必要があるアプリケーションに特に適しており、3D再構築技術において進歩を遂げています。

Githubリンク🔗:https://github.com/lukemelas/realfusion

しかし、いくつかの3DモデルはGitHubでのスター数が少なく、効果も良くなく、商用化するのは難しい状況です。もう少し待ちましょう。