の違いについてです。今日は知ったのですが、最新のSoraのようなビデオ生成技術は主にビジョントランスフォーマーを使用しています。私もよく理解していないので、説明が間違っているかもしれませんが、主に自分自身の学習のためにです。

ビジョントランスフォーマー (Vision Transformer, ViT) 概要
これは、画像分類用のモデルであり、Transformerに似たアーキテクチャを用いて画像パッチを処理します。ViTは、アレクセイ・ドソヴィツキーや他の研究者が2020年に発表した論文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」で初めて大規模な画像認識タスクに成功し、優れた性能を発揮しました。これにより、視覚表現学習や現代コンピュータビジョンの発展が促進されました。
コアコンセプト
画像を固定サイズ(例:16x16ピクセル)の非重複ブロックに分割し、各ブロックを平坦化して線形埋め込みを行います。 並べ替え順序に敏感でないTransformer自体では空間情報を保持するために、位置エンコーディングを追加します。 埋め込み後の画像パッチのシーケンスを標準的なトランスフォーマーエンコーダーに入力して処理します。 全画像情報の集約を行う分類タスク用に、学習可能な[CLS]トークンを追加します。 
研究の貢献
Convolutional Neural Networks(CNN)に頼らず、純粋なTransformerアーキテクチャが画像分類タスクにおいても優れたパフォーマンスを発揮できることを証明しました。 ImageNet-21kなどの大規模データセットでの事前学習後、ViTはImageNet、CIFAR-100、VTABなどの中小規模の画像認識ベンチマークで良好な転移性能を示し、必要な計算リソースも大幅に減少しています。 
ViTのアーキテクチャ詳細

1. 画像処理プロセス
入力画像を固定サイズの非重複ブロック(例:16x16ピクセル)に分割します。 各ブロックを平坦化し、線形層を通じてベクトルとして埋め込みます。 各ブロックの埋め込みに絶対位置エンコードを追加して、空間情報を保持します。 すべてのブロックの埋め込みシーケンスを標準のTransformerエンコーダーに入力します。 
2. 分類メカニズム
入力シーケンスに特別な[CLS]マークを追加し、Transformerエンコーダーで処理された後、そのマークの出力ベクトルが分類タスクに使用されます。 
対比分析
a. アーキテクチャとデザイン
| 特性 | ビジュアルトランスフォーマー(ViT) | 自己回帰トランスフォーマー(AR) | 拡散トランスフォーマー(DiT) | 
|---|---|---|---|
| データ処理 | 画像をブロックの系列として扱う | シーケンスデータ(テキスト、画像)を処理する | ノイズの摂動と除噪によるデータモデリング | 
| 位置エンコーディング | 空間情報にとって非常に重要 | シーケンスの順序を維持するために非常に重要 | 拡散プロセス中に構造を維持するために使用される | 
| モデルのコンポーネント | ブロック埋め込み、Transformerエンコーダー | マスク付き自己注意、Transformerデコーダー | 拡散ステップにおけるTransformer層 | 
| 生成能力 | 限定的(主に判別タスクに使用) | 強力な生成能力 | 高忠実度を持つ強力な生成能力 | 
b. 適用分野
| 応用分野 | ViT | 自己回帰トランスフォーマー(AR) | 拡散トランスフォーマー(DiT) | 
|---|---|---|---|
| 画像分類 | 主要な用途 | あまり見られず、画像シーケンス上で実現可能かもしれない | 通常、分類タスクには使用されない | 
| 画像生成 | 限定的であり、修正が必要 | 画像をシーケンスと見なす際に有効 | 効率的であり、最先端の品質を備えています | 
| 自然言語処理 | 直接的には適用されません | コアアプリケーション(GPTモデルなど) | 制限が多く、マルチモーダルモデルに統合しない限りは | 
| その他の分野 | 目標検出、セグメンテーション | 音楽生成、コード生成など | 音声合成、ビデオ生成など | 
c. メリットと利点
| 方面 | ViT | 自己回帰トランスフォーマー(AR) | 拡散トランスフォーマー(DiT) | 
|---|---|---|---|
| 性能 | 視覚タスクでCNNと競争する | 生成タスクにおいて優れたパフォーマンスを発揮します | 高忠実度の生成においてリードする地位にあります | 
| 拡張性 | データとモデルの規模が増加するにつれて良好に拡張可能です | 大規模なデータセットから恩恵を受け、非常に拡張性が高いです | 拡張可能だが、マルチステップの拡散プロセスにより計算負荷が大きい | 
| 柔軟性 | 主に視覚タスクに使用され、一部のタスクに適応可能 | 複数分野にわたる多功能性 | 主に生成タスクに使用され、条件付けによって適応可能 | 
| 解釈可能性 | ブロックベースの方法は一定程度の解釈可能性を提供する | シーケンスの特性は生成プロセスの理解に役立つ | 拡散プロセスが比較的複雑であるため、解釈が難しい | 
d. 制約条件と課題
| 方面 | ViT | 自己回帰トランスフォーマー(AR) | 拡散トランスフォーマー(DiT) | 
|---|---|---|---|
| データ効率 | 多くのデータが必要であることが良好なパフォーマンスを発揮するための条件となる | 大量のデータが必要になる可能性があり、特に長いシーケンスに対しては | データと計算リソースが極めて必要とされる | 
| 計算コスト | Transformer層により、特に高解像度の画像では計算コストが高い | 自己注意機構(セルフアテンション)により、長いシーケンスでは計算コストが高い | 反復的なデノイジングステップにより、計算コストが非常に高くなる | 
| 訓練の複雑性 | 事前学習がない場合、頭から訓練するのは挑戦的かもしれない | シーケンスの長さとマスクを慎重に扱う必要がある | 拡散とTransformerの二重プロセスにより、訓練が複雑になる | 
| 生成品質 | 専用の生成モデルと比較して限界がある | 十分に訓練されていない場合、高忠実度の生成が困難になる可能性がある | 不適切な訓練によりアーティファクトが発生する可能性があるが、通常は品質が高い |