ビジョントランスフォーマー (ViT)

の違いについてです。今日は知ったのですが、最新のSoraのようなビデオ生成技術は主にビジョントランスフォーマーを使用しています。私もよく理解していないので、説明が間違っているかもしれませんが、主に自分自身の学習のためにです。

ビジョントランスフォーマー (Vision Transformer, ViT) 概要

これは、画像分類用のモデルであり、Transformerに似たアーキテクチャを用いて画像パッチを処理します。ViTは、アレクセイ・ドソヴィツキーや他の研究者が2020年に発表した論文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」で初めて大規模な画像認識タスクに成功し、優れた性能を発揮しました。これにより、視覚表現学習や現代コンピュータビジョンの発展が促進されました。

コアコンセプト

画像を固定サイズ（例：16x16ピクセル）の非重複ブロックに分割し、各ブロックを平坦化して線形埋め込みを行います。
並べ替え順序に敏感でないTransformer自体では空間情報を保持するために、位置エンコーディングを追加します。
埋め込み後の画像パッチのシーケンスを標準的なトランスフォーマーエンコーダーに入力して処理します。
全画像情報の集約を行う分類タスク用に、学習可能な[CLS]トークンを追加します。

研究の貢献

　Convolutional Neural Networks（CNN）に頼らず、純粋なTransformerアーキテクチャが画像分類タスクにおいても優れたパフォーマンスを発揮できることを証明しました。
　ImageNet-21kなどの大規模データセットでの事前学習後、ViTはImageNet、CIFAR-100、VTABなどの中小規模の画像認識ベンチマークで良好な転移性能を示し、必要な計算リソースも大幅に減少しています。

ViTのアーキテクチャ詳細

1. 画像処理プロセス

入力画像を固定サイズの非重複ブロック（例：16x16ピクセル）に分割します。
各ブロックを平坦化し、線形層を通じてベクトルとして埋め込みます。
各ブロックの埋め込みに絶対位置エンコードを追加して、空間情報を保持します。
すべてのブロックの埋め込みシーケンスを標準のTransformerエンコーダーに入力します。

2. 分類メカニズム

入力シーケンスに特別な[CLS]マークを追加し、Transformerエンコーダーで処理された後、そのマークの出力ベクトルが分類タスクに使用されます。

対比分析

a. アーキテクチャとデザイン

特性	ビジュアルトランスフォーマー（ViT）	自己回帰トランスフォーマー（AR）	拡散トランスフォーマー（DiT）
データ処理	画像をブロックの系列として扱う	シーケンスデータ（テキスト、画像）を処理する	ノイズの摂動と除噪によるデータモデリング
位置エンコーディング	空間情報にとって非常に重要	シーケンスの順序を維持するために非常に重要	拡散プロセス中に構造を維持するために使用される
モデルのコンポーネント	ブロック埋め込み、Transformerエンコーダー	マスク付き自己注意、Transformerデコーダー	拡散ステップにおけるTransformer層
生成能力	限定的（主に判別タスクに使用）	強力な生成能力	高忠実度を持つ強力な生成能力

b. 適用分野

応用分野	ViT	自己回帰トランスフォーマー（AR）	拡散トランスフォーマー（DiT）
画像分類	主要な用途	あまり見られず、画像シーケンス上で実現可能かもしれない	通常、分類タスクには使用されない
画像生成	限定的であり、修正が必要	画像をシーケンスと見なす際に有効	効率的であり、最先端の品質を備えています
自然言語処理	直接的には適用されません	コアアプリケーション（GPTモデルなど）	制限が多く、マルチモーダルモデルに統合しない限りは
その他の分野	目標検出、セグメンテーション	音楽生成、コード生成など	音声合成、ビデオ生成など

c. メリットと利点

方面	ViT	自己回帰トランスフォーマー（AR）	拡散トランスフォーマー（DiT）
性能	視覚タスクでCNNと競争する	生成タスクにおいて優れたパフォーマンスを発揮します	高忠実度の生成においてリードする地位にあります
拡張性	データとモデルの規模が増加するにつれて良好に拡張可能です	大規模なデータセットから恩恵を受け、非常に拡張性が高いです	拡張可能だが、マルチステップの拡散プロセスにより計算負荷が大きい
柔軟性	主に視覚タスクに使用され、一部のタスクに適応可能	複数分野にわたる多功能性	主に生成タスクに使用され、条件付けによって適応可能
解釈可能性	ブロックベースの方法は一定程度の解釈可能性を提供する	シーケンスの特性は生成プロセスの理解に役立つ	拡散プロセスが比較的複雑であるため、解釈が難しい

d. 制約条件と課題

方面	ViT	自己回帰トランスフォーマー（AR）	拡散トランスフォーマー（DiT）
データ効率	多くのデータが必要であることが良好なパフォーマンスを発揮するための条件となる	大量のデータが必要になる可能性があり、特に長いシーケンスに対しては	データと計算リソースが極めて必要とされる
計算コスト	Transformer層により、特に高解像度の画像では計算コストが高い	自己注意機構（セルフアテンション）により、長いシーケンスでは計算コストが高い	反復的なデノイジングステップにより、計算コストが非常に高くなる
訓練の複雑性	事前学習がない場合、頭から訓練するのは挑戦的かもしれない	シーケンスの長さとマスクを慎重に扱う必要がある	拡散とTransformerの二重プロセスにより、訓練が複雑になる
生成品質	専用の生成モデルと比較して限界がある	十分に訓練されていない場合、高忠実度の生成が困難になる可能性がある	不適切な訓練によりアーティファクトが発生する可能性があるが、通常は品質が高い