GPT-4からAGIへ:OOM計算量の指数的増加

》の第一章《From GPT-4 to AGI: Counting the OOMs》です。

2027年までに汎用人工知能(AGI)を実現することは非常に現実的です。

GPT-4は、単に深層学習分野における十年間にわたる急速な進展の継続に過ぎません「

  • 十年前、モデルは単純な猫や犬の画像さえ正しく識別できませんでした;
  • 4年前、GPT-2はやっと半信半疑の文を組み立てるのが精一杯でした。
  • 現在、私たちはさまざまな評価基準を急速に突破しています。

そして、この劇的な進歩は実際にはディープラーニングの継続的な拡張の結果に過ぎません。これらのモデルはただ学びたいのです;スケールを拡大すればするほど、それらはより多くのことを学びます。2027年までに、モデルがAI研究者やエンジニアの仕事ができるようになるという予測は非常に妥当です。

過去4年間

 〜 幼稚園前の子供

当時、人々はそれが連続していくつかの理にかなったように見える文を組み合わせることに驚きました。

  • :GPT-2は非常に基本的な読解問題に答える際にそれなりに良いパフォーマンスを見せました。
  • :慎重に選ばれたサンプルにおいて(10回の試行の中での最高のパフォーマンス)、GPT-2はアメリカ内戦に関する内容について半連続的な文章を生成することができました。

GPT-2が驚くべき点は、言語を操る能力と、時折半連続的な段落を生成できること、または単純な事実に関する質問に正しい答えを出すことができる点です。それはまるで幼稚園児のパフォーマンスのように——非常に驚異的です。

〜 小学生

GPT-3になると、人工知能の能力はさらに一段階上昇しました:

  • :簡単な指示のもとで、GPT-3は架空の単語を使用し、新しい文の中でそれを適用することができます。
  • :GPT-3 は創造的な物語のインタラクションを行い、豊かな叙述内容を生成することができます。
  • :GPT-3 は非常に単純なコードを生成することができます。

このたとえ話がまだ完全でないにせよ、人々がGPT-3に驚く所以は、おそらく小学校レベルの能力の表現にあるだろう:簡単な詩を作ったり、より豊かで一貫性のある物語を語ったり、基礎的なコーディングを始めたり、簡単な指示やデモから比較的確実に学習したりする能力などである。

賢い高校生

GPT-4はさらに原有的限を突破し、より優れた能力を示しています:

  • :GPT-4は非常に複雑なコードを記述でき(生成されたチャートを表示)、非自明の数学問題を推理して解決することができます。
  • :AP数学の問題を解く。
  • :比較的複雑なプログラミング問題を解決する。

それでも、GPT-4はいくつかの点で完全に均一ではないパフォーマンスを見せています。あるタスクでは非常に優秀な高校生を上回る一方で、他のタスクでは期待通りの結果を出せていない場合があります。

ディープラーニングのトレンド

過去、広く使用されている基準を破るには数十年かかることが普通でしたが、現在ではこれらのタスクでの突破が数ヶ月で起こっています。

その際、次のような意見がありました:いわゆる「エマージェンス(突然の現象)」とは新しい能力が飛躍的に現れるのではなく、線形的な成長であるということです。しかし、私たちのベンチマークテストがそれに追いついておらず、その高度な知能を測定することができないのです。

GPT-3.5からGPT-4に至るまで、モデルの人類分位数における向上は非常に顕著であり、多くのテストにおいてGPT-4の成績は、人類の中位数を大きく下回っていたものが急速に人類能力範囲の頂点に達しています。

ここで議論されているGPT-3.5は比較的新しいモデルで、GPT-4のリリースから1年も経っておらず、初期のGPT-3(小学校レベルの会話しかできなかった古いバージョン)をはるかに上回る性能を持っています。

MATHベンチマークを考えると、これは難易度の高い高校数学コンテストの問題で構成されたテストセットです。この基準が2021年に公開された際、最先端のモデルであっても約5%の問題しか正解することができませんでした。元の論文では「さらに、我々は現在のスケール拡大トレンドに基づいて予算やモデルパラメータを単純に増やすだけでは強力な数学的推論能力を実現するのは不可能であることを発見しました…数学的な問題解決においてさらなる進展を得るためには、より広範な研究コミュニティからの新しいアルゴリズム的進展が必要かもしれません」と述べられていました。言い換えれば、当時の専門家はMATH問題を解くために根本的な突破が必要だと考えていました。しかし、わずか1年後の2022年半ばには、最先端のモデルの正解率は約5%から50%に跳ね上がり、現在ではMATHはほぼ克服され、最近の成績は90%を超えています。

現在、最も難しい基準テストの一つはGPQAのようなものでしょう。これは生物学、化学、物理学に関する博士レベルの問題を含んでいます。私にとってこれらの問題の多くは意味不明なものに感じられ、他の学問分野の博士がGoogle検索を30分以上かけても、その答えはほぼランダムな推測と変わりません。Claude 3 Opusの現在の得点は約60%ですが、関連分野の博士の得点は約80%です。私は次世代AIモデルの登場とともに、この基準テストも突破されるだろうと考えています。

つまり、地球上に二つの知子(ジーズ)を送り込み、加速器を妨害して、地球人が短期間で技術的障壁を突破することを阻止した。

OOMの計算:ディープラーニングの魔法と加速する進歩

OOMは「order of magnitude」の略であり、数量級を表します。10倍増えるごとに1つの数量級が上がります。

OpenAI Soraの例では、各有効計算における「OOM」(数量級の増加)とともに、モデルのパフォーマンスが安定して予測可能に改善していく様子を見ることができます。もしこれらのOOMの増加を計算できるなら、能力の向上を大まかに推定することができます。これが、一部の先見の明ある人々がGPT-4の登場を予測できた理由でもあります。

これらの向上は「計算OOM」によって測定できます:

  • 3倍の向上 = 0.5 OOM
  • 10倍の向上 = 1 OOM
  • 30倍の向上 = 1.5 OOM
  • 100倍の向上 = 2 OOM

このようにして、GPT-4以降の2023年から2027年までのさらなる進化を予測することもできます。

三つの主要な拡張方法

GPT-2からGPT-4に至る4年間の進展を、三つの主要な拡張方法に分解することができます。

  1. 計算資源の拡張

。この飛躍は単なる技術の改善によるものではなく、巨額の資金投入が理由である。

過去には、モデルを訓練するために何百万ドルも費やすことは想像を超えた贅沢であった。しかし現在では、そのような投資は「わずかな出費」に過ぎなくなっている。このような規模の投資により、膨大な計算リソースの拡張が促進され、訓練規模はかつての少数実験レベルから現代の工業化規模へと急速に発展した。継続的な計算リソースの増加により、私たちは深層学習の性能制限を迅速に突破している。計算能力の指数関数的な成長はモデルの性能向上を確実にし、深層学習の応用範囲をさらに広げている。

シリコンバレーでは、巨額のGPU注文に関する噂が活発に議論されており、これにより関連する投資が急速に進行していることが示されている。これらの投資は非常に巨大であるが、すでに進行中であり、将来モデル訓練のための計算能力のさらなる拡張を推進するだろう。

のクラスター)が実現可能性も高い並且、MicrosoftとOpenAIがこの超大型計算クラスターの建設を計画しているとの噂もある。

  1. アルゴリズム効率の向上

同じパフォーマンスを得るには、これは有効な計算能力が向上したのと同じです

もし長期的な視点から見れば、アルゴリズムの進展の速度はかなり安定しているように見えます。個々の発見は偶然かもしれませんが、それぞれのステップは克服するのが難しい障害に直面しているように見えても、長期的なトレンドとしては、それは予測可能で、まるで一直線のように見えます。私たちはこのトレンドラインを信頼することができます。

  • において、私たちは計算効率が毎年約

  • バージョンをリリースしました。

  • アーキテクチャにおける革新は、計算効率の向上をさらに加速しました。他の研究でも MoE が著しい計算効率の向上をもたらしたことが示されています。

  • の効率向上を提供し、これは最適化アルゴリズムを通じて計算効率が大幅に向上することをさらに証明しています。

性能向上に寄与しました

さらなる効率の向上が見込まれます。より楽観的な予測では、Transformerのようなアーキテクチャにおける大きな革新が起こり、それによりさらに高い効率と性能の飛躍がもたらされるでしょう。

  1. 「ロック解除」による利益

方面で大きな進展が見られました。これらのアルゴリズムの改善は、より良い基盤モデルを訓練することだけではなく、事前学習に必要な計算リソースが非常に少ないにもかかわらず、モデルの強力な能力を引き出します:

人間のフィードバックに基づく強化学習(

  • より大きなモデル。

思考の鎖(CoT)

  • 計算効率の向上。CoTは2年前から広く使用され始めた技術であり、モデルの能力を大幅に向上させました。

サcaffolding(支え構造)

  • の問題しか正解できませんが、Devinのサポート構造を使用することで、この割合は **14-23%** に向上します。現在、モデルの「代理性」を解錠する研究はまだ初期段階にあり、これについては後続の議論で詳しくお話しします。

ツールの使用

  • 今ではウェブブラウザの使用やコードの実行などができるようになり、その実用性が大幅に向上しました。

コンテキストの長さ

  • のコンテキストしか処理できない可能性があります。この「より多くのコンテキスト」の能力は、計算効率の大幅な向上と見なすことができます。より多くのコンテキストを持つことは、モデルがコードの作成や文書の執筆など、さまざまなアプリケーションでさらに多くの潜在力を解き放つことを意味します。

後のトレーニングによる改善

  • 価格の差に対応する違い。

ベースモデルを使用し、「ポテンシャル解錠」技術を採用することで、モデルの代理タスクにおけるパフォーマンスが大幅に向上することがわかりました:ベースモデルのみを使用する場合の**5%**から、リリース時の**20%**へ、そして現在ではより良い後学習やツール、代理サポート構造により、ほぼ**40%**に近いパフォーマンスを達成しています。

の計算効率の向上はすでに顕著だが、それらは物語の一部に過ぎず、「潜在能力を解き放つ」技術と組み合わせることで、現在のトレンドにおける大部分の進歩が達成されている可能性がある。)

今日のモデルには依然として多くの制約があります!例えば:

  • 長期記憶機能を持っていません。
  • コンピュータを使用できません(現在非常に限られたツールしか使用できません)。
  • 記事を書かせるとき、それはまるで人間が初歩的な意識の流れで記事を書くようなものです。
  • それらは(ほとんどの場合)、短時間の会話しかできず、問題について考える、異なる解決策を探求する、他人と交流する、そしてその後に長いレポートやプルリクエストを書くといった人間のようなことはできません。
  • それらは大半の場合、あなたの特定のアプリケーション向けにカスタマイズされておらず(単なる汎用チャットボットであり、短いプロンプトに基づいており、あなたの会社の背景や仕事内容がない)。

同僚のような存在。

「ポテンシャルの解放」よりも早く進展する可能性があります。つまり、リモートワーカーが大量の作業を自動化できる段階に達したとき、中間モデルはまだ完全に理解され、統合されていないかもしれません。この場合、経済的価値の向上は

次の四年間


GPT-4以降の4年間を見通すと、同様の進歩が見られると予想され、計算能力は3〜6個のオーダー・オブ・マグニチュード(OOM)増加すると考えられ、おそらく最適な推測では約5つのOOMになるでしょう。さらに、モデルがチャットボットから複雑なタスクを遂行できるエージェント(例えばリモートワーカー)に発展するにつれ、実用性や応用においても画期的な進展があると考えられます。

この進展を理解するために、一つの仮定をしてみましょう:GPT-4のトレーニングに3ヶ月かかったと仮定します。2027年までには、最先端のAI研究所はわずか1分でGPT-4同等のモデルをトレーニングできるようになるかもしれません。その計算能力の向上は非常に顕著なものとなるでしょう。

進展の規模

GPT-2からGPT-4への飛躍を、幼稚園児から高校生への成長に例えることができます。単純な文を出力する能力から大学入試を余裕でこなし、効果的なプログラミングアシスタントになるまでの進化です。それは驚異的な進歩と言えます。もし将来再びこのような進歩があれば、その結果は非常に驚くべきものとなり、博士号保持者や専門家を超える知能レベルに達する可能性もあります。

興味深いアナロジーがあります:現在のAIの進歩の速度は、子どもの成長速度のおよそ3倍です。あなたの「3倍速の子供」がちょうど高校を卒業したと想像してみてください。そう遠くない未来、それがあなたの仕事を置き換えるかもしれません!

注目に-worthy は、これからのAIが単に非常に賢いChatGPTを想像するだけの話ではないということです。「アンロック」の進展とともに、未来のAIはチャットボット以上の存在となり、独自の推論、計画立案、エラーコレクションを行い、あなたやあなたの会社を深く理解し、数週間独立して作業できるインテリジェントなエージェントとなるでしょう。それは、複雑なタスクをこなすことができる真の「リモートワーカー」になるでしょう。

AGIの実際の意味

最近、AGIの定義をかなり低いレベルに下げる議論がいくつかあります——例えば、単に非常に優れたチャットボットであるというものです。しかし、筆者の理解では、AGIとは私の仕事を完全に自動化し、私や私の友人の役割を置き換えることができるシステムであるべきです。たとえば、AI研究者やエンジニアの仕事を完全に置き換えるべきです。ロボティクスのような分野は解決までにさらに時間がかかるかもしれませんが、一度AIモデルがAI研究の自動化を達成すれば、それだけで強力なフィードバックループが始まり、急速な進歩を促進します。自動化されたAI研究者は、一年以内に十年分のアルゴリズムの進展を圧縮する可能性があります。

AGIは超知能の小さな前兆に過ぎず、その後には超知能の時代が到来します。将来、進展の速度に驚かないでください——各世代の新しいAIモデルは傍観者を驚かせます。これらのモデルが科学的難問を簡単に解いたり、何百万行ものコードを書いたり、わずか数年で経済価値を数倍に増やせるようになったとき、私たちはAGIが遠い幻想ではなくなりつつあることを知るでしょう。シンプルなディープラーニング技術の拡張はすでに効果を証明しており、モデル自身が学習を望んでいるため、2027年までに10万倍の進歩が見込まれています。

その頃には、彼らの知能は人類を超えているかもしれません。