GPT-4は、GPT-3の500倍となる100兆個のパラメータを持つだろう

最終更新日： 2021年12月18日

著者のAlberto Romero氏はMediumのコントリビューティングライターで、AIの技術的可能性とその批判的検証に関する記事を多数執筆しており、AINOWでもそれらの記事の一部を紹介しています（同氏の経歴はLinkedInを参照）。同氏が2021年9月にMediumで公開した記事『GPT-4は、GPT-3の500倍となる100兆個のパラメータを持つだろう』では、GPT-3の批判的検証とその後継モデルが実現するかも知れない能力が論じられています。

2020年6月にOpenAIが公開した巨大言語AI「GPT-3」は、ヒューマンライクな文章を生成することで世界を驚愕させました。同モデルは、ディープラーニングモデルを巨大化していけば人間の知性と同等なAGI（汎用人工知能）の実現に近づくという「スケーリング仮説」にもとづいて開発されました。
OpenAIがGPT-3をさらに巨大化してGPT-4を開発するにあたっては、巨大言語AIの学習に必要な演算能力の確保が不可欠となります。こうした膨大な演算能力を確保するには、元々はグラフィック処理のために開発されたGPUでは困難となります。この困難を克服するためにOpenAIが注目したのが、AI演算用チップを製造しているCerebras Systemsでした。現在、両社は業務提携の交渉を進めており、Cerebras社チップによってGPT-3の500倍以上となる100兆のパラメータをもつ言語AIの実現が可能と見られています。
100兆のパラメータとなるかも知れないGPT-4が獲得する能力に関して、Romero氏はGPT-3から質的な飛躍があると予想しています。具体的には（テキストを画像に変換する）DALL-Eや（自然言語をプログラミング言語に変換する）Codexのような専門的能力と、「GPT-3」のような一般的言語能力を併せ持つだろう、と同氏は述べています。
GPT-4のリリースは数年先と思われますが、GPT-3のように世界を驚愕させる言語AIとなる可能性は極めて高いでしょう。

なお、以下の記事本文はAlberto Romero氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

画像出典：UnsplashのSandro Katalina

大規模なニューラルネットワークには限界があるのか？
聖なる三位一体 – アルゴリズム、データ、コンピュータ
チップとモデル – WSE-2とGPT-4
GPT-4から期待できることとは？

大規模なニューラルネットワークには限界があるのか？

OpenAIは、人間ができることは何でもできるAI、すなわちAGI（Artificial General Intelligence）を実現するための課題に取り組むために創設された。

こうした技術は、私たちが知っているような世界を変えるだろう。適切に使用すれば私たち全員に恩恵がもたらされるが、間違った使い方をすれば最も破壊的な兵器になるかも知れない。だからこそ、OpenAIはAGIを実現するクエストを引き受けた。誰もが平等にAGIの恩恵を受けられるようにするために。「私たち（OpenAI）の目標は、人類全体に最も利益をもたらす方法でデジタル・インテリジェンスを進化させることです」（※訳註1）。

しかしながら、この問題の重大さは、人類が手をつけた科学的な事業の中でも最大級のものと言っても過言ではない。コンピュータサイエンスや人工知能が進歩しても、どうやって解決するのか、あるいはいつ実現するのかは誰にもわからない。

AGIの実現には、ディープラーニングだけでは不十分だという意見がある。バークレー校のコンピュータサイエンス教授で、AIのパイオニアであるスチュアート・ラッセルは、「生の計算能力に注目することは、完全に的外れである（中略）たとえ計算能力が宇宙の大きさと同等であったとしても、本当に知的な機械を作る方法を我々は知らない」と主張している（※訳註2）。

対してOpenAIは、大規模なデータセットを与えられ、巨大なコンピュータで訓練された大規模なニューラルネットワークこそが、AGIへの最良の道であると確信している。OpenAIのCTOであるグレッグ・ブロックマンは、Financial Timesのインタビューで次のように述べている。「最も大きな利益を得るのは、最も大きなコンピュータを持っている人だと考えています」（※訳註3）。

そして、OpenAIは自分たちが考えたようにした。ディープラーニングに秘められた力を呼び覚ますために、より大きなモデルの訓練を始めたのだ。その最初の地味なステップが、GPTとGPT-2のリリースであった。これらの大規模な言語モデルは、今回の主役であるGPT-3の基盤となるものだ。GPT-3はGPT-2の100倍、1750億個のパラメータを持つ言語モデルである。

GPT-3は発表当時、史上最大のニューラルネットワークであり、今でも最高密度のニューラルネットワークである。その言語の専門性と無数の機能は、多くの人々を驚かせた（※訳註4）。また、一部の専門家は懐疑的な見方をしていたが（※訳註5）、大型の言語モデルはすでに不思議なほど人間らしく感じられた。こうした成果はOpenAIの研究者たちが自分たちの信念を強化し、AGIとはディープラーニングの問題であると納得するのに十分な大きな前進だった。

（※訳註1）OpenAIの活動理念を述べたこの一節は、同機関が2015年12月11日にブログ記事として公開した『OpenAIの紹介』から引用されている。

（※訳註2）The Financial Times紙で公開され、Mediumにも転載された記事『ビリオンダラーは人間レベルのAIの実現に賭けている』によると、上述のスチュアート・ラッセル氏に加えてアレン人工知能研究所を率いるオレン・エジオニ氏も、ディープラーニングを大規模化してもAGIを実現できないと主張している。エジオニ氏はディープラーニングの次のレベルに行くにはいくつかのブレイクスルーが必要で、そうしたブレイクスルーは単純に資金を投じても実現しないのではないか、と考えている。

（※訳註3）上述のグレッグ・ブロックマンは、前出のThe Financial Timesの転載記事において、ディープラーニングを大規模化してもAGIは実現しないという批判に対して、計算量を増やせば質的に異なる結果が得られる、と反論している。

（※訳註4）リンクされたウェブページは、アメリカ人作家Gwern Branwen氏が運営している「GPT-3のクリエイティブ・フィクション」。同ページには、GPT-3が生成したさまざまな文章と同モデルの弱点がまとめられている。

（※訳註5）ニューヨーク大学の心理学部ゲイリー・マーカス教授と同大学コンピュータサイエンス学部エルネスト・デイヴィス教授は2020年8月、US版MITテクノロジーレビューに『GPT-3、この口先だけの演説巧者：OpenAIの言語ジェネレーターは何を言っているのかわからない』と題した記事を投稿した。この記事で両教授は、同モデルが一見すると人間が書いたような文章を生成するが、実際には人間のようには現実世界を理解していないと主張した。同モデルが現実世界を人間のように理解していない根拠として、同モデルが生成したナンセンスな文章を引用している。こうしたナンセンスな文章は、ウェブページ「常識的推論におけるGPT-3の能力を試した実験：その結果」にまとめられている。
ちなみに、同モデルにチューリングテストを実施してその能力の限界を明らかにした試みについては、AINOW翻訳記事『GPT-3にチューリングテストを試してみる』を参照。

・・・

聖なる三位一体 – アルゴリズム、データ、コンピュータ

OpenAIは「スケーリング仮説」を信じている。スケーリング可能なアルゴリズム、一般言語モデルのコンテクストで言えばGPTファミリーの基本的なアーキテクチャであるTransformerがあれば（※訳註6）、このアルゴリズムにもとづいてますます大きなモデルをトレーニングすることで、AGIへの直接的な道筋ができるかも知れない。

しかし、大規模なモデルはAGI問題を解くパズルの1つのピースに過ぎない。それらを訓練するには、大規模なデータセットと大量のコンピューティングパワーが必要だ。

データがボトルネックにならなくなったのは、機械学習のコミュニティが教師なし学習の可能性を明らかにし始めたからである。さらに生成的言語モデルと数ショットのタスク転送が加わり、OpenAIの「大規模データセット」の問題は解決した。

OpenAIは、モデルを訓練して実装するための巨大な計算資源さえあれば、それで十分と思っていた。2019年にMicrosoftと提携したのはそのためだ。大手ハイテク企業にライセンスを供与して、OpenAIのモデルの一部を商用利用できるようにする代わりに、OpenAIが必要としているMicrosoftのクラウドコンピューティングインフラと強力なGPUを利用できるようにしたのである。

しかし、GPUはニューラルネットの学習に特化して作られたものではない。ゲーム業界がグラフィック処理のために開発したチップを、AI業界が並列計算に適した形で利用しただけなのだ。OpenAIは最高のモデル、最高のデータセット、そして最高のコンピュータチップを求めていた。GPUだけでは不十分だったのだ。

多くの企業がこのことに気付き、ニューラルネットの学習に特化したチップを効率や容量を落とさずに内製するようになった。しかし、OpenAIのような純粋なソフトウェア企業では、ハードウェアの設計と製造を統合するのはほとんど不可能だ。そのため、彼らは別のルートを取った。サードパーティ製のAI専用チップを使うのだ。

こうしたわけでCerebras Systemsが巨大言語モデル開発に参入してきた。このチップ企業は、2019年に大規模なニューラルネットワークを訓練するための史上最大のチップをすでに構築していた。今回、彼らは再び巨大チップの製造を成し遂げた。OpenAIは、この素晴らしいエンジニアリングの産物をうまく利用するだろう。

（※訳註6）Transformerの仕組みと、同アルゴリズムと言語AIとの関係についてはAINOW翻訳記事『Transformer解説：GPT-3、BERT、T5の背後にあるモデルを理解する』を参照。

・・・

チップとモデル – WSE-2とGPT-4

2週間前、WIREDは2つの重要なニュースを明らかにする記事を掲載した（※訳註7）。

1つ目のニュースは、Cerebras社はチップ市場で最大の「WSE-2（Wafer Scale Engine Two）」を再製造した。WSE-2は一辺が約22cmで、2.6兆個のトランジスタを搭載している。これに対して、テスラの新しいトレーニングタイルは1兆2500億トランジスタを搭載している。

Cerebras社は計算能力を効率的に凝縮する方法を発見したので、一般的なGPUが数百個であるのに対し、WSE-2は85万個のコア（計算ユニット）を搭載できた。また、新しい冷却システムによって発熱の問題を解決し、データの効率的な入出力フローもなんとか実現した。

WSE-2のような超専門的でありながら超安価なメガパワーチップの用途はそれほど多くない。大規模なニューラルネットワークの訓練がそのひとつである。そこで、Cerebras社はOpenAIに相談した。

ここで2つ目のニュースである。Cerebras社のCEOであるアンドリュー・フリードマン氏がWIREDに次にように語った。「OpenAIとの会談から、GPT-4は約100兆個のパラメータになるでしょう。（中略）それは数年以内には準備されないでしょう」。

GPT-3以来、OpenAIと同モデルに続くリリースには多くの期待が寄せられている。今では数年後にはリリースされることがわかっており、それは非常に大きなものになるだろう。それはGPT-3の500倍以上の規模になるだろう。読み間違いではない、まさに500倍だ。

GPT-4は、昨年世界に衝撃を与えた言語モデルの500倍の大きさになるだろう。

（※訳註7）この記事における2週間前とは同記事が公開された9月12日から2週間前を意味しており、US版WIREDでAI用チップに関する記事が8月19日と8月24日に公開された。この2本の記事はWORED.jpで『巨大なチップをクラスター化、AIの能力を飛躍的に高める技術の潜在力』および『iPadよりも巨大な半導体チップが、AIの研究を加速させる』として翻訳されている。

・・・

GPT-4から期待できることとは？

100兆個のパラメータはとても大きい。この数字がどれほど大きいかを理解するために、私たちの脳と比較してみよう。脳には、約800〜1,000億個（GPT-3の桁）のニューロンと、約100兆個のシナプスがある。

GPT-4は、脳のシナプスの数だけパラメータがあることになる。

このようなニューラルネットワークの規模は、ただ想像できるに過ぎないがGPT-3から質的な飛躍をもたらす可能性がある。現在のプロンプティング手法では、このシステムの可能性を十分に試せないかも知れない（※訳註8）。

しかし、人工ニューラルネットワークと脳を比較するのは難しい。一見、公平な比較に見えるが、そう見えるのは人工ニューロンが少なくとも生物学的ニューロンに大まかにもとづいていると仮定しているからに過ぎない。Neuron誌に掲載された最新の研究は、そうではないことを示唆している。研究チームは、1つの生物学的ニューロンの動作をシミュレートするためには、少なくとも5層のニューラルネットワークが必要であることを発見した。つまり、生物学的ニューロン1個に対して、人工ニューロンが約1,000個必要なのだ。

GPT-4が人間の脳ほど強力ではないにしても、いくつかのサプライズを残すことは確かだろう。GPT-3とは異なり、それは単なる言語モデルではないだろう。OpenAIのチーフサイエンティストであるイリヤ・スツケバーは、2020年12月にマルチモダリティについて書いたときに、GPT-4の可能性を示唆していた。

「2021年には、言語モデルが視覚的な世界を意識し始めます。テキストだけでも世界に関する多くの情報を表現できますが、私たちは視覚的な世界にも生きているので、言語だけでは不完全なのです」

GPT-3の小型版（パラメータ数120億）でテキストと画像のペアに特化して学習させたDALL-Eには、すでにマルチモーダルの一端をうかがえた（※訳註9）。OpenAIは当時、「言語を介して視覚的な概念を操作することは、もはや手の届くところまで来ている」と述べていた。

OpenAIはGPT-3の隠された能力を利用するために、ノンストップで取り組んでいる。DALL-EはGPT-3の特殊なケースで、Codexとよく似ている（※訳註10）。しかし、これらは絶対的な改善ではなく、特殊なケースに近い。GPT-4は、特殊ケース以上の成果を約束する。それはDALL-E（テキストから画像の変換）やCodex（コーディング）のような専門的なシステムの深さと、「GPT-3」（一般言語）のような一般的なシステムの幅を併せ持つだろう。

また、推論や常識など他の人間らしい機能についてはどうだろうか。この点について、サム・アルトマン（※訳註11）は、確信はないが「楽観的」であると述べている。

AGIに関して多くの疑問があるが、ほとんど答えられていない。それが可能かどうかは誰にもわからない。それをどうやって作るのかもわからない。より大きなニューラルネットワークがAGIに近づいていくかどうかも、誰にもわからない。しかし、何かを否定できない。GPT-4は、今後も目が離せない存在になるだろう。

（※訳註8）本記事の著者であるRomero氏は6月、Mediumに『ソフトウェア3.0 – プロンプトはゲームのルールをどう変えるか』と題した記事を投稿した。この記事では、ディープラーニングの台頭とGPT-3の誕生がソフトウェアの制御方法を変えるという認識にもとづいて、ソフトウェア制御の歴史的変遷を以下のようにまとめている。

ソフトウェア制御の歴史的変遷における3段階

ソフトウェア1.0：第３次AIブーム以前のプログラミング文化。プログラマーがソフトウェアの挙動をプログラミング言語ですべて記述する。
ソフトウェア2.0：第３次AIブーム以降に台頭したプログラミング文化。AIモデルに目的（出力）と学習データ（入力）を与えて、目的を遂行できるように訓練する。目的を遂行するAIの挙動はプログラマーが記述するわけではなく、学習を通して決定される。それゆえ、AIが動作する理由が説明できない「ブラックボックス問題」が生じる。
ソフトウェア3.0：GPT-3の誕生によって明らかになったプログラミング文化。任意の文章を同モデルに入力として与えて、同モデルが生成した文章を出力して得るプロンプト形式のインタラクションは、その実行の度に同モデルの言語的ポテンシャルを顕在化させる活動であり、プロンプトの実行が同モデルの学習という側面をも持つ。

以上のソフトウェア3.0で動作するソフトウェアを活用するには、期待する出力を得るためのプロンプトの使い方あるいは文法が必要となる。そして、GPT-3がナンセンスな文章を生成するのは正しい「プロンプトの文法」を知らない人間にこそ原因がある、とRomero氏は述べている。こうしたプロンプトの文法の確立なしには、GPT-4のポテンシャルを測定することは不可能かも知れない。

（※訳註9）DALL-Eについては、AINOW翻訳記事『DALL·Eを5分以内で説明してみた』を参照のこと。

（※訳註10）OpenAI Codexをはじめとする自然言語をプログラミング言語に変換する言語モデルについては、AINOW翻訳記事『AIはプログラマーを代替するのか？』とAINOW翻訳記事『GitHubのAI Copilotを使ったら、訴えられるかも』を参照のこと。

（※訳註11）サム・アルトマンは、OpenAIの理事会で理事を務めている。同氏はスタートアップの起業を支援するYコンビネータにも関わっていた（現在は無関係）。

・・・

この記事を気に入ってくださった方は、私の無料週刊ニュースレター「Minds of Tomorrow」の購読をご検討ください。人工知能に関するニュース、リサーチ、インサイトを毎週月曜日にお届けします！

また、ここにある私の紹介リンクを使ってMediumメンバーになれば、私の仕事を直接サポートし、無制限にアクセスできるようになります！:)

原文
『GPT-4 Will Have 100 Trillion Parameters — 500x the Size of GPT-3』