ロメロ氏はGPT-2からGPT-4にいたる大規模言語モデル開発の歴史において、言語モデルのパラメータ数が大きいほど、言語モデルの性能が向上するスケーリング則が重視されていたことを指摘します。そのうえで2023年4月にマサチューセッツ工科大学で開催されたイベントにおけるサム・アルトマンOpen AI CEOの発言を引用します。同CEOは、モデルサイズの大規模化を最重視する時代は終わった、と発言したのです。というのも、GPT-4より大規模なモデルを開発するために必要なデータセンター等の建設が、もはや限界を向かいつつあるからです。
以上のようにアルトマンCEOが規模至上主義の終焉を発言したのは、GPT-4を開発したことで競合他社に対して技術的優位性を確保したので、言語モデルを改善する新たな方法を研究する余裕ができたから、とロメロ氏は推察しています。
ロメロ氏はMetaが公開したLLaMAをはじめとするオープンソースによる大規模言語モデル開発の動向も、規模至上主義から脱却している現状を確認したうえで、より小さい言語モデルを開発する方が望ましい3つの理由を挙げています。
より小さい言語モデル開発が望ましい3つの理由
|
ちなみに、Googleが2023年5月に開催したGoogle I/O 2023で発表した大規模言語モデルPaLM 2を解説した同社の記事においても、規模至上主義は単純すぎるとして否定されています。
なお、以下の記事本文はアルベルト・ロメロ氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。
サイズは重要ではない
「サイズは重要ではない」なんて言うのは冗談だ。私たちは皆、サイズが重要であることを知っている。AIモデル、特にテキストデータで学習させたモデル、すなわち言語モデル(LM)については、間違いなくそうだ。ここ5、6年でAIを支配している比類ないトレンドがあるとすれば、それは、最高峰のモデルのパラメータ数が着実に増えていることだ。このトレンドについては、私は大規模言語モデルのためのムーアの法則と言及したことがある(※訳註1)。GPTファミリーは、この事実を最も明確に(唯一ではないにせよ)体現している。GPT-2は15億パラメータ、GPT-3は1750億パラメータと、前モデルの100倍、そしてGPT-4は公式には公表されていないが、1兆の大台に乗ったという噂がある(※訳註2)。指数関数的なカーブではないが、確実に成長している。
OpenAIは、彼ら自身が2020年に発見したスケーリング則(DeepMindがその後2022年に洗練した)の天啓とも言える導きに、断固として従っていた。この法則をまとめると、サイズが非常に重要であるということだ。DeepMindは、訓練データの量やその質といった他の変数も性能に影響することを明らかにした。しかし、否定できないのは、私たちはより大きなものほど好きだという真実だ。モデルサイズは、AIシステムがどれほど優れているかをヒューリスティックに測定するための黄金の標準となった。
OpenAIとDeepMindは、パフォーマンスグラフからのヒント、ベンチマーク結果からの兆候、あるいはモデル自身からのささやきなど、この研究分野の聖杯であるAGIを実現する仮説になるかも知れない道筋を求めて、長年にわたってモデルのサイズを大きくしてきた。しかし、彼らが探していたものは見つからなかった。その代わりに、予測可能な、私に言わせれば印象的な、言語習得能力の向上が得られたが、悲しいことに次の段階への明確な方向性は示されなかった。
彼らの予想通り、サイズが重要であることは証明されたが、企業は「規模こそが必要なすべて」という教義を実質的に使い果たしてしまったようだ。最も印象的なのは、この新しい現実を認めたのは、古典的なAIの支持者でもディープラーニングの批判者でもなく、OpenAIのCEOであるサム・アルトマン自身であるということである。
・・・
この記事は、AI、アルゴリズム、人々のあいだのギャップを埋めることを目的とした教育ニュースレターThe Algorithmic Bridgeからの抜粋です。このニュースレターはAIがあなたの生活に与える影響を理解し、未来をよりよくナビゲートするためのツールを開発するのに役立つでしょう。
・・・
サイズは(もうそれほど)重要ではない
今や以上の見出しは正確である。アルトマンも、この ―そう言ってよければ― 苦い教訓を受け入れたようだ。
サイズ。スケール。もっとパラメータを増やせ。それはもはや進むべき道ではない。アルトマンはAGIの夢を抱いていたが(そしておそらく今も抱いている)、規模だけではその目標に近づけないことを知った。彼は ―公には― 規模至上主義者(「規模こそが必要なすべて」という教義の熱烈な信者)ではなくなった。
「公には」と言ったのは、OpenAIのリーダーとしての彼の決断は、彼が今信じていると主張することとは別に、上で簡単に批判したように、極端なスケーリングのスタンスの否定を示唆しているからだ。どちらかと言うと彼が間違いだったと認めたのは、モデルの大規模化こそが万能薬という見解であった、と私は確信している。もしAGIの実現がGPT-4の上にさらにレイヤーを積み重ねるような簡単なものであれば、OpenAIは誰もが想像する以上に良い方向に向かっていただろう。
しかし、スケーリングさえすればAGIが実現するのは真実ではなく、アルトマンは今、そのことを公に認めている。彼は、最近のMITのイベント「Imagination in Action」で、この見解からの転回を認めた。彼はこう言った。「(素朴なスケーリング則にしたがった)大規模モデルの時代は終わりつつあり、モデルを(スケーリング則とは別の)他の方法で改善することになるでしょう」。 もし彼の主張が読者諸氏を納得させるのに十分でないなら、OpenAIがGPT-5を構築していないこと、「しばらくのあいだはそうしない」という事実によって納得するはずである。FLIの公開書簡(※訳註3)で話題になった「大規模AI実験」(具体的にはGPT-4より高性能なものの開発)の一時停止は、結局のところ不要だったようで、この展開は滑稽ですらある。
興味深いのは、アルトマンがGPT-4以降にスケーリング則の限界を観測したとは思えないことである。彼は、それを以前から知っていたのだろう。より大規模な言語モデルを追い求める価値がない理由は、モデル性能のプラトー化(予測可能ではあるが、予期せぬ能力の出現を見逃すかも知れない)だけにあるはずはない、と私は疑っている(※訳註4)。スケーリング則に従うのを破棄した本当の理由は、OpenAIがスタートアップとしては前例のないほど裕福であるにもかかわらず、同社の研究者たちがGPT-5の開発で要とされる資金や物流を満たすのが困難であることを知っていたからである。実際、WIREDのウィル・ナイト(Will Knight)記者は先週「アルトマンは、OpenAIが建設できるデータセンターの数や、それらをどれだけ迅速に建設できるかについても物理的な制限がある、と述べた」と報じている(※訳註5)。
以上のアルトマンの言動は、彼が規模至上主義を正面から否定したことにとどまらない。AGIイデオロギーよりもはるかに平凡な理由で、今後長いあいだ、GPT-4より大きいモデルを見れないかも知れないことを示唆している。
しかし、ではなぜGPT-4を作ったのだろうか。訓練や運用にコストがかかるのに、なぜ他のものより大きくしたのか。私が思うに、GPT-4の存在はAIコミュニティがスケール以外のアプローチを利用しなければならないというアルトマンの信念と矛盾しない。GPT-4は人工的な人間の脳を実現するというファンタジー実現のために作ったのではなく、OpenAIの競合他社にGPT-4以上に大きいモデルを開発するのは現実的ではないと思わせるような深い堀を築く必要性に同社が迫られていた、というのがひとつの見方だろう。
私は以上の見解に賛成だ。アルトマンは、ChatGPTの人気とGPT-4の比類なき性能という強力な組み合わせに安心感を抱いているだろう。今やOpenAIは、素朴なスケーリング則とは違う画期的な優位性を探求し発見するのに専念できるという特権を手にしたのだ。この特権は、間違いなくかつて誰も享受したことはなかったものである。
より小さな言語モデルへの期待
アルトマンは、以上のような素晴らしい堀 ―テック業界はこの言葉が大好きだ― を持つことで、気兼ねなく(スケーリング則とは違う方法論を探求すべきという)新発見に関する確信をオープンに共有できるようになった。こうした彼の言動は、以前からより小さなモデルを作るのがいいことと訴えてきた開発現場の声を反映しているかも知れない(皮肉屋からは、彼をAI業界のリーダーという羨望の地位まで上り詰めるのを可能としたはしごを、彼自身が叩き落そうとしているように見えるかも知れない)。
(Stable Diffusion開発元CEOの)エマド・モスターク(Emad Mostaque)は、「より小さいことはいいことだ」を標榜する著名人のひとりである。Stability.aiの創設者は最近、StableLM suiteというGPTスタイルの新しい言語モデル群を発表したが、これらはパラメータが30億と70億という極小サイズである。彼の夢はAGIではなく群知能である。これはあらゆることに対応できる巨大な中央集権的な超知性体の代わりに、カスタマイズされ、特化された小さなモデル群という概念であり、それらが人間の行うタスク全体を強化できるというものだ。
さらに企業だけでなく、企業から独立した研究者たちも、より小さな領域で飛躍的な進歩を遂げつつある。Meta社のLLaMA(※訳註6)の重みがリークされ共有された(もちろんMeta社がそうしたわけではない)ことや、スタンフォード大学のAlpaca(※訳註7)(指示チューニングされたLLaMA)のおかげで、オープンソースの言語モデルの波(※訳註8)がGitHubに押し寄せている。何千、何万という熱狂的機械学習開発者がいれば、小粒なスタートアップが深く精査するよりもずっと進歩することは否定できない。オープンソースの開発者であるシモン・ウィルソン(Simon Willison)が3月に主張したように、言語モデルは 「Stable Diffusionがたどった瞬間」(※訳註9)を迎えている。その成功は時間の問題である。
There's a plethora of new chat language models being released these days, especially based on LLaMa and Alpaca. I've started tracking them (including license): https://t.co/HK5FBIen0Y
Plan is to start adding some to https://t.co/8h6C9xqUmv for folks to play around with. pic.twitter.com/m8aIT5f1Qx
— Damien C. Tanner (@dctanner) April 4, 2023
以上のようにモデルのサイズを小さくすることと、それらが性能的に劣っていることを混同してはいけない。130億パラメータのLLaMA 13Bのベンチマーク結果は、1750億のGPT-3 が13倍大きいのにもかかわらず、両者は同等である(※訳註10)。サイズ以外の変数(例えば、ファインチューニング技術、データ品質、ハードウェアとソフトウェアの最適化など)については、3年間で最先端技術が十分に向上しているので、2020年時点で最大だったモデルも、最終的にははるかに小さな新しいモデルの効率性に矮小化されることになるだろう。
Today we release LLaMA, 4 foundation models ranging from 7B to 65B parameters.
LLaMA-13B outperforms OPT and GPT-3 175B on most benchmarks. LLaMA-65B is competitive with Chinchilla 70B and PaLM 540B.
The weights for all models are open and available at https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq— Guillaume Lample (@GuillaumeLample) February 24, 2023
しかし、誰もが言語モデルのサイズをGPT-4に制限することに同意しているわけではない。元OpenAIのダリオ・アモデイ(Dario Amodei)が設立したAnthropicは最近、Claudeの次の言語モデルを、とりあえず ―そして創造的に― Claude-Nextと呼び、GPT-4を含む現存モデルの10倍以上の能力を持つように構築する意向を発表している。仮に大きさにこだわらないとしても、GPT-4を大幅に大きくすることなく、その10倍の性能を実現するのは、私が知る限りでは画期的なことだ。
以上の試みのために、Anthropicは「今後18ヶ月間で10億ドル…」を費やす予定である。同社の開発チームは、自分たちが考え役立てているスケーリング則を、OpenAIよりも強く信じているのかも知れない。もしからしたら彼らはOpenAIの後塵を拝するのが嫌で、追い越すために一生懸命になっているかも知れない。あるいはアルトマンのように、Anthropicも規模至上主義が行き詰まることを悟るかも知れない。
なぜ小さい方がいいのか
最後に、モデルをより小さく改善することが生成AIに対する正しいアプローチであり、(それほど派手ではないかも知れないが)ChatGPTやGPT-4よりも大きなマイルストーンになり得る理由を3つ挙げておこう。
第1に大多数の人々、つまり顧客は、最高のものにアクセスすることに関心がない。そうではなくて、品質と価格のあいだの最高な関係を気にしているのである。GPT-4 APIへのリクエストに毎月腎臓が必要ならば、たとえその品質が世界トップクラスであっても、その上に何かを作ろうとする、ましてや個人的な理由で使おうとするリスクを冒すユーザは多くない。反対に多くのタスクでは多少悪いものでも構わないし、さらにはコスト削減が顕著であれば、人々は間違いなく品質を落とすことを厭わないだろう。同じメッセージを送って同じように長い反応を得るのに(GPT-4以前で最高の)GPT-3.5 turbo APIに1ドル支払えばよいところ、GPT-4-8K APIに22.5ドル使わなければならない。これは、法外に高価だ。
第二に、AGIを気にする人はほとんどいない(ごめん、サム)。この哲学的な概念(「マーケティング用語」として転用されているが(※訳註11))を読者諸氏は耳にしたことだあるだろうし、現在に至るまで実現せずに手つかずにいるのだが、実際のところ、人々はこの概念をあまり気にしていない。人々がAGIを気に留めていないことの最も簡単な説明は、それが実現されれば当然伴うであろう約束(例えば、世界の他のすべての問題を解決できる)を購入する人がほとんどいない、ということで済むだろう。つまり、顧客には品質の階段を上るための高いインセンティブがない。一般消費者は海辺で撮った晴れやかな写真の補正や、AIが書いたと見抜かれないビジネスメールの作成など、ありふれた用途に使えるものであれば、それで十分なのだ。彼らにとってGPT-4は、ハエを殺すのに大槌を探すようなものである。
Ten years ago, "AGI" was a philosophical and scientific concept. Today, it's a marketing term. And still no progress on the actual goal.
— François Chollet (@fchollet) April 20, 2023
最後に、小型のモデルはより扱いやすく、B2Bに適している。Alpacaのようなモデルを自分のコンピュータ(またはスマートフォン)にローカルにインストールできれば、OpenAIに毎月多額のデータを提供するよりも、消費者向け最新GPUを動かすためのエネルギーコストだけを支払う方を選ぶだろう(先日、同社は将来のモデルの訓練に自分のやり取りを使用しないように、ユーザがチャット履歴をオフにできることを発表したばかりだ(※訳註12))。そして小さいモデルの利点は、ChatGPTを活用したい企業にも及ぶ。OpenAIが入力データをどのように扱い、保存し、(ユーザが許可した場合に)使用するかはわからない。どんな企業にとっても、カスタマイズしたモデルを小規模なオープンソースの上に乗せて訓練したほうが明らかに良い。というのも、データを完全に安全にできるからだ。そうでなければ、従業員がそれを台無しにしてしまうかも知れない(※訳註13)。
大きなものは私たちの注意を引くものだが、それはもはや問題ではなくなった。今や小さいことこそが勝利の賭け金であるように見えるのだ。
・・・
The Algorithmic Bridgeを購読しませんか。これはアルゴリズムと人間のあいだのギャップを埋めます。あなたの人生にとって重要なAIについてのニュースレターです。
また、私のこちらの紹介リンクを使って会員になれば、Mediumでの私の仕事を直接サポートし、無制限のアクセスを得られます!:)
原文
『The Era of Large AI Models Is Over』
著者
アルベルト・ロメロ(Alberto Romero)
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん