明らかになったGPT-4の秘密

著者のアルベルト・ロメロ（Alberto Romero）氏はスペイン在住のAI技術批評家で、AINOWでは同氏の記事を多数紹介して来ました。同氏がMediumに投稿した記事『明らかになったGPT-4の秘密』では、OpenAIがGPT-4のアーキテクチャおよび詳細を非公開にしたビジネス上のメリットが解説されています。
「競争と安全上の理由から」学習データやアーキテクチャが非公開だったGPT-4について、2023年6月になってリークがありました。そのリーク内容とは、同モデルは2,200億パラメータの専門家モデルが8つ連結された「専門家混合モデル」だったというものです。このアーキテクチャ自体は、Googleが2021年に発表している何ら革新性のないものです。
実際には既存技術を活用して開発していたGPT-4の詳細を非公開としたOpenAIのビジネス戦略について、ロメロ氏は以下のような3つのメリットがあったと指摘しています。

GPT-4の詳細を非公開にしたことから得られるOpenAIのビジネス戦略上のメリット

GPT-4の詳細を隠すことで、同モデルに魔法性を持たせることに成功した。その結果、AGI実現の予感とAI開発管理の必要性というOpenAIが主張するAI開発のトレンドを、世間に認知させることに成功した。
競合他社およびオープンソースコミュニティにGPT-4の開発技術をコピーされるのを防いだ。
GPT-4の開発には革新的な技術が使われていない事実を隠すことで、AIは依然として急速に進歩しているという印象を世間に与え続けることに成功した。

以上のようなメリットを確認したうえで、GPT-4の詳細を隠して同モデルを紹介したOpenAIのビジネス戦略を「ビジネス・マーケティングのマスタークラス」と呼んで、ロメロ氏はその戦略の巧みさを称賛しています。

なお、以下の記事本文はアルベルト・ロメロ氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。

新しいGPT-4のミーム画像：出典

目次 [非表示]

OpenAIの巧妙な策略を解き明かす
GPT-4：小型モデルの混合
GPT-4をめぐる秘密
GPT-4の真相を隠すことでOpenAIが達成した3つのゴール
結論

OpenAIの巧妙な策略を解き明かす

GPT-4は史上最も期待されたAIモデルだった。

しかし、OpenAIが3月にこれを発表した時、彼らはそのサイズ、データ、内部構造、どのように訓練し構築したのかについて何も語らなかった。まさにブラックボックスだった（※訳註1）。

（※訳註1）GPT-4の詳細仕様が不明なことについては、AINOW特集記事『GPT-4解説：その性能、応用事例、安全対策、そしてリスク評価を眺望』の見出し「学習データとアーキテクチャは非公開」を参照のこと。

結局のところ、モデルがあまりに革新的であったり、アーキテクチャがあまりに堀の深いものであったりしたために、GPT-4の詳細を共有できなかったのだ。しかし、最新の噂を信じるなら、その逆のようだ。

技術的にも科学的にも、GPT-4は画期的とは言い難い。

GPT-4が画期的ではないのは、必ずしも悪いことではない。そうは言っても、同モデルは公開当時には世界最高の言語モデルであったのだ。多少面白味に欠けるモデルではあったが。3年も待たされたのにも関わらず、人々が期待していたものとは違ったようなのだ。

まだ正式には確認されていないが、今回紹介するニュースはGPT-4とOpenAIに関する重要な洞察を明らかにし、AIの真の最先端、そしてその未来について疑問を投げかけるものだ。

GPT-4：小型モデルの混合

6月20日、自動運転スタートアップComma.aiの創設者ジョージ・ホッツ（George Hotz）は、GPT-4は（GPT-3やGPT-3.5のような）単一のモノリシックな高密度モデルではなく、8×2,200億パラメータの混合モデルであるとリークした。その日のうちに、MetaのPyTorchの共同設立者であるスミス・チンターラ（Soumith Chintala）がリークを再確認した。ちょうどその前日には、MicrosoftのBing AIを率いるミハイル・パラヒン（Mikhail Parakhin）もこれをほのめかしていた（※訳註2）。

（※訳註2）ミハイル・パラヒンは2023年6月19日、Bing AIの3つのモード（「より創造的に」「よりバランスよく」「より厳密に」の3つ）のうち「より創造的」だけがGPT-4を使っているように感じる、というツイートに対して、「現在、複数のモデルを組み合わせて使用しています。「より創造的に」と「より厳密に」はほぼ独占的に GPT-4 のさまざまなバリアントに依存していますが、「よりバランスよく」は速度と検索関連のタスク向けにさらに調整されています」とツイートして答えた。

Currently, they are using a combination of several models. Creative and Precise rely almost exclusively on various variants of GPT-4, while Balanced is more tuned for speed and search-related tasks.

— Mikhail Parakhin (@MParakhin) June 19, 2023

GPT-4は1つの大きな1テラパラメータ以上のモデルではなく、8つの小さなモデルを巧みに組み合わせたものだ。この「ヒドラ」モデルに使われたとされる専門家混合という技術的パラダイムは、オープンAIが新たに考案したものでも何でもない。この記事では、なぜこの技術的パラダイムがAI分野にとって非常に重要なのか、そしてOpenAIが3つの重要な目標を達成するためにどのように計画を見事に実行したのかを説明する。

注意点が2つある。

第一に、これは噂である。明確な情報源（ホッツとチンターラ）は確かなものだが、OpenAIのスタッフではない。パラヒンはMicrosoftで重役の地位にあるが、（GPT-4のアーキテクチャを）明確に確認したわけではない。これらの理由から、この話は大目に見る価値がある。とはいえ、非常に信憑性がある。

第二に、信用に値するものは信用しよう。GPT-4は、ユーザが言うようにまさしく素晴らしいものだ。内部アーキテクチャの詳細は変えられない。そのモデルが動作しているならば、それは役に立つものなのだ。1モデルだろうが8モデル（の混合）だろうが、役に立つことには関係ない。ライティングやコーディングのタスクにおけるそのパフォーマンスと能力は正当なものである。この記事は、GPT-4を非難するものではない。ただ、この記事は（GPT-4に対する）先入観をアップデートした方がいいかもしれないという警告を発しているのだ。

・・・

この記事は、AI、アルゴリズム、そして人々の間のギャップを埋めることを目的とした教育的ニュースレター「The Algorithmic Bridge」からの抜粋です。このニュースレターはAIがあなたの生活に与える影響を理解し、未来をより良くナビゲートするためのツールを開発するのに役立つでしょう。

thealgorithmicbridge.substack.com

The Algorithmic Bridge

https://thealgorithmicbridge.substack.com/subscribe

Bridging the gap between algorithms and people. A newsletter about the AI that matters to you. Click to read The Algorithmic Bridge, by Alberto Romero, a Substack publication with thousands of readers.

・・・

GPT-4をめぐる秘密

GPT-4を取り巻く理不尽なまでに大きな期待に対処するため、モデルの不満足な面を隠蔽しながら話題のトップに立ち続けたOpenAIの手腕に、私は拍手を送りたい。

1月、StrictlyVCのコニー・ロイゾス（Connie Loizos）が、Twitterで話題になっていたGPT-4の馬鹿げた100兆パラメータグラフ（※訳註3）について言及した時、アルトマンは彼女に「世間は（GPT-4について）失望したがっているようだし、実際そうなるだろう」と話した。彼は、2022年夏に訓練を終えたGPT-4が人々の（憶測にもとづく大きな）期待に応えられないことを知っていた。

（※訳註3）GPT-4が100兆パラメータモデルになるという憶測をビジュアル化したツイートには、以下のような画像が添付されていた。

This is a frightening visual for me.

The first dot is the amount of data Chat GPT 3 was trained on.

The second is what chat GPT 4 is trained on.

They are already doing demos.

It can write a 60,000 word book from a single prompt.

The only question I've had about AI… pic.twitter.com/DnAEMm60lh

— Alex Hormozi (@AlexHormozi) January 10, 2023

しかし、彼はOpenAIのほとんど神秘的な評判を失いたくなかった。そこでGPT-4を世間の目から隠し、神秘的なオーラをまとわせて、このモデルへの注目をさらに煽ったのだ。

OpenAIは、その時すでにChatGPTでその地位を確立していた。（Googleの方がAI研究開発の歴史が長く豊かであるにもかかわらず）大多数の目には、OpenAIこそがこの分野のリーダーとして映っていた。そのため、GPT-4が人々の望んでいるような画期的なものではなく、GPT-3からの大きな飛躍でもないことをOpenAIとして明確に認めることができなかったのだ。

そのため、OpenAIはGPT-4が本当に強力であることをほのめかしたり、暗示したりすることに注力してから（例えば、AGIの火花が散る、超知能は近い、など（※訳註4））、競争圧力の高まりを暗示したうえで同モデルの仕様を公開しないという決定について、（OpenAIのチーフサイエンティストである）イリヤ・スーツキーヴァー（Ilya Sutskever）に『The Verge』で擁護発言をさせるにいたった。

（※訳註4）Micosoftリサーチが2023年3月22日に初版を公開した論文「人工知能の火花：GPT-4の初期実験」では、GPT-4をさまざまな観点からその性能を評価した結果がまとめられている。こうした評価の総括として、さまざまな分野において人間に匹敵する能力を発揮することから、同モデルを「AGIの初期バージョン」と位置づけている。
また、OpenAIは2023年5月22日、人間の知的能力を凌駕する超知能の管理に関するブログ記事を公開している。

以上のようなOpenAIの秘密主義を読み解く主流的解釈は、次のようなものだった。「事業の存続と安全上の理由から、自社の技術をGoogleやオープンソースの取り組みに真似されるわけにはいかないので、OpenAIはGPT-4の仕様を公開しないのだ。また、GPT-4の（発表当時の）最高性能は、このアーキテクチャが科学的な偉業であることを示唆している。」

OpenAIは望むものを手に入れた。アルトマンは、同社の名声を勝ち取るという思いに正直にしたがった。GPT-4は、人々の（法外な）期待に応えられないものだったかも知れない。しかし同時に、同社はGPT-4に関してサブリミナル的な信号を発することで別の何かを示唆していた。示唆されていたのは、「GPT-4の仕様と性能は、魔法的なもの」ということだ。そして人々はそれを信じた。

それにしても、GPT-4は実際に魔法のようなものだった。それが動くのを見て、私たちはそう思ったのだ。もっとも、その魔法的なものは、多くの人々が革命的な成果だと認識するようなものに由来していない。古いトリックを再構築しただけのようなのだ。複数の専門家モデルを1つに統合し、それぞれの専門家が別々の分野、タスク、またはデータに特化するよう訓練することは、2021年に初めて成功した技術である（※訳註5）。つまり、2年前の技術なのだ。その技術を誰が開発したのか。Googleのエンジニアたちだ（ウィリアム・フェダス（William Fedus）やトレバー・カイ（Trevor Cai）など、彼らの何人かは後にOpenAIに雇われた）。

（※訳註5）Googleの研究チームは2021年1月11日、専門家混合モデルの改善方法をまとめた論文「Switch Transformers：シンプルで効率的なスパース性を持つ兆パラメータモデルへのスケーリング」を発表した。パラメータの一部分のみを使って出力するAIモデルアーキテクチャである専門家混合モデルには、通信コストの高さや訓練の不安定性などの課題があった。この課題に対して、専門家モデルに対するルーティングアルゴリズムを単純化することで解決を図った。この論文の成果により、パラメータが1兆を超える専門家混合モデル開発への道が開かれた。

OpenAIがGPT-4の開発にあたって、技術的な工夫を加えたのは確かなのだが（そうでなければ、Googleは独自のGPT-4を持っているか、それ以上のものを持っているはずだ（※訳註6））、このモデルがベンチマークで絶対的な優位を保っているのは、単に1つのモデルではなく8つのモデルだからだ。

（※訳註6）2023年7月、Googleは同社が提供する対話型AI「Bard」に画像認識機能を追加実装した（ただし、英語版のみ）。この実装により、画像認識機能を搭載したGPT-4とBardはほぼ同等の性能となった。

つまり、GPT-4は魔法的なのだが、OpenAIはこのモデルを一種のマジックショーとして私たちが見るように仕向けたのだ。このショーでは、巧みなミスディレクション（※訳註7）とスムーズな手品が巧妙にミックスされている。そしてトリックは、（専門家モデルの混合という）単なるリメイクにすぎない。

（※訳註7）ミスディレクションとは、注意を意図的にある方向に向ける現象やテクニックのこと。主に手品で活用される。この記事では、GPT-4の詳細仕様を隠ぺいすることで、世間の注意を同モデルの魔法性に向けたことがミスディレクションに喩えられている。

GPT-4の真相を隠すことでOpenAIが達成した3つのゴール

第一に、人々の想像力を解放した。OpenAIに懐疑的な人々はGPT-4の公開を非科学的な実践とみなしたが（※訳註8）、すべてを明かさない公開方法がモデルの力についての憶測を煽った。その結果、AGIとそれに対する計画の必要性という、同社が好むストーリーを確立できた。高度AI開発に関する安全要件（特に一般ユーザのため）と規制（彼らの目標に合ったもの）が最優先であると政府を説得できた。かくして幻想は完成した。GPT-4はピカピカの外見をしているのだから、中身も同じようにピカピカに違いない。そして、ピカピカなものは危険なものでもあり得る。

（※訳註8）ワシントン大学で自然言語処理を研究するエミリー・M・ベンダー（Emily M. Bender）教授は2023年3月15日（GPT-4が発表された翌日）、OpenAIの秘密主義を批判するツイートを連投した。

実際のところ、嫌味な例えをするならば、GPT-4は「トレンチコートを着たアライグマ」という眼差しから描かれるのが相応しい（※訳註9）。

（※訳註9）AIコミュニティHugging FaceのAIリサーチャーのサーシャ・ルチオーニ（Sasha Luccioni）は2023年6月21日、GPT-4を「8匹のトレンチコートを着たアライグマの専門家」と喩えてツイートした。ちなみに、アライグマはネイティブ・アメリカンの神話でコヨーテやオオカミを騙すトリックスターとして描かれている。

第二に、OpenAIがオープンソースの取り組みやグーグルやAnthropicのような競合他社から、自分たちが発明・発見したとされる技術がコピーさえるのを効果的に防いだ。しかし、GPT-4で築いたと思われていた堀は、実際にはなかった（※訳註10）。LLaMAはGPT-4と競争できないが、8つのLLaMAを結びつければ競争できるかも知れない。人々はリンゴとオレンジを比較していたのが、そのことに気づいていなかったのだ（※訳註11）。だから、私は勘違いしていたのかも知れないし、オープンソースは結局それほど遅れていなかったのかも知れない（※訳註12）。

（※訳註10）半導体を対象としたコンサルティング会社SemiAnalysisは2023年5月4日、Google社員がリークした文書「私たちには堀がなく、OpenAIにもない」を公開した。同文書は、GoogleやOpenAIが採用しているクローズドなAIモデル開発がオープンソースのそれに対してもつ技術的優位性が、早晩なくなるだろうと主張している。この主張の根拠として、Metaが登録ユーザ向けに無償公開していたLLaMAのアーキテクチャが流出して以降に生じたオープンソースの大規模言語モデル開発の目覚ましい進歩を挙げている。こうした状況を鑑みて、Googleもクローズドな開発方針を転換してオープンソース開発コミュニティと協力関係を築くべき、と同文書は主張ている。

（※訳註11）「リンゴとオレンジの比較」という表現は、GPT-4と既存モデルは本質的に既知の技術で開発された同じカテゴリーのもの、ということを示唆している。しかし、この記事で解説しているようなOpenAIのマーケティング戦略によって、世間はGPT-4と既存モデルに本質的な差がないことに気づかなった。

（※訳註12）この記事の著者ロメロ氏は、2023年6月1日に自身のニュースレターで公開した記事『オープンソースAIは勝利しない ― 既存企業が勝っている』で、AIモデル開発におけるオープンソースコミュニティは、クローズドにAIモデルを開発している大手AI企業の覇権を覆せないことを主張した。この主張の根拠として、以下のような3項目が挙げられている。

オープンソースコミュニティが大手AI企業の覇権を覆せない3つの理由

チューニングの限界：AlpacaやVicunaのようなオープンソースの大規模言語モデルは、GPT-3.5のような既存モデルをチューニングして性能向上させたうえで公開された。しかし、この「既存モデルのチューニング（厳密にはSelf-Instruct）」には限界があるという研究もあり、簡単に既存モデルを凌駕できないことが判明した。
エッジAIの限界：オープンソースの言語モデルの典型例である小規模なオンデバイス言語AIは、スマホのような小規模なデバイスで利用する場合、すぐに計算リソースの限界に達して（ChatGPTのような）クライアントサーバ型の大規模言語モデルに太刀打ちできなくなる。
既存企業が持つ堀：実際に多くのユーザが使っている製品にAIモデルを実装できる既存企業は、ユーザのシェア獲得においてオープンソースコミュニティより圧倒的に有利である。

OpenAIが築いた堀は、GPT-4を実際よりも印象的に見せていた。

最後に、OpenAIはGPT-4が実際にはそれほどAIのブレークスルーではないという真実を隠し、目撃者、部外者、そしてユーザが、この分野における破竹の勢いのように見える進歩に寄せていた信頼を失うのを効果的に防いだ。細かいことを言えば、OpenAIが8つのGPT-3.5モデルを重ねて訓練・実行するのに十分な資金とGPUを持っていたのに加えて、他社が発明した古い技術を誰にも言わずにほじくり返す大胆さを持っていた結果として、GPT-4が誕生したのだ。

GPT-4はビジネス・マーケティングのマスタークラスだったのだ。

結論

ホッツが示唆するように、OpenAIや業界全体がネタ切れなのかも知れない。企業、メディア、マーケティング担当者、そしてarXivの動向を見るとAIはマイルストーンに次ぐマイルストーンで急速に進歩しているように見えるが、実際はそんなに進歩していないかも知れない。GPT-4はGPT-3からそれほど飛躍していないのかも知れないのだ。

GPT-4の完全公開版が入手できるまでは、以上の噂は噂のままだ（私はOpenAIに問い合わせたが、まだ返事はない）。しかし、この話の信憑性を否定するのは難しい。ソースの価値に加えて、全体的な一貫性がある。だから私はこのニュースに高い信頼性を与えている。

この件に関するホッツの結論を引用しよう「企業が秘密主義であると時はいつも、それほどクールではない何かを隠しているからである。GPT-4は結局のところ、それほどクールではなかったのかも知れない」

・・・

もしこの記事が気に入ったなら、私は週3回、AIと人間の橋渡しをするニュースレター「The Algorithmic Bridge」を書いています。このニュースレターは文化からビジネス、哲学に至るまで、AIが他のあらゆるものとどのように相互作用するかを理解するのに役立つでしょう。

また、こちらの私の紹介リンクを使って会員になれば、Mediumで私の仕事を直接サポートし、無制限に私の記事にアクセスできるようになります！:)

原文
『GPT-4’s Secret Has Been Revealed』