GPT-4解説：その性能、応用事例、安全対策、そしてリスク評価を眺望

画像出典：OpenAI記事

はじめに
新時代のマルチモーダルモデル「GPT-4」の実力
GPT-4の応用事例
GPT-4の制限事項と安全対策
- 幻覚
- 敵対的な質問
より高度なリスク評価
- 「時間をかけて着実に進める」AGI開発ポリシー
- SF的なリスク評価
まとめ

はじめに

2023年3月14日、OpenAIは高度大規模言語モデルGPT-4を発表しました。この記事では同AIの性能、応用事例、安全対策、そしてリスク評価を解説することで同AIの全容を眺望します。

新時代のマルチモーダルモデル「GPT-4」の実力

GPT-4と（ChatGPTのベースモデルである）GPT-3.5の決定的な違いは、GPT-4には画像認識機能が実装されていることです。画像認識が可能になったことにより、例えば「食材が写った画像を認識して可能なレシピを提案する」のような画像からの推論に対応しました。

言語能力や推論能力に関しても、GPT-4はGPT-3.5と比較して向上しています。

各種テストから見るGPT-4の能力

GPT-4解説記事にはGPT-4とGPT-3.5を比較するために実施した各種テストの結果がまとめられています。アメリカの司法試験をはじめとする人間が受験するテストをこれらのモデルに回答させた結果をまとめたのが、以下のグラフです。

GPT-4とGPT3.5のあいだで大きく性能差が認められたアメリカ司法試験では、前者は受験者の上位10%となりました。

各種テストの正解率からみるGPT-4とGPT-3.5の性能比較。画像出典：GPT-4解説記事

機械学習モデル用に設計されたベンチマークも実施した結果、以下のグラフに示すようにGPT-4はほとんどのベンチマークにおいてGPT-3.5およびOpenAI以外が開発したモデルの最高性能値を凌駕しました。

各種機械学習ベンチマークからみるGPT-4と既存モデルの性能比較。GPT-4解説記事をもとに著者がグラフ作成
「社外SOTA」とは、テスト用のファインチューニング未実施の既存モデルの最高性能値
「評価用社外SOTA**」とは、テスト用のファインチューニングを実施した既存モデルの最高性能値

また、各国言語能力をテストするMMLUベンチマークを実施したところ、以下のグラフのように26ヶ国語中24ヶ国語においてGPT-4はGPT-3.5の英語能力を上回りました。例えば、GPT-3.5の英語能力は精度70.1%なのに対して、GPT-4の日本語能力は精度79.9%でした。

MMLUベンチマークにみるGPT-4と既存モデルの言語能力比較。画像出典：GPT-4解説記事

画像認識に関しても既存の学術的ベンチマークを実施したところ、以下のグラフに示すように、ほとんどのベンチマークで既存モデルを凌駕しました。

各種画像認識ベンチマークからみるGPT-4と既存モデルの性能比較。GPT-4解説記事をもとに著者がグラフ作成
「社外SOTA」とは、テスト用のファインチューニング未実施の既存モデルの最高性能値
「評価用社外SOTA**」とは、テスト用のファインチューニングを実施した既存モデルの最高性能値

画像認識によって可能となったこと

GPT-4は画像から認識した情報にもとづいて各種推論やテキスト生成を実行できるため、ChatGPTでは不可能だったタスクが可能となります。実行可能となったタスクに関して、GPT-4解説記事では以下のようなものを紹介しています。

「以下の画像で面白いところはどこか」という質問に対して、「旧世代の接続デバイスであるVGAコネクターを模したLightningケーブルであるところ」と回答します。こうした回答を生成するには、VGAコネクターが旧世代のコネクターであることなどの技術的知識とあえて旧世代の技術を使うのが一種のユーモアであることを理解している必要があります。

「コネクターのユーモア」をGPT-4に問う画像。画像出典：GPT-4解説記事

また、フランスの理工系高等教育機関エコール・ポリテクニークの試験問題を撮影した画像を入力として与えると、その問題に回答します。

エコール・ポリテクニークの試験問題を撮影した画像。画像出典：GPT-4解説記事

操作性のカスタマイズ

GPT-4は、AIの口調をカスタマイズ可能となっています。口調のカスタマイズについては、OpenAI公式ブログ記事『AIシステムはどのように振る舞うべきか、誰が決めるべきなのか？』で詳しく論じられているのですが、簡単に言えばユーザに合わせてAIを口調を変えたほうがUXが向上するというアイデアをGPT-4で実現しています。

GPT-4には基本となる口調がありますが、ユーザに合わせて（古代ギリシアの哲人）ソクラテス風に数学を教えたり、シェイクスピア調に税務処理を行うことが可能なのです。

GPT-4の口調のカスタマイズに関する概念図：画像出典：OpenAI公式ブログ記事

利用方法

GPT-4の利用方法は、2023年3月時点ではChatGPT Plusからの利用とAPIによる利用の2通りあります。

ChatGPT Plusとは有料版ChatGPTのことであり、月額20米ドルを支払うことでアクセス優先権の取得や新機能の試用が可能となります。もっとも、GPT-4に関してはアクセスに上限が設定されており、今後数か月のあいだに次第に上限を引き上げていく予定です。

GPT-4のAPIにアクセスするには、ウェイティングリストに登録する必要があります。アクセス可能となると、プロンプトトークン1kあたり0.03米ドルで利用できるようになります。ただし、1分間に40kトークン、200リクエストまでというレート制限があります。

GPT-4 APIアクセスプランには通常より大きなモデルとなるGPT-4-32kも用意され、こちらはプロンプトトークン1kあたり0.06米ドルです。

なお、GPT-4の画像認識機能は2023年3月時点では上記利用方法ではまだ利用できず、後述するOpenAIとアプリを共同開発したBe My Eyes社のみ同機能を活用しています。同機能の提供は、順次拡大していく予定です。

学習データとアーキテクチャは非公開

ところで新しい言語モデルが発表されると、モデルサイズが気になるところです。しかしながら、GPT-4に関してはモデルサイズ、学習データ、アーキテクチャ、学習環境といった主要なスペック情報は非公開としています。この事情に関して、GPT-4テクニカルレポートの「2 本テクニカルレポートの範囲と限界」では、以下のように説明されています。

本レポートではGPT-4 のような大規模モデルの競争環境と安全性を考慮し、アーキテクチャ（モデルサイズを含む）、ハードウェア、トレーニング計算機、データセット構築、トレーニング方法などに関する詳細な情報は記載していない。

主要スペックを非公開としたことに関して、OpenAIチーフサイエンティストのIlya Sutskever氏はテック系メディア『The Verge』の2023年３月16日公開のインタビュー記事において、以下のような2つの理由を挙げています。

競争面：GPT-4の開発にはOpenAIの大多数のメンバーが多くの時間を費やした。同様のモデルを開発したい企業は多数あり、開発競争という側面から見ると大規模言語モデルは成熟している。ゆえに、主要スペックを非公開とした。
安全面：GPT-4のような高度な大規模言語モデルは、現時点ではその影響力は限定的ではなるが、その能力がある段階に達すると多大な被害を簡単に与えられるようになる。それゆえ、こうしたモデルを非公開とするのは自然な流れである。

もっとも、AIを安全に開発するためにこそ「AI開発はオープンソースにするべき」というスタンスも主張可能です。このようなAI開発をめぐる情報公開の在りかたは、今後ますます議論されると予想されます。

GPT-4の応用事例

OpenAIはGPT-4の発表に先行して、一部の企業と同AIを活用したアプリを開発していました。そうしたアプリはGPT-4紹介記事で言及されており、以下ではその一部を紹介します。

視覚障がい者に代わって世界を見てくれる「Be My eyes」

2012年創業のAIスタートアップBe My eyesは、視覚障がい者をサポートする画像認識モバイルアプリBe My Eyesを開発・提供しています。同アプリは、GPT-4の導入によってより実践的なサポートが可能となりました。例えば食材を画像認識すると、その食材が何であるかをユーザに伝えるのに加えて、その食材から調理できるメニューの情報も提供するようになったのです。

Be My Eyesを使っている様子。画像出典：GPT-4活用事例記事

視覚障がい者にとってディスプレイの情報を知るのは、困難な作業です。現在ではディスプレイに表示されたテキストを読み上げる機能がありますが、ショッピングサイトのような類似した情報が羅列されているウェブページをテキスト読み上げから理解するのは難しい場合があります。こうした課題に対して、Be My EyesはGPT-4を活用して情報を要約して重要な箇所だけ読み上げるというソリューションを実現しました。

生徒に問いかけるKhan Academyの「Khanmigo」

オンライン学習講座を提供するKhan Academyは、GPT-4を活用した教育用AIアシスタント「Khanmigo」を発表しました。同AIは、生徒に問題に関する問いかけをすることで生徒に問題に対するより深い理解を促します。例えば「なぜそのように答えたのか」「もしそのような答えならば、どうなるのか」と問いかけることで、問題の背景にある概念に注意を向けさせるのです。

Khan Academyは、教師がGPT-4を活用できるにすることにも取り組んでいます。例えば教材をプロンプトを入力するだけで作成できるようになれば、教師の負担は軽減されるでしょう（注釈1）。

YouTubeで公開されているKhan AcademyのGPT-4活用を解説する動画では、同AI活用のさまざまなアイデアが語られています。そのなかには、生徒が歴史上の人物との会話を通して歴史を学ぶ、教師と生徒が一緒に学習計画を立案するといったことがあります。

（注釈1）アメリカ・プリンストン大学の研究チームはGPT-4が発表される前の2023年3月2日、『ChatGPTのような言語モデルは職業と産業にどのような影響を与えるのか』という論文を発表した。この論文では、言語モデルの進化によって失業リスクに晒される職業として、英語教師をはじめとする各科目の教師を挙げている。GPT-4の発表によって、AIを活用できない教師はますます失業リスクに晒されると予想される。

言語能力と検索が融合した「Bing AI」

GPT-4発表と同日の2023年3月14日、MicrosoftはBingの会話機能にGPT-4を活用したことを明らかにした記事を公開しました。この記事によりBing AIは検索とGPT-4が融合したアプリであることが判明しました。

Bing AIにおける言語能力と検索の連携については、Microsoftが2023年2月28日に公開した記事『新しいBing の構築にあたって』で解説されています。この記事によると、Bing AIは検索エンジンとしてのBingが取得した情報をGPT-4に渡した後、同AIがチャット形式の回答を生成します。こうした検索と回答生成の連携技術は、Prometheus（人類に火を与えたギリシア神話の神にちなんで命名と推測）と呼ばれます。

Prometheusテクノロジーの模式図。画像出典：Microsoftニュース記事

Bing AIのような検索と回答生成が連携するアプリは、今後さまざまなものが開発されると考えられます。ChatGPTが発表された当初、Googleが覇権を握る検索ビジネスは終焉するのではないかという予想が語られましたが、GPT-4のような高度な会話AIの登場によって検索は新次元に進化するのかも知れません。

GPT-4の制限事項と安全対策

大規模言語モデルは、事実とは異なる情報を事実のように語る「幻覚（hallucination）」や差別的な内容を含む回答を生成するバイアスといった欠点を抱えています。こうした欠点に関して、GPT-4の開発では以下のような取り組みがありました。

幻覚

幻覚に関して「学習」や「技術」を含む9つのカテゴリーにおいて、ChatGPTV2～V4とGPT-4が生成する回答のファクトチェックをOpenAIで実施したところ、GPT-4がもっとも事実と合致する回答を生成していることが判明しました。

GPT-4とChatGPTを対象としたファクトチェック結果をまとめたグラフ。画像出典：GPT-4解説記事

もっとも、GPT-4が幻覚を含む回答を生成する可能性は依然として存在するので、重要な判断において同AIの回答を活用する場合、人間の専門家によるファクトチェックを行う等の対策が不可欠となります。

敵対的な質問

言語AIの倫理的性能を測定するベンチマークにはTruthfulQAがあります。このベンチマークは、誤った信念や誤解を抱いていると誤答するような質問集です。それゆえ、このベンチマークで正解するためには人間の文章をまねて回答を生成するのではなく、正しい信念を論拠とする必要があります。

GPT-4とGPT-3.5をはじめとする既存モデルに対してTruthfulQAを実施したところ、GPT-4がもっとも高いスコアを記録しました。この結果は、GPT-4がもっとも偏見の少ない回答を生成できることを意味しています。

GPT-4と既存モデルにTruthfulQAを実施した結果をまとめたグラフ。画像出典：GPT-4解説記事

より高度なリスク評価

GPT-4の発表にあたっては、幻覚やバイアスのような既知のリスクに加えて一見すると荒唐無稽なように思われるリスクについても検討しています。こうした杞憂に終わるかも知れない慎重なリスク評価を行う背景には、OpenAIが考えるAGI開発ポリシーがあります。以下ではこうしたポリシーを確認したうえで、より高度な安全対策に言及します。

「時間をかけて着実に進める」AGI開発ポリシー

OpenAIのAGI開発ポリシーは、同機関のCEOであるSam Altman氏が執筆した2023年2月24日公開の公式ブログ記事『AGIとそれ以降のプランニング』で論じられています。AGIの実現を標榜する同機関は、その目標を達成するにあたりプロジェクトを「タイムライン」と「離陸期間」という2つの評価軸から考察します。

AGI開発プロジェクトにおけるタイムラインとは、AGIを実現するまでに行うアップデート等の改良作業全般の履歴とその頻度を意味します。タイムラインが短い場合、アップデートは頻繁に繰り返されるのでプロジェクトの軌道修正が容易となります。対してタイムラインが長いとアップデートが少なくなるので、軌道修正が難しくなります。

AGI開発における離陸期間とは、AGIを実現するまでに費やす時間を意味します。離陸期間が短いと、人類はAGIの影響力を十分に理解できないままにAGIを使わざるを得なくなります。反対に離陸期間が長いと、AGIを十分に理解したうえでの実用化が可能となります。

AGI開発プロジェクトの在りかたを考えるに当たっては、タイムラインの長短と離陸期間の長短の組み合わせにより4つのタイプが想定されます。Altman氏によれば、望ましいAGI開発プロジェクトとは「タイムラインが短く離陸期間が長い」ものとなります。このタイプのプロジェクトは、軌道修正が容易であると同時にAGIを理解する時間的猶予が十分に確保できるものとなります。この開発方針をふまえれば、GPT-4はAGI実現までの長い道のりの一歩に過ぎず、今後もアップデートを繰り返すことがわかります。

OpenAIのAGI開発ポリシーの特徴を示した2軸マトリクス。画像出典：OpenAI公式ブログ記事にもとづいて著者が作成

以上のようなAGI開発ポリシーを遵守したうえで、OpenAIは以下のような事項に留意することを約束しています。

慎重なリスク評価：AGIの実現が現実味を帯びるにつれて、そのAIが及ぼす影響は甚大になると考えられる。それゆえ、AGI開発にあたっては、開発初期の段階から予期せぬリスクも想定すべきである。こうしたリスク評価が杞憂に終わるのは、むしろ喜ばしいことである。
能力と安全性の両立：AGI開発にあたっては、その能力を開発すると同時に安全性を確保しなければならない。能力と安全性は、常にバランスを保つ必要がある。
外部機関による監査：AGIのリスク評価はその開発機関のみに委ねるべきではなく、外部の監査機関も関わるべきである。理想的には、世界規模のAGIリスク監査体制が構築されるのが望ましい。

GPT-4はGPT-3と比較して、着実にAGI実現に近づいたAIと言えます。それゆえ、GPT-4のリスク評価に関しては、GPT-3では想定されていなかったリスクについても考慮すべきなのです。

SF的なリスク評価

GPT-4のテクニカルレポートに結合しているGPT-4のシステムカードでは、現実に生じているわけではないが生じる可能性のあるリスクが考察されています。こうした言わば「SF的（Science FictionあるいはSpeculative Fiction）」なリスクとして、以下では5項目を紹介します。

大量破壊兵器の製造：核兵器や生物兵器のような大量破壊兵器の製造にGPT-4を活用できる。具体的には、その製造方法に関する情報収集に活用され得る。（Google検索のような）既存の検索方法とGPT-4による情報収集を比較した場合、GPT-4のほうが大量破壊兵器製造に関する情報を迅速に収集できた。また、実際に製造する場合に使う施設や設備に関する情報も収集できた。その一方で大量破壊兵器の具体的な製造手順を尋ねた場合、幻覚が混入するため、回答された手順は不正確であった。それゆえ、GPT-4の活用によって容易に大量破壊兵器が製造できるわけではない。
権力追求的な行為：高度なAIは、任意の目的を遂行するために権力追求的な行為を実行するリスクがある。「権力追求的な行為」とは目的を遂行するために自身の影響力を増大させる行為を指し、具体的には自己複製がある。調査の結果、GPT-4を活用した自己複製は実行不能であるが、盲目の人間と詐称したうえで人間ユーザに協力してもらいCAPTCHAを解くのは可能であった。また、権力追求的な行為を実行できるようにGPT-4をファインチューニングする可能性もあるので、このリスクについては引き続き研究が必要である。
経済への影響：GPT-3およびGPT-3.5の時点で、これらのAIがコールセンター業務やライティング支援を強化する効果が確認されている。GPT-4については、このAIが特定の労働を自動化することが予想されており、法律サービスのような高度に知的な労働を代替する可能性がある。また、GPT-4の利活用の程度によって、新たな経済格差や社会の分断が生じる可能性もある。
AI開発競争の加速：GPT-4の発表は、AI開発を刺激し加速する契機となる。AI開発競争の過熱は、AI開発におけるリスク評価の軽視、安全基準の低下につながる恐れがある。リリース初期におけるアクセス制限などによってAI開発競争の減速は可能ではあるが、その効果は限定的である。さらにAI開発競争の激化は、競合製品の需要増大というかたちで国際秩序に影響を与え得る。
過信：ユーザがGPT-4の使用に慣れてくると、その回答を信頼するようになる。しかし、同AIの使用に依存するようになると、回答を批判的に検討しなくなり間違いを見過ごす過信が生じる。この問題の緩和策には、同AIを活用したアプリの開発者がユーザに対して、過信に注意喚起するメッセージを発することが考えられる。