GPT-3とは｜無限の可能性を秘めた最先端モデルは何がすごいのか

みなさんは「GPT-3」という機械学習モデルをご存知でしょうか？

GPT-3は、自然言語処理のモデルです。SNSを中心にまるで人間のような振る舞いをすると大きな話題になっています。

GPT-3は、2020年に最も話題を集めた機械学習モデルといっても過言ではありません。今後も要注目のGPT-3ですが、あまり詳しく知らないという人も多いと思います。

そこで本記事では、「GPT-3の何が凄いのか」について歴史的な流れを含めながら紹介していきます。

自然言語処理についてはこちらで詳しく図解しています>>

▼GPT-3を使った事例はこちら

AIはプログラマーを代替するのか？>>

GPT-3にチューリングテストを試してみる>>

目次 [非表示]

GPT-3とは
GPT-3はGPT-2からどこが進化したのか
- モデルサイズの増大
- データ入力の多様化
GPT-3の性能実験
おわりに

GPT-3とは

GPT-3は、Open-AIという研究所が開発した言語モデルです。

「3」はバージョン名を意味していて、Open-AIが過去に開発したGPTシリーズはGPT、GPT-2とあり、GPT-3は3番目に開発された言語モデルです。

そのモデルの性能はバージョンを重ねるごとに飛躍的に向上しています。それに応じてGPT-3は、まるで人間のような振る舞いをするように徐々に進化してきました。

現行のGPT-3だけでなく、前モデルのGPT-2がリリースされたときも大きな注目を集めました。

Open-AIは当初、フェイクニュース生成などへの悪用を懸念を表明し、「危険すぎるモデル」として小規模モデルのみの公開としたためです（現在はフルモデルが公開されています）。

しかし悪用される危険性があることから、GPT-2やGPT-3のモデルは公開されておらず、現在はAPIのみで使用可能となっています。また、API使用の際も出力結果の安全性担保のため、危険な出力には以下のようなアラートが出る仕様になっています。

構造的には、GPT-3はGPT-2とほぼ同じです。Transformerというアーキテクチャが96層重なっていて、大規模データを用いて学習した言語モデルとなっています。

本記事ではそれらモデルの構造に関する説明は割愛して、GPTの過去シリーズの比較を主に取り上げます。

Transformerについて詳しくはこちらの記事で解説しています>>

GPT-3はGPT-2からどこが進化したのか

そんなGPT-3ですが、前モデルGPT-2と比べて大きく進化した点は2つです。

モデルサイズが飛躍的に増大したこと
データ入力形式が多様化したこと

２つの特徴それぞれについて紹介していきます。

モデルサイズの増大

モデルサイズ（＝学習できるパラメータ数）が大きくなるほど性能が良くなることはGPT-2の論文でも言及されていました。以下はGPT-2の論文からの引用。

横軸はモデルの大きさ、縦軸は性能です。性能の値が低くなるほど良い指標を意味します。

この図によると、モデルのサイズが大きくなればなるほど性能が良くなっています。これを素直に実行したのがGPT-3です。

この図は各モデルサイズごとに性能がどこまで良くなるかをプロットした図です。下に線が伸びれば伸びるほど良い結果を意味します。

GPT-3は一番右の黄色い線です。すべてのモデルの中で一番良い性能であることがわかり、GPT-2と同等のモデルサイズは右から5番目の線であることを踏まえるとかなり精度が改善されています。

ここで、訓練されるパラメータ数に注目すると、GPT-2は1.5Bで、GPT-3のパラメータ数は175Bで2桁も差があります。つまり、訓練すべきパラメータが2桁も増えたことになるのです。

論文中では、これは計算量（＝訓練に必要な計算の量）とのべき乗則として表されていますが、この規則に従うとモデルは大きければ大きいほど良い性能を示すことになります。

この性能のスケーリング則は今後の自然言語処理モデルのマイルストーンとなるでしょう。OpenAIは性能更新のために次なる超大型モデルを開発しているものと推測されます。

しかし、ここには重大な問題があります。モデルサイズが増大するにつれて計算量が飛躍的に増加するのです。加えて、学習データも「GPT-2: 40GB → GPT-3: 570GB」と大きく増加しています。

この極めて膨大な計算量のために、一説にはGPT-3の訓練には460万ドルかかると言われており、このために元論文でもAttention機構に対して計算量削減のための工夫がされています。

データ入力の多様化

GPT-2とGPT-3は、特定のフレーズの続きをモデルに予測させることによって出力を生成します。例えば以下のような入力を与えます。

上の例では、1行目で「英語からフランス語に翻訳してくださいね」と入力して、2行目で「”cheese”がフランス語で何になるか」を聞いています。

「=>」の後の自然な続きを生成することで翻訳を実行しているのです。つまり、タスク特有の訓練をせずに汎用的な言語モデルから答えを抽出できているのであり、それこそがGPTのすごいところです。

そして、このモデルに入力するデータ形式の多様性が高くなったのもGPT-3の特徴です。

GPT-3は、In-context learningという手法を導入しており、いくつかの例を入力シーケンスに連結させることで、より柔軟な入力形式を取れます。

また、In-context learningによって大幅な精度向上を実現しています。

GPT-2ではZero-shotという形式のみを採用していましたが、GPT-3ではZero-shot、One-shot、Few-shotの3つの入力形式が採用されています。

▼図中の用語の説明

「Task description」はタスクの説明文のことで、翻訳の場合だと「Translate English to French」、アナグラムの場合だと「Please unscramble the letters into a word, and write that word:」などを入力の先頭に加えます。

Exampleはタスクの入力と正解出力の例で、タスクごとに固有の形式をとります。例えば、翻訳の場合は「<入力例> => <モデルで出したい表現>」、対話だと「Human: <入力例> AI: <モデルで出したい表現>」。

Promptは入力の後にモデルの回答が来る形式を取ります。翻訳の場合は「<入力例> => 」。