OpenAI経済圏の幕開け｜OpenAI Dev DayはAI史の転機となったのか

最終更新日： 2023年11月18日

2023年11月6日、ChatGPTで知られるOpenAIは、開発者向け会議「OpenAI Dev Day」を開催した。2か月以上前より告知されており、CEOのサム・アルトマン氏も期待値を高める発信をしていたことから、世界中から注目されるイベントとなった。

日本時間午前3時、YouTube上で公開された新たな情報は下記の通り。

GPT-4 Turboの導入: 128,000トークン（128K）までのコンテキストをサポート。2023年4月までの情報を提供する能力を持ち、旧モデルよりもかなり安価となった。
JSONモードの導入: 開発者がモデルの応答に対する制御をより行えるようにするための新機能。
DALL-E 3・GPT-4VのAPI連携: APIを通じた画像入力機能を含む利用可能性に関する更新情報。
GPTsのリリース: 特定の目的に合わせたChatGPTのカスタマイズ版を作成できる新機能。
GPT Storeの登場予告: 開発者が自らのGPT作品を公開し、収益化することが可能になるプラットフォーム。
Assistants APIの公開: アプリケーションにAIアシスタント機能を統合できるようにするAPIで、音声認識やテキストから音声への変換、改良された関数呼び出しなどの機能を含んでいる。
GPT-4のファインチューニング機能: 開発者がモデルを特定のドメインやデータセットに合わせて調整できる。

本記事ではこれらの発表の内容を深掘っていく。

① GPT-4 Turboの導入

OpenAIは、大規模言語モデル「GPT-4」のアップグレード版である「GPT-4 Turbo」を発表した。従来のGPT-4と比べて、以下の点が大きく改善されている。

コンテキストウィンドウが128Kに拡張。ChatGPTが会話の内容をより忘れにくくなった
学習データが2023年4月まで更新
入力トークン0.01ドル、出力トークン0.03ドルと、従来よりも安価に利用可能に

これらの改善により、GPT-4 Turboは、従来よりも高性能かつ安価で、より幅広い用途に活用できるようになった。

コンテキストウィンドウの拡大で、より複雑な質問にも対応可能に
コンテキストウィンドウとは、大規模言語モデルが処理できるテキストの量を示す指標である。
コンテキストウィンドウが大きいほど、大規模言語モデルは、より多くの情報を記憶した状態で、応答を生成することができる。

従来のGPT-4のコンテキストウィンドウは8k（8000トークン）、API版でも32k（32000トークン）だった。一方で通常のGPT-3.5は16kと、性能以外の面、つまりトークンの差で使い分けることができていた。最近登場したClaudeは100kトークンと、その規格外のトークン量で話題になったことも記憶に新しい。ところがGPT-4 Turboのコンテキストウィンドウは128Kトークンであり、大容量トークンで話題になったClaudeすら軽く超えてしまったのである。

コンテキストウィンドウの拡大だけでなく、学習データが2023年4月まで更新された。これは、GPT-4 Turboが、ウェブブラウジングなしでも2023年4月までであればより新しい情報にも対応できることを意味する。

これにより「ChatGPTの知識は古い」という認識を大きく覆し、より複雑な質問にも対応可能になった。例えば、以下のような質問に対して、より適切な回答を生成できるようになる。

「2023年までの日本の歴史について教えてください」
「2023年のオリンピックの開催国はどこですか？」
「2023年の流行語は何だと考えられますか？その理由も考えてください」

GPT-4がリリースされた2023年3月では、ChatGPTが学習していたのは2021年の9月までのデータだった。8か月で2023年4月までのデータを追加学習したのである。週次、日次でモデルを更新する未来もそう遠くないかもしれない。

価格の低下により多くの人が利用可能に

GPT-4 Turboは、従来のGPT-4と比べて、入力トークン0.01ドル、出力トークン0.03ドルと、安価に利用可能になった。これは、より多くの人がGPT-4 Turboを活用できるようになることを意味し、また料金を払ってまでGPTのAPIを利用してプロダクト開発をしていた人々にとっては、開発コストを純粋に抑えることができる朗報だ。

ChatGPTのAPIを利用したさらに多くのプロダクトの開発が加速し、さまざまなインターフェースを通して生成AIを活用できる未来がグッと近くなった発表だろう。

② JSONモードの導入

JSONモードは、開発者がAIモデルとやり取りする際に、より高度な制御を可能にする新機能だ。これにより、モデルからの応答をJSON形式で得ることができ、API呼び出しや関数の実行などの開発作業を容易にすることを目指している。Function callingをわざわざ使わなくても、JSON形式の回答を返してくれる。

JSONモードの特徴:

有効なJSON応答: AIモデルが有効なJSON形式で応答を返すことを保証
API呼び出しの容易化: JSON応答を直接使用して、他のAPIとの統合が簡単に
関数の同時呼び出しの改善: 複数の関数を一度に呼び出すことができ、AIモデルが指示に従って動作する能力が向上

これにより、今までは1つの内容、1つの指示しかできなかったものが、1つの内容から意図をくみ取り、複数の指示に再構成できるようになった。

JSONモードの利点:

開発者の効率向上: JSON応答は開発者が使い慣れたフォーマットであり、バックエンドシステムとの連携がスムーズに
エラーハンドリングの改善: JSON形式のデータは、エラーがあった場合の処理が簡単で、開発者がバグを特定しやすく
フロントエンドへの統合: JSON形式はWebフロントエンドとの統合が標準的であるため、フロントエンドアプリケーションでAIモデルの応答を直接利用する場合に便利に

JSONモードの導入は、特に大規模なアプリケーションや複雑なシステムを構築する開発者にとって、AIモデルをより制御しやすくする大きな一歩であると言える。

③ GPT-4V・DALL-E 3のAPI連携

「OpenAI Dev Day」ではGPT-4 Turboだけでなく、GPT-4V、DALL-E3のAPI公開についても発表された。

これはマルチモーダル機能を活用可能性を意味し、テキストと画像を組み合わせた新たな価値を生み出すことができるようになった。

GPT-4VのAPI連携で可能になること

GPT-4Vは、ユーザーの提供した画像をChatGPTが認識し、状況を理解したり説明することができる機能だ。これにより、テキストと画像を組み合わせた新たな価値を生み出すことができる。

例えば、以下のようなユースケースが考えられる。

画像キャプションの生成：画像に写っている内容を、テキストで説明するキャプションを生成することができる。
画像の詳細分析：画像に写っている人物や物体、背景などの情報を、詳細に分析することができる。
画像とテキストの翻訳：画像とテキストを組み合わせたコンテンツを、別の言語に翻訳することができる。

これらを組み合わせることで下記のような具体的な活用事例が考えられる。

観光ガイドアプリ：観光地の写真を撮影すると、その場所の歴史や見どころを、テキストで説明するキャプションを生成
視覚障害者向けアプリ：画像に写っている内容を、テキストで説明するキャプションを生成することで、視覚障害者が画像を理解できるように
医療画像診断：X線やMRIなどの画像を分析することで、病気の早期発見や治療に役立つ情報を提供（OpenAIのガイドでは医療画像の使用は制限されているが、将来的には大きな利用可能性がある）

GPT-4VのAPI連携は、AIを活用したアプリの開発をより身近なものにする、画期的な技術である。今後、さまざまな用途で活用されることで、私たちの生活に大きな変化をもたらしてくれるだろう。

DALL·E 3のAPI連携で可能になること

DALL·E 3は、先日リリースされたOpenAI開発の画像生成AIである。ChatGPT上で、テキストから画像を生成することができ、従来のDALL・Eと比べて、よりリアルで詳細な画像を生成できるようになっている。

DALL·E 3のAPI連携は、さまざまな用途に活用することができるだろう。例えば、以下のような用途が考えられる。

教育：教材の作成や、学生の創造性を促すためのツールとして活用
エンターテインメント：自作ゲームや動画などのコンテンツの作成に活用
マーケティング：商品やサービスの宣伝に活用

GPT-4Vと連携すれば、ユーザーが画像を入力し、それに基づいた画像生成を行うことも可能だ。後述のGPTsなどのカスタムチャットボットにおいて、できることが飛躍的に向上している。これまでのテキストコミュニケーションのみだったChatGPTにおいて、新たな発想がユーザーに求められている。

他にもTTS（Text to Speech）と呼ばれる音声合成機能もアップデート。イベントでは英語のみの実演だったが、日本語に対応した場合、DALL-E3で絵本を作成して読み聞かせる、なんてこともできるようになるかもしれない。

④ GPTsのリリース

OpenAIはChatGPTのカスタムバージョンを作成できる新機能、GPTsを発表した。

GPTsとは、ユーザーが特定の目的に合わせてGPTに追加の情報を与えたり、資料データを読みこませることで、カスタマイズできる機能だ。現状実装されているカスタムイントラクションの延長のようなものとイメージしやすいだろう。

それをユーザー同士で公開しあい、プラグインのように、さまざまなユーザーが作成したGPTを、別のユーザーが探して利用することができる。

GPTsのカスタムバージョンを作成するためには、まず、カスタマイズしたい目的を決める必要がある。例えば、以下のような目的が挙げられる。

特定のタスクを自動化
特定の分野の知識の習得
より人間らしい会話の実現

目的を決めたら、カスタマイズするためのデータを用意する。データは、テキストファイルをアップロードするだけでなく、Webサイトなどから収集することができる。例えば、以下のようなデータが挙げられる。

特定のタスクに関するマニュアルやチュートリアル
特定の分野に関する書籍や論文
人間の会話の書き起こしなどのテキスト

データを用意したら、GPTsの画面からカスタマイズを行う。なんとカスタマイズは、自然言語で可能とのことだ。

GPTsの具体的な活用例

GPTsは、さまざまな目的で活用可能だ。以下にいくつかの具体例を挙げる。

カスタマーサポートの担当者が、顧客からの質問に迅速に答えられるためのQ&A bot
言語が異なる人同士が、スムーズにコミュニケーションできるファシリテーターbot
社内ルールを統合し、あらゆる業務フローについて回答する社内用bot

このようなチャットボットの構築は、これまではプログラミング言語の理解や、実装の知識が必要だったものも多い。それらが自然言語で自由に作成できるようになった。

ほかにもGPTsは、よりユーザーライクな設計をすることで人間と機械がこれまでよりも人間らしい会話をするためにも活用することができるだろう。

既に一部のChatGPTユーザーは感じているかもしれないが、だんだんと「機械と会話」している感覚が遠のいていくのも時間の問題だろう。

GPTsの課題と今後の展望

GPTsには、以下のような課題もある。

悪意のあるユーザーによって偏見や差別的な表現を含むテキストを生成してしまう可能性がある。
達成したいゴールのために、必要十分な学習用データをユーザーが集めなければならず、その挙動を正確にユーザーが把握する必要がある。

これらの課題を解決するために、OpenAIは、さまざまなガイドの提供や、GPTsのアルゴリズムを改善するとともに、偏見や差別的な表現を検出する機能の開発を進めている。

今回の発表はあくまでOpenAIによる機能の素材提供であり、GPTsの可能性は、まだ未知数である。まさにユーザーの発想力が試されており、自然言語でカスタマイズすることができる分、多くの人々にチャンスがある。

特定の目的についてマルチタスクで対応するGPTsは、もはやチャットボットの域を超え、AIアシスタントと呼ばれていくことだろう。GPTsの活用がさらに進むことで、私たちの生活や仕事は、より豊かで便利なものになるはずだ。

⑤ GPT Storeの登場予告

GPTsのコミュニティ化とGPTストアの登場

これらのGPTsについてOpenAIは、GPTストアというマーケットを展開すると予告した。誰もがカスタマイズしたGPTを投稿することができ、他のユーザーに多く使用されれば、その分投稿者にインセンティブが発生する。まるで、スマートフォン黎明期におけるAppStoreのようなものである。

また、OpenAIはGPTsは既存のさまざまなコミュニティから作成されるものと考えている。つまり、教育者やコーチ、あるいは単に便利なツールを作るのが好きな人でも、ツールを作成して自分の専門知識を共有することが可能になるということだ。これこそがAI技術における人間性の拡張と呼んでもいいだろう。

GPTストアでは、誰でもカスタムしたGPTを作成して、公開が可能だ。これにより、自分の専門知識やスキルを活かして、誰でもGPTsの作成者になることができる。今後、生産性、教育、楽しみのためなどのカテゴリーなどに分類され、その中で多くのユーザーが見つけた最も便利で楽しいGPTにスポットライトが当たると筆者は想像している。高度に進化したチャットボットは、もはや「bot」を超え、「アシスタント」として認識されていくだろう。

GPTsのコミュニティ化のメリット

GPTsのコミュニティ化には、以下のメリットがあると考える。

多様なGPTsの登場：教育者やコーチ、デザイナーなど、さまざまな分野の専門家がGPTsを作成することで、多様なGPTsが登場。これにより、ユーザーは、自分のニーズに合ったGPTsをより簡単に見つけることができるようになる。
GPTsの質の向上：検証済みのビルダーによる作品がGPTストアに掲載されることで、GPTsにおける全体の質が向上するだろう。また、GPTストアで人気のGPTsが注目されることで、GPTsの作成者にとって、より良いGPTsを作成するためのモチベーションとなるだろう。

GPTストアの活用例

GPTストアは、さまざまな目的で活用することができるだろう。以下に、いくつかの具体例を挙げる。

教育；教育者は、GPTsを活用して、生徒の学習をサポートすることができる。例えば、プログラミングのレッスンを担当する教師は、プログラミングコードを自動生成するGPTsを活用して、生徒のプログラミングスキルを効率的に向上させることができる。
コーチング：マネージャーは、GPTsを活用して、メンバーのパフォーマンスを向上させることができるだろう。例えば、商談やロープレの分析を行うGPTsを活用して、営業メンバーの弱点を把握し、個人に即した改善点を提案することができる。
エンターテインメント：GPTsを活用して、新しいゲームやコンテンツを作成することができる。例えば、GPTsを活用して、プレイヤーの好みに合わせてカスタマイズできるゲームキャラクターを作成することもできる。いわゆるNPCと呼ばれるキャラクターに、生命が宿るようなものだ。

GPTsのコミュニティ化とGPTストアの登場は、ChatGPTひいては生成AIの可能性や注目度をさらに広げるものとなるだろう。今後、GPTsがどのように活用されていくのか、目が離せない。