最終更新日:
2023年11月6日、ChatGPTで知られるOpenAIは、開発者向け会議「OpenAI Dev Day」を開催した。2か月以上前より告知されており、CEOのサム・アルトマン氏も期待値を高める発信をしていたことから、世界中から注目されるイベントとなった。
日本時間午前3時、YouTube上で公開された新たな情報は下記の通り。
- GPT-4 Turboの導入: 128,000トークン(128K)までのコンテキストをサポート。2023年4月までの情報を提供する能力を持ち、旧モデルよりもかなり安価となった。
- JSONモードの導入: 開発者がモデルの応答に対する制御をより行えるようにするための新機能。
- DALL-E 3・GPT-4VのAPI連携: APIを通じた画像入力機能を含む利用可能性に関する更新情報。
- GPTsのリリース: 特定の目的に合わせたChatGPTのカスタマイズ版を作成できる新機能。
- GPT Storeの登場予告: 開発者が自らのGPT作品を公開し、収益化することが可能になるプラットフォーム。
- Assistants APIの公開: アプリケーションにAIアシスタント機能を統合できるようにするAPIで、音声認識やテキストから音声への変換、改良された関数呼び出しなどの機能を含んでいる。
- GPT-4のファインチューニング機能: 開発者がモデルを特定のドメインやデータセットに合わせて調整できる。
本記事ではこれらの発表の内容を深掘っていく。
目次
① GPT-4 Turboの導入
OpenAIは、大規模言語モデル「GPT-4」のアップグレード版である「GPT-4 Turbo」を発表した。従来のGPT-4と比べて、以下の点が大きく改善されている。
- コンテキストウィンドウが128Kに拡張。ChatGPTが会話の内容をより忘れにくくなった
- 学習データが2023年4月まで更新
- 入力トークン0.01ドル、出力トークン0.03ドルと、従来よりも安価に利用可能に
これらの改善により、GPT-4 Turboは、従来よりも高性能かつ安価で、より幅広い用途に活用できるようになった。
- コンテキストウィンドウの拡大で、より複雑な質問にも対応可能に
- コンテキストウィンドウとは、大規模言語モデルが処理できるテキストの量を示す指標である。
- コンテキストウィンドウが大きいほど、大規模言語モデルは、より多くの情報を記憶した状態で、応答を生成することができる。
従来のGPT-4のコンテキストウィンドウは8k(8000トークン)、API版でも32k(32000トークン)だった。一方で通常のGPT-3.5は16kと、性能以外の面、つまりトークンの差で使い分けることができていた。最近登場したClaudeは100kトークンと、その規格外のトークン量で話題になったことも記憶に新しい。ところがGPT-4 Turboのコンテキストウィンドウは128Kトークンであり、大容量トークンで話題になったClaudeすら軽く超えてしまったのである。
コンテキストウィンドウの拡大だけでなく、学習データが2023年4月まで更新された。これは、GPT-4 Turboが、ウェブブラウジングなしでも2023年4月までであればより新しい情報にも対応できることを意味する。
これにより「ChatGPTの知識は古い」という認識を大きく覆し、より複雑な質問にも対応可能になった。例えば、以下のような質問に対して、より適切な回答を生成できるようになる。
「2023年までの日本の歴史について教えてください」
「2023年のオリンピックの開催国はどこですか?」
「2023年の流行語は何だと考えられますか?その理由も考えてください」
GPT-4がリリースされた2023年3月では、ChatGPTが学習していたのは2021年の9月までのデータだった。8か月で2023年4月までのデータを追加学習したのである。週次、日次でモデルを更新する未来もそう遠くないかもしれない。
価格の低下により多くの人が利用可能に
GPT-4 Turboは、従来のGPT-4と比べて、入力トークン0.01ドル、出力トークン0.03ドルと、安価に利用可能になった。これは、より多くの人がGPT-4 Turboを活用できるようになることを意味し、また料金を払ってまでGPTのAPIを利用してプロダクト開発をしていた人々にとっては、開発コストを純粋に抑えることができる朗報だ。
ChatGPTのAPIを利用したさらに多くのプロダクトの開発が加速し、さまざまなインターフェースを通して生成AIを活用できる未来がグッと近くなった発表だろう。
② JSONモードの導入
JSONモードは、開発者がAIモデルとやり取りする際に、より高度な制御を可能にする新機能だ。これにより、モデルからの応答をJSON形式で得ることができ、API呼び出しや関数の実行などの開発作業を容易にすることを目指している。Function callingをわざわざ使わなくても、JSON形式の回答を返してくれる。
JSONモードの特徴:
- 有効なJSON応答: AIモデルが有効なJSON形式で応答を返すことを保証
- API呼び出しの容易化: JSON応答を直接使用して、他のAPIとの統合が簡単に
- 関数の同時呼び出しの改善: 複数の関数を一度に呼び出すことができ、AIモデルが指示に従って動作する能力が向上
これにより、今までは1つの内容、1つの指示しかできなかったものが、1つの内容から意図をくみ取り、複数の指示に再構成できるようになった。
JSONモードの利点:
- 開発者の効率向上: JSON応答は開発者が使い慣れたフォーマットであり、バックエンドシステムとの連携がスムーズに
- エラーハンドリングの改善: JSON形式のデータは、エラーがあった場合の処理が簡単で、開発者がバグを特定しやすく
- フロントエンドへの統合: JSON形式はWebフロントエンドとの統合が標準的であるため、フロントエンドアプリケーションでAIモデルの応答を直接利用する場合に便利に
JSONモードの導入は、特に大規模なアプリケーションや複雑なシステムを構築する開発者にとって、AIモデルをより制御しやすくする大きな一歩であると言える。
③ GPT-4V・DALL-E 3のAPI連携
「OpenAI Dev Day」ではGPT-4 Turboだけでなく、GPT-4V、DALL-E3のAPI公開についても発表された。
これはマルチモーダル機能を活用可能性を意味し、テキストと画像を組み合わせた新たな価値を生み出すことができるようになった。
GPT-4VのAPI連携で可能になること
GPT-4Vは、ユーザーの提供した画像をChatGPTが認識し、状況を理解したり説明することができる機能だ。これにより、テキストと画像を組み合わせた新たな価値を生み出すことができる。
例えば、以下のようなユースケースが考えられる。
- 画像キャプションの生成:画像に写っている内容を、テキストで説明するキャプションを生成することができる。
- 画像の詳細分析:画像に写っている人物や物体、背景などの情報を、詳細に分析することができる。
- 画像とテキストの翻訳:画像とテキストを組み合わせたコンテンツを、別の言語に翻訳することができる。
これらを組み合わせることで下記のような具体的な活用事例が考えられる。
- 観光ガイドアプリ:観光地の写真を撮影すると、その場所の歴史や見どころを、テキストで説明するキャプションを生成
- 視覚障害者向けアプリ:画像に写っている内容を、テキストで説明するキャプションを生成することで、視覚障害者が画像を理解できるように
- 医療画像診断:X線やMRIなどの画像を分析することで、病気の早期発見や治療に役立つ情報を提供(OpenAIのガイドでは医療画像の使用は制限されているが、将来的には大きな利用可能性がある)
GPT-4VのAPI連携は、AIを活用したアプリの開発をより身近なものにする、画期的な技術である。今後、さまざまな用途で活用されることで、私たちの生活に大きな変化をもたらしてくれるだろう。
DALL·E 3のAPI連携で可能になること
DALL·E 3は、先日リリースされたOpenAI開発の画像生成AIである。ChatGPT上で、テキストから画像を生成することができ、従来のDALL・Eと比べて、よりリアルで詳細な画像を生成できるようになっている。
DALL·E 3のAPI連携は、さまざまな用途に活用することができるだろう。例えば、以下のような用途が考えられる。
- 教育:教材の作成や、学生の創造性を促すためのツールとして活用
- エンターテインメント:自作ゲームや動画などのコンテンツの作成に活用
- マーケティング:商品やサービスの宣伝に活用
GPT-4Vと連携すれば、ユーザーが画像を入力し、それに基づいた画像生成を行うことも可能だ。後述のGPTsなどのカスタムチャットボットにおいて、できることが飛躍的に向上している。これまでのテキストコミュニケーションのみだったChatGPTにおいて、新たな発想がユーザーに求められている。
他にもTTS(Text to Speech)と呼ばれる音声合成機能もアップデート。イベントでは英語のみの実演だったが、日本語に対応した場合、DALL-E3で絵本を作成して読み聞かせる、なんてこともできるようになるかもしれない。
④ GPTsのリリース
OpenAIはChatGPTのカスタムバージョンを作成できる新機能、GPTsを発表した。
GPTsとは、ユーザーが特定の目的に合わせてGPTに追加の情報を与えたり、資料データを読みこませることで、カスタマイズできる機能だ。現状実装されているカスタムイントラクションの延長のようなものとイメージしやすいだろう。
それをユーザー同士で公開しあい、プラグインのように、さまざまなユーザーが作成したGPTを、別のユーザーが探して利用することができる。
GPTsのカスタムバージョンを作成するためには、まず、カスタマイズしたい目的を決める必要がある。例えば、以下のような目的が挙げられる。
- 特定のタスクを自動化
- 特定の分野の知識の習得
- より人間らしい会話の実現
目的を決めたら、カスタマイズするためのデータを用意する。データは、テキストファイルをアップロードするだけでなく、Webサイトなどから収集することができる。例えば、以下のようなデータが挙げられる。
- 特定のタスクに関するマニュアルやチュートリアル
- 特定の分野に関する書籍や論文
- 人間の会話の書き起こしなどのテキスト
データを用意したら、GPTsの画面からカスタマイズを行う。なんとカスタマイズは、自然言語で可能とのことだ。
GPTsの具体的な活用例
GPTsは、さまざまな目的で活用可能だ。以下にいくつかの具体例を挙げる。
- カスタマーサポートの担当者が、顧客からの質問に迅速に答えられるためのQ&A bot
- 言語が異なる人同士が、スムーズにコミュニケーションできるファシリテーターbot
- 社内ルールを統合し、あらゆる業務フローについて回答する社内用bot
このようなチャットボットの構築は、これまではプログラミング言語の理解や、実装の知識が必要だったものも多い。それらが自然言語で自由に作成できるようになった。
ほかにもGPTsは、よりユーザーライクな設計をすることで人間と機械がこれまでよりも人間らしい会話をするためにも活用することができるだろう。
既に一部のChatGPTユーザーは感じているかもしれないが、だんだんと「機械と会話」している感覚が遠のいていくのも時間の問題だろう。
GPTsの課題と今後の展望
GPTsには、以下のような課題もある。
- 悪意のあるユーザーによって偏見や差別的な表現を含むテキストを生成してしまう可能性がある。
- 達成したいゴールのために、必要十分な学習用データをユーザーが集めなければならず、その挙動を正確にユーザーが把握する必要がある。
これらの課題を解決するために、OpenAIは、さまざまなガイドの提供や、GPTsのアルゴリズムを改善するとともに、偏見や差別的な表現を検出する機能の開発を進めている。
今回の発表はあくまでOpenAIによる機能の素材提供であり、GPTsの可能性は、まだ未知数である。まさにユーザーの発想力が試されており、自然言語でカスタマイズすることができる分、多くの人々にチャンスがある。
特定の目的についてマルチタスクで対応するGPTsは、もはやチャットボットの域を超え、AIアシスタントと呼ばれていくことだろう。GPTsの活用がさらに進むことで、私たちの生活や仕事は、より豊かで便利なものになるはずだ。
⑤ GPT Storeの登場予告
GPTsのコミュニティ化とGPTストアの登場
これらのGPTsについてOpenAIは、GPTストアというマーケットを展開すると予告した。誰もがカスタマイズしたGPTを投稿することができ、他のユーザーに多く使用されれば、その分投稿者にインセンティブが発生する。まるで、スマートフォン黎明期におけるAppStoreのようなものである。
また、OpenAIはGPTsは既存のさまざまなコミュニティから作成されるものと考えている。つまり、教育者やコーチ、あるいは単に便利なツールを作るのが好きな人でも、ツールを作成して自分の専門知識を共有することが可能になるということだ。これこそがAI技術における人間性の拡張と呼んでもいいだろう。
GPTストアでは、誰でもカスタムしたGPTを作成して、公開が可能だ。これにより、自分の専門知識やスキルを活かして、誰でもGPTsの作成者になることができる。今後、生産性、教育、楽しみのためなどのカテゴリーなどに分類され、その中で多くのユーザーが見つけた最も便利で楽しいGPTにスポットライトが当たると筆者は想像している。高度に進化したチャットボットは、もはや「bot」を超え、「アシスタント」として認識されていくだろう。
GPTsのコミュニティ化のメリット
GPTsのコミュニティ化には、以下のメリットがあると考える。
- 多様なGPTsの登場:教育者やコーチ、デザイナーなど、さまざまな分野の専門家がGPTsを作成することで、多様なGPTsが登場。これにより、ユーザーは、自分のニーズに合ったGPTsをより簡単に見つけることができるようになる。
- GPTsの質の向上:検証済みのビルダーによる作品がGPTストアに掲載されることで、GPTsにおける全体の質が向上するだろう。また、GPTストアで人気のGPTsが注目されることで、GPTsの作成者にとって、より良いGPTsを作成するためのモチベーションとなるだろう。
GPTストアの活用例
GPTストアは、さまざまな目的で活用することができるだろう。以下に、いくつかの具体例を挙げる。
- 教育;教育者は、GPTsを活用して、生徒の学習をサポートすることができる。例えば、プログラミングのレッスンを担当する教師は、プログラミングコードを自動生成するGPTsを活用して、生徒のプログラミングスキルを効率的に向上させることができる。
- コーチング:マネージャーは、GPTsを活用して、メンバーのパフォーマンスを向上させることができるだろう。例えば、商談やロープレの分析を行うGPTsを活用して、営業メンバーの弱点を把握し、個人に即した改善点を提案することができる。
- エンターテインメント:GPTsを活用して、新しいゲームやコンテンツを作成することができる。例えば、GPTsを活用して、プレイヤーの好みに合わせてカスタマイズできるゲームキャラクターを作成することもできる。いわゆるNPCと呼ばれるキャラクターに、生命が宿るようなものだ。
GPTsのコミュニティ化とGPTストアの登場は、ChatGPTひいては生成AIの可能性や注目度をさらに広げるものとなるだろう。今後、GPTsがどのように活用されていくのか、目が離せない。
⑥ Assistants APIの公開
OpenAIは、新しいAPI「Assistants API」を発表した。このAPIは、アプリなどの開発者が独自のAIアシスタントを作成できるようにするものである。
Assistants APIは、以下の3つの特徴を持つ。
- 目標指向型:ユーザーの目標を達成するために、さまざまなAIモデルやツールを組み合わせて利用できる。
- 柔軟性:開発者のニーズに合わせて、アシスタントの機能をカスタマイズできる。
- 低コスト:従来のAIアシスタント開発と比べて、より安価に開発できる。
またFunction calling機能やCode Interpreterも使用することができ、より高度な処理を行うことができるようになった。
Assistants APIの活用例
Assistants APIは、さまざまな用途に活用できる。以下に、そのいくつかの例を挙げる。
- 教育:学習コンテンツの生成や、学習者の理解度を測定するためのアシスタントを開発できる。
- ビジネス:営業支援や、顧客サポートのためのアシスタントを開発できる。
- 創作:小説や脚本の執筆、音楽や絵画の作成を支援するアシスタントを開発できる。
これらについては、現状のAPI連携でも実現可能な機能ではあるが、より柔軟になっていることを期待したい。
Assistants API活用の具体例
Assistants APIを活用して開発されるであろう、具体的なアシスタントの例をいくつか挙げる。
- コーディングアシスタント:コードの生成や、デバッグを行うためのアシスタント。
- 旅行計画アシスタント:最適な旅行プランを作成するためのアシスタント。
- 動画編集アシスタント:魅力的な動画コンテンツとなるよう、適切な編集指示を行うアシスタント。
他にもチャットボットの域を超えて、ユーザーの目的を達成するために適切なアドバイスを提供する、まさにアシスタントとしての役割を果たすことになるだろう。
Assistants APIの今後の展望
Assistants APIは、これからの開発者が実装していくなかで真価を発揮する。今後は、以下の点の向上が期待できるだろう。
- サポートするAIモデルやツールの拡充:より多くのAIモデルやツールをサポートすることで、アシスタントの機能をさらに拡充できる。
- カスタマイズの容易化:開発者のニーズに合わせて、アシスタントの機能をより簡単にカスタマイズできるようになる。
- コストのさらなる低下:さらなるコストの低下により、より多くの人がAIアシスタントを活用できるようになる。
Assistants APIは、AIを活用したアプリの開発をより容易にするものである。今後、さまざまな用途に活用されることで、私たちの生活をさらにAIが取り巻くことになるだろう。
⑦ GPT-4のファインチューニング機能
OpenAIは、大規模言語モデル「GPT-4」の新たな機能として、「GPT-4のファインチューニング」と「カスタムモデル」の提供を発表した。これらの機能により、開発者はGPT-4をより高性能に、より特定の用途に適応させることができるようになる。
GPT-4のファインチューニングとは、GPT-4の既存のモデルを、特定の用途に適応させるためのトレーニングを行うことである。具体的には、開発者が用意したデータセットを用いて、GPT-4の応答をより正確に、より自然に、より特定の用途に適したものになるように学習させる。
例えば、以下のような用途が考えられる。
- 高度な自然言語処理:特定の分野のテキストをより正確に理解したり、生成したりできるようにする。
- 高度な創作:特定のジャンルの小説や詩をより自然に生成できるようにする。
- 複雑な翻訳:特定の言語間の翻訳をより正確に行うようにする。
こういった機能を用いることで、よりカスタムしたモデルを作成することができるようになる。
カスタムモデルとは、ファインチューニングしたGPT4のAPIを利用して、開発者が独自のモデルを作成・実装できる機能だ。カスタムモデルでは、開発者が用意したデータセットを用いて、GPT-4のモデルを用途に合わせて構築することができる。
例えば、以下のような用途が考えられる。
- 特定の業界向けのAIアシスタント:特定の業界の専門知識を必要とするタスクを支援するAIアシスタントを作成する。
- 特定の分野の研究:特定の分野の研究に必要なAIモデルを作成する。
- 特定の目的のためのAIアプリケーション:限定された専門性の高い、特定の目的のために設計されたAIアプリケーションを作成する。
GPT-4のファインチューニングとカスタムモデルのメリット
GPT-4の微調整とカスタムモデルは、以下のメリットをもたらす。
- 高性能化:特定の用途に適応させることで、GPT-4の性能をさらに高めることができる。
- 特定化:特定の用途に特化させることで、GPT-4をより特定の用途に適応させることができる。
- 柔軟性:開発者のニーズに合わせて、GPT-4をカスタマイズすることができる。
ただし、ファインチューニングやカスタムモデルの構築には専門性が必要であり、特にカスタムモデルに関してはOpenAIに応募し、認定される必要がある。また金額も非常に高価とされ、世界でも限定的な一部の企業からの実装となるだろう。
GPT-4のファインチューニングとカスタムモデルの今後の展望
GPT-4のファインチューニングとカスタムモデルは、まだ発表されたばかりである。今後、さまざまな実装事例の創出や、さらなる機能の向上、価格の低下が期待される。
これらの機能が普及することで、AIモデルをより高性能に、より特定の用途に適応させられるようになるだろう。これにより、AIモデルの活用範囲がさらに広がり、私たちの生活にさまざまな形で入り込んでくることになるだろう。
まとめ
OpenAI Dev Dayはまさに「King of Generative AI」としてOpenAIの権威性を世の中に示すだけでなく、生成AI領域の重要な方向性が提示されたイベントだった。GoogleやMicrosoftなど他の世界的生成AIプレイヤーの戦略にもインパクトを与えそうだ。
- モデルの機能性向上(マルチモーダル、モデルサイズ、最新情報の学習、入力トークン数の増加など)
- 特定の用途、データリソースに特化した活用の促進(Domain Specific LLM)
- アシスタントとしてのツールとの連携、ユーザ体験への組み込み(Assistant AI)
上記の方向性は、ユーザや企業の参加が起爆剤となる。Storeへの投稿や、各種サービスとのAPI連携によって多くのユーザ、企業を巻き込み、ネットワーク効果を生み、OpenAIが一大コミュニティを形成する可能性もある。
また、さらに多くのユーザがChatGPTを利用することで、さらに多くのユーザデータを蓄積、それがOpenAIの収益性、モデルの性能に還元される正のスパイラルの発端となる可能性もあり、指数関数的な成長をもたらす可能性も否定できない。
OpenAI Dev Dayは「OpenAI経済圏」の幕開けとなった1日だったと言えるだろう。
また最後にサム・アルトマン氏は、「来年も来てくれることを願っています。今我々が作っているものと比較したら、今日発表したものは古風なものに感じるだろう」と述べている。今後のOpenAIの動きにますます目が離せない、期待を裏切らない大注目のイベントとなった。
ライター:國末拓実
■AI専門メディア AINOW編集長 ■カメラマン ■Twitterでも発信しています。@ozaken_AI ■AINOWのTwitterもぜひ! @ainow_AI ┃
AIが人間と共存していく社会を作りたい。活用の視点でAIの情報を発信します。