新たな大規模言語モデル「Gemini」でGoogleが“ChatGPT超え”に本腰

Googleは12月7日、新しい大規模言語モデル｢Gemini（ジェミニ）｣を発表した。

Geminiは今年5月に開催されたGoogleの開発者会議「Google I/O」で発表されており、当時は大規模言語モデルである「PaLM 2」の後継モデルとしての発表にとどまっていた。生成AI元年とも呼べる2023年も年末に差し掛かった中、Googleが満を持して「ChatGPT超え」を本格化させるべく打ち上げた号砲がこのGeminiだ。

Geminiがどんなものなのか見てみよう。

目次 [非表示]

マルチモーダルとオンデバイス
最大サイズ「Ultra」の性能はGPT-4超え
Googleの”ChatGPT超え”への気合が見える

マルチモーダルとオンデバイス

Geminiを理解する上でのキーワードは「マルチモーダル」と「オンデバイス」だ。

マルチモーダルとは、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報をAIがシームレスに理解し、操れることといえる。Googleは、Geminiをマルチモーダルのために「ゼロから構築したモデル」と表現している。

実際のパフォーマンスはデモを見たほうがわかりやすい。以下はGoogleが公開した、Geminiと開発者が”遊んでいる”様子のデモだ。

開発者がフリーハンドで描いた鳥のようなイラストを鳥と認識しており、途中の会話も非常に流暢だ。ほかにも、Geminiにさまざまな物体・画像・動画を見せテストしているが、どのアクションにも破綻はない。ChatGPTにも画像での対話が可能な「GPT-4V」が実装されたが、同じことが可能なようだ。

しかし、上記の動画について米TechCrunchからフェイク説が指摘されている。追って続報を待ちたい。

Geminiは、3つのモデルが公開されている。

Gemini Ultra — 非常に複雑なタスクに対応する、高性能かつ最大のモデル
Gemini Pro — 幅広いタスクに対応する最良のモデル
Gemini Nano — デバイス上のタスクに最も効率的なモデル

Ultra、Pro、Nanoの順にモデルサイズは小さくなり、タスクに応じてモデルを使い分ける。たとえば一番小さいサイズのNanoは、今後Googleのスマートフォン「Pixel 8 Pro」やGboardといったエッジデバイスで展開されていくようだ。

Googleは数年前から「オンデバイス」、つまりスマートフォンなどのデバイス上でAIを動作させることを数年前から強調しており、Nanoの登場はその流れを本格的に加速させるものといえる。

今後数か月の間にGeminiはGoogle検索、広告、Chrome、Duet AIなどの主要な製品やサービスで利用可能になるという。また、BardにはGemini Proが実装される。

最大サイズ「Ultra」の性能はGPT-4超え

最大のモデルであるUltraとGPT-4の性能比較も公表された。

32のベンチマークのうち30でUltraのパフォーマンスはGPT-4の結果を上回っており（というより、上回ったからこそ公表に踏み切ったのだろう）、数学、物理学、歴史、法律、医学、倫理など57科目を組み合わせて知識と問題解決能力をテストするMMLUというベンチマークで90%をスコアしたとGoogleは発表している。

Google Japan Blogより

また、異なるドメインにまたがるマルチモーダルなタスクで構成されるMMMUというベンチマークでも59.4%を達成し、これもGPT-4を上回る結果を示している。

Google Japan Blogより

これまでのマルチモーダルモデルを作成するアプローチでは、異なるデータで学習されたモデルをつなぎ合わせることでマルチモーダルな挙動を実現していた。しかし、このアプローチには画像の説明などには優れるものの、より概念的で複雑な推論に課題があった。

そこでGeminでiは、最初からマルチモーダルなデータで学習させるアプローチを取った。これにより、従来よりもあらゆる種類の入力を理解し、処理することが可能になったのだという。

対応できるタスクもさまざまだ。数十万もの文書から洞察を抽出する必要のある科学や金融分野、数学や物理の推論の説明、コーディングなど、ユースケースは広い。

Googleの”ChatGPT超え”への気合が見える

GoogleはOpenAIのChatGPTの普及に比べて、これまで一歩後塵を拝していた。今年はじめにChatGPTに対抗する形でBardを投入したものの、ChatGPTの爆発的な普及率に比べると、普及率はイマイチだった。

OpenAIは、APIなどは提供しているものの、本質的には自社サービスと呼べるものは今のところChatGPT一本だ。だからこそOfiice製品を抑えるMicrosoftと組み、Copilotを通してChatGPTの普及を急いでいる。

GoogleはWorkplaceなどのサービス群を持つことを考慮すると、今後Geminiがそれらのサービスに浸透していけばOpenAIとMicrosoftのタッグに勝っていく可能性は十分にある。

GeminiによってGoogle検索も大きく変化するだろう。現在GoogleはSGE（生成AI検索）を試験運用中だが、Geminiがデモ動画通りのパフォーマンスを発揮するなら、検索という体験自体がよりエンタメ性を伴ったものになる。仲のいい友人と会話するように”ググる”ことができるようになれば、SNSでの検索に流れている若年層を再びGoogleに呼び戻すこともできるかもしれない。

Googleは今年4月、囲碁AI「AlphaGo」、言語処理プログラム「word2vec」や今日の対話型AIを可能にしている深層学習モデル「Transformer」など輝かしい成果を生み出してきたGoogle BrainとDeepMindを統合した。DeepMindのCEOだったデミス・ハサビス氏、GoogleのAI開発を主導してきたジェフ・ディーン氏などがトップを務める、まさにドリームチームだ。このチームが送り出すGeminでi、果たして生成AIでOpenAIに遅れを取ったGoogleがどれほど巻き返せるのか、期待したい。

執筆：高島圭介
編集：おざけん