最終更新日:
Googleは12月7日、新しい大規模言語モデル「Gemini(ジェミニ)」を発表した。
Geminiは今年5月に開催されたGoogleの開発者会議「Google I/O」で発表されており、当時は大規模言語モデルである「PaLM 2」の後継モデルとしての発表にとどまっていた。生成AI元年とも呼べる2023年も年末に差し掛かった中、Googleが満を持して「ChatGPT超え」を本格化させるべく打ち上げた号砲がこのGeminiだ。
Geminiがどんなものなのか見てみよう。
マルチモーダルとオンデバイス
Geminiを理解する上でのキーワードは「マルチモーダル」と「オンデバイス」だ。
マルチモーダルとは、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報をAIがシームレスに理解し、操れることといえる。Googleは、Geminiをマルチモーダルのために「ゼロから構築したモデル」と表現している。
実際のパフォーマンスはデモを見たほうがわかりやすい。以下はGoogleが公開した、Geminiと開発者が”遊んでいる”様子のデモだ。
開発者がフリーハンドで描いた鳥のようなイラストを鳥と認識しており、途中の会話も非常に流暢だ。ほかにも、Geminiにさまざまな物体・画像・動画を見せテストしているが、どのアクションにも破綻はない。ChatGPTにも画像での対話が可能な「GPT-4V」が実装されたが、同じことが可能なようだ。
しかし、上記の動画について米TechCrunchからフェイク説が指摘されている。追って続報を待ちたい。
Geminiは、3つのモデルが公開されている。
- Gemini Ultra — 非常に複雑なタスクに対応する、高性能かつ最大のモデル
- Gemini Pro — 幅広いタスクに対応する最良のモデル
- Gemini Nano — デバイス上のタスクに最も効率的なモデル
Ultra、Pro、Nanoの順にモデルサイズは小さくなり、タスクに応じてモデルを使い分ける。たとえば一番小さいサイズのNanoは、今後Googleのスマートフォン「Pixel 8 Pro」やGboardといったエッジデバイスで展開されていくようだ。
Googleは数年前から「オンデバイス」、つまりスマートフォンなどのデバイス上でAIを動作させることを数年前から強調しており、Nanoの登場はその流れを本格的に加速させるものといえる。
今後数か月の間にGeminiはGoogle検索、広告、Chrome、Duet AIなどの主要な製品やサービスで利用可能になるという。また、BardにはGemini Proが実装される。
最大サイズ「Ultra」の性能はGPT-4超え
最大のモデルであるUltraとGPT-4の性能比較も公表された。
32のベンチマークのうち30でUltraのパフォーマンスはGPT-4の結果を上回っており(というより、上回ったからこそ公表に踏み切ったのだろう)、数学、物理学、歴史、法律、医学、倫理など57科目を組み合わせて知識と問題解決能力をテストするMMLUというベンチマークで90%をスコアしたとGoogleは発表している。
また、異なるドメインにまたがるマルチモーダルなタスクで構成されるMMMUというベンチマークでも59.4%を達成し、これもGPT-4を上回る結果を示している。
これまでのマルチモーダルモデルを作成するアプローチでは、異なるデータで学習されたモデルをつなぎ合わせることでマルチモーダルな挙動を実現していた。しかし、このアプローチには画像の説明などには優れるものの、より概念的で複雑な推論に課題があった。
そこでGeminでiは、最初からマルチモーダルなデータで学習させるアプローチを取った。これにより、従来よりもあらゆる種類の入力を理解し、処理することが可能になったのだという。
対応できるタスクもさまざまだ。数十万もの文書から洞察を抽出する必要のある科学や金融分野、数学や物理の推論の説明、コーディングなど、ユースケースは広い。
Googleの”ChatGPT超え”への気合が見える
GoogleはOpenAIのChatGPTの普及に比べて、これまで一歩後塵を拝していた。今年はじめにChatGPTに対抗する形でBardを投入したものの、ChatGPTの爆発的な普及率に比べると、普及率はイマイチだった。
OpenAIは、APIなどは提供しているものの、本質的には自社サービスと呼べるものは今のところChatGPT一本だ。だからこそOfiice製品を抑えるMicrosoftと組み、Copilotを通してChatGPTの普及を急いでいる。
GoogleはWorkplaceなどのサービス群を持つことを考慮すると、今後Geminiがそれらのサービスに浸透していけばOpenAIとMicrosoftのタッグに勝っていく可能性は十分にある。
GeminiによってGoogle検索も大きく変化するだろう。現在GoogleはSGE(生成AI検索)を試験運用中だが、Geminiがデモ動画通りのパフォーマンスを発揮するなら、検索という体験自体がよりエンタメ性を伴ったものになる。仲のいい友人と会話するように”ググる”ことができるようになれば、SNSでの検索に流れている若年層を再びGoogleに呼び戻すこともできるかもしれない。
Googleは今年4月、囲碁AI「AlphaGo」、言語処理プログラム「word2vec」や今日の対話型AIを可能にしている深層学習モデル「Transformer」など輝かしい成果を生み出してきたGoogle BrainとDeepMindを統合した。DeepMindのCEOだったデミス・ハサビス氏、GoogleのAI開発を主導してきたジェフ・ディーン氏などがトップを務める、まさにドリームチームだ。このチームが送り出すGeminでi、果たして生成AIでOpenAIに遅れを取ったGoogleがどれほど巻き返せるのか、期待したい。
執筆:高島圭介
編集:おざけん