GoogleがAIゲームに負けている理由

インド在住のライター兼エンジニアのニティン・シャルマ（Nitin Sharma）氏（詳細は同氏LinkedInプロフィールページを参照）がMediumに投稿した記事『GoogleがAIゲームに負けている理由』では、AI開発競争においてGoogleがOpenAIの後塵を拝している現状と対策を論じています。
AI業界をけん引するリーディングカンパニーの座をめぐって、GoogleとOpenAIがAI開発競争を繰り広げているのは周知の通りです。こうしたAIをめぐる覇権争いにおいて、Googleがやや劣勢であると判断できる事象として、シャルマ氏は以下のような事項を挙げています。

AIをめぐる覇権争いにおいてGoogleが劣勢であると言える事象

GPT-4に対抗してGeminiファミリーを発表したものも、その画像認識能力を証明するデモ動画で視聴者の誤解を招くような編集をしていた。
2024年2月にGemini 1.5とGemmaを発表したものも、同時期にOpenAIが発表した動画生成モデルSoraに世間の注目を奪われてしまった。
Geminiの画像生成機能において「ナチスの兵士を有色人種として生成する」ような歴史的に誤った画像を生成することが判明したので、この機能の提供を停止した。

以上のように劣勢に立たされているGoogleに対して、OpenAIに追いつき追い越そうとするのではなく、かつて検索サービスでYahooに勝利したように「ユーザが求める機能をシンプルに提供する」戦略に立ち返るべき、とシャルマ氏は述べています。

なお、以下の翻訳記事本文では読み易くするために原文記事にはない見出しを追加しています。

なお、以下の記事本文はニティン・シャルマ氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、意訳やコンテクストを明確にするための補足を行っています。

画像出典：Microsoft Copilot

目次 [非表示]

Googleは忘れよう。OpenAIこそ次のAI大国だ。
フェイクと疑われたGeminiデモ動画
Soraに注目を奪われたGemini 1.5
苦戦するGoogle、1歩先行くOpenAI
Googleはかつての強みを思い出すべき

Googleは忘れよう。OpenAIこそ次のAI大国だ。

ChatGPTがはじめて発表された時、Googleは少しストレスを感じていた。

Googleから見れば、どの企業にもインターネットを支配されたくないのは明らかだ。そんなわけで同社はBardをリリースしたのだが、そのリリースはほとんどの人が見過ごしてしまうものであった。

確かにサンダー・ピチャイと彼のチームメンバーは、Bardについて過剰に語ることで誇大宣伝を行ったが、それはうまくいかなかった。

興味深いのは、個人ユーザは仕事をこなすために（Bardではなく）Microsoft Bingを使っていたことだ。というのも、BingはGPT-4で駆動していたからだ（※訳注1）。

（※訳注1）以上のコンテキストで言われているBingは検索エンジンのBingではなく対話型AIのBing Chatなのだが、Bing Chatは2023年12月1日以降、Microsoft Copilotにブランド統合された。

私もMicrosoft Bingを使って無料でリアルな画像を生成していた。

その後、GoogleはGeminiを発表し、ほとんどすべてのパラメーターでGPT-4を凌ぐと主張した。

（※訳注2）GeminiとGPT-4の性能比較については、AINOW特集記事『マルチモーダルLLM時代のベンチマークから見たGPT-4VとGeminiの比較』とAINOW翻訳記事『GoogleのGemini Advancedの実力とは？』を参照のこと。

彼らはこうも言っている。

Gemini Ultraは90.0％というスコアで、MMLU（大規模マルチタスク言語理解）において人間の専門家を上回った最初のモデルである。MMLUでは、数学、物理学、歴史、法律、医学、倫理など57の科目を組み合わせて使用し、世界の知識と問題解決能力の両方をテストする。

彼らが自身の投稿で取り上げたのは、以下のような3つのモデルだ。

Gemini Ultra －非常に複雑なタスクに対応する最大かつ最も高性能なモデル。
Gemini Pro －幅広いタスクの対応に最適なモデル。
Gemini Nano －モバイルデバイス上のタスクに最も効率的なモデル。

以上の内容はGemini発表時の投稿記事で書かれていたものであり、その時点では最も高性能なモデルはまだ一般公開されていなかった（※訳注3）。

（※訳注3）Geminiファミリーの最上位モデルGemini Ultraを搭載した対話型AIはGemini Advancedと呼ばれ、2024年2月8日から利用可能となった。ただし、同AIを利用するには月額2,900円のGoogle One AIプレミアムプランと契約する必要があり、2024年4月時点で対応言語は英語のみとなっている。

ここまでは良かった。

・・・

フェイクと疑われたGeminiデモ動画

しかし、物議を醸したのは以下のGeminiのデモ動画のせいだ。

この動画では、Geminiがビデオフィードで何が起こっているかを認識し、それにリアルタイムで反応できるという事例を紹介していた。

さらに動画ではプレーしているゲームを言い当てるなど、視聴者にマジックだと思わせるような事例があった。

視聴者は、Geminiが誰も想像したことのないような非常識なタスクを実行すると思っていた。

しかし、以上の事例は単なるフェイク動画であり（※訳注4）、この動画を作った主な理由は、Geminiの誇大宣伝を世間に広めるためだった、と私は思っている。

（※訳注4）Geminiの性能を実証したYouTube動画『ハンズオン Gemini: マルチモーダル AI とやりとりする』を視聴すると、出題者の質問に対して同AIがリアルタイムで回答しているように見える。しかし、テック系メディアTech Crunchが2023年12月8日に報じたところによると、この動画は実際には静止画で提示された質問に同AIが回答する様子を編集したものであり、リアルタイムに回答したようにみせかけた一種のフェイク動画とも言える。

それでは、そのような出力を生み出すために、AIは何をしていたのだろうか。

その答えは、単にAIに画像を渡して質問しているだけであった。

画像出典：Fireship

そして、ChatGPTがこのようなこともできることは周知の通りだ。Geminiデモ動画における出題資料については、こちら（※訳注5）をご覧いただきたい。

（※訳注5）以上のリンク先記事では、Geminiデモ動画で使われた質問用静止画とテキストが閲覧できる。

・・・

Soraに注目を奪われたGemini 1.5

その後2024年2月に、Googleの新しいモデル「Gemini 1.5」について議論する新しい投稿が公開された。

Gemini 1.5の最大の特徴は、（製品版で）100万トークンまで使用可能であることだ。この仕様は他のモデルを圧倒していた（※訳注6）。

（※訳注6）2024年3月7日にはClaude 3ファミリーが発表されたのだが、Haiku、Sonnet、Opusのすべてにおいてコンテキストウィンドウ（入力トークン長）が200万である。

さらに、彼らは独自の研究で1000万トークンまでのテストに成功していた。

これだけのトークンがあれば、Geminiは1時間の動画、11時間の音声、3万行以上のコードベース、70万語以上の単語などを含む膨大な量の情報を処理できる。

このトークン適応にもとづいたユースケースのいくつかを紹介しよう。

（※訳注7）以上の2つの動画のうち1つ目は、アポロ11号の通信記録に関する402ページのPDF文書を分析する事例である。同文書は33万トークンに相当するのだが、この文書からコメディー的な記録を抽出している。
2つ目は、喜劇俳優バスター・キートン出演の44分の動画を分析する事例であり、この動画は60万トークンに相当する。この動画から「ポケットから紙を出すシーン」を特定するように質問すると、Gemini 1.5 Proは正解を回答した。

Gemini 1.5とともにGoogleは、テック界で注目を集めているオープンソースの全く新しいモデル群、Gemmaを発表した。

Gemmaの特徴は何か？それは、そのパワーにある！

そのコンパクトなサイズにもかかわらず、Gemmaは標準的なノートPCで実行した場合でも、はるかに大きなモデルを凌駕する。

ファインチューニングされた何十億ものパラメーターにより、Gemmaはパワーと信頼性の両方を提供している。

そして一番の魅力は？Gemmaを試すのにお金がかからない！

これらの開発により、GoogleがAIの勝者になる可能性があると多くの人々が考えていたが、現実は違った。

以上のようなGoogleの発表に対して、OpenAIは多機能かつ最高の製品を発表した。それがSora AIだ。

Sora AIに関して言えば、それはテキストから超リアルで高品質な動画を生成できる。

そのため、Sora AIは競合他社が超えるべきハードルをさらに上げている。

高品質な動画生成という点において、SoraはPika Labs、Moonvalley、Runway MLを凌ぐ。

こちらのウェブページでは、Soraの能力を示す驚くべき例がいくつか紹介している。

その事例を見れば、Soraと競合モデルの違いがわかるだろう。

GoogleがGeminiをより強力にすることに注力している一方で、OpenAIはさまざまな領域でより多くの製品を発表しており、GoogleにとってはOpenAIに追いつくのが難しい状況だ。

・・・

苦戦するGoogle、1歩先行くOpenAI

これまでのところ、GoogleがAI分野で超大国になろうと努力していることがわかった。

しかし、OpenAIもまた、トップの座を獲得するために多大な努力を払っている。

そうは言っても、このAI競争において、Googleはいくつかの過ちを犯している。

何よりもまず、彼らは誇大宣伝をするためにフェイク動画を作成し、Bardは完全に失敗し（※訳注8）、Geminiを立ち上げる必要性につながった。

（※訳注8）Gemini Pro 1.0が発表された2024年2月8日、BardはGeminiにブランド統合された。

現在、彼らのGeminiモデルは、ナチスの兵士を有色人種として描くなどの歴史的に不正確なイラストを生成している。

もちろん、Googleはそのことを知っており、謝罪して画像を生成するツールも一時停止している（※訳注9）。

（※訳注9）2024年4月末時点でも、Geminiの画像生成機能は一時停止状態である。

We're already working to address recent issues with Gemini's image generation feature. While we do this, we're going to pause the image generation of people and will re-release an improved version soon. https://t.co/SLxYPGoqOZ

— Google Communications (@Google_Comms) February 22, 2024

しかし、こうした単純な問題が、同社が苦戦している主な原因のほとんどなのだ。

Googleが倒産するとは言わないが、同社が現在のような取り組みをしていてはAI分野で超大国の地位を獲得できない、と私は断言できる。

加えて、AI開発という点ではOpenAIの方がGoogleよりも進んでいる。

・・・

Googleはかつての強みを思い出すべき

GoogleはどうすればAI競争に勝てるのか。

まず、マインドセットについて話そう。

OpenAIのマインドは、世の中の役に立つツールを立ち上げることであり、Googleは製品開発プロセスを加速させることで同社に対抗しようとしている。

以上のような戦略こそが、Googleが間違った方向に進んでいる理由のひとつだ。

2000年代初頭、Googleが巨大テック企業Yahooにどのように勝利したかは周知の通りだが、その理由はそのシンプルさにある（※訳注10）。

（※訳注10）この記事の著者シャルマ氏が2024年2月29日に公開した記事『このAIツールの最新アップグレードは、チャットボット業界全体を破壊する可能性がある』では、チャットボットAI開発ツールChatsimpleを称賛している。具体的には、一般にウェブページおよびウェブサービスはユーザが抱えている問題をシンプルに解決する手段を提供すべきと主張したうえで、同ツールのシンプルなUIと提供機能を評価している。また、検索サービスにおいてGoogleがYahooに勝利した原因も、こうした “Simple is best”の設計思想のおかげだと指摘している。
Chatsimpleについては、同氏原著のAINOW翻訳記事『ChatGPTもGeminiも忘れて、これらの（信じられない）次世代AIツールをチェックしてみよう！』も参照。

以上の主張をわかってもらうために、以下にYahooのホームページ画面を引用する。