最終更新日:
目次
はじめに
2023年5月10日、Googleの年次開発者会議「Google I/O 2023」が開催されました。ChatGPTの大流行に対する同社の対応が期待されていた同会議では、予想通りAIに関する発表が多数ありました。そこで本稿では、そうした発表を自然言語処理、生成系AIなどのトピックごとにまとめていきます。なお、以下の記事本文はUS版Google公式ブログのAIカテゴリーとGoogle Japan Blogを参考にしています。
Googleの新しい大規模言語モデルと対話型AI
OpenAIが開発したChatGPTとGPT-4が世界的に注目されたことで、大規模言語モデルと対話型AIをめぐる開発競争が勃発しました。こうした事態に対して、GoogleはPaLM 2とBardを発表しました。
パラメータ最適化を目指したPaLM 2
PaLM 2とは、モデルサイズとしては最大級であるPaLM(※注釈1)の後継モデルです。PaLM 2を紹介したGoogle Japan Blog記事によると、同モデルを開発するにあたり大規模言語モデルのサイズは「大きければ良い」と考えるスケーリング則を再検討しました。こうして得られた新たな開発方針は、モデルサイズの最適化という知見です。この知見については、PaLM 2技術レポートで論じられています。
以上のレポートによると、はじめにパラメータ数と学習時のトークンサイズが異なる複数のモデルの性能を測定しました。その結果、特定の設定においてもっとも効率的な学習が可能となることが判明しました。以下のグラフは、4つの異なるパラメータ帯ごとに検証誤差をプロットしたものであり、各パラメータ帯で検証誤差が最小になる箇所が最適な設定となります。こうした実験から得られたパラメータ、演算性能、学習時のトークンサイズの組み合わせが以下の表となります。
以上のようにして最適なモデル設定を導入したうえで、PaLM 2ではサイズが小さい順にGecko、Otter、Bison、Unicornという4つのモデルが用意されました。注目すべきは、PaLM 2 UnicornはPaLMの最大モデルより小さいにも関わらず、後述するように性能が大幅に向上しているのです。
PaLM 2はPaLMと比較して、言語、推論、コーディングにおいて性能向上を実現しました。言語については以下のグラフのように、PaLMでは不合格だった多数の言語テストに合格しています。
推論と数学の能力に関しては、以下の表のように一部のベンチマークでGPT-4を凌駕しています。
コーディング能力については、Googleの研究チームが2023年2月に発表したコーディングに関するベンチマークBabelCodeを実施した結果、以下の表でまとめたような性能が明らかになりました。この表からPythonとC++のコーディングが最も得意なことがわかります。
PaLM 2は、25以上のGoogle製品と新機能で活用されています。そうした活用事例の一部をまとめると、以下のようになります。
PaLM 2と連携する主なGoogle製品・サービス
Bard | 日本語ははじめとする新たな言語とコーディング支援に対応。 |
Google Workspace | Gmail および Google ドキュメントでの下書き、スプレッドシートでの整理をサポートする機能を強化。 |
Med-PaLM 2 | 医療文書に特化したモデル。 |
Sec-PaLM | サイバーセキュリティ分析に特化したモデル。 |
PaLM API | Vertex AIやDuet AI for Google Cloudで利用可能。 |
SGE(Search Generative Experience) | 生成系AIを統合した検索。Search Labsから試用可能。ただし、現状ではアメリカのみが対象国。 |
以上のようにPaLM 2は、Googleが提供する各種サービスを駆動する文字通りの基盤モデルになっていますが、早くも次世代基盤モデルGeminiの開発も進んでいます。同モデルのリリーススケジュールは不明ですが、マルチモーダル能力が強化されるとのことです。おそらく同モデルはGPT-4のように画像認識機能が統合され、画像生成にも対応するかも知れません。
Google製品との連携を進めるBard
今年3月から英語版の試験運用が始まった対話型AIのBardは、Google I/O 2023が開催された5月11日より日本語に対応しました。同AIを紹介するGoogle Japan Blog記事によると同AIに対して旅行の計画を立てる、ブログの構成案を提案する、量子力学などの難解なトピックを簡単な言葉で説明するといった依頼をできます。
Bardに質問すると、複数の回答案が提示されます。回答が適切でない場合、最初に表示されたものとは別の回答を選択すると良いでしょう。
Bardの回答をGmailやGoogleドキュメントにエクスポートすることも可能となりました。
Bardの回答をさらに調査するのに便利な「Googleで検索」アイコンも実装されました。このアイコンは、回答のソースを確認する場合に役立つでしょう。
また前述のようにPaLM 2を導入したことにより、Bardは数学推論やコーディングにも対応するようになりました。
Bardにはさらなる機能実装が予定されており、その内容は以下のようにまとめられます。
|
生成系AIとその応用
Google I/O 2023では、Googleの各種製品・サービスに対する生成系AIの応用が発表されました。応用されたものにはGoogleの基幹サービスである検索やマップ、さらには写真編集や音楽生成がありました。
生成系AIと融合する検索
US版Google公式ブログ記事『生成系AIで検索を超高速化』では、Google検索と生成系AIが融合した新しい検索が紹介されています。新しい検索には対話型AIとの連携、ショッピンググラフによるショッピング、パースペクティブフィルターによる体験談の表示の3種類があります。
対話型AIとの連携とは、「3歳以下の子供と犬を連れた家族の旅行先には、ブライスキャニオン国立公園とアーチーズ国立公園のどちらが良いか」のような従来の検索結果表示では簡単に答えられない質問に対して、Bardが生成するような自然言語による回答を表示したうえで、回答をさらに調査する質問が提示されるというものです。
ショッピンググラフによるショッピングとは、商品を検索した際、Googleが機械学習を活用して構築した商品に関するデータベース「ショッピンググラフ」にもとづいて商品を一覧表示するものです。このデータベースでは毎時間18億件以上の商品情報が更新されており、ユーザは最新の商品情報を確認できます。
パースペクティブフィルターによる体験談の表示とは、ある質問に対して個人の見解を話した動画やSNSの書き込みを一覧表示するものです。この機能に関して詳しく解説したGoogleブログ記事によると、例えば「新しい街で友だちをつくる方法」と検索後、検索結果表示画面上部に表示される「パースペクティブ」フィルターをタップすると、この質問に関して話している人々の動画が表示されます。この機能を使えば、一般的な見解ではなく、同じ疑問を抱えた人々の具体的な話を検索できるというわけです。
以上の新機能を試用するには、後述するSearch Labsに登録する必要があります。ただし当面のあいだは英語でのみ試用できます。なお、新機能の試用時には引き続き検索連動公告が表示されます。検索公告と対話型AIは排他的なものと見なされることもありましたが、両者は共存できるとGoogleは考えているのです。
AIによってグラフィックが強化されたGoogleマップ
昨年開催されたGoogle I/O 2022では 、Googleマップをフォトリアルな鳥瞰図のように表示するイマーシブビューの実装が発表されました(※注釈2)。Google I/O 2023では、ルートに沿って表示されるイマーシブビューが発表されました。自動車などでのルート移動時にイマーシブビューを参照しやすくなったというわけです。新しいイマーシブビューは、東京を含めた世界各国の都市で展開予定です。
イマーシブビューの生成には、Googleストリートビューの画像と衛星画像を素材としたNeRF(Neural Radiance Fields)に関連する技術が活用されていると考えられます。多数の2D画像から3Dシーンあるいは3Dオブジェクトを生成するこの技術は、NVIDIAなどがさかんに研究しています。
またGoogle Maps Platformから3D鳥瞰映像を作成できるAerial View APIと、Photorealistic 3D Tilesと呼ばれるフォトリアルな3Dマップ情報を操作できるMap Tiles APIが利用できるようになりました。前者は特定の場所に向かうための3D航空画像を制作するのに適しており、後者は3Dマップを高度にカスタイマイズしたい場合に向いています。
構図や背景の変更が可能なMagic Editor
画像の保存・編集アプリであるGoogleフォトに関しても、生成系AIを活用した新機能Magic Ediotrが発表されました。この機能は画像の背景を変更したり、被写体の位置を変えたりする編集を可能とするものです。この機能を使えば、以下の画像のように背景の空を曇りから晴れに変えたり、ベンチの位置を中央に寄せたうえで画像撮影時にはなかったベンチや風船の一部分を追加したりできます。
Magic Ediotrには、間違いなく画像生成AIが活用されているでしょう。写っていなかった被写体の部分を追加する処理には、画像生成AIのアウトペインティング機能が使われていると考えられます。Googleは今までにImagenとPartiのような画像生成AIを開発しており、これらは一般公開されていないものも、モデル開発から得た成果がMagic Editorに生かされてるかも知れません。
なお、Magic Editorは今年後半、一部のPixel端末に早期アクセス機能として提供される予定です。
テキストから音楽を生成するMusicLM
楽曲の特徴を記述したテキストを入力すると、その特徴を反映した楽曲を生成するMusicLMも発表されました。同モデルはウェブ、Android、そしてiOSから試用可能なのですが、試用に際してはAI Test Kitchenからユーザ登録する必要があります。登録後同モデルを試用すると、任意のテキストから2つの楽曲が生成されます。このうち1曲を選択すると、同モデルはユーザの音楽に関する嗜好を学習します。
MusicLMのプロジェクトページには多数の生成楽曲が収録されており、例えば「力強くダンサブルなビートと突出したベースラインを持つファンキーな作品。キーボードのキャッチーなメロディが、曲に豊かさと複雑さを加えている」というテキストから生成した楽曲があります。
MusicLMを解説した論文によると、同モデルは2022年11月に開催されたGoogleのAI特化型イベント「AI@’22」で発表された音楽生成モデルAudioLMを発展されたものです(※注釈3)。同モデルは、AudioLMに含まれていた2つのモデルに新たに開発した1つのモデルを加えた合計3つのモデルを連携させて、テキストから楽曲を生成します。それらは以下の通りです。
MusicMLに実装された3つのモデル
SoundStream | 任意の音源から(音程などの)音響的特徴を抽出して、その特徴に後続する確率の高い音響を生成する(AudioLMに実装) |
w2v-BERT | 任意の音源から(歌詞などの)意味的特徴を抽出して、その特徴に後続する確率の高い音声を生成する(AudioLMに実装) |
MuLan | 音源の特徴を記述したテキストとその音源の対応関係を学習したモデル。このモデルの学習のために楽曲とその特徴を記述したテキストに関するデータセットMusicCapsが用意された。 |
MusicLMの発表に先立って、Googleはミュージシャンを集めて同モデルの可能性を探求するワークショップを開催しました。このワークショップの様子を収録した動画がYouTubeで公開されています。
新機能の実験室Labs
GoogleはGoogle I/O 2023開催に合わせて、新しいAIサービスが試用できる環境Labsを発表しました。Labsでは以上に紹介したAIサービスを含めた以下のような4つのサービスを試用できます。
Labsから試用できる4つの製品・サービス
Search Labs | 既出の生成系AIと融合した検索に加えて、プログラミング支援型検索Code Tips、検索結果をGoogleスプレッドシートで共有するAdd to Sheetsを含む新しい検索機能 |
Workspace Labs | Google WorkspaceでAIを使って制作やコラボレーションを行うための新機能 |
Project Tailwind | AIファーストのノートブック |
MusicLM | 既出の楽曲生成AI |
Labsの試用に際しては、こちらからユーザ登録することになります。また、試用できる国は限られており、Labs対象国以外からユーザ登録した場合、そのユーザが住む国がLabs対象国になった時点で招待状が届きます。
なお、Labsで試用できるサービスは、そのすべてが正式リリースされるわけではありません。正式リリースされるかどうかは、試用したユーザのフィードバックが判断材料となります。
ゲーム分野への応用
Google I/O 2023では、AIを応用したゲーミングマウスとAIを活用して開発したカードゲームも発表されました。
顔の動きを検知して動作するゲーミングマウス
ゲーム実況者のランス・カー(Lance Carr)は、四肢が動かなくなる難病である筋ジストロフィー症を患っていますが、特製ヘッドトラッキングマウスでゲームをプレイしていました。2021年のある晩、彼の家が火事になってゲームプレイする設備が焼失してしまいました。この事件を知ったGoolgeは、彼と共同で新しいゲーミングマスを開発することにしました。こうして出来たのが「Project Gameface」です。
Project Gamefaceは機械学習モデルによって顔の動きを検知して、その動きに応じてマウスカーソルを動かせます。顔の動作とカーソルが動く感度を調整できる機能も実装されています。このマウスに実装されたソースコードは、GitHubでオープンソースとして公開されています。
生成系AIを活用して開発した「I/O FLIP」
「I/O FLIP」とは、Androidスマホのマスコットキャラクターの通称「ドロイド君」などGoogleに所縁のあるキャラクターを使ったカードゲームです。このゲームの開始時にプレイヤーがマジシャンといったクラスと透明人間のような特徴を選ぶと、12枚のカードが配られます。これらのカードから3枚選び、他のプレイヤーと対戦します。対戦は、それぞれのプレイヤーがカードを1枚づつ場に出して行います。カードには火や水といった属性が設定されており、この属性がカードバトルの勝敗に影響します。
I/O FLIPを解説したUS版Google公式ブログ記事によると、同ゲームで使われる数千枚のカードの制作には、同社が開発したテキスト画像生成モデルMuseと、Museをベースに開発されたテキストによって画像を編集できるDreamBoothが使われました。さらに画像の生成や編集のために使った数十万件のテキストは、PaLM APIを活用して生成しました。制作されたカードをゲームシステムに実装する際には、同社が提供するゲーム開発環境Flutterが活用されました。
ゲーム開発は、生成系AIの活用が期待される分野として注目されています。というのも、ゲーム開発においては膨大な画像やテキストが必要になり、このようなゲームに必要な要素を生成系AIによって生成できれば、大幅な工数削減につながるからです。最近では、ChatGPTを活用したRPGのMOD(一般ユーザが開発したゲームの改造プログラム)も登場しています。
「責任あるAI」を実現する取り組み
Googleは2018年にAIの善用を促進するために、AI開発と活用に関する倫理規定「AI原則」を制定しました(※注釈4)。Google I/O 2023では、AI原則に則った同社の近年の取り組みが紹介されました。
Googleは、公共的な目的のために多数のAIを開発してきました。例えば、2018年にインドにおける洪水予測をきっかけに開発されたFloodHubは、2022年には18ヶ国に展開され、2023年5月22日には予測対象国を80ヶ国に拡大しました。また地球温暖化による気温上昇で世界各地で山火事が頻発する現状に対して、2023年2月3日には山火事を予測する取り組みを発表しました(※注釈5)。2023年3月14日に開催された同社のヘルスケアへの取り組みを発表する年次イベント「The Check Up」では、前出のMed-PaLM 2を含むヘルスケアAIに関する活動報告がありました。
科学分野におけるAIの応用で有名なのは、かつてはGoogle傘下の企業であり2023年4月には同社に統合されたDeepMindが開発したAlphaFoldです。同モデルは、既知のほぼすべてのタンパク質の構造を予測するという偉業を成し遂げました(※注釈6)。また、Googleは地球上で話されている主要な1,000の言語を理解する言語AIを開発する「1,000 Languages Initiative(1,000言語イニシアティブ)」に取り組んでおり、すでに400の言語のサポートを実現しています(※注釈7)。
Googleは、AIの悪用対策にも取り組んでいます。そうした取り組みには、以下のようなものがあります。
Googleが取り組むさまざまなAI悪用対策
「この画像について(about this image)」の開発 | インターネット上の画像について、最初に掲載された場所等を特定できる機能。誤情報の拡散を予防できる。今後数ヶ月以内にアメリカで利用可能になる予定。 |
Universal Translatorの利用制限 | 動画に話者の声や唇と同期した多言語字幕を付けるサービス。悪用の恐れがあるため、現時点では許可されたパートナーだけが利用可。 |
生成データの出典管理 | 生成系AIによって生成された画像やテキストに対して、電子透かしやメタデータを付加する機能を近日中に公開予定。 |
合成音声の検出器 | 合成音声を生成するAudioMLが生成した音声を99%の精度で検出する検出器を開発した。 |
Perspective API | Googleと同社傘下の研究機関のJigsawは、所与のテキストが毒性があるかをチェックするツール「Perspective API」を開発した。同ツールは、毒性のあるテキストを集めたデータセット「Real Toxicity Prompts」の作成に活用されている。 |
まとめ
Google I/O 2023のAIに関する発表をまとめると、同社は同社提供の製品とサービス全般をAIによってアップデートしたことがとがわかります。こうした同社の動向は、OpenAIとMicrosoftが推進するChatGPTあるいはGPT-4を中心とするAIインフラ構築と競合します。今後は、この両者のAIインフラをめぐる覇権争いが激化するでしょう。もっとも、この争いはどちらか一方の市場からの撤退で決着するのではなく、PC市場やスマホ市場がたどってきたような複数のプラットフォーマーによる寡占に落ち着くかも知れません。
なお、GoogleのAIに関する最新取り組みを知るには、US版Google公式ブログのAIカテゴリーあるいはGoogle Research Blogをフォローすると良いでしょう。
記事執筆:吉本 幸記(AINOW翻訳記事担当)
編集:おざけん