Google I/O 2022で発表された最新自然言語処理技術まとめ

画像出典：Google I/O 2022におけるサンダー・ピチャイCEOの基調講演をまとめたGoogle公式ブログ記事より引用

前書き

2022年5月11日から12日、毎年恒例のGoogle主催の開発者会議「Google I/O 2022」がハイブリッド開催されました。同社のサンダー・ピチャイCEOが行った基調講演をまとめた記事を読むと、多数のAI技術が発表されたことがわかります。この記事では、GoogleI/Oの発表から特に自然言語処理に関するものを抽出して解説します。

統合学習データを使って24の言語に対応

Google I/O 2022では、Google翻訳が新たに24の言語に対応したことが発表されました。対応した言語にはインド北東部で使われるアッサム語、クルド人が話すクルド語などが含まれいます（24の翻訳対応言語については本記事末尾の付録参照）。この新機能の実現には、多言語機械翻訳に関する大規模開発が不可欠でした。こうした開発の概要と詳細は、Google AIリサーチブログ記事と論文で解説されています。

ロングテール言語の問題

ロングテール言語（使用者が少ないニッチな言語）の機械翻訳が難しいのは、英語などの主要言語と比べて圧倒的に学習データが少ないからです。ロングテール言語に関する自然言語処理研究も進んでいないため、学習データを収集する方法自体が確立されていないという難点もあります。

以下のグラフは、各種言語に関する翻訳向け学習データ量を表したものです。横軸が言語種別、縦軸が学習データ量を表しており、学習データ量が多い言語ほど左側になるように整列すると、グラフ右側にロングテール言語が並びます。このグラフの分布はインターネットビジネスの概念であるロングテールと同様であることから、使用者が少ないニッチな言語がロングテール言語と呼ばれるのです。また、グラフの赤で色付けされた領域は他言語との対応関係に関する学習データを意味する「パラレルデータ」を表しており、青の領域は他言語との対応関係を欠いた言語単体の学習データを意味する「モノラルデータ」を表しています。このグラフより、機械翻訳に役立つパラレルデータが整備された言語は、世界で話される言語のほんの一部でしかないことがわかります。

各言語の学習データ量。画像出典：Googleリサーチブログ記事より引用

統合学習データの作成とその利点

ロングテール言語の機械翻訳を実現するために、Google研究チームは以下のようなタスクを実行しました。

ロングテール言語をスクレイピングするアルゴリズムを開発。
ロングテール言語をスクレイピングして、各種言語の学習データを収集。
各種言語の学習データを単一の学習データに統合。こうした統合によって、機械翻訳における転移学習が可能となり、個々の学習データで訓練するより効率的となる。
ロングテール言語に関する学習データを生成して、学習データを増やす。
ネイティブスピーカーに機械翻訳を評価してもらう。

以上のようにしてロングテール言語を含めた多言語機械翻訳が実現しました。実現した多言語機械翻訳の品質を評価するために、Google研究チームは（他言語に翻訳した結果を元の言語に翻訳し直す）往復翻訳にもとづいて独自開発した翻訳品質指標RTT LANGID CHRF（※註釈1）を算出しました。算出した結果は以下のグラフのようになります。縦軸がRTT LANGID CHRF値、横軸が学習データ量を意味しています。赤色のプロットは学習データが充実した言語を表し、青色は学習データに乏しいそれを表します。学習データが少ない言語のなかには、学習データが豊富な言語と同等な翻訳品質を実現できたものがあるのがグラフから読み取れます。

各言語の学習データ量とRTT LANGID CHRF値の散布図。画像出典：Googleリサーチブログ記事より引用

（※註釈1）RTT LANGID CHRFの定義と詳細については、論文「次の千の言語のための機械翻訳システムを構築する」の『4.3 RTT LANGID CHRF』を参照のこと。

ネイティブスピーカーの貢献

ロングテール言語の機械翻訳の品質を評価するにあたっては、ネイティブスピーカーが多大な貢献をしました。というのも、整備の途上にあるロングテール言語の学習データは誤りが多く含まれており、こうした誤りを修正するのはネイティブスピーカーの協力なしには実行できないからです。

Google研究チームは、そもそもロングテール言語のコミュニティは、多言語機械翻訳を求めているのか、という根本的な問いかけについても調査しました。こうした調査の結果、ロングテール言語コミュニティは、たとえ低品質であっても多言語機械翻訳を求めている傾向があることが判明しました。この結果は、ロングテール言語の機械翻訳開発がきわめて有意義であることを意味しています。

今後の課題

Google研究チームは、多言語機械翻訳の品質向上に向けた今後の課題として、以下のような3項目を挙げています。

ロングテール言語の辞書の作成：ロングテール言語のなかには、辞書が存在しないものもあります。こうした言語に関する辞書を作成することが機械翻訳品質向上の効率的な手段となります。
多様な手段による学習データの整備：インターネット上に情報が少ないロングテール言語のデータは、手作業で収集するのが望ましいのかも知れません。また、前述のようにネイティブスピーカーへのヒアリングも引き続き重要です。
マルチモーダルな学習データの活用：世界で話される言語の大部分は、書き言葉や標準化された表記規則がありません。今後さらに機械翻訳の対応言語を増やすには、音声データとテキストデータの両方を含む学習データが必要となるでしょう。

自動要約モデル「PEGASUS」をGoogleドキュメントに実装

Googleドキュメントに自動要約が実装されることも発表されました。もっとも同機能のリリース時期は来年であり、対応言語は不明です。同機能には、革新的な自動要約モデルPEGASUSが活用されています。Google AIリサーチブログ記事には、同モデルの研究経緯がまとめられています。

PEGASUS以前の自動要約

AIモデルによる自動要約とは、任意の文章を要約する文章を生成するSequense to Sequence（配列対配列）タスクを実行することを意味します。初期の言語AIで使われていたRNNは、長文の要約を苦手としていました。

Transformerの発明とBERTをはじめとしたTransformerベースの言語モデルが、自動要約モデルの開発を新たな次元に導きました。Transofrmerを使えば、長文のSequense to Sequenceタスクを効率よく実行できるようになったのです。また、Transformerベースの言語モデルを利用すれば、ラベルなしの学習データを使って学習できるようにもなりました。

PEGASUSの革新性

Googleとインペリアル・カレッジ・ロンドンが共同で2020年7月に発表した自動要約モデルPEGASUSは、Transformerベースの言語モデルを自動要約モデルとして進化させたものです。

PEGASUSの革新性は、事前学習にGSP（Gap Sentence Prediction：ギャップとなる文の予測）が使われているところにあります。GSPとはラベル付けされていないニュース記事やウェブ文書の一部をマスクしたものを入力として与えたうえで、マスクされる前の全文章を予測する学習です。

GSPの模式図。画像出典：PEGASUSを論じた論文より引用

PEGASUSの改善

PEGASUSをGoogleドキュメントに統合する際には、論文発表時のモデルをさらに改善する必要がありました。改善点には、以下のような2項目が挙げられます。

ファインチューニング用の学習データの整備：開発初期のファインチューニング用学習データには、さまざまな形式の要約が含まれていました。例えば長くて詳細な学術的な要約と、簡潔でパンチの効いた表現を用いた経営者向けのそれが単一の学習データのなかにありました。こうした学習データを用いたために、PEGASUSは混乱してしまいました。そこで学習データを一貫性があるようにクリーニングして再学習した結果、要約の品質が向上しました。
アーキテクチャの改善：PEGASUSはTransformerベースのモデルですが、Transformerのみでアーキテクチャを構成すると、長い要約を生成する際に大きな遅延が生じてしまいます。Transformerで長い要約を生成する場合、固定長の文字列であるトークンを複数生成してから連結します。この連結処理において複数のトークンに注目するために遅延が生じてしまうのです。こうした遅延を緩和するために、RNNを併用したハイブリッドアーキテクチャを採用しました。

今後の課題

以上のような自動要約には、さらなる改善の余地があります。改善するために取り組むべき課題には、以下のような3項目があります。

学習データのさらなる改善：前述のようにファインチューニング用学習データを一貫性があるようにクリーニングした結果、限られた形式の要約にしか対応できていません。今後は対応する要約形式をさらに増やすように学習データを拡充する予定。
読者からのフィードバックの収集：要約の品質は、読者によって異なる可能性が高いです。例えば、一般的な読者に専門的な要約を提供した場合、その要約は難しいものと評価されるでしょう。それゆえ、要約品質を評価して改善するには、読者からのフィードバックを収集することが不可欠となります。
長文の要約：（長編小説のような）長文の要約こそ自動要約の大いなる目標であり、読者に求められていることでもあります。しかしながら、高品質な長文の自動要約は現時点では技術的に困難なので、中長期的な研究開発が必要となります。

世界最大サイズの言語モデル「PaLM」

ピチャイCEOの基調講演では、（2022年5月時点では）世界最大サイズの言語モデル「PaLM」についても言及されました。2022年4月に発表された同モデルの正式名称は「Pathways Language Model」であり、その名称が示す通り、Googleが提唱する新しいAI設計思想「Pathways」が採用されています。

新たなAI設計思想「Pathways」とは

Pathwaysを紹介したGoogle公式ブログ記事によると、この設計思想を従来のAI設計思想と比較した場合、以下の表のようにまとめられます。

従来のAI設計思想	Pathways
タスクごとにゼロから訓練する。また、タスクを組み合わせて新たなタスクを実行できない。	任意のタスクの学習をほかのタスクに流用できる。タスクを組み合わせて新たなタスクを実行できる。
基本的にユニモーダル（画像認識のみ、自然言語処理のみ、etc..）	マルチモーダル（画像、音声、言語等のマルチメディアに対応）
高密度モデル（タスク実行時にすべてのパラメータを使う）	スパーズモデル（タスク実行に必要なパラメータだけを使う）（※註釈2）

（※注釈2）スパーツモデルと高密度モデルの対比については、AINOW翻訳記事『GPT-4は間もなく登場。それについて私たちが知っていること。』の見出し「スパース性：GPT-4は高密度モデルになるだろう」を参照のこと。

連鎖的推論で画期的な前進

Pathwaysが採用されたPaLMのパラメータ数は5,400億であり、2022年5月時点で世界最大でした。もっとも、個々のタスク実行時には一部のパラメータだけが使われます。同モデルの性能をGoogleが作成した150以上の言語タスクから構成されたベンチマークBIG-benchで測定したところ、最高性能を発揮しました。以下のグラフは縦軸がBIG-benchを用いた性能値、横軸はモデルサイズを表しています。このグラフからPaLMはモデルサイズが100億を超えると急激に性能が向上する一方で、同モデルをもってしても人間のベストスコアには及ばないことがわかります。

Big-benchでPaLMのスコア。画像出典：PaLMの論文より引用

PaLMの性能で特筆すべきは、GPT-3を含めて従来の言語AIが苦手としていた論理推論で大幅な改善があったことです。この改善を解説したGoogle AIリサーチブログ記事には、改善結果をまとめたグラフが掲載されています。左側からファインチューニング済みGPT-3、論理推論に特化した訓練を実施したGPT-3、通常のPaLM、後述する「思考の連鎖」を採用したPaLM、「思考の連鎖」と「自己一貫性（self-consistency）」と呼ばれる最新のアンサンブル技法のひとつを実装したPaLMを意味しており、この右側のPaLMの正解率が75%と最高値を記録しました。

PaLMの論理推論能力の比較。画像出典：PaLMにおける思考の連鎖を論じたGoogleリサーチブログ記事より引用

前述の通り、論理推論が改善されたのは「思考の連鎖（chain of thought）」という推論モデルを採用したからでした。思考の連鎖とは、推論を実行時に推論を分割してから最終的に結合する技法を意味します。従来の言語モデルは、推論の条件と推論の結論がペアとなった学習データで訓練していたので、推論条件から直接的に結論を導出しようとした結果として間違うことがありました。対して、思考の連鎖では推論条件から途中の結論を生成したうえで、その生成された途中の成果を使って最終的な結論を導出します。この技法は、まさに人間の推論過程を模倣していると言えます。

PaLMにおける思考の連鎖を解説する模式図。画像出典：PaLMにおける思考の連鎖を論じたGoogleリサーチブログ記事より引用

コード生成にも対応

PaLMは、OpenAI Codexのようにコード生成にも対応しています。具体的にはコメントからコードを生成する、あるプログラミング言語をほかのそれに翻訳する、コンパイルエラーを修正する、などのタスクを実行します。

PaLMがソースコードを生成する様子。動画出典：PaLMを紹介したGoogleリサーチブログ記事より引用

PaLMがコンパイルエラーを修正する様子。画像出典：PaLMを紹介したGoogleリサーチブログ記事より引用

残存するバイアス

PaLMは、ほかの大規模言語モデルと同様にジェンダーや職業、宗教に関するバイアスを含んだ出力を生成します。例えば、イスラム教に関する文章は、テロ等のネガティブな単語を含んで生成される可能性が相対的に高まります。以下のグラフは、各宗教に関する生成文にネガティブな単語が含まれる確率を視覚化したものです。色付きの帯が長いほど、ネガティブな単語を含む確率が高いことを示しています。無論論者、イスラム教徒、ユダヤ教徒に関する文章にネガティブな単語が含まれる可能性が相対的に高いことがわかります。

PaLMが各宗派に関して有害な文を生成する確率の視覚化。画像出典：PaLMの論文より引用

今後の課題

PaLMのようなPathwaysを採用した大規模モデルを開発するにあたり、問題となるのが「どのように大規模化するのが適切なのか」ということです。最近、DeepMindが言語モデル「Chinchilla」を発表したことで、高密度言語モデルのサイズと性能の関係について再考の余地があることが判明しました。従来はモデルサイズが大きければ、その大きさに比例して性能も向上すると考えられていました。しかし、言語モデルの性能はモデルサイズだけではなく学習データ量も重要であるとわかったのです（※註釈3）。

PaLMで採用されているスパーズモデルのスケーリングについては、わかっていないことが多いのが現状です。スケーリングに関わる主な要因にはモデルサイズ、学習データ、学習時の計算性能、学習時のバッチサイズ等が挙げられますが、これらの要因間のトレードオフに関しては今後調査される予定です。

（※註釈3）言語モデルにおけるモデルサイズと学習データの関係については、AINOW翻訳記事『GPT-4は間もなく登場。それについて私たちが知っていること。』の見出し「モデルサイズ：GPT-4は超大型にはならないだろう」を参照のこと。

発表されたその他のAI技術

ピチャイCEOの基調講演では、以上に解説した自然言語処理のほかにもGoogleの最新AI技術が言及されていました。以下では、そうした4つのAI技術を簡単に紹介します。

Googleマップの3つの進化

Googleマップは、AI技術によって3つの進化を遂げました。1つ目の進化は、コンピュータビジョンとニューラルネットワークを用いて衛星画像から建物を検知できるようになったことで、同マップがより詳細になりました。具体的には2020年7月以降、アフリカのGoogleマップ上の建物数を6,000万から約3億の5倍、インドとインドネシアでは今年になって建物数を2倍に増やしました。以上の建物検知技術によって検知された建物は、同マップ内の建物の20%以上を占めるようになりました。

建物検知技術によってより詳細になるGoogleマップ。画像出典：Google I/O 2022におけるサンダー・ピチャイCEOの基調講演をまとめたGoogle公式ブログ記事より引用

２つ目の進化は、イマーシブビューの実装です。この新機能は例えばイギリスのウェストミンスター宮殿を観光したい時、同宮殿のフォトリアルな鳥観図から付近にあるレストランの内部までをシームレスに見れるというものです。こうしたドローンで撮影したような視覚体験は、AIによる描画技術であるニューラルレンダリングを使ってGoogleが蓄積してきた静止画像を素材として合成されたものです。なお、イマーシブビューは今年後半にロサンゼルス、ロンドン、ニューヨーク、サンフランシスコ、東京で展開され、近日中にさらに多くの都市で展開される予定です。

3つ目はライブビューです。この機能は、ARを使って街並みを写したカメラ画像に矢印などを重ねて表示してユーザを行き先までナビゲーションするものです。さらには街並みにドラゴンを表示する位置情報ゲームも実現できます。同機能には、グローバルローカライゼーションと呼ばれるAI技術が応用されています。

ライブビューのデモ。動画出典：Googleマップの新機能を解説するGoogleブログ記事より引用

YouTubeの2つの便利な新機能

YouTubeにもAI技術を活用した2つの新機能が追加されました。1つ目の新機能は、昨年から導入されたチャプターの自動生成です。チャプターがあれば、視聴者は長い動画であっても簡単に興味のある箇所にアクセスできます。2022年5月時点でチャプターが自動生成された動画は800万本にのぼり、今後1年間で8,000万本まで増やす予定です。この機能には、DeepMindが開発した技術（※註釈4）が活用されています。

2つ目はスマホで再生したYouTube動画における字幕の機械翻訳であり、16ヶ国語に対応します。2022年6月からは、ウクライナにおけるYouTube動画の字幕の機械翻訳に対応して、ウクライナ侵攻に関する正確な情報の提供を目指します。

YouTubeの字幕機械翻訳。動画出典：Google I/O 2022におけるサンダー・ピチャイCEOの基調講演をまとめたGoogle公式ブログ記事より引用

（※註釈4）ピチャイCEOの基調講演では明言されていないが、YouTube動画のチャプター自動生成に使われているDeepMind開発の技術とは、マルチモーダル認識モデルFlamingoと推測される。同モデルは任意の画像、動画、テキストを入力として与えると、その入力した内容に対応したテキストを出力する。

Google Meetの画質改善

Googleが提供するオンライン会議ツールであるGoogle Meetでは、AI技術によって人物の肌の色がより適切に表示されるようになりました。この画質改善は、有色人種の人が被写体の場合、幅広い肌の色を識別できるコンピュータビジョンを実装していないと、実際の肌の色を適切に再現できていなかった、という問題を解決するために行われました。

以上の画質改善はハーバード大学所属の社会学者であるエリス・モンク博士の協力を得て、同博士が考案した肌色のスケール（階調）である「モンク・スキントーン」に準拠しています。

AI Test Kitchenの立ち上げ

Googleは昨年5月、人間との会話にフォーカスした言語モデルLaMDAを発表しました。同モデルは何千人ものGoogle社員にテストしてもらった結果、不正確な回答や攻撃的な回答が減少して大幅に品質が向上しました。

以上のようなテスト結果をうけて、Google社員以外の人々がLaMDAのテストに参加できるようにしたウェブサイトAI Test Kitchenを立ち上げました。同サイトを通じて、以下のような3つのテストに参加できます。

Imagine It（想像してみて）：（「深海の探査」のような）テキストで表現された任意のシーンについて、LaMDAが文章を生成する。
List It（リストアップして）：任意の目標をテキスト入力すると、LaMDAはそれを達成するために必要なサブタスクを特定して、それらをリストアップ表示する。
Talk About It（話してみて）：（例えば「犬」のような）任意の話題について、人間と話題から逸脱しないようにして雑談する。

AI Test Kitchenのロゴ。画像出典：AI Test Kitchen公式サイトより引用

なお、AI Test Kitchenは今後数ヶ月以内にアクセスを開放して、最初はAI研究者や社会科学者、人権の専門家などの学術関係者を中心にテストに参加してもらった後に、テスト参加者を拡大していく予定です。

まとめ

以上の発表からわかるように、Googleは依然として世界のAI研究をリードしています。自然言語処理に関して言えば、同社が提唱したPathwaysモデルは今後の言語モデル開発の標準アーキテクチャとなる可能性が高いです。というのも、同アーキテクチャの特徴であるスパース性は既存の高密度モデルより人間の大脳に類似しており、こうした類似性によりAGIの実現に寄与すると考えられるからです。

GoogleのAI研究開発の最新動向をキャッチアップするには、US版Googleブログ記事のAIカテゴリーとGoogle AIリサーチブログを閲覧するとよいでしょう。

付録：Google翻訳が新たに対応した24言語のリスト

言語名	話者数（万人）	使用地域
アッサム語	2,500	インド北東部
アイマラ語	200	ボリビア、チリ、ペルー
バンバラ語	1,400	マリ
ボジュプリ語	5,000	インド北部、ネパール、フィジー
ディベヒ語	5,000	モルディブ
ドグリ語	300	インド北部、ネパール、フィジー
エウェ語	700	ガーナ、トーゴ
グアラニー語	700	パラグアイ、ボリビア、アルゼンチン、ブラジル
イロカノ語	1,000	フィリピン北部
コンカニ語	200	中央インド
クリオ語	400	シエラレオネ
クルド語（ソラニ語）	1,500	イラン、イラク
リンガラ語	4,500	コンゴ民主共和国、コンゴ共和国、中央アフリカ共和国、アンゴラ、南スーダン共和国
ルガンダ語	2,000	ウガンダ、ルワンダ
マイティリ語	200	インド北部
メイテイロン（マニプリ）語	200	インド北東部
ミゾ語	830	インド北東部
オモロ語	3,700	エチオピア、ケニア
ケチュア語	1,000	ペルー、ボリビア、エクアドルとその周辺
サンスクリット語	2	インド
セペティ語	1,400	南アフリカ
ティグリニア語	800	エリトリア、エチオピア
ツォンガ語	700	エスワティニ、モザンビーク、南アフリカ、ジンバブエ
トウィ語	1,100	ガーナ