目次
はじめに
2022年11月2日、GoogleはAI技術に特化したイベント「AI@ ’22」を開催しました。同イベントの収録動画はYouTubeのGoogle Researchチャンネルにアップされ、発表された内容はUS版Google公式ブログ記事にまとめられています。この記事では、こうした資料にもとづいて同イベントで語られた自然言語処理、クリエイティブAI、そして気候変動に対処するAIについて、関連記事や論文も参照してレポートします。
アフリカ諸言語をサポート
AI@で発表された成果のひとつ目は、音声認識をサポートする言語数が400を超えたことでした。この400というサポート数は、Metaが2022年7月に発表した200の言語の翻訳をサポートした言語モデル「NLLB-200」の倍に相当します。Googleのアフリカでの活動を報じるGoogleアフリカブログの記事によると新たに音声入力がサポートされた言語のなかには、以下のような9つのアフリカ諸言語が含まれています(表にはサポート済みの4つのアフリカ諸言語も並記)。
サポート済みのアフリカ諸言語 | アフリカーンス語、アムハラ語、スワヒリ語、ズールー語 |
新たにサポートされたアフリカ諸言語 | ンデベレ語、イシクソサ語、キニャワンダ語、北ソト語、スワティ語、セソト語、ツワナ語、ツィベンダ語、ツォンガ語 |
現在アフリカで話されている言語は2,000以上あるので、以上の表で挙げた13の言語は音声入力がサポートされたごく一部のアフリカ諸言語と言えます。アフリカ諸言語のサポートが遅れている理由には、これらの言語をインターネットを使って収集できないため、テキストベースの学習データを整備できないことがあります。
今回新たに9つのアフリカ諸言語がサポートできた背景には、2つの技術的革新がありました。そうした技術的革新のひとつ目は、自動音声認識(Automatic Speech Recognition:以下、「ASR」と略記)に新手法を導入したことです。この新技法を論じた論文によると、ASRモデルを開発するにあたり、従来ではほかの言語と比べて学習データが格段に多い「高リソース言語」とその言語と関係の薄い言語を単一の言語モデルに統合すると、性能劣化を招くことが知られていました。この問題は、自己適応型蒸留という新技法を導入することで解決しました。同技法を導入した結果、モデルサイズを増やすことなく最大11.5%、モデルサイズを増やした場合には最大20.7%の性能向上を実現しました。
二つ目の技術的革新は、アフリカ諸国語の学習データの整備が進んだことです。こうした学習データの整備には、アフリカ現地の研究者や団体の多大な貢献がありました。ちなみにGoogleは近年アフリカにおけるDXの推進を支援しており、2022年10月6日に公開されたUS版Google公式ブログ記事は、同社は今後5年間で10億ドルをアフリカに投資する計画を伝えています。
Google開発クリエイティブAIの進展
AI@で発表された成果のふたつ目は、画像や音声などのようなコンテンツを生成するクリエイティブAIの開発進捗です。クリエイティブAIに関しては、2022年にDALL-E 2やStable Diffusionが発表されたことで画像生成AIが大いに盛り上がりました。Googleも「Imagen」や「Parti」といった画像生成を発表しています。AI@では、画像生成AI以外の4つのクリエイティブAIが取り上げられました。
画像生成に対応するAI Test Kitchen Season 2
Googleは2022年5月に開催された開発者向けカンファレンス「Google I/O 2022」において、同社が開発した会話AI「LaMDA」をテストするプロジェクト「AI Test Kitchen」(※注釈1)を立ち上げ、同年8月25日には同テスト用のAndroidアプリとiOSアプリをリリースすることを発表しました。
AI@では、近日中にAI Test Kitchenのseason 2が始まることが発表されました。season 2では、テキストから画像を生成する機能が追加されます。具体的にはプロンプトエンジニアリング機能の一種であるCity Dreamerを使えばテーマ別に街を生成したり、Wobbleに対してテキスト入力すればモンスターをデザインして、踊らせたりジャンプさせたりできる予定です。
3Dモデルを生成するDreamFusion
テキスト入力から3Dモデルを生成するモデル「DreamFusion」も紹介されました。同モデルに例えば「ハンバーガーを食べる幽霊(ghost eating a hamburger)」と入力すると、その内容に則した3Dモデルが生成されます。生成された3Dモデルはエクスポートも可能で、エクスポート後に3Dレンダラーやモデリングアプリにインポートできます。
DreamFusionが描画する3Dモデル群。GIFアニメ出典:DreamFusionプロジェクトページより引用
3Dモデル生成AIを開発する場合、3Dモデルを収集した大規模データセットが必要になると考えられます。しかしながら、DreamFusion開発にあたってはそうしたデータセットを使っていません。同モデルのプロジェクトページによると、同モデルはDALL-E 2のようなテキストから2次元画像を生成する技術と、2次元画像から3次元空間を生成するNeRF(Neural Radiance Fieldsの略称)を使って3Dモデルを生成しています。それゆえ、3Dモデルの大規模データセットが不要だったのです。
「音響版GPT-3」のAudioLM
AudioLMにも言及されました。このモデルは、任意の人間の音声やピアノなどの楽器の演奏に関する短い音源を入力すると、その音源に続く確率の高い音情報を生成するというものです。同モデルは、短いテキスト入力からそれに続く文章を生成するGPT-3の音響版と言えます。
AudioLMを解説したGoogleリサーチブログ記事によると、同モデルは音声によって話された言語的意味や演奏された音符をデジタル情報化した意味トークンを処理する機能と、声の特徴や楽器の音色といった音響的特徴としての音響トークンを処理する機能から構成されています。こうしたアーキテクチャを採用したことにより、意味と音響の両側面において継続される音情報を生成できるようになりました。
AudioMLを使えば任意の人物の録音音声からその人物になりすました音声を生成できることから、Googleは同モデルを当面のあいだリリースしないことに決めました。こうした決断の一方で、同モデルによって生成された音情報かどうかを判別するモデルも開発しました。このAudioML生成音判別モデルは、98.6%の精度を実現しました。
作家を集めて創作活動を実験したWordcraft
クリエイティブAIとクリエイターのコラボレーション事例についても紹介されました。Googleは会話AIのLaMDAをベースにして開発したライティング支援AI「Wordcraft」を使って、13名の英語で執筆する作家が小説を執筆するワークショップ「Wordcraft Writers Workshop」を実施しました。
Wordcraftは基本的にはウェブベースの文書作成アプリなのですが、利用できる機能にLaMDAの能力を流用しています。具体的には以下のような機能が実装されていました。
- 任意のフレーズに対して、「もっと面白く」「もっと憂鬱に」というようにニュアンスを指定したうえで書き換えてもらう。
- 「金のイヤリングについて詳述せよ」といった言語的タスクを実行してもらう。
- 執筆中の小説に関して、同AIとチャットする。
Wordcraftが動作する様子。GIFアニメ出典:Wordcraft Writers Workshop解説ページより引用
以上のようなWordcraftを使ってもらった結果、作家たちは同AIはブレインストーミングのパートナーとして最も役立つという見解で一致しました。例えばある作家は、同AIに質問して「ウサギの品種とその魔法の性質」という突飛なアイデアを練り上げました。
反対にWordcraftの欠点は、以下のようなものがありました。
- 一貫した文体で文章を生成できない。
- 文体がしばしば「ファン・フィクション(二次創作)」に似ており、独創性に欠ける。
- 独創的なプロットで小説を執筆しようとしても、平凡かつ決まり文句的な文章を提案する。
- 事実ではない事象を事実のように語ってしまう(言語モデル研究において「幻覚(Hallucination)」と呼ばれる現象)。
今回のワークショップの成果をふまえて、Google研究チームはライティングAIがすぐに作家を代替することはあり得ない、という結論を得ました。そして、同AIを改善する方向性として、比較的小規模な文章を生成することに特化する、時間がかかるが退屈なタスクを支援することに焦点を当てる、といったことを挙げています。
気候変動に対処するAI
三つ目の話題は、気候変動に対処するAIでした。気候変動により世界各地で大規模な災害が頻発するなか、Googleは山火事や洪水を予測するAIモデルの構築を推進しています。また、気候変動による食糧確保に関する懸念もAIで解決しようしています。
衛星画像を活用した山火事予測モデル
気候変動によって厳しい干ばつや乾燥に見舞われる地域が増えた結果、自然発火による山火事が頻発するようになりました。こうしたなか、Googleはアメリカ、カナダ、メキシコ、そしてオーストラリアの一部の地域に対して山火事の推移や広がりをリアルタイムで伝える山火事追跡システムをリリースしています。2022年7月以降、同システムはアメリカとカナダで発生した30以上の山火事において利用され、Google検索とGoogleマップで700万回以上その情報が閲覧されました。
山火事追跡システムは、山火事に関する衛星画像を学習データに活用しています。衛星画像の活用について紹介した2020年8月公開のUS版Google公式ブログ記事によると、アメリカ海洋大気庁が管理する人工衛星画像が撮影した画像が使われており、この人工衛星には山火事の場所を検出するために赤外線センサーと光学センサーが実装されています。
利用地域が拡大する洪水予測モデル
気候変動によって世界各地の気温が上昇した結果、河川の洪水も頻繁に起こるようになりました。Googleの洪水予測研究を紹介した2021年11月公開のブログ記事によると、同社は2018年より洪水予測研究に取り組んでおり、この研究の最初の3年間においてインドとバングラデシュの大部分をカバーする洪水予測システムを構築しました。そして、2021年には1,500万件の洪水警告通知を2,300万人に送信して、多くの人々の命を救いました。
AI@において、Googleは以上の洪水予測システムをサハラ以南のブルキナファソ、カメルーン、チャド、コンゴ民主共和国、コートジボワール、ガーナ、ギニア、マラウイ、ナイジェリア、シエラレオネ、アンゴラ、南スーダン、ナミビア、リベリア、南アフリカ共和国に拡大し、さらにスリランカにも導入することを発表しました。これらの利用拡大地域のなかには洪水に関するデータに乏しいところもあるのですが、転移学習を用いて予測精度を維持しています。
さらに、全世界の洪水発生状況を閲覧できるプラットフォーム「GoogleFloodHub」も発表されました。
以上の洪水予測モデルを論じた2021年11月発表の論文によると、同モデルは以下の画像に示されているように、河川の各種測定データを管理するデータマネジメント、河川の水位を予測するステージ予測モデル、洪水の範囲と水位を予測する浸水モデル、ステージ予測モデルと浸水モデルの予測を集約して警報通知を発するアラートから構成されています。ステージ予測モデルには線形モデルとLSTMモデルが使われています。
食糧確保のために農業をAIでアップデート
気候変動の影響は農業にも及び、地球の人口増加問題とあいまって食糧確保が次第に困難になることが予想されています。AI@開催当日と同じ日の2022年11月2日に公開されたUS版Google公式ブログ記事では、農業をAIによってアップデートすることで食糧生産を向上させる以下のような3つの試みが紹介されています。
- ムーンショットプロジェクト「Mineral」:AIや農業知識エンジンを活用して、持続可能な農業の確立を目指すプロジェクト。同プロジェクトでは作物の病気を識別する画像認識モデルが開発され、同モデルの学習データはCycleGANによって生成された。
- 害虫識別モデルの開発:インドのAIスタートアップWadhwani AIと協力して、綿花栽培における害虫ワタアカミムシガの幼虫を識別するモデルCottonAceを開発。同モデルによって農薬散布を20%減少させた一方で、綿花農家の利益率を26%を増加させた。
- 予測型農業システムの開発:アメリカ・バージニア州の公益企業Agrologyと協力して、気温や天候から肥料や栄養剤の最適量を予測するシステムを開発した。同システムの開発では農地に設置したセンサーが収集した各種データと人工衛星から取得したデータを統合するのに、Googleが提供する機械学習プラットフォームTensorFlowが活用された。
まとめ
以上のようにAI@と関連情報をまとめると、GoogleがAI研究開発を通して目指していることがわかります。同社が目指しているのは、一言で言えば「AIによる人類社会の改善」です。つまり、同社は言語活動という人類に共通する普遍的知的活動をAIで円滑化し、創作活動という人類が行う最良の知的活動をAIで支援し、気候変動によって生じる諸問題をAIによって解決を図ろうとしているのです。
人類社会の改善を目指すGoogleのAI研究開発の動向を知るには、US版Google公式ブログのAIカテゴリーとGoogleリサーチブログのAI分野をチェックするとよいでしょう。
記事執筆:吉本 幸記(AINOW翻訳記事担当)
編集:おざけん