Metaが注力する「メタバースのためのAI」まとめ

画像出典：Meta公開のメタバース解説ページより画像を引用

はじめに
「メタバースのためのAI」を旗印にしたイベントを開催
200ヶ国語に対応した「NLLB-200」
より自然な会話を目指す「Project CAIRaoke」
XR環境に応じて音響を最適化するAI
「メタバースのためのAI」だけではないMeta
- 世界を常識的に推論する次世代AI
- Meta開発のテキスト画像生成AI「Make-A-Scene」
まとめ

はじめに

MetaはSNSやメタバースを基幹業務にしている企業というイメージがありますが、熱心にAI研究にも取り組んでいます。そうした姿勢は、同社AI研究所に「ディープラーニングのゴッドファーザー」の1人として知られるヤン・ルカン氏をチーフAIサイエンティストとして招聘したことからもうかがえます。同社AI研究のユニークなところは、「メタバース（を実現する）のためのAI」を推進している点です。この記事では、そんなMetaのAI研究の最新動向をまとめます。

「メタバースのためのAI」を旗印にしたイベントを開催

Metaは2022年2月23日、同社の最新AI研究に関するイベント「Inside the Lab」を開催しました。副題が「AIによってメタバースを構築するために」であるように、同イベントでは同社の悲願であるメタバースを実現するために必要となるAI技術が発表されました。その発表をまとめた記事によると、「メタバースのためのAI」の詳細は以下の通りです。

「言語の壁」を撤廃する言語AI開発：翻訳システム未対応の言語や文字をもたない言語を使う世界人口の約半数の人々に対して、翻訳AIを提供することで「言語の壁」を撤廃する取り組みを推進する。
自然な会話ができる会話AI開発：人間とより自然に会話できる会話AIを開発することで、人間とデバイスとのインタラクションを改善する。
AIの仕組みを理解するシステムカードツールの提供：Instagramのコンテンツをどのようにランク付けしているかを解説するAIシステムカードツールの提供。
機械学習オンライン講座の開設：ジョージア工科大学と共同開発した機械学習を教えるオンライン講座「AI Learning Alliance」の開設。
ヤン・ルカン氏提唱の次世代AI：ヤン・ルカン氏が提唱する少ない学習でスキルを習得するよりヒューマンライクな次世代AIの紹介。
最先端レコメンデーションライブラリの提供：Pytorchの機械学習フレームワークを用いた最先端のレコメンデーションライブラリ「TorchRec」の提供。

なお、以上の「Inside the Lab」を収録した動画はこちらから視聴できます。

200ヶ国語に対応した「NLLB-200」

Metaは2022年7月6日、前述した「Inside the Lab」イベントで目標として掲げていた言語AI開発の成果として、200ヶ国語の多言語機械翻訳に対応した言語モデル「NLLB-200」（No Language Left Behind：「取り残された言語など無い」の略語）を発表しました。同AIの開発にあたっては、以下のような3つの技術的イノベーションがありました。

低リソース言語の学習を促進する「LASER3」

NLLB-200を実現した技術的イノベーションの1つ目は、2019年1月に旧Facebook AI研究所が発表した多言語リソースを処理するツール「LASER（Language-Agnostic SEntence Representation）」の改善でした。このツールは多言語の表現を単一の共有空間にマッピングするもので、簡単に言えば多言語対応の埋め込み空間です。同ツールを使えば、例えば「The dog is brown.（その犬は茶色い）」という英文と「Le chien est brun.」という同様の意味を持つ仏文が空間的に近い位置にマッピングされます。

LASERと埋め込みを比較した模式図。画像出典：LASERを発表したMetaのブログ記事

言語モデル開発にLASERを活用すると、（英語のような学習データの多い）高リソース言語の学習データを低リソースのそれに転用できるようになります。こうした転用が可能なのは、言語間における意味上の類似関係がマッピングされているからです。NLLB-200の開発にあたっては、RLTMベースだったLASERをTransformerベースに改善したLASER3を使いました。

LASER3の活用のほかにも、教師-生徒学習による効率的な対訳文の生成、高品質な学習データを収集するためにデータクリーニングパイプラインの再設計を行いました。

転移学習とオーバーフィッティング緩和の両立

文法が類似した言語どうしであれば、学習データが多い言語から学習データの少ない言語に対して効率的な転移学習ができることが知られています。しかし、こうした転移学習を実行すると、オーバーフィッティングが生じてしまいます。

転移学習時のオーバーフィッティングを回避するために、Sparse Mixture-of-Expertsモデルを開発しました。このモデルは、言語間で共通する特徴を自動的に共有するものです。このモデルを組み込むことで学習量を減らした結果、オーバーフィッティングを緩和できました。

Sparse Mixture-of-Expertsモデルに加えて、以下のような工夫によってオーバーフィッティングを緩和しました。

正則化の併用
カリキュラム学習アプローチの採用：高リソースの言語から学習した後に、その言語と類似した低リソース言語を学習する。
自己教師学習によって、低リソース言語の学習パフォーマンスを向上させた。

独自なベンチマークの構築

200言語の翻訳に対応するNLLB-200の性能を評価するには、低リソース言語に関する高品質な対訳データセットが必要となります。こうしたデータセットが存在しないことから、Meta AI研究チームは白紙の状態から作成することにしました。こうして作成されたデータセットがNLLB-200のベンチマークとなる「FLORES-200」です。

FLORES-200を作成するにあたり、英語版Wikipediaから抽出した3,001文を204ヶ国語に翻訳しました。この翻訳の作成には、経験豊富な各国語の翻訳者と翻訳を評価するレビュワーがペアとなって取り組みました。

毒性のある表現をあつめた有害リストも独自に作成しました。このリストの作成にあたっては、各国語に関する2人の専門家がヘイトスピーチで多用される表現などを集めて評価しました。こうして完成した有害リストは各国語ごとに平均して271項目となり、中央値（データを大きい順に並べた場合の中央の値）は143項目となりました。同リストに関しては、一般公開に向けての準備も進んでいます。

ちなみに、有害リスト項目が多い言語にはチェコ語の2,534項目やポーランド語の2,004項目があり、もっとも項目が多い言語では6,078、最小は36項目でした。

NLLB-200と先行言語モデルの性能比較も行われました。翻訳の性能評価で多用されるBLEUスコアにもとづいて比較した結果をまとめたのが、以下のグラフです。左側は、100言語をサポートする公開済みの2つの最新モデル（M2MとDelta LM）のスコアです。右側が200言語をサポートするモデル群のスコアで、左からパラメーター数33億のTransformerベースラインモデル、自己教師あり学習に対応したベースラインモデル（SSL）、逆翻訳に対応したベースラインモデル（BT）、そしてNLLB-200です。グラフを見るとわかるように、NLLB-200がもっともBLEUスコアが高い結果となりました。

BLEUスコアにもとづいた先行言語モデルとNLLB-200の性能比較：画像出典：NLLB-200に関するMeta AIブログ記事

NLLB-200のさらなる詳細は、技術解説記事、論文、モデル本体（GitHub）を参照してください。

より自然な会話を目指す「Project CAIRaoke」

「Inside the Lab」イベントが開催された同日、Meta AI研究チームはより自然な会話を実現した会話AI開発に関するプロジェクト「Project CAIRaoke」の取り組みをまとめた記事を公開しました。以下に同プロジェクトの取り組みをまとめます。

言語AIと会話AIの違い

Project CAIRaokeを論じた記事では、GPT-3のような言語AIと会話AIの違いを明確にすることから始めています。近年進化が著しい言語AIは、ユーザとのインタラクションをあまり考慮しない抽象化された言語の意味を処理する自然言語理解（Natural Languege Understanding：NLU）と自然言語生成（Natural Languege Generation：NLG）という2つの機能モジュールを重視しています。

対して会話AIには言語AIに実装されている2つのモジュールに加えて、対話状態追跡（Dialog State Tracking：DST）と対話方針（Dialog Policy）管理が必要となります。そして、これら4つのモジュールを円滑に統合しなければならないので、会話AIは言語AIより開発が難しくなるのです。

Project CAIRaokeにおける改善点

Project CAIRaokeでは、会話AIの改善点として以下のような2つを実行しました。

言語モジュール間の独立性の確保：従来の会話AIは上記の4つのモジュールのうち1つを改修すると、ほかの3つのモジュールも改修しなければならなかった。こうしたモジュール間の相互依存関係が、会話AIの学習と改善を遅らせていた。Project CAIRaokeではモジュール間の独立性を高めることによって、開発と学習の効率性を向上させた。
BlenderBot2.0の成果の流用：Metaが昨年7月に発表した会話AI「BlenderBot2.0」の成果を流用した。その成果とは、数日前の会話を記憶している「長期記憶」、インターネット検索によって得られた知識の会話への活用、人間の会話者が意図的に不快な会話を続けようとした場合に不快な会話を回避するセーフティ機能の実装などである（※訳註1）。

（※訳註1）2022年8月5日には、BlenderBot 3が発表された。同AIは、前世代に比べて人間との会話から学習する機能が強化された。その結果、同AIは前世代と比較して、人間による評価で会話タスクの総合評価を31%向上させ、知識量も2倍となり、事実誤認は47%減となった。また、安全性も向上した。

会話AIこそ未来のUI

以上のようにMetaが会話AI開発に熱心なのは、会話AIこそが未来の標準的なUIになると予想しているからです。同社は、近い将来スマートグラスのようなARデバイスが普及すると考えています。スマートグラスのUIはそのデバイスの形状により、触覚による操作ではなく音声によるインタラクションのほうが便利になるはずです。こうした標準的なUIの変遷は決して珍しいことではなく、直近ではガラケーからスマートフォンへの移行で起こりました。

Metaは、VRヘッドセットのUIも会話AIになると考えています。そして、同社が推進するメタバースは、VR空間において実現することで究極形態として完成すると予想されます。

XR環境に応じて音響を最適化するAI

Meta AI研究チームは2022年6月24日、XR環境の音響を最適化する3つのAIに関する記事も公開しています。以下では、テキサス大学オースティン校の研究者と共同研究開発した視覚と聴覚の関係を考慮したマルチモーダルなAIを解説します。

画像に合わせて音響を最適化する「AViTAR」

AViTARは、画像に合わせて音響を最適化するAIです。例えば、小さい部屋でバイオリンの演奏を録音したうえで、その収録音源と洞窟の画像をセットにして同AIに入力として渡すと、洞窟でバイオリンを演奏したように音源を変換します。

AViTARを開発するにあたっては、音源とその音源を録音した環境に関する画像をセットとしたマルチモーダルな学習データを用意して同AIを訓練しました。

AViTARの動作を解説する模式図。画像出典：音響AIに関するMeta AIブログ記事

AViTARの応用事例には、スマートグラスを装着して子供が使っていたバレエのチュチュを手に取ると、子供のバレエの発表会に関するホログラムが再生される、というイベントが挙げられています。このホログラムでは、発表会で体験した音響が正確に再現されることでしょう。

AViTARのさらなる詳細は、プロジェクトページと論文を参照してください。

環境を考慮してノイズを除去する「VIDA」

VIDA（Visually-Informed Dereverberation of Audio）は、音源から残響を除去するAIモデルです。既存の残響除去モデルは音源を録音した環境を考慮していないのに対して、同モデルは録音環境を考慮して残響を除去します。例えば、小さい部屋における残響と広い部屋におけるそれは異なるため、それぞれに対して最適化された残響除去処理を行います。

VIDAの開発には、音源とその周囲の視覚的環境をペアにした学習データが必要となります。こうしたデータを用意するにあたっては、3D環境における幾何学的音響シミュレーションデータを集めたSoundSpacesを活用すると同時に、マイクとiPhone 11を使って実際に音源とその周囲の視覚的情報を収集しました。

VIDAの動作を解説する模式図。画像出典：VIDAプロジェクトページ

なお、VIDAを進化させる方向性として、研究チームは音源の位置が移動する映像における残響除去を可能とするモデルの開発を検討しています。

VIDAのさらなる詳細は、プロジェクトページと論文を参照のこと。

話者の顔から声を特定する「VisualVoice」

VisualVoiceは、任意の動画内における特定の話者の声を抽出するAIモデルです。同種の先行AIモデルは話者の唇の動きと声の対応関係を学習したうえで音声を抽出していたのに対して、VisualVoiceは話者の顔の特徴と声の対応関係を学習します。

以上のようなVisualVoiceは、唇の動きが不明瞭な場合であっても、音声を抽出できます。例えば、任意の話者のプロフィール画像があれば、その話者の動く唇を含んだ動画がなくても、話者の声を抽出できるのです。

VisualVoiceの仕組みを図解した模式図。画像出典：VisualVoiceプロジェクトページ

VisualVoiceの応用としては、さまざまに変化するVR空間において一貫して任意のユーザの声を抽出してよく聞こえるようにすることが考えられます。また、スマートグラスの会話型AIアシスタントに同AIを実装すれば、パーティなどの騒々しい環境であってもユーザの声を拾ってくれるでしょう。

VisualVoiceのさらなる詳細は、プロジェクトページと論文を参照のこと。

「メタバースのためのAI」だけではないMeta

Metaが研究しているAIは、以上に解説した「メタバースのためのAI」だけではありません。以下では、Metaが開発中の注目すべきAIモデルを紹介します。

世界を常識的に推論する次世代AI

前述したヤン・ルカン氏が提唱する次世代AIは、大量の学習データを必要とする現在のAI研究開発のパラダイム自体を刷新するポテンシャルを秘めたものです。

ルカン氏が目指していることを簡単に言えば、AIに常識を実装することです。人間は、全く未知の出来事についても、ある程度正しく推論できます。例えば、自動車免許を取得したばかりの新米ドライバーは、雪上を走行したことがなくても、（常識的なドライバーであれば）雪上の走行は滑りやすいと正しく推測します。

以上のような次世代AIを開発するにあたり、ルカン氏は以下のような6つのモジュールが必要になると考えています。

コンフィギュレーションモジュール：タスクの実行制御を司る
知覚モジュール：知覚を司る
世界モジュール：知覚されていない世界状態の推測、および未来の世界状態の予測を司る
コストモジュール：エージェントの不快感レベルの予測を司る
アクターモジュール：行動シーケンスの提案と計算を司る
短期記憶モジュール：近未来の世界状態の予測を司る

ヤン・ルカン氏が提唱する次世代AIのアーキテクチャの模式図：画像出典：ルカン氏提唱AIに関するMeta AIブログ記事

なお、以上の次世代AIに関する論文はまだ草稿段階ですが、こちらから閲覧できます。

My position/vision/proposal paper is finally available:
"A Path Towards Autonomous Machine Intelligence"

It is available on https://t.co/tOM7lHtYh9 (not arXiv for now) so that people can post reviews, comments, and critiques:https://t.co/7ZgRtLIQWY
1/N pic.twitter.com/1ACpc4ENNR

— Yann LeCun (@ylecun) June 27, 2022

Meta開発のテキスト画像生成AI「Make-A-Scene」

また、MetaはDALL-E 2ライクなAIモデル「Make-A-Scene」を開発しています。まだ一般公開されていませんが、同AIはDALL-E 2が出力する画像とほぼ同等のクオリティの画像をテキスト入力から生成できます。

Make-A-Sceneのユニークなところは、入力としてテキストに加えてスケッチも渡せるところです。例えば、「カラフルな猫の彫像（A colorful sculputre of a cat）」というテキストと猫の彫像の簡単な輪郭に関するスケッチを渡すと、以下の画像のようにさまざまな色と形状をした猫の彫像に関する画像が出力されます。こうしたスケッチ入力機能により、同AIはよりユーザの意図に沿った画像を出力できるのです。