連合学習 ― 分散型機械学習

著者のBenedict Neo氏はアメリカ・アイオワ州立大学の統計＆コンピュータサイエンス学部の学部生で、MediumにAI技術に関する記事を投稿しており、AINOWでは以前に同氏執筆の『2021年のコンピュータビジョンにおける5つのトレンド』を紹介しました。今回紹介する同氏の記事『連合学習 ― 分散型機械学習』では、連合学習の特徴と課題が解説されています。

機械学習モデルの開発には、周知の通り、大量の学習データが必要になる時があります。大規模な学習データを用意する際に問題となるのが、データのプライバシーです。例えば、医療データを収集して学習データを用意したい場合、患者の同意なしにはデータを収集できません。
以上のような問題に対処できるように考案されたのが、連合学習（Federated Learning）です。この技法は、ユーザーのプライバシーを保護しながらユーザーデータを活用した学習を可能とします。その仕組みを要約すると、各ユーザーの端末にサーバーにある機械学習モデルをダウンロードした後に、各端末のユーザーデータを使ってモデルを訓練して、その学習結果のみをサーバーに送信する、となります。
もっとも連合学習にはモデルを学習する各端末の計算能力に制限がある、といった課題もあります（課題の詳細は以下の記事本文を参照）。しかしながら、データプライバシーを保護できる同技法に関しては、ヘルスケアをはじめとした多数の分野での応用が期待されています。

なお、以下の記事本文はBenedict Neo氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

目次 [非表示]

機械学習のためのプライバシーのアップグレード
連合学習とは
仕組み
応用事例
- 1.ヘルスケア
- 2.自動運転車
限界と課題
フレームワーク
その他の読み物/リソース
参考文献
この記事が気に入りましたか？他にも楽しめる私が書いた記事が以下にあります。

機械学習のためのプライバシーのアップグレード

多くの機械学習アプリケーションでは、その動作のために大量のデータが必要とされる。しかし、問題はユーザーデータが機密的かつ私的なものであることだ。

プライバシーやデータの権利に関する懸念の高まりは、機械学習モデルの訓練や開発において、ユーザーが機密データをクラウドサーバーに引き渡さなければならない従来の方法に問題を提起している。

その解決策は？連合学習（Federated Learning）だ。

今日の記事に飛びつく前に、私たちは新しいdiscordサーバーを持っており、そこにあるbitgritコミュニティでは新しくリリースされたBGRトークンを含むすべてのデータサイエンスとAIについて議論しています。サーバーへの参加はこちらから！（※訳註1）

（※訳註1）bitgritとはエンジニア向けコミュニティを運営する企業であり、AIソリューションに関するコンペも開催している。暗号通貨イーサリアムを用いたAIマーケットプレイスも運営しており、同通貨によって同企業が提供するトークンBGRを取得できる。同トークンを使えば、コンペで優勝したAIアルゴリズム等を利用できる。

・・・

連合学習とは

分散最適化、プライバシー研究、機械学習を組み合わせることによって、連合学習は生まれた。

Wikipediaによる正式な定義は、以下の通り。

連合学習（協調学習（collaborative learning）とも呼ばれる）とは、ローカルなデータサンプルを保持する複数の分散型エッジデバイスまたはサーバー間で、ローカルデータを交換せずにアルゴリズムを学習する機械学習手法である。

ここでのキーワードは、分散型とローカルデータである。

連合学習は、GoogleのAI研究者が2016年に発表し次の論文で初めて紹介された。「分散型データからのディープネットワークに関する通信効率的学習」。

連合学習の主な考え方は、中央集権的なモデルを分散型デバイスに持ち込むことで、ユーザーデータの取得を不要にすることにある。

ユーザーデータはデバイスから離れないため、モデルの結果のみが共有され、データのプライバシーとセキュリティを保つのに役立つ（詳しくは後述）。

以上のような機械学習のプライバシー向上は画期的であり、機密データを扱うMLアプリケーションに新たな可能性をもたらす。

しかし、連合学習のユースケースと利点に飛び込む前に、例を挙げてその仕組みについて説明したい。

・・・

仕組み

以下では、GoogleのGboard（※訳註2）における次の単語の予測を例にとり、連合学習のプロセスを順に追って見ていくことにする。

（※訳註2）Googleが開発・提供するGboardとは、スマホ向け仮想キーボードのこと。

まず、Googleは公開データを使って学習したベースとなるMLモデルをクラウドサーバーに構築する。

そして、複数のユーザー端末が自発的にMLモデルを学習する。そうした端末は、電源とWi-Fiネットワークに接続されているときにダウンロードして、モデルを取得する（モデルの訓練は電力消耗の激しい操作なので、ユーザーのデバイスのバッテリーを消耗しないようにしたいのだ）。

ユーザーの端末はキー入力のログや予測結果のフィードバックなど、モデルに関連するデータを提供し、モデルの学習と改良に役立てる。

学習が完了するとモデルの更新や改良が集約されてから、暗号化されてクラウドに送信され、新しい情報で（サーバーにある）ベースモデルが更新される。

このダウンロードとアップデートのサイクルは複数のデバイスで行われ、良い精度に達するまで何度も繰り返される。こうして完成したモデルは、他のすべてのユーザーに配布され、あらゆるユースケースに対応できるようになる。

重要なのは学習データは依然としてユーザーのデバイスに残っていることであり、学習結果だけが暗号化されてクラウドに送信される。

以上のプロセスの詳細を画像で説明すると、以下のようになる。

出典

携帯電話は、利用状況に応じてローカルにモデルをパーソナライズする（ A ）。多くのユーザーの更新が集約され（ B ）、共有モデルに対する変更合意（ C ）が形成され、その後、この手順が繰り返される。(出典)（※訳註3）

このように機械学習モデルを協調的に学習・開発する方法は強力であり、実世界に応用事例がある。

（※訳註3）以上のイラストと引用文は、GoogleのAI研究グループが公開した公式ブログ記事『連合学習：学習データを一元化しない協調的な機械学習』を出典としている。同記事によると、Gboardにおける連合学習では、通常の機械学習の訓練と比べて通信量を10～100/1に削減できた。

・・・

応用事例

法的、経済的な理由などでデータがサイロ化（※訳註4）されている場合、より大きなデータセットで個々の関係者がモデルを学習できるため、連合学習が威力を発揮する。

（※訳註4）サイロ化とは、業務プロセスや業務アプリケーション、各種システムが孤立して情報が連携されていない状態を指す。サイロ化が生じる原因にはシステム開発において部門横断的な視点が欠けていたようなネガティブなものや、データのプライバシーを保全するためのようなポジティブなものがある。

1.ヘルスケア

連合学習応用の好例がデジタルヘルスだ。医療機関のデータは、患者のプライバシーやデータガバナンスの関係でサイロ化されており、患者の同意なく利用できない。従来のアプローチでは、機械学習モデルは限られた利用可能なデータソースからしか学習できないので、学習結果に病院の機器/人口統計/診療行為に関する偏りが生じてしまう。

連合学習ではAIアルゴリズムは他の病院からより多くの情報を得られるので、性別、年齢、人口統計などに関してより偏りのない情報を取得できる。こうしたことによって、モデルがより一般化された予測を実行できるようになる。

参考文献 → 連合学習がもたらすデジタルヘルスの未来（※訳註5）

（※訳註5）NVIDIAのヘルスケア＆ライフサイエンス部門ソリューション・アーキテクト・マネージャーのNicola Rieke氏が筆頭執筆者となった論文『連合学習がもたらすデジタルヘルスの未来』では、連合学習の医療現場への導入によって、以下のような6者に影響を与えると論じている。

連合学習の医療現場への導入による関係者の影響

医師：より偏りのない機械学習モデルの出力にもとづいた診断が可能になる。
患者：医療データが不足している遠隔地の患者、さらには稀な病気の患者がより多くのデータにもとづいた医療を受けられる。
病院：計算資源が少ない病院であっても、高品質な機械学習モデルを利用できる。
研究者：より多くのデータにもとづいて研究できる。
医療従事者全般：高品質な医療を提供することで、結果的に医療コストを削減できる。
医療機器メーカー：患者のプライバシーを保護しながら、医療用機械学習モデルを開発・改善できる。

2.自動運転車

自動運転車も個々のアクターとして扱えるので、中央のサーバーにデータを送り返すのではなく、車に学習機能を搭載できる。

現実世界での運転は危険であり、予測できないことも多いため、連合学習は学習プロセスを加速させ、大量のデータを転送する必要性を減らせる。最終的には、完全な自律型自動運転に向けたプロセスを加速させる可能性を秘めているのだ。

連合学習は、主にモノのインターネット（IoT）の分野でより多くの応用事例がある。それらの事例は、データのプライバシーを維持しながら、ハイレベルの通信とストレージのオーバーヘッドを削減しつつMLを使ってIoTを可能にするという、連合学習の狙いに同じように共鳴している。

・・・

限界と課題

連合学習はまだ新しいアイデアであり、いくつかの広く知られている課題があるため、その可能性を十分に発揮できていない。

1.非-独立同分布なデータ

世界中のデバイスは、常に非-独立同分布なデータを生成している。統計学の文献では、非-独立同分布とはデータが独立でなく、同一分布でないことを意味する。独立同分布な変数の仮定は多くの統計手法やアルゴリズムの中心となっており、非-独立同分布なデータはモデルに複雑さを与え、問題を引き起こす可能性がある。

2.端末の計算能力

連携ネットワークに参加する各デバイスは、ソフトウェアおよびハードウェアのレベル（ネットワーク接続性、RAM、電力など）においてその能力が異なる。今日のほとんどのスマートフォンはモデルの訓練のような計算集約型のタスクに高い能力を発揮するが、エッジデバイスの大部分はまだそうした演算ができず、デバイスのパフォーマンスが低下してしまう可能性がある。つまり、デバイスのパフォーマンス維持とモデルの精度のあいだにはトレードオフがあるのだ。

3.データラベリング

多くの教師ありML技術は、アルゴリズムの実行のために明確で一貫したラベルを必要とする。さまざまなデバイスから送られてくるデータに対して自動的にラベル付けを行うには、優れたデータパイプラインを実装する必要がある。

4.データリーク

リバースエンジニアリングにより、特定のユーザーのデータを特定し、入手することは依然として可能だ。もっとも差分プライバシーなどのプライバシー技術により（※訳註6）、連合学習のプライバシーを強化できるが、その代償としてモデルの精度が低下する。

連合学習の課題については、こちらを閲覧のこと（※訳註7）。

（※訳註6）差分プライバシーとは、ユーザーからの学習データ収集時に各データにノイズを加えることでセキュリティを向上させることを意味する。追加されるノイズは、機械学習モデルの精度への影響を最小限に抑えられるように設定される。

（※訳註7）以上の連合学習における4つの課題の出典となった記事『連合学習：課題、方法、および将来の方向性』は2019年11月、アメリカ・カーネギーメロン大学の機械学習研究者が運営するブログCMU MLで公開された。同記事には、連合学習研究における未解決問題として以下のような5項目を挙げている。

連合学習研究における5つの未解決問題