HOME/ AINOW編集部 /少数データから本質を抽出するスパースモデリング
2020.09.17

少数データから本質を抽出するスパースモデリング

この記事では、ブラックホールシャドウの観測などで大きな話題となったスパースモデリングについて、複雑な数式を用いずに解説します。

今回は、スパースモデリングに精通している株式会社HACARUSの井上氏と、増井氏に解説していただきました。

井上晴幾:株式会社HACARUS データサイエンティスト。学部で薬学、大学院で生物学を修めた後、「ファッションを通して人の心が見えるかも」と考え新卒で大手アパレルECサイト運営会社へ入社。商品推薦システムの開発へ従事し、推薦モデルの考案を担当。その後、心ばかりではなく身体的に人を健康にしたいと2020年2月にHACARUSへジョイン。薬学と生物学の知識を持つデータサイエンティストとして、情報系出身のデータサイエンティストに喰らい付こうとしている。でも一番得意なのは水泳。

増井 隆治:株式会社HACARUS データサイエンティスト / スパースモデリングエヴァンジェリスト。中学生の頃からプログラミングに興味を持ち、鈴鹿高専で情報学の基礎を学び、その後京都大学に編入し、より高度な数学を学ぶ。大学の実験で仲良くなった大関先生の紹介でハカルスでアルバイトを始める。3年間のアルバイトの後、2019年4月にハカルス初の新卒として入社。データサイエンティストの仕事に邁進している。

スパースモデリングとは

スパースモデリングの背景には、「オッカムのカミソリ」と呼ばれる「ある事柄を説明するのに必要以上に多くのものを仮定すべきではない」という教訓があります。

スパースモデリングについて正しく理解するためには、スパース性について知っておく必要があります。

そもそも「スパース」には「少ない」や「疎」という意味があります。

スパース性は「一見複雑そうな事柄であっても、本質的に重要な情報は少数である」という性質のことを指します。

すなわち、スパースモデリングとは、「データが持つスパース性を利用して本質的な情報のみでデータを表現する技術」のことを指します。

言い換えると、データを表現するための本質的に重要な要因をあぶり出すための方法論がスパースモデリング です。

スパースモデリング と機械学習の違い

スパースモデリング は機械学習と対比すると、何をしようとしているかを理解することができます。

機械学習では、その判断の過程がブラックボックスと言われ、なぜその結果になったのかがわからず、大きな課題になっています。

機械学習は「要因から結果(観測値)を得るための法則を見つける」ための技術である一方で、スパースモデリング は「結果(観測値)が出てきた要因を見つける」ための技術ということができます。

機械学習では与えられた入力から、「どうやって」結果を予測するかをデータから明らかにしますが、スパースモデリング は、出力が「なぜ」得られたのかという少数の要因をデータから明らかにしようとします。このように目的意識が180度異なります。

これは、料理で考えると想像しやすいと思います。材料から料理を作る調理法を見つけるのが機械学習、料理から使われた材料を当てに行くのがスパースモデリング です。

機械学習と比較した時、スパースモデリング には以下のような優位性があります。

  1. 少数データと相性が良い
  2. 結果の解釈性が高い

少数データと相性が良い

スパースモデリング は「データが持つスパース性を利用して、データから本質的に重要な要因をあぶり出す技術」だと冒頭で述べました。

このスパース性を仮定するところが少数データとの相性の良さに関わってきます。説明のために、次のようなシチュエーションを考えてみましょう。

ある謎の料理を食べた時、おいしさの原因を探りたいと考えました。どうやら大量のスパイスを使っているようなので、スパイスの配合を表す次のような式を立てました。

この式を用いる場合、「謎の料理」を説明するためには10種類全てのスパイスの量を特定することが必要です。

ここで、「10種類のスパイスの内、7種類のスパイス量は0である」というスパース性を仮定すると

のような形の式が得られます。つまり、3種類のスパイス量だけを決定すれば良いことになります。

10個のパラメータを決定するのに必要なデータ数より、3個のパラメータを決定するのに必要なデータ数が少なくて済むことは想像しやすいと思います。

これが、スパースモデリング が少数データと相性が良い理由です。

「他の組み合わせも有り得るじゃないか」と思われるかもしれませんが、このパラメータ(スパイスの種類)選択と推定を自動化したのがLassoと呼ばれるスパースモデリング の代表的な手法です。

結果の解釈性が高い

スパースモデリング の背景には、「オッカムのカミソリ」と呼ばれる教訓がベースにあることは冒頭で述べました。

スパースモデリングは、この教訓に乗っ取って、観測が得られた原因・要因を見つけるモデルを作るので、モデルの入出力関係を人間が理解しやすいという特徴があります。

そのため、スパースモデリングはデータを理解するための分析技術として重宝されています。

ここまで、簡単な説明のためにパラメータ数(スパイスの数)が10個と3個とで比較してきました。

パラメータが10個程度であればもしかしたら解釈可能だったかもしれませんが、実際の深層学習モデルのパラメータ数はおよそ数千~数億個ほどあります。

これではパラメータが決定されたところで解釈不能です。データにもよりますが、スパースモデリング で仮定するパラメータ数は数個~数十個程度です。

人が解釈するためには数十個でもパラメータが多いかもしれませんが、数個なら結果を解釈できる可能性が高くなります。

スパースモデリング を活用した応用事例

スパースモデリング に関して理解が深まったところで、実際にどのように活用されているのか、その応用事例を4つ紹介します。

MRI画像の高速撮像化

MRIはCTと異なり、X線を使用しないので体に害のない体内の画像化法として知られています。しかし、CTと異なり、MRIは撮像に数十分ほど時間がかかるという問題がありました。

これは測定原理上、画像化に十分なデータを取得するのに時間がかかるためです。

MRIの高速撮像が可能になれば利用回転率が向上するだけでなく患者負担も大きく改善されます。また、長い時間じっとしていられない子供でもMRIを利用できる可能性があるなど良い事づくめです。

しかし、高速に撮像しようとするとデータが不足して画像が粗くなったり、大事な部分が消えてしまうなど診断に支障をきたす可能性がありました。

そこで、撮像にスパースモデリングを活用する事で、少ないデータからでも本質を見事に抽出し、高精細な画像を復元することに成功したのです。

出典:Yamamoto, T. et al. Time-of-Flight Magnetic Resonance Angiography With Sparse Undersampling and Iterative Reconstruction. Invest Radiol 51, 372–378 (2016).

ブラックホールシャドウの撮影

2019年4月10日、国際プロジェクトである「イベント・ホライズン・テレスコープ」がブラックホールシャドウを撮影することに成功したと発表して世界に激震を与えました。

この成功はスパースモデリング が世間に注目される大きなきっかけにもなりました。

撮像対象は5,500万光年先のブラックホールだったのですが、従来法では十分な分解能で画像を復元するだけのデータが集められず、無理やり復元しても不自然な画像しか得られていませんでした。

そこで、スパースモデリング による画像復元を行うことで、少ないデータからでも正確にブラックホールシャドウを復元することができたのです。

▼出典:Event Horizon Telescope. (参照 2020.08.06)

マテリアルズインフォマティクス

2019年9月6日、慶應義塾大学と東京大学の研究グループが、世界最高水準のリチウム電池負極用有機材料を発見したと発表しました。

この研究は、スパースモデリング とマテリアルズインフォマティクスを組み合わせることで、効率よく実験を行うことで新規材料の発見に至っています。

マテリアルズインフォマティクス とは、材料開発に情報処理技術を活用する手法のことです。

通常この手法にはビッグデータが必要で、データ数が稼げない実験データとは相性が悪いとされてきましたが、スパースモデリング を活用する事で見事この問題を克服しています。

重要だと思われるデータの特徴を、研究者の勘とスパースモデリング の二人三脚で抽出し、新規材料の発見に至っている点が特筆されます。

出典: Numazawa, H., Igarashi, Y., Sato, K., Imai, H. & Oaki, Y. Experiment‐Oriented Materials Informatics for Efficient Exploration of Design Strategy and New Compounds for High‐Performance Organic Anode. Adv Theory Simulations 2, 1900130 (2019).

外観検査サービス SPECTRO

製品の画像から良品か不良品かを機械学習で判別するためには、基本的には良品と不良品のどちらものデータを大量に集めて学習をする必要があります。

しかし、不良品は発生件数が少ないため、学習に十分なデータを集めることが困難なことが多いです。

そのような時、良品の画像のみを学習し、良品でなければ不良品とする良品学習という手法が用いられます。

株式会社HACARUSでは、辞書学習と呼ばれるスパースモデリングの手法 を用いた良品学習による外観検査サービスを提供しています。

数十枚程度の少ない良品画像から重要な特徴を学習し、新しい画像に対して本質的な違いがあるかを元に、良品かどうかを判定するというアルゴリズムが実装されています。

▼出典:株式会社HACARUS

このように、スパースモデリングの応用事例は「少量のデータ」が一つのキーワードになっています。

一般的に、AIのプロジェクトを始めるには、まず膨大なデータを収集する必要があると言われますが、そもそもデータ収集が困難なため精度を向上させることが難しいことが多々あります。

スパースモデリング を用いて少ないデータから本質をうまく抽出することができれば、限られたデータでAIを構築することが可能です。

そのため、データを集めることが難しい場面において、スパースモデリングは重宝されます

また、必ずしもディープラーニング or スパースモデリングというわけではなく、最近ではディープラーニングの中でスパース性をうまく利用することで、画像分類の性能が向上したという論文も発表されており、適材適所で技術を使いこなすということが求められています。

出典:Neyshabur, B. Towards Learning Convolutions from Scratch. Arxiv (2020).

まとめ

本記事では、スパースモデリング の基本的な考え方から活用事例について解説しました。

スパースモデリング の実用例はまだ多くはないですが、MRIの高速撮像やブラックホールシャドウの撮像など世の中に大きなインパクトを与えています。

このように、スパース性を利用する手法は着実に注目され始めています。

ただし、データがそもそもスパース性を持たない場合はスパースモデリングを適用しても意味のある結果を得ることができません。

幸い、画像データなどの人間が理解できる高次元のデータは何らかのスパース性を持つことが経験的に知られています。

そのため、スパースモデリングは大量のデータを集めるのが困難で、かつ、モデルの解釈性を求められる医療分野などで今後益々の活用が期待されます。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

「AIはチャレンジを乗り越える大きな鍵である」菅総理が語ったAI戦略【AI/SUM 2020レポート】

事業に結びつく研究が少ない – 東大とソフトバンクが組むBeyond AI 研究推進機構が目指すAI研究の事業化

先週のAI関連人気ツイートTOP20!【2020/10/19更新】

DIVE INTO CODE がG検定の模擬問題を無料公開!10月29日に記念セミナーも開催も

【機械学習の解釈可能性】テック専門家に聞く:機械学習モデルはどのように自らを説明するのか?【Google公式ブログ】

チャットボットの8つのユースケース

【完全版】DX(デジタルトランスフォーメーション)を0から解説!定義からスキル、推進法まで網羅

Pairsに高水準のAIを活用した顔認証機能が導入

未知のデータを未知と認識し、AIの汎用性を大幅に向上するモデルの共同研究が開始

あなたにおすすめの記事

「AIはチャレンジを乗り越える大きな鍵である」菅総理が語ったAI戦略【AI/SUM 2020レポート】

事業に結びつく研究が少ない – 東大とソフトバンクが組むBeyond AI 研究推進機構が目指すAI研究の事業化

先週のAI関連人気ツイートTOP20!【2020/10/19更新】

DIVE INTO CODE がG検定の模擬問題を無料公開!10月29日に記念セミナーも開催も

【機械学習の解釈可能性】テック専門家に聞く:機械学習モデルはどのように自らを説明するのか?【Google公式ブログ】

チャットボットの8つのユースケース

【完全版】DX(デジタルトランスフォーメーション)を0から解説!定義からスキル、推進法まで網羅

Pairsに高水準のAIを活用した顔認証機能が導入

未知のデータを未知と認識し、AIの汎用性を大幅に向上するモデルの共同研究が開始