少数データから本質を抽出するスパースモデリング

この記事では、ブラックホールシャドウの観測などで大きな話題となったスパースモデリングについて、複雑な数式を用いずに解説します。

今回は、スパースモデリングに精通している株式会社HACARUSの井上氏と、増井氏に解説していただきました。

井上晴幾：株式会社HACARUS データサイエンティスト。学部で薬学、大学院で生物学を修めた後、「ファッションを通して人の心が見えるかも」と考え新卒で大手アパレルECサイト運営会社へ入社。商品推薦システムの開発へ従事し、推薦モデルの考案を担当。その後、心ばかりではなく身体的に人を健康にしたいと2020年2月にHACARUSへジョイン。薬学と生物学の知識を持つデータサイエンティストとして、情報系出身のデータサイエンティストに喰らい付こうとしている。でも一番得意なのは水泳。

増井隆治：株式会社HACARUS データサイエンティスト / スパースモデリングエヴァンジェリスト。中学生の頃からプログラミングに興味を持ち、鈴鹿高専で情報学の基礎を学び、その後京都大学に編入し、より高度な数学を学ぶ。大学の実験で仲良くなった大関先生の紹介でハカルスでアルバイトを始める。3年間のアルバイトの後、2019年4月にハカルス初の新卒として入社。データサイエンティストの仕事に邁進している。

目次 [非表示]

スパースモデリングとは
スパースモデリングと機械学習の違い
- 少数データと相性が良い
- 結果の解釈性が高い
スパースモデリングを活用した応用事例
外観検査サービス SPECTRO
まとめ

スパースモデリングとは

スパースモデリングの背景には、「オッカムのカミソリ」と呼ばれる「ある事柄を説明するのに必要以上に多くのものを仮定すべきではない」という教訓があります。

スパースモデリングについて正しく理解するためには、スパース性について知っておく必要があります。

そもそも「スパース」には「少ない」や「疎」という意味があります。

スパース性は「一見複雑そうな事柄であっても、本質的に重要な情報は少数である」という性質のことを指します。

すなわち、スパースモデリングとは、「データが持つスパース性を利用して本質的な情報のみでデータを表現する技術」のことを指します。

言い換えると、データを表現するための本質的に重要な要因をあぶり出すための方法論がスパースモデリングです。

スパースモデリングと機械学習の違い

スパースモデリングは機械学習と対比すると、何をしようとしているかを理解することができます。

機械学習では、その判断の過程がブラックボックスと言われ、なぜその結果になったのかがわからず、大きな課題になっています。

機械学習は「要因から結果（観測値）を得るための法則を見つける」ための技術である一方で、スパースモデリングは「結果（観測値）が出てきた要因を見つける」ための技術ということができます。

機械学習では与えられた入力から、「どうやって」結果を予測するかをデータから明らかにしますが、スパースモデリングは、出力が「なぜ」得られたのかという少数の要因をデータから明らかにしようとします。このように目的意識が180度異なります。

これは、料理で考えると想像しやすいと思います。材料から料理を作る調理法を見つけるのが機械学習、料理から使われた材料を当てに行くのがスパースモデリングです。

機械学習と比較した時、スパースモデリングには以下のような優位性があります。

少数データと相性が良い
結果の解釈性が高い

少数データと相性が良い

スパースモデリングは「データが持つスパース性を利用して、データから本質的に重要な要因をあぶり出す技術」だと冒頭で述べました。

このスパース性を仮定するところが少数データとの相性の良さに関わってきます。説明のために、次のようなシチュエーションを考えてみましょう。

ある謎の料理を食べた時、おいしさの原因を探りたいと考えました。どうやら大量のスパイスを使っているようなので、スパイスの配合を表す次のような式を立てました。

この式を用いる場合、「謎の料理」を説明するためには10種類全てのスパイスの量を特定することが必要です。

ここで、「10種類のスパイスの内、7種類のスパイス量は0である」というスパース性を仮定すると

のような形の式が得られます。つまり、3種類のスパイス量だけを決定すれば良いことになります。

10個のパラメータを決定するのに必要なデータ数より、3個のパラメータを決定するのに必要なデータ数が少なくて済むことは想像しやすいと思います。

これが、スパースモデリングが少数データと相性が良い理由です。

「他の組み合わせも有り得るじゃないか」と思われるかもしれませんが、このパラメータ（スパイスの種類）選択と推定を自動化したのがLassoと呼ばれるスパースモデリングの代表的な手法です。

結果の解釈性が高い

スパースモデリングの背景には、「オッカムのカミソリ」と呼ばれる教訓がベースにあることは冒頭で述べました。

スパースモデリングは、この教訓に乗っ取って、観測が得られた原因・要因を見つけるモデルを作るので、モデルの入出力関係を人間が理解しやすいという特徴があります。

そのため、スパースモデリングはデータを理解するための分析技術として重宝されています。

ここまで、簡単な説明のためにパラメータ数（スパイスの数）が10個と3個とで比較してきました。

パラメータが10個程度であればもしかしたら解釈可能だったかもしれませんが、実際の深層学習モデルのパラメータ数はおよそ数千~数億個ほどあります。

これではパラメータが決定されたところで解釈不能です。データにもよりますが、スパースモデリングで仮定するパラメータ数は数個~数十個程度です。

人が解釈するためには数十個でもパラメータが多いかもしれませんが、数個なら結果を解釈できる可能性が高くなります。

スパースモデリングを活用した応用事例

スパースモデリングに関して理解が深まったところで、実際にどのように活用されているのか、その応用事例を4つ紹介します。

MRI画像の高速撮像化

MRIはCTと異なり、X線を使用しないので体に害のない体内の画像化法として知られています。しかし、CTと異なり、MRIは撮像に数十分ほど時間がかかるという問題がありました。

これは測定原理上、画像化に十分なデータを取得するのに時間がかかるためです。

MRIの高速撮像が可能になれば利用回転率が向上するだけでなく患者負担も大きく改善されます。また、長い時間じっとしていられない子供でもMRIを利用できる可能性があるなど良い事づくめです。

しかし、高速に撮像しようとするとデータが不足して画像が粗くなったり、大事な部分が消えてしまうなど診断に支障をきたす可能性がありました。

そこで、撮像にスパースモデリングを活用する事で、少ないデータからでも本質を見事に抽出し、高精細な画像を復元することに成功したのです。

出典：Yamamoto, T. et al. Time-of-Flight Magnetic Resonance Angiography With Sparse Undersampling and Iterative Reconstruction. Invest Radiol 51, 372–378 (2016).

ブラックホールシャドウの撮影

2019年4月10日、国際プロジェクトである「イベント・ホライズン・テレスコープ」がブラックホールシャドウを撮影することに成功したと発表して世界に激震を与えました。

この成功はスパースモデリングが世間に注目される大きなきっかけにもなりました。

撮像対象は5,500万光年先のブラックホールだったのですが、従来法では十分な分解能で画像を復元するだけのデータが集められず、無理やり復元しても不自然な画像しか得られていませんでした。

そこで、スパースモデリングによる画像復元を行うことで、少ないデータからでも正確にブラックホールシャドウを復元することができたのです。

▼出典：Event Horizon Telescope. （参照 2020.08.06）

eventhorizontelescope.org

First-ever Image of a Black Hole Published by the Event Horizon Telescope Col...

https://eventhorizontelescope.org/blog/first-ever-image-black-hole-published-event-horizon-telescope-collaboration

マテリアルズインフォマティクス

2019年9月6日、慶應義塾大学と東京大学の研究グループが、世界最高水準のリチウム電池負極用有機材料を発見したと発表しました。

この研究は、スパースモデリングとマテリアルズインフォマティクスを組み合わせることで、効率よく実験を行うことで新規材料の発見に至っています。

マテリアルズインフォマティクスとは、材料開発に情報処理技術を活用する手法のことです。

通常この手法にはビッグデータが必要で、データ数が稼げない実験データとは相性が悪いとされてきましたが、スパースモデリングを活用する事で見事この問題を克服しています。

重要だと思われるデータの特徴を、研究者の勘とスパースモデリングの二人三脚で抽出し、新規材料の発見に至っている点が特筆されます。

出典: Numazawa, H., Igarashi, Y., Sato, K., Imai, H. & Oaki, Y. Experiment‐Oriented Materials Informatics for Efficient Exploration of Design Strategy and New Compounds for High‐Performance Organic Anode. Adv Theory Simulations 2, 1900130 (2019).