あるグループから特定の特徴を有したメンバーを識別する分類問題においては、混合行列から算出される各種評価指標が性能評価に用いられます。そうした指標には再現率(recall)と適合率(precision)があるのですが、その算出方法だけ調べても指標が意味することがなかなか伝わってきません。そこでPrabhat氏は分類問題を映画『メン・イン・ブラック』になぞらえて具体的なものとしたうえで、再現率と適合率の意味をイメージしやすいように解説することにしました。
例えばハロウィン・パーティーのなかに人間に変装したエイリアンが紛れ込んでいて、そうしたエイリアンを識別する能力を評価する場合、再現率と適合率は以下の表のように説明できます。
エイリアン検出問題における再現率と適合率の長所と短所
再現率 |
適合率 |
|
指標の意味 |
できるだけ多くのエイリアンを見つける能力を測る | エイリアンと勘違いする人間を少なくする能力を測る |
長所 |
多くのエイリアンを見つけられる(真陽性が多くなる) | 間違って人間を捕まえなくなる(偽陽性が少なくなる) |
短所 |
エイリアンと勘違いして捕まえる人間が多くなる(偽陽性が多くなる) | 多くのエイリアンを見逃す可能性がある(真陽性が小さくなる) |
現実世界における活用事例 |
オンライン取引における不正検知 | ローン返済不履行者の予測 |
以上のように説明したうえで、再現率と適合率は分類問題において何を重視すべきかによって使い分けることをPrabhat氏はすすめています。また、再現率と適合率から算出されるF値、さらには正解率とほかの評価指標の関係についても解説しています(詳細は記事本文を参照)。
エイリアン識別問題は、分類問題を具体的に考えるためのひとつの手段に過ぎません。しかし、具体的なイメージを思い描きながら評価するアプローチは、実際に分類問題に取り組む時にも役立つことでしょう。
なお、以下の記事本文はAishwarya Prabhat氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならび組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
目次
(ニューラライザーを使われなければ)忘れない説明
免責事項:記載されている意見はすべて私のものです。
あなたがどうかはわからないが、私は適合率と再現率の概念に出くわすと、その時は完全に理解している…しかし、次の日には突然、説明するのが難しくなる。まるでニューラライザー(※訳註1)を使われたように、記憶から消えてしまうのだ。
そこで、ウィル・スミスのキャラクターが幼い女の子を撃ってMIB(「メン・イン・ブラック(Men In Black)」の略称)の試験に合格するシーンにヒントを得て、適合率と再現率の概念を理解したうえで覚えていられる分かりやすい例を考えてみた。以下、お読み頂きたい。
0.実行例
あなたは人間に変装したエイリアンから人類を守るための秘密機関、メン・イン・ブラックのエージェントだとしよう。あなたは、あるハロウィーン・パーティーにエイリアンが侵入したという情報を得た。あなたの任務は、変装したエイリアンを特定して捕らえることだ(おっと映画と違う!)。
機械学習の用語で言えば、以上の任務はエイリアンの識別/分類問題である。実際の人間と、人間に扮したエイリアンのデータセットが与えられたとき、エイリアンを識別したいという問題だ。
あなたは仲間のエージェントと一緒にパーティーに向かい、エイリアンと思われる人たちを捕らえる。正しく識別できた人もいれば、誤って識別してしまった人もいる。ここで、人間に扮したエイリアンを識別する能力を、再現率と適合率を用いて評価してみよう。
・・・
1.再現率
人間に扮したエイリアンのうち、何人を正しく認識できたか?
1.1 🥱退屈な定義
1.2 👽面白い(コンテクストのある)定義
パーティーに押し入って、誰がエイリアンで誰が人間かを判断したとき、エイリアンを正しく識別できた一方で、人間だと勘違いして見逃したエイリアンもいる。再現率とは、実際はエイリアンが変装していた人間たちのなかから、どれだけ正確にエイリアンを選び出せたかを示す指標である。この指標は、エイリアンをパーティー会場で見逃さなかった度合いを示す尺度とも言える。
1.3 📈再現率が高いことは何を意味するのか?
再現率が高いとは、変装したエイリアンを間違って人間と判断することが少なかったことを意味する。
再現率が高いと、その一方であまりにも多くの人間を変装したエイリアンと判断してしまうことが生じる。パーティーに参加していた全員をエイリアンと同定すれば、再現率は満点になるかも知れない(全員が「陽性」なケースとみなされるので、偽陰性がゼロとなる(※訳註2))。それゆえ、あなたが捕らえた実際の人間のなかには、不必要な尋問をされることをあまり快く思わない人がたくさんいるかも知れない。しかし、実際のエイリアンをできるだけ多く捕まえることを優先し、誤って実際の人間を捕まえることをあまり気にしないのであれば、再現率はあなたにぴったりの指標となるだろう。最終的に(誤って捕らえた)人間に怒られるかも知れないが、そんな彼らは安全な人間なのだ!
パーティー参加者100人(エイリアン30人/人間70人)における再現率100%の混合行列
エイリアン(予測値) |
人間(予測値) |
|
エイリアン(実際の値) |
30 |
0 |
人間(実際の値) |
70 |
0 |
以上では再現率は100%である一方で、偽陽性は70である。つまり、エイリアンを全員捕まえた一方で、エイリアンと勘違いした人間が70人もいるのだ。
1.4 📉再現率が低いことは何を意味するのか?
逆に言えば、再現率が低いと、実際のエイリアンのなかからエイリアンを選び出す能力が低かったことを意味する。もっと訓練を受けたほうがいいだろう。
1.5 💵(お金が絡む)意味のある現実世界における事例
オンライン取引の分野では不正行為を検知するためのシナリオにおいて、高い再現率が求められることがある。一部の取引を誤って不正としてしまうこともあるかも知れないが、再現率が高ければ、不正取引の大部分を捕捉できることがより確実になる。顧客のなかには自分の取引が不正とみなされて少し不満を感じる人もいるかも知れないが、顧客や会社が不当な損失を被る可能性は低くなる。
・・・
2.適合率
あなたがエイリアンだと思った人間のなかで、実際に人間に化けたエイリアンは何人いたか?
2.1 🥱退屈な定義
2.2 👽面白い(コンテクストのある)定義
エイリアンだと思って人間たちを特定して捕らえた場合、捕らえた人間たちのなかにはエイリアンと罪のない人間がいる。適合率とは、エイリアンだと思っていた人間のなかで、実際にエイリアンだった人間が何人いたかを示す指標である。この指標とは、実際の人間を間違ってエイリアンと認識しないようにする能力の高さを示す尺度とも言える。
2.3 📈適合率が高いことは何を意味するのか?
適合率が高いとは、実際の人間がエイリアンと誤認されるケースが少なかったことを意味する。
エイリアンだと思っていた人間を1人だけ特定して捕獲した後、実際にその人が変装したエイリアンだったという場合がある。そんな場合、数値的には適合率は完璧だ。欠点は、変装した多くのエイリアンをパーティーに残してしまうかも知れないことだ。しかし、MIBが秘密機関であることを忘れてはならない。実際の人間を誤って逮捕し、MIBの機密性、あるいはエイリアンが変装して私たちのなかに潜んでいるという事実の機密性を危険にさらしたくない、とMIBエージェントであるあなたは考えるだろう。このようなシナリオでは、適合率が準拠すべき基準となる。
2.4 📉適合率が低いことは何を意味するのか?
反対に適合率が低いと、エイリアンと勘違いして実際の人間を捕まえすぎてしまう可能性がある。そんな場合にはエイリアンやMIBの存在を世間に知られてしまう前に、ニューラライザーを使って記憶を消すしかない。
2.5 💵(お金が絡む)意味のある現実世界における事例
銀行の分野では、ローン返済不履行者を特定する問題で高い適合率が求められる。誤って多くの顧客をローン返済不履行者と特定してしまうと、銀行は十分な数の人々にお金を貸せなくなる。そうなると、借り手が支払う利息から得られる銀行の収益は減少し、銀行の収益にとっては良くないことになる。
・・・
3.F値
適合率と再現率の両方を重視しているので、それらのバランスを取りたい – MIBのボス
今年も残すところあとわずかとなったとしよう。それはつまり、上司による年末の業績評価の時期でもあるのだ。年末のボーナスを公平に支給するために、上司はMIBの全エージェントのパフォーマンスを局の全体的な目標と照らし合わせる必要がある。MIBの目標は2つある。MIBはエイリアンの捕獲に成功しなければならないが、同時にエイリアンの存在を世界に知られないように秘密を守らなければならない。あなたの上司は適合率と再現率のどちらを使うべきだろうか。
ひとつの解決策として、F値(F1スコアと言うこともある)を使用することが考えられられる。F値は、適合率と再現率のバランスをとるのに役立つ。
F値は適合率と再現率の調和平均だ。
4.単純明快に正解率だけを追求すればいいのでは?
そう言いたい気持ちはわかる。私も機械学習のシンプルさを愛しているが、ある種の問題では分類器の性能を測る指標として正解率を用いるのは賢明ではないかも知れない。ご存知の通り、分類メンバー数が不均衡な問題について話している。例えば、前述のハロウィーン・パーティーに100人の参加者がいて、そのうち5人だけが変装したエイリアンだったとする。この場合、あなたは100人全員を人間として識別すれば95%の正解率が得られるが、F値の高い仲間のエージェントがMIBの中核的な目的の達成に貢献していた場合、年末に良いボーナスを得られないだろう(※訳註3)。したがって、適合率、再現率、F値を考慮することは分類性能を測定するための実行可能な代替手段となる。
パーティー参加者100人(エイリアン5人/人間95人)における正解率95%の混合行列
エイリアン(予測値) |
人間(予測値) |
|
エイリアン(実際の値) |
0 |
5 |
人間(実際の値) |
0 |
95 |
以上では再現率が0%、すなわちエイリアンを検出していないにもかかわらず、正解率が95%となっている。
5.まとめ
- 分類メンバー数が不均衡な場合は、正解率よりも適合率、再現率、F値による評価が賢明な選択となる。
- 再現率は、できるだけ多くの真のケースを発見することを重視する場合に使用する。
- 適合率を使うのは、自分が陽性だと判断したケースが正しいかどうかを重視する場合である。
・・・
著者について:
こんにちは!私の名前はAishです。私の名前の最初の2文字は「AI」で、AIと機械学習は私が情熱を持って取り組んでいることです。私は現在、シンガポールでシニアデータサイエンティストと機械学習ソリューションアーキテクトをしています。LinkedInで私に連絡を取れます。
Ludovic Benistant氏に感謝の意を表します。
原文
『Precision & Recall: Explained by Men In Black』
著者
Aishwarya Prabhat
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん