データサイエンティストの嘘と欺瞞を見破る7つの方法

著者のAishwarya Prabhat氏は、オンラインショッピング企業のShopeeに勤務するシンガポール在住のデータサイエンティストです（同氏の詳細についてはこちらを参照）。同氏がMediumに投稿した記事『データサイエンティストの嘘と欺瞞を見破る7つの方法』では、AIソリューションの価値を正しく評価するのに役立つ7つの質問が解説されています。

現在流行している機械学習やディープラーニングを活用したAIソリューションは最先端技術であるために、採用決定権のある企業幹部がそのソリューションの詳細がよく分からないことが少なくありません。Prabhat氏によれば、こうした状況であっても以下のような7つの質問を投げ掛けてみて納得の行く回答が得られれば、信頼できるAIソリューションかどうか判断できます。

ソリューションに使われている「AI」という言葉を分かりやすい喩えで説明できるのか
学習データを更新することができるのか
学習データは、ソリューションが解決しようとしている問題を反映したものなのか
学習データの量と種類は十分なのか
AIモデルのパフォーマンスと、そのパフォーマンスが発揮される仕組みの説明が釣り合っているのか
AIモデルの評価指標は正しく使われているのか
AIモデルの強みと弱みは何なのか

以上の質問をAIソリューションを提案するAI企業担当者の立場から見ると、質問に対して分かりやすい答えを用意しておけば、顧客を納得させることができると考えられます。したがって、こうした7つの質問とその答えは、AI開発企業とAI導入企業の双方にとってAIシステムを正しく評価する際のチェックリストになる、と言えるでしょう。

なお、以下の記事本文はAishwarya Prabhat氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。

目次 [非表示]

「AI」と「機械学習」を売り物にしている人にカモられないための7つのシンプルな原則
1．「我々はAIを使って…」
2．適応力のサバイバル
3．ガベージ・イン、ガベージ・アウト
4．もっと、もっと、もっと、もっと！
5．解釈可能性
6．正しい方法で正しいことを測定する
7．では…あなたの強みと弱みは何ですか？
結論

「AI」と「機械学習」を売り物にしている人にカモられないための7つのシンプルな原則

画像出典：UnsplashのAlex Litvin

あなたがビジネスリーダーであれ、起業家であれ、エンジェル投資家であれ、会社の中間管理職であれ、ハッカソンの審査員であれ、およそ「テック」に関わる人であれば、どこかの時点で「AI製品」や「機械学習ソフトウェア」、あるいはそんなバズワードを融合させたような製品の「売り込み」をしようとする人に出くわす状況に陥る可能性があるだろう。そのような状況にいることに気づいたら、健全な決定をするに足る知識と専門的技術を自分は持っていないように感じることは自然である。そんな時は地に足をつけて、圧倒されないようにしよう！以下では、ノイズから意味のある信号を分離するのに役立つ7つの常識的な方法を紹介したい。この方法は戯言を切り離すのに役立ち、あなたに販売されている機械学習ソリューションが提案しているコア価値を理解する助けとなる。

1．「我々はAIを使って…」

Let Me Stop You Right There GIF - Find & Share on GIPHY

GIFアニメ出典：https://giphy.com/gifs/queue-stop-let-me-you-MMvuqCP1N1EUE

（※訳註1）上のGIFアニメに挿入されたメッセージを翻訳すると、「そこまでにして」となる。

誰かが「AI」と言うときは非常に注意しよう。その単語で空想的なマーケティングをしているかも知れないし、もしかしたらあなたを悩ませないように、頭が痛くなるような複雑な詳細を抽象化しようとしている真摯な努力である可能性もある。「AI」という単語に疑いの余地を与えつつも、それでも詳細を掘り下げてみよう。例えば、プレゼンした人が使用した特定の機械学習モデルについての詳細を調べてみよう。そして、喩えであなたにそれを説明するように彼らに尋ねてみよう。

簡単に説明できなければ、十分に理解していない。－アルバート・アインシュタイン

以下では、「AI」という単語を使うプレゼンターに尋ねるべき他のいくつかの重要な質問を紹介する。

他にどのような方法（モデル／アルゴリズム／技術）を試してみたか。そして、試してみた他の方法と提案しているソリューションを比較すると、どのような結果となるのか (可能であればグラフィカルな証拠を提示するように頼もう）。
なぜ他ではなく、その方法を選んだのか。
提案されたデータを使ったうえで、なぜその方法は他より優れているのか。
同じような問題を解決した人がいるのか。もしそうなら、どのような方法で解決したのか。

最初のうちは、これらの質問に対する回答の内容をすべて理解する必要は必ずしもないだろう。しかし、できる限り質問し、明確にし、理解するようにしよう。

私の経験上、喩えで説明できない機械学習の概念にはひとつも出会ったことがない。そういうわけで、あまりにも多くの技術的な詳細を聴くことが困難な場合は、詳細をまとめた高度な説明を求めてみよう。そうした説明はあなたの理解を広げるだけでなく、解決策がどれだけよく考え抜かれているかを示すだろう（また、高度な説明はあなたの会議室が戯言にまみれていないことの証明にもなる）。

2．適応力のサバイバル

GIFアニメ出典：https://i.pinimg.com/originals/bf/91/97/bf919712af71028f55bdc6790cf5af98.gif

1990年代や2000年代初頭には、メールの受信箱に入っているスパムフィルターがスペルミスなどの簡単な指標を探して、スパムメールを自動的にスパムフォルダに入れていた。しかし現在では、スパマーはより賢くなり、スパムメールの検出はますます困難になってきている。現代のメールプロバイダーが使用している機械学習モデルは、スパムメールを正しく識別するために適応し、より洗練されたものにならざるを得なかった。

「すべての失敗は適応の失敗であり、すべての成功は適応の成功である”」－マックス・マッケウン（※訳註2）

あなたが明確にしなければならないことのひとつは、時間が経過して入力データが進化するにつれて、機械学習モデルはどのくらい容易に新しいデータで再訓練されるか、またはよりパフォーマンスの高いモデルに置き換えることができるか、ということだ。この確認事項は、あなたに販売されたソリューションに「有効期限」があるかどうかを知ることに相当する不可欠なものだ。

（※訳註2）マックス・マッケウン（Max McKeown、1969～）は、イギリスのライター兼コンサルタントであり、リーダーシップやイノベーションに関する著作がある。彼の有名な言葉として、「適用力とは、対処への適応と勝利への適応のあいだにある強力な差異のことである」などがある。

3．ガベージ・イン、ガベージ・アウト

GIFアニメ出典：https://media.tenor.com

（※訳註3）「ガベージ・イン、ガベージ・アウト」とは、無意味なデータをシステムに与えても、無意味な結果しか返ってこないことを指すIT用語である。ちなみに、「ガベージ（garbage）」とは「生ごみ、残飯、がらくた」を意味する英単語。

機械学習モデルの良し悪しは、そのモデルに使われるデータの良し悪しと等しい。したがって、機械学習モデルを訓練するために使用されるデータの品質を確認する必要がある。「品質」を定義するのは難しく、文脈によって異なるかも知れない。とは言え、訓練データの品質について知る簡単な方法のひとつとして、モデルが直面する「現実世界」のデータと比較して、訓練データがどれだけ似ていて、現実を表しているのか、と尋ねるとよいだろう。

「我々が信頼する神の下では、他のすべての人が（良質な）データを持って来てくれる。」 ― W・エドワーズ・デミング（※訳註4）

機械学習モデルがどんなに派手で最先端のものであっても、訓練に使われたデータの質が低ければ、結果はお粗末なものになるに違いない。

（※訳註4）W・エドワーズ・デミング（William Edwards Deming、1900～1993）は、アメリカの統計学者、コンサルタント。太平洋戦争後の日本に製品品質管理の重要性を伝授して、戦後の日本製造業の発展に大きく寄与した。1951年、彼の功績を称えて品質管理に功績のあった団体あるいは個人に授与されるデミング賞が創設された。

4．もっと、もっと、もっと、もっと！

GIFアニメ出典：https://media1.tenor.com/images/f0a150cb643ab8e32bb882ac26e7fa08/tenor.gif?itemid=11867918

一般的にデータを増やしてモデルを訓練するほど、（ほかの性能要因が同じならば）より良い性能を発揮する。このことは特にディープラーニングモデルに当てはまる。機械学習モデルは、高校生がSAT（※訳註5）の問題を練習しているようなものと考えることができる。より多くの量と種類の問題で訓練することで、生徒がSATでより良いパフォーマンスを発揮するように、機械学習モデルの性能が上がる可能性が高まる。

「十分なデータを得る前に理論化するのは大きな間違いだ」－シャーロック・ホームズ

機械学習モデルの訓練には、十分なデータが使用されていることを確認することが不可欠だ。それでは、どのくらいのデータがあれば十分なのか。どのくらいのデータが必要かと言うのは難しいのだが、多ければ多いほど良いのだ！理想的には、データは信頼できるソースから作成したものであるべきで、またそうした信頼できるソースは徹底的に使用されるべきである。

（※訳註5）SATとは、アメリカの大学入学資格を判定する際に使われる試験のこと。かつてはScholastic Aptitude Test（大学適性試験）の略称だったが、現在はSATが正式名称となっている。

5．解釈可能性

画像出典： https://lh3.googleusercontent.com

（※訳註6）上の画像に挿入されたメッセージを翻訳すると、「どうして私が8歳の子供のようにそれを説明してくれない？」となる。

機械学習では、モデルのパフォーマンスが良いことと、そのパフォーマンスに関して簡単に説明できることのあいだにしばしばトレードオフの関係がある。この関係は、とくにパフォーマンスが悪い時にはよく当てはまる。一般的に複雑なデータに対しては、より洗練された複雑なモデルの方が良い結果を出す傾向がある。しかしながら、これらのモデルは複雑なので、出力結果に対する入力データの効果を説明することが難しくなる。例えば、ある製品の売上を予測するために非常に複雑な機械学習モデルを使用していると想像してみよう。このモデルへの入力は、テレビ、新聞、ラジオの広告に費やされた金額である。複雑なモデルは、あなたに非常に正確な売上高予測を与えてくれるかも知れない。しかし、3つの広告販路、すなわちテレビ、ラジオ、そして新聞のうち、どの販路が売上にもっとも影響し、より出費するのに値するのかを教えてくれないかも知れない。一方で単純なモデルは、あまり正確な結果を出力しないかも知れないが、どの広告販路により多く出費する価値があるかを説明することができるだろう。こうしたモデルの性能と解釈可能性のあいだのトレードオフを意識する必要がある。このトレードオフの関係は非常に重要である。というのも、説明可能性とパフォーマンスのバランスがどこにあるかは目的に依存しているので、あなたが決定すべきことであるからだ。

6．正しい方法で正しいことを測定する

Infomercial Measuring GIF - Find & Share on GIPHY

GIFアニメ出典：https://giphy.com/gifs/tape-jerry-measuring-6ZnDM7tOjKTRe

正答率（accuracy）は、分類機械学習モデルの性能を測定するための非常に一般的な指標である。例えば、猫と犬の画像を分類するための機械学習モデルは、96%の正答率ならば、非常に良いと考えることができる。この正答率は猫および犬の100枚の画像のうち、モデルが96枚の画像を正しく推測できることを意味する。今、銀行が同じ指標を詐欺的な取引の分類に適用しようとしていると想像してみよう。詐欺的な取引は非常に稀なので、詐欺分類器は簡単に96%の正答率を実現するかも知れない。しかし、この場合における詐欺的な取引の摘発は、実際には96%の確率で正しいということではない。「正答率96%」とは不正取引を可能なかぎり摘発しようとした場合に相対的に誤分類が少ない、という意味である。それゆえ、4%の取引を不正取引ではないと誤って分類してしまうと、大きな損害を被る可能性がある。

「測定とは素晴らしいものだ。もっとも、測定において重要なのは、容易く測れるものを測るのに忙殺されないことだ」 ― セス・ゴディン（※訳註7）

銀行における不正取引の例では、偽陰性（false negative）の数は正答率よりもモデルの性能を示している。問題によっては、精度の代わりに適合率（precision）、再現率（recall）、特異度（specificity）、そしてF1値などの他の指標を使用するべきだ。Mohammed Sunasraによるこの素晴らしい記事は、それぞれのの指標がいつ使用されるべきかについて解説している。いずれにしても、可能なかぎり様々な指標を正しく使うように留意することが重要なのだ（※訳註8）。

（※訳註7）セス・ゴ―ディン（Seth Godin、1960～）は、アメリカの著述家でマーケティングに関する著作で有名。顧客の許可を得たうえでマーケティング活動を行う「パーミッション・マーケティング」の提唱者とされている。

（※訳註8）混合行列と各種指標の定義と使い分けについて日本語で書かれた記事には、AI技術と統計学に関する記事を連載しているブログ『データ分析Navi』で公開された記事『２クラス混同行列とその評価指標〜再現率、適合率、F値、など〜』のようなものがある。

7．では…あなたの強みと弱みは何ですか？

GIFアニメ出典：https://i2.wp.com/www.blogmaza.com/wp-content/uploads/2019/04/strength-wekness.gif?fit=400%2C220&ssl=1

（※訳註9）上のGIFアニメに挿入されたメッセージを翻訳すると、「まあ、私の弱みは実際には強みだけどね」となる。

企業面接の世界で決まり文句になっているのが強みと弱みについての質問だが、この質問は機械学習ソリューションを評価しようとしている時でも非常に役立つ。誰かが機械学習ソリューションを提案している時には、あなたは必ずそのソリューションの限界について尋ねなければならない。機械学習モデルの限界を知るのは、以下に示す2つの重要な質問に答えてもらうためにも不可欠である。

強みはソリューションを実行できる程に制限を打ち消してくれるのか？
将来的に制限が性能を阻害する可能性があるのだろうか？

「成功の鍵は自分の弱点を理解し、それをうまく補うことである。その能力が欠けている人は、慢性的に失敗する。」 ― レイ・ダリオ（※訳註10）

効果的で持続可能な機械学習ソリューションを実装するという観点からは、ソリューションの限界を知ることは成功するために不可欠である。さらに、提案者にそうした限界を明らかにするよう求めることは、彼らが持っている透明性のレベルを知ることにもなる。限界について答えてもらえば、ソリューションがどれだけよく考え抜かれているか、そしてソリューションを提案する人々がどれだけ信頼できるかも示されるだろう。

（※訳註10）レイ・ダリオ（Ray Dalio、1949～）は、アメリカの投資家。ヘッジファンド「ブリッジ・ウォーター・アソシエイツ」を率いてることで知られている。同ファンドは、2008年のリーマンショックの際も黒字であった。

結論

どんなに知識が不足していて、圧倒されていると感じていても、あなたを助けてくれる秘密兵器があり、それは霧のなかであなたを導く光となる。そんな秘密兵器とは、質問をする能力だ。とにかく質問しよう。わからないすべてのことに関して質問し、明確にし、精査しよう。前述した7つのアイデアによって、質問するための全体的な戦略と7つの重要な観点が与えられるだろう。あなたの理解力を高め、機械学習の解決を健全に評価するためにこうしたアイデアを頼りにすることができるのだ。

Amber Tengに感謝します。

原文
『7 ways to catch a Data Scientist’s lies and deception』