AutoMLとデータサイエンスの未来

著者のAni Madurkar氏はアメリカ・ニューヨーク在住のデータサイエンティストです（同氏の詳細は個人サイトを参照）。同氏がMediumに投稿した記事『AutoMLとデータサイエンスの未来』では、AutoMLを代表とする機械学習自動化ツールの効用と利用にあたっての注意が解説されています。

Madurkar氏によれば、AutoMLのような機械学習モデル開発を自動化するツールの登場によって、「もはやデータサイエンティストは用なしなのではないか」という主張が散見されるようになりました。こうした主張に対して、同氏は全面的に同意しません。
AutoMLは、データサイエンティストの業務における面倒な手作業を自動化してくる一方で、「どんなデータがビジネスの改善に役立つのか」あるいは「ビジネス的意思決定に役立つモデルの出力（予測）とは何か」といったデータサイエンスの本質的理解にもとづく判断を自動化するわけではありません。それゆえ、AutoMLは熟練したデータサイエンティストの手間を省くことには役立ちますが、データサイエンスの知識が皆無な素人を専門家にするほどの効用はありません。
こうしたAutoMLを専門知識に乏しい「市民データサイエンティスト」が利用するにあたっては、その成果に過度な期待を抱かなければ問題ないだろう、ともMadurkar氏は述べています。

なお、以下の記事本文はAni Madurkar氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

新しい地平線。画像出典：著者

AutoMLは応用機械学習の展望をどのように進化させるか
データサイエンティストは何をするのか？
自動機械学習（AutoML）は何をするのか？
AutoMLは誰にとって本当に役立つのか？
コラボレーションの未来に向けて

AutoMLは応用機械学習の展望をどのように進化させるか

この記事を読んでいる読者諸氏は、AutoMLあるいは自動機械学習が何であるか、すでにご存じだろう。それは、機械学習パイプラインを完全に自動化するためにGoogleが構築したツールで、MicrosoftやAmazonも独自の実装をクラウドで行っている（※訳註1）。

（※訳註1）AutoMLに類するツールには、MicrosoftのAzure Machine Learning、AmazonのAmazon SageMakerなどがある。

自動機械学習は、モデルとハイパーパラメータの広大なランドスケープに対して広く深い探索を行い、問題に対する最適なモデルと特徴抽出を見つけるために構築されている。現在の機械学習プロジェクトの大部分を自動化するだけでなく、比較的簡単に始められるようにしている。組織の技術インフラにもよるが、ソフトウェアやクラウドの経験がある人であれば、（AutoMLを使うことで）独自のモデルを大規模かつ非常に簡単に実行できるようになる。

以上に述べたAutoMLの現状と、ローコード／ノーコードツールが業界を席巻していることから、AutoMLはデータサイエンティストに取って代わると主張する記事を多く目にする。この主張に私はあまり同意できない。この記事では、AutoMLのさらなる導入で生じることに関する私の考えを明らかにする。

データサイエンティストは何をするのか？

企業やドメインによってかなりのバリエーションがあるが、一般的にデータサイエンティストはビジネスリーダーと協力して、統計的な洞察を提供し、価値の高いビジネス上の決定を導くために機械学習モデルを実験・構築する。こうした業務は、社内外の高度な技術コンサルタントのような役割を担うことを意味する。

こうしたプロジェクトのライフサイクル全体は、データエンジニアが無数のシステムからデータを集め、そのデータをデータベース、データレイク、データウェアハウスのような適切な形式にして検証することから始まる。そして、ビジネスニーズが発生すると、データサイエンティストは目の前の問題を理解し、どのデータが解決策になり得るかを理解する責任を負う。こうした業務には、データエンジニアやビジネスリーダーの両方を相手にして、データを取得するための適切なソースや品質の制限などを確認するためのやりとりが必要になる。

その後、データサイエンティストは、スケーラビリティよりも実験に重点を置いたProof of Concept（概念検証）モデルを構築するのが一般的だ。このPoCステージは非常に反復的で、雑多かつ探索的である。このステージでは、データアナリストとのコラボレーションがより密接になる。このステージのアウトプットは、初期の有力な特徴量、データの依存関係、動作するモデル、最適なハイパーパラメータ、モデル／プロジェクトの限界などを特定することにある。データサイエンティストは、目の前の問題に取り組むために、無数の統計的およびアルゴリズム的な技術をレパートリーとして持っている必要がある。PoCで十分な信頼性が得られたら、これまでに書いたコードをリファクタリングしてパフォーマンスを最適化し、モデルを実運用に移せるようにする。

実装段階では、機械学習エンジニアと連携し、モデルの本番稼働と適切なモデル監視の設定を支援する。プロジェクト実装後の作業は、通常、データサイエンティストと機械学習エンジニアのコラボレーションとなる。最後に、データサイエンティストは、モデル、そのモデルがもたらす結果、そしてそれがどのようにビジネスに関連しているかを簡潔かつ明確に説明するプレゼンテーションを行う。

以上に解説したデータサイエンティストが順次行う各職務にはそれぞれ奥深さと課題があるが、こうしたライフサイクル全体を運用・管理することが応用機械学習なのだ。さらに、データプロジェクトは通常、直線的ではなく、反復的だ。各段階で前の段階を見直す必要があると判明することが多いので、最初からすべての役割を担っておくことが非常に有効である。最後に、組織の規模や使えるリソースによっては、一人の人間が複数の役割を担うのも容易い。私が見てきたなかで（データサイエンティストの兼任で）最も一般的な役割の組み合わせは、以下の通りだ。

データサイエンティスト／機械学習エンジニア：通常、Jupyterノートブックをはるかに超えるドメインで動作するスケーラブルなMLシステムを作成することにより、より優れたパフォーマンスを発揮する。企業が「データサイエンティスト」を求めるのは、基本的にこのような意味においてである。
データサイエンティスト／データアナリスト：通常、スピードと実験に優れている。たいていはリードアナリストやプロダクトDSとして働くことになる。
データサイエンティスト／データアナリスト／機械学習エンジニア：通常、シニア、リード、プリンシパルクラスのエンジニアで見られる。複数の仕事をこなす達人。

自動機械学習（AutoML）は何をするのか？

AutoMLは、機械学習のワークフロー全体を自動化する。

（機械学習の自動化は）Google Cloud PlatformやAzure Machine Learning、Amazon SageMakerなどのクラウドインフラのなかで行うことが望ましいとされている。AutoMLは、モデルのチューニングと実験におけるすべての手動部分を代替するように動作する。代替される部分は、今日のデータサイエンティストがモデル化するタスクに最適なモデルとそのハイパーパラメータを発見するための探索で行うようなことだ。AutoMLの主な機能は評価指標を最適化することであり、最良の結果が得られる（あるいは終了基準に達する）までは反復を続けるため、反復作業にも対処する。

画像出典：著者

（※訳註2）以上の機械学習モデル開発の手順を可視化した図を翻訳すると、以下のようになる

機械学習モデル開発の手順

一度学習したモデルは、クラウド上の本番環境に簡単に導入でき、そうした本番環境には適合率-再現率曲線（※訳註3）や特徴量の重要度など、モデルのモニタリングチェックが設定されている。

AutoMLが学習する基本的なアルゴリズムは、主にデータサイエンティスト／学習管理環境によって既に学習されているものである。しかし、通常、こうしたクラウド環境で提供されているものが実際にAutoMLをどのように実行するかについては、ほとんど透明性がない。とはいえ、最新モデルやアンサンブルモデルが多用されており、手作業で作成されたモデルに匹敵する性能を発揮することもしばしばある。

データビジュアライゼーションと特徴抽出のAutoMLへの統合は、非常に有用だ。AutoMLというこのシステムは、動作中に重要な特徴の交差、適切な変換、カギとなるビジュアライゼーションを特定できる。

最後に、これらのクラウドプラットフォームは、コンピュータビジョン（例：物体検出）、自然言語処理（例：光学的文字認識）、時系列（例：予測）などのユースケースのために、AutoMLを備えた特定のディープラーニング製品も持っている。

（※訳註3）適合率-再現率曲線とは、機械学習モデルを評価する指標である適合率と再現率の両方を考慮する場合に使われる曲線。一般には、適合率を意味する英単語Precisionと再現率を表すRecallの頭文字をとってPR曲線と呼ばれる。縦軸に適合率、横軸に再現率をとって、曲線の下側の面積が大きいほど優れた予測と判断する（下の画像参照）。PR曲線は故障検知のような偏りの大きいデータに対する予測評価に使われる。

PR曲線

画像出典：codeexa『機械学習の評価指標分類編：適合率や再現率、AUC（ROC曲線、PR曲線）を解説』より引用

AutoMLは誰にとって本当に役立つのか？

上記の内容を読んで、「じゃあデータサイエンティストは明らかに用なしだ」と言うのは実に簡単である。私は正反対のことを主張する。ローコード／ノーコードの動きは、特にクラウドプラットフォームが広く採用されるにつれて、本当に素晴らしいものとなってきている。高度に技術的な作業がドラッグ＆ドロップになり、初心者にとっての参入障壁が低くなっている。実際、あまりにも簡単になってきているので、人々はデータサイエンス業務を誰でもできると感じてしまい、その仕事の質や理解度についてはほとんど議論していない。ローコード／ノーコードツールの欠点は、ダニング・クルーガー効果の「自信過剰、能力不足」の段階に陥りやすくなることだ（※訳註4）。

画像出典：パブリック・ドメイン

高度に技術的で複雑な作業を大きく抽象化すると、参入障壁が下がる反面、初心者の段階で行き詰まる人が出やすくなる。AutoMLを無制限なクラウドコンピューティングで実行できるようになれば、どのモデルが目の前のタスクに最適か、なぜ特定のモデルがビジネスユースケースで失敗するのか、なぜ問題に応じて評価指標に優先順位を付ける必要があるのか、などを学べる。これらの質問に対する答えは、AutoMLの真の勝者に光を当て始めるのだが、まずは類似の比較を描いてみよう。

Tableauは、現在最も人気のあるデータ分析製品の1つだ。私はこの製品でキャリアをスタートさせ、認定資格を取得し、このツールの大ファンでもある。これまで非常に技術的で時間のかかっていた作業を、ドラッグ＆ドロップで簡単に行えるようにしたのだから、これは素晴らしい製品なのだ。棒グラフ、円グラフ、複雑なダッシュボード、擬似的なWebページなどを簡単に作れるようになった。初心者の私に信じられないほどの力を与えてくれたので、感謝している。しかし、正直に言うと、私が最初に作ったダッシュボードの多くは本当にひどいものだった。アクションや洞察に満ちた思考を促さず、アクションを促すストーリーというよりは「見て楽しい」ものに過ぎなかった。それでも、ツールの使い勝手の良さに便乗して、専門性を主張することは容易かった。しかし、キャリアを重ね、修士課程では色彩理論、視覚の限界、目的に応じたデザイン、コードを使ったデータビジュアライゼーションの構築方法などを深く学んだ。このように理解を深めることで初心者の谷を乗り越えられたが、このまま専門家気取りでいることは非常に簡単だっただろう。そして今でも、全く効果的でないにもかかわらず、「デザインに目がいくから」効果的だと感じられてしまうTableauダッシュボードを山ほど見てきた。

Tableauは誰でも簡単にデータアナリストになれるようにしたが、ほとんどの人がそれをうまく使いこなせないことも証明した。この見解は攻撃的な意味ではなく、優れた質の高いデータ分析とはドラッグアンドドロップツールに還元できるものではないということを認識するためのものだ。ワンクリックで棒グラフを作成できるようになることよりも、正しい方法を身につけるために時間と労力を費やすことが深く専門的になることにつながる。

AutoMLは、誰よりもデータサイエンティストを支援する。（AutoMLを使えば）MBAなどのML未経験者に簡単にデータサイエンスの仕事をさせられると聞くたびに、私にはかなり滑稽な話に思えた。技術的に複雑な部分を抽象化することで、初めての人でも簡単にできるようになっているが、AutoMLの主要なユーザ層はたいてい専門家である。AutoMLは手作業を要する最も面倒な部分を自動化するが、その作業はアンサンブルモデルの精度を最適化するだけではなく、もっと広くて深いものである。

（※訳註4）ダニング・クルーガー効果とは、能力の低い人が自分の能力を過大評価する認知バイアスに関する仮説である。この仮説の解説に引用されるグラフとして、横軸に知識、縦軸に自信を設定した知識と自信の相関関係を可視化したものがある（以下のグラフを参照）。

ダニング・クルーガー効果の知識と自信の相関をめぐる4段階

画像出典：HR BLOG『ダニング=クルーガー効果とは？陥りやすい人の特徴と対処法』

任意の分野に関する知識を習得するにあたり、ダニング・クルーガー効果によれば、以下のような4段階を経験する。

知識不足だが自信過剰な「馬鹿の山」期
知識不足を自覚して自信を失う「絶望の谷」期
学習して知識を増やして自信を回復する「啓蒙の坂」期
知っていることと知らないことが正確にわかるようになる「継続の大地」期

コラボレーションの未来に向けて

私が知っている熟練したデータサイエンティストは皆、AutoMLに全く懸念を抱いていないし、むしろ興奮している。彼らがそう思うのは、PoC作業のなかでも退屈で反復的な部分が自動化されるのを待ちきれないからであり、そうした退屈な作業をすることに自分の真の価値があるわけではないことを知っているからだ。AutoMLは、モデルからビジネスリーダーにどのようなアクションを取るべきかという推奨を解釈したり（評価指標の印刷は解釈ではない）、データセットに存在しない新しい特徴量が重要である可能性とその入手方法に関して理解したり、どのようにして機械学習モデルを企業全体のために構築されたモデルやソフトウェアのような大きなシステムに統合するのか、ということ等に対処できない。

訓練を受けていないML専門家がAutoMLを使い、実稼働させ、ビジネスに何百万ドルもの価値をもたらしている例もあることだろう。この成功はAutoMLに起因するものではなく、会社のデータ文化やインフラに由来する。GoogleがAutoMLを使って「データサイエンティストを殺している」という話を読んだことがあるが、他ならぬGoogleのデータサイエンティストがAutoMLを使っていることはほとんど知られていない。ほとんどの企業において「市民データサイエンティスト」という流行りの列車に乗るつもりなら、どんなモデルが作成され、なぜ、そしてどのように機能しているかを監視できる中央管理組織が必要だろう。

とはいえ、AutoMLはある種の職種を殺す。殺されるのは「似非データサイエンティスト」だ。似非なデータサイエンティストや学習管理環境は、「自信過剰、能力不足」の段階から抜け出せず、それを超えて学び、成長し、進化することを拒否している。AutoMLは彼らの価値を著しく低下させ、アナリストや学習管理環境の一機能に追いやることになるだろう。市民データサイエンティストは千差万別だが、期待値が管理されている限りは大丈夫であろう。市民医師や市民弁護士に質の高い結果は期待されていないだろうから、市民データサイエンティストにも大きく期待すべきではない。

この記事の多くの部分はは少しセンセーショナルだったのではないかと思われるが、とりわけAutoMLが登場することによって、役割と責任の再定義が行われると私は考えている。（AutoMLが登場したとしても）データサイエンティストや学習管理環境の役割は完全に無傷のままだろう、とは私は主張しない。しかし、彼らの専門知識は現在よりもはるかに必要とされ、はるかに高く評価されるようになるだろう。AutoMLのようなツールが普及してきたのは、このスキルが満場一致で必要とされていることの表れであり、自分のスキルセットのなかでこのツールを高いレベルで運用できる人が、次の10年の応用機械学習における勝利者となるだろう。

原文
『AutoML and the Future of Data Science』