データサイエンティストを増員すべきではない理由

著者のAdam Sroka氏はグリーンエネルギーの普及に取り組むイギリス企業Origamiで機械学習部門を率いており、AINOW翻訳記事『なぜ多くのデータサイエンティストが優良企業の良い仕事を辞めるのか』の著者でもあります（同氏の経歴はLinkedInを参照）。同氏がMediumに投稿した記事『データサイエンティストを増員すべきではない理由』では、データサイエンティストが適任の業務で雇われないことが多い現状とその解決策が論じられています。
Sroka氏によるとデータサイエンティストはその業務範囲が広いため、本来であればスペシャリストに任せるべき業務も担当してしまう状況に陥りがちです。そうした状況として、以下のような3つの場合が考えられます。

データサイエンティストが本来の職務を担当しない3つの状況

データアナリストに任せるべき場合：データサイエンティストが日常的な業務データに関する定型的な分析とその報告を担当するケース。こうした業務はデータアナリストに任せて、データサイエンティストは新たな知見をもたらす新規な分析に専心するべき。
データエンジニアに任せるべき場合：データサイエンティストがデータベース構築を担当するケース。こうした業務はデータエンジニアに任せるべき。
ソフトウェアエンジニアに任せるべき場合：データサイエンティストが機械学習モデルを含むソフトウェアの開発を担当するケース。ソフトウェア開発はソフトウェアエンジニアに任せて、データサイエンティストはソリューションの骨組みを立案することに専心するべき。

以上のような状況は、業務リソースを配分する意思決定者が業務の内容を精査せずに、言わば「何でも屋」のデータサイエンティストに業務を丸投げすることで生じます。こうした状況はデータサイエンティストにフラストレーションを与えてしまうので、意思決定者は彼らを「データ分析によって新しい知見や解決策を発見する」という本来の業務に配置すべき、とSroka氏は主張します。
なお、Sroka氏の主張と似たような内容のAINOW翻訳記事に『無闇にデータサイエンティストを雇うのをやめよう。』があります。この記事を関連記事として読めるでしょう。

なお、以下の記事本文はAdam Sroka氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

データチームにおけるアナリスト、データエンジニア、ソフトウェアエンジニアの役割を考慮することで、コストとフラストレーションを削減
仕事に適していない人々
おそらくアナリストが必要な場合
おそらくデータエンジニアが必要な場合
おそらくソフトウェアエンジニアが必要な場合
結論

データチームにおけるアナリスト、データエンジニア、ソフトウェアエンジニアの役割を考慮することで、コストとフラストレーションを削減

データサイエンティストを雇うのはやめよう – もしかしたら必要ないかも知れない（画像出典：UnsplashのNadine Shaabanaから）

仕事に適していない人々

私がこれまでに勤務したり、コンサルティングを行ったりした多くの企業で見られたことがある。それは、仕事に適した人材を採用していないことだ！

データサイエンスチームのパフォーマンスが低い、経営陣がデータサイエンス全般に自信を失っている、データサイエンティストが自分の役割に不満を持っている、などのいやな話をいまだによく耳にする。深く考えてみると、これらの話には共通のパターンが見えてくる。

私たちは、データサイエンティストを採用し続けているが、彼らがどこで最も価値を発揮するのかを本当には理解していない。

多くの組織では、本当に必要とされているのはアナリストやデータエンジニアなのだ。時には仕事の核心がデータやインサイトではない場合もあり、そんな場合にはソフトウェアエンジニアや開発者の方がはるかに仕事に適しているのだ。

データサイエンティストは（スキルと仕事のミスマッチという）この問題を悪化させる以下のような危険な複合的属性を持っている。

幅広いスキルセットを持つデータサイエンティストは、ほとんどの問題に取り組むための基礎的な能力を持っているが、一部の専門家よりも時間とコストがかかる。
（データサイエンティストとは）好奇心旺盛な人が活躍できるキャリアであるため、彼らの多くは、本来ならば自分の役割の範囲外であるような課題にも取り組み続けてしまう。
データサイエンスの仕事を獲得するためには競争しなければならないので、一部の人々にとってデータサイエンティストになるとは他人を満足させ、良い市民であるために自分に合わない仕事を喜んで引き受けることを意味する。
キャリアの浅いデータサイエンティストと管理職の経験不足によって、（データサイエンティストとは何か／何でないかについては誰も同意していないようなので）この職種の定義が混乱していて不十分なことと相まって、適切なタスクにリソースを誤って配分してしまう。

以上のような事例を挙げたらきりがない。私は、過去1年半のあいだ、BIや基礎的なデータベースの開発ばかりしていたデータサイエンティストに会っても驚かない。こうした仕事は、データサイエンティストではなくスペシャリストが担当するのが相応しい。

組織が仕事に提供すべきものと、仕事に割り振るスキルとのあいだには大きなミスマッチがあるのだ。

おそらくアナリストが必要な場合

ビジネスの舵取りや変革のために実験をしているのか、それともビジネスにおける日々の意思決定をサポートしているのか（画像出典：UnsplashのLuke Chesserから）

適正なスキルの組み合わせを知ることは困難だ。組織、業界、機能、チーム、個人の性格などさまざまな要因が絡み合っているため、この問題を解決するためのシンプルな公式は存在しない。一般論では、より多くのアナリストが必要である。データサイエンティストを雇用してビジネス指標に関する基本的なレポートを作成するのは、スキルとリソースの最善な使い方ではない。

最近、統計学者は珍しい存在になっている。世の中には素晴らしい仕事をしている統計学者がたくさんいて、組織はこうしたスキルセットを切望している。GlassdoorやStack Overflowなどのサイトによると、データサイエンティストの平均給与は、統計学者のそれよりも約21％高いそうだ（※訳註1）。データサイエンティストの多くは何でも屋さんなので、統計学をしっかり学んだ人がデータの管理や処理の基本を身につけて、大幅な昇給を実現するのはかなり簡単なのだ。

（※訳註1）Glassdoorとは、企業の従業員または元従業員が企業をレビューするアメリカのウェブサイト。2018年に日本のリクルートホールディングスに12億ドルで買収されたが、経営に独立性を認められている。この記事の翻訳を執筆している2021年11月末時点では、同サイトに掲載されている（この記事の著者であるAdam Sroka氏が住んでいる）イギリスのデータサイエンティストの平均年収は46,953ポンド、統計学者のそれは39,376ポンドであり、前者は後者より約19%高い。

しかし、新しい仕事に就くことは問題の半分に過ぎない。統計学者からデータサイエンティストに転身した新人は、これまでとはまったく異なる世界に身を置くことになる。データサイエンティストの多くがこれほど幅広いスキルセットを持っているのには理由がある。これまでは1日の大半を統計モデルの実行、データの解釈、企業データからの洞察を得るためのレポート作成に費やしていた。しかし、給与が20％上がった今、データの収集、データパイプラインの構築、簡単なレポートやスライドデッキの作成、分析を始めるために必要な基本的な情報を得るためのSQLの作成などに、ほぼすべての時間を費やすことになる。こうした業務は、データサイエンティストのスキルの核心ではない。データサイエンティストになったのに今や日常のビジネス機能をシンプルな分析とレポートでサポートするエントリーレベルのデータアナリストの仕事をする羽目になっているのだが、そうなってしまったのはデータアナリストがすべき仕事を行う適切な人材がいないからだ。

アナリストがもたらす価値を統計学者やデータサイエンティストから得られるそれを比較すると、その違いは大きい。アナリストは適切なインサイトや情報を、適切な人に適切なタイミングで提供するために絶対に必要な存在である。彼らは、来る日も来る日も分析を提供する。ほとんどの組織は、エクセルのスプレッドシートに取り囲まれて地獄のような状況に陥っているが、アナリストはそのような人々を正気に戻してくれる存在なのだ。

対してデータサイエンティストや統計学者は、より長期的な変革をもたらすサービスを提供すべきである。新たな知見を引き出し、新たな仮説を検証するための実験を行い、長期的な研究計画の一環として予測能力や新しいモデルを開発する。このような能力があるからこそ、データサイエンスの仕事はより多くの報酬を得られるのだ。こうしたスキルを身につけるには、かなりの時間と修練が必要なのは間違いない。そして特別な分析スキルがあるからこそ、業界を深く理解していなくてもデータサイエンティストが組織にとって有用な存在なのである。

（データサイエンティストとデータアナリストの）どちらが優れているというわけではなく、それぞれに適した場所があり、異なる目的に服しているのだ。

非常に多くのスキルやニュアンスを持った職務がデータサイエンスの濁流に収束したことで、多くの組織が苦境に立たされている。

以上のようなデータサイエンティストのスキルを持った労働者は、収入は増えても、以前ほど充実していない仕事をしているかも知れない。さらに、組織は本当に必要なスキルに対して市場価格よりも高い金額を支払っている一方で、特定のタスクに対してスキルの低い人を雇用している可能性がある。

おそらくデータエンジニアが必要な場合

パイプをつなぐ場合は、配管工がいいでしょう（画像出典：UnsplashのCrystal Kwokから）

私がデータサイエンスを始めた頃は、データエンジニアという言葉はあまり聞かれなかった。下のGoogle Trendsのチャートを見ると、両職種の人気（ハイプ）の違いや青色の「データサイエンティスト」に対して赤色の「データエンジニア」という言葉が2014年頃まで普及していなかったことがわかる。確かにデータエンジニアリングについては多くの議論があったが、（私も含めて）多くのデータサイエンティストは自分ですべての作業を行わなければならなかった。

青色の「データサイエンティスト」と赤色の「データエンジニア」という検索キーワードに関するGoogle Trendsから得られる時間経過に伴う関心度の推移（画像出典）

もはや2014年ではない。しかし、現在でも（データサイエンティストとデータエンジニアの人気の違いに）これほどのギャップがあることにむしろ驚かされる。

大多数の企業は、データサイエンティストよりもデータエンジニアを採用した方が良い。

データサイエンティストを雇うと、彼らがビジネスの様々な分野に関わることが多いため、早い段階からデータや分析機能に関するニーズを形成するのに役立つ。彼らはたいてい、ゆるやかなスコープとソフトな要件を得意としていている。しかし、要求が明確になると、あっという間に大量のデータ管理や処理が必要になってくる。

データプラットフォームの基盤を整えるには、最もシンプルな要件であっても数ヶ月かかることもある。また、プラットフォームが成長するにつれ、新たな要件が浮上し、メンテナンスにかかる費用も増加する。私は、できるだけ早い段階で優秀なデータエンジニアを採用することを強くすすめる。多くのデータサイエンティストが優れたデータエンジニアになるだろうが、データソリューションの構築や設計を行う際には、スキルとベストプラクティスに関する知識の両方が必要になってくる。さらにデータエンジニアは、CI/CDやテストの構築など、私たちが技術スタックを成長させるために頼りにしてきたあらゆる優れたエンジニアリングの手法に優れている傾向がある。対してデータサイエンティストは、最大の価値を提供するために単発の実験に集中すべきなのだ。

また、ビジネス全体の機能をサポートする強力なデータエンジニアリングからは、多くの価値が得られる。データエンジニアの多くはBIの経験があるので、ビジネスユーザやアナリストのデータニーズを詳しく理解しているという利点がある。

おそらくソフトウェアエンジニアが必要な場合

スケーラブルなソフトウェアの構築は専門家に任せる（画像出典：UnsplashのYancy Minから）

大規模なアプリケーションでは、高度な分析や機械学習が中心となることがますます多くなっている。そのためデータチームは開発プロセスの中核を担い、アプリケーションのパスを形成し、他のチームと一緒になってアプリケーションを提供することになる。

しかし、多くの組織はここで挫折してしまう。

アプリケーションのなかに機械学習があるからといって、データサイエンティストだけのチームが必要なわけではない。

データサイエンティストは、堅牢でスケーラブル、インタラクティブで出荷可能なソフトウェアを開発するためにいるわけではない（少なくともそうあるべきではない）。データサイエンティストから得られる最大の価値は、明確で測定可能な成果物といくつかのデータを伴う質問を与え、その質問を彼らに反復してもらって何らかの答えを導き出させることだ。もちろん、データサイエンティストはコンセプトを証明するような大まかなソリューションを翻訳し、他のチームに引き渡す際にも重要な役割を果たす（※訳註2）。しかし、彼らをプロジェクト全体の依存関係に組み込むことは、リソースの配分を大きく誤ることになる。

（※訳註2）企業経営陣が考えるデータサイエンスプロジェクトに対するニーズを、ソフトウェアエンジニアが必要としているソフトウェアの要求仕様に翻訳するデータサイエンティストの役割に関しては、AINOW翻訳記事『すべてのデータサイエンスチームが雇うべき3つの見落とされがちな役割』の見出し「1．データサイエンストランスレーター」を参照。

本当に必要なのは、ソフトウェアエンジニアから成る強力なチームだ。データサイエンティストはインタラクティブなGUIを作れるだろうが、その仕事はフロントエンド開発者が担当した方がはるかに優れている。また、データサイエンティストはデータをソースからシンクまで届けるパイプラインを構築できるだろうが、バックエンド開発者、データエンジニア、テスターはより強固でスケーラブルなものを作るだろう。

ソフトウェアエンジニアはAIモデルがどのように動作するか理解していなくても、そのモデルをアプリケーションの他の部分とうまく連携させて、出荷可能でスケーラブルなソフトウェアの一部にできる。

データサイエンティストには質問に導かれた、科学的な側面に集中してもらい、エンジニアリングはエンジニアに任せよう。

データサイエンティストにはより適切にプロジェクトに関与してもらって、満足感を抱いてもらい、より高品質なコードを書いてもらい、より多くのエッジケースに取り組んでもらって、彼らのイライラやフラストレーションを軽減するようにしよう。彼らはある状況下では必要不可欠な存在だが、別の状況下では全くの障害となり得る。

結論

多くの人々がデータサイエンティストになりたがっているため、他のデータ関連の職務のニュアンスが失われている。さらに多くの採用担当者は優れたデータサイエンティストが何に貢献できるのか、どのような場合に必要とされるのかを理解しておらず、データサイエンティストをより知るきっかけとなる経験もない。そのため、多くの人々が間違った役割を担うことになり、全体的にフラストレーションが溜まっている。

今度データサイエンティストの求人広告を出したいと思ったら、その役割の核心は何かを考えてみよう。雇いたい人材は研究や科学に従事して、企業がたどる旅路の将来の方向性を形成するのか、それとも基礎的なエンジニアリングを行い、通常のビジネスをサポートするのか。

原文
『Why You Shouldn’t Hire More Data Scientists』