最終更新日:
近年データサイエンティストが「セクシーな職業」として注目を集めているのは周知の通りですが、本来はアナリストあるいはエンジニアのほうが適任な業務に対してもデータサイエンティストを重用する傾向がある、と同氏は指摘します。
アナリストを雇うべきなのにデータサイエンティストを雇ってしまうミスマッチは、統計学に関する学術的訓練を受けた人材が高額な報酬を欲しいがゆえに、データサイエンティストを名乗ることに起因します。その一方でビジネスに精通した本来的な意味でのアナリストは目立たなくなり、企業は高額でデータサイエンティストを雇ってしまいます。
エンジニアを雇うべきなのにデータサイエンティストを雇ってしまうミスマッチは、最先端技術を実装する開発業務にはデータサイエンティストが多数必要である、という思い込みに起因しています。しかし、実際のところ、コーディングや機能の実装といった開発業務の多くの部分はエンジニアが担うべきなのです。にも関わらず、企業は思い込みにもとづいて多数のデータサイエンティストを雇ってしまいます。
以上のようなミスマッチの根本原因は、データサイエンティストという職種の定義が不明瞭なために企業はこの職種を過大評価していることにあると言えます。こうした誤解されやすいデータサイエンティストに関して、AINOWは正しく理解する助けとなる以下のような翻訳記事を公開してきました。
日本においても今後ますます「セクシー」になるデータサイエンティストという職種を正しく理解することは、企業とこの職種の志望者の両方にとって重要となるでしょう。
なお、以下の記事本文はLuke Posey氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。
目次
適切に雇わないことによって、あなたの会社の費用対効果は悪くなっている。
必要なのがアナリストやエンジニアの軍隊(または開発者、さらにはあなたが自分で定義するそのほかの何らかの職種)である時、データサイエンティストの軍隊を採用してしまっている。
現時点ではマネージャーが雇いたかったり経営者が現場に送り出したかったりする人材と、業務を行うために実際に雇っている人材のあいだには大きなミスマッチがある。データサイエンティストに適任な仕事がある状況はまだたくさんあるのだが、そうした状況とはどのようなものであるかをよりよく理解する必要がある。
世界はデータに溢れているものも、そのデータに関する洞察は乏しい。データを採掘して洞察をもたらす情熱的な人々がより求められる一方で、真の科学に根拠づけられていない表面的なレベルの分析を行う人々は少しでも斥けたいところだ。多くの場合、ビジネスに関する強力な知識を備えているアナリストは、ビジネスに新規参入したデータサイエンティストより多くの洞察をもたらす。多くの真の「データサイエンス」の役割については、おそらく統計学者が担うのが相応しいだろう。誤ってラベル付けされたデータサイエンスの役割の大部分については、おそらくアナリストまたはエンジニアにあたったほうがよいだろう。
1.アナリストが必要な場合は、データサイエンティストの採用をやめよう。
2.エンジニアが必要な必合も、データサイエンティストの採用をやめよう。
以上の注意事項は簡単なことだ!データサイエンティストの雇用については、さらに考察できる。(さらなる解説へのリンクはこちら(※訳注1))
続編記事ではデータサイエンティストに長く働いてもらうには彼らの情熱と好奇心を維持することが重要と説かれたうえで、データサイエンティストに見られる2種類の性格上の傾向性を挙げている。第一の種類は仕事に関する幅広い裁量を与えられると能力を発揮するデータサイエンティストであり、第二のそれは遂行すべき仕事が明確に与えられるとモチベーションがあがるものである。そして、データサイエンティストにはその性格の傾向性に応じて仕事を割り当てるべき、とアドバイスしている。
アナリストが必要な場合は、データサイエンティストの採用をやめよう。
任意のデータチームにおいてアナリストとデータサイエンティストの適切な比率とは何なのかについて、私は完全に知っているわけではない。ただ私が思うに、そうした比率はあなたが解決しようとしている問題に完全に依存しているということだ。私にわかっているのは、5人のデータサイエンティストを雇って、ビジネスのベースラインメトリックに関する基本的なレポートを作成するようなことは見当違いな仕事だということだ。
日夜素晴らしい仕事をしていて、その仕事に相応しい統計学者はたくさんいる。しかし、データの世界でこうした人材について聞いたことがない。本当に優秀なデータサイエンティストの多くは、この肩書を新しく名乗った統計学者である。その他の人材は統計、エンジニアリング、数学、プログラミングの混合物に過ぎず、多芸は無芸といったところなのだ。
2020年になって、なぜ誰もがデータサイエンティストを自称するようになったかについては、何ら秘密などない。あなたが才能にあふれ誠実な仕事(科学?)を日夜行っている統計学者だと想像してみよう。IndeedやGlassdoorなどによると、統計学者の給与は年収70,000ドルから110,000ドルのあいだにある値だ。それからデータサイエンティストの年収を肩越しに見てみると、90,000ドルから165,000ドルのあいだにあることがわかる(※訳註2)。そして、胸に手を当てて考えてみると、「データサイエンティスト」なる人材は統計学者であるあなたが習得している武器となる知識のほとんどを持っていないことに気づくのだ。たぶんデータサイエンティストたちはあなたよりも少しだけ多くのPythonを書くことができるかも知れないし、ほんの少しのRができるかも知れない。ただそんなスキルはあなたなら数ヶ月で習得できるものだろう…データサイエンティストなるものは SELECT * FROM Table; を実行して幾ばくかのデータを取得するが、高度なものではない。
以上のことがわかると、あなたはいくつかの会社のウェブサイトや求人掲示板にアクセスしたり、数人の友人や同僚にメールを送信したりするだろう。そのあと突然、あなたは今働いている会社とは違うところで輝かしく新しい仕事に就くことになる。その会社では、あなたは今や「データサイエンティスト」という誇らしい肩書の保持者となるのだ。
おめでとう!あなたは輝かしい学歴があって名誉ある研究実績もあったのに、前の会社では年収は95,000ドルだった。そんなあなたが突然、新しい会社では首尾よく130,000ドルを手にするのだ。ワォ!なんて出世。そして、あなたの上司があなたに会いに来て、あなたに仕事の計画を割り当てる。あなたが仕事に精進していると、ほどなくして日々の仕事が高度な統計学者の仕事からSQL戦士のそれになったことに気づいてしまう。最早あなたの業務時間の90%はレポートの作成、パワーポイント資料の配信、日々のユーザ・メトリックスを共有するためにPower BIのダッシュボードを構築するといったことに費やされる。こうして今やエントリーレベルのデータアナリストの仕事をしていることに気付いたとき、あなたは泣き笑いしてしまう。10年間の大学院生活とさらに5年のポスドク期間が、少しばかりのSQLクエリを書いたり古いダッシュボードをメンテナンスしたりする日々を過ごすために捧げられてしまうのだから。
以上のような架空の事態においてでも、あなた自身のアナリストとしての仕事が評価されていないわけではない。実際、アナリストはビジネスの基礎であり、アナリストたちがいなければデータの世界は行き詰まってしまうはずだ。もし世界中のアナリストが突然仕事から姿を消してしまったら、経営者たちは慌てふためくだろう。そんなことが起こったら、多くの業界が地獄から召喚されたみたいに扱いに困るExcelのスプレットシートのなかで崩壊するだろう。その一方で、あなたは自分が根っからの統計学者であることを知っているので、アナリストとしての日々の仕事あるいは週ごとの仕事から得られる数々の小さな勝利よりは、長い研究サイクルの末か、あるいは1回限りのコンサルティングから得られる大きな勝利がもたらされることを願っているのだ。もっとも、小さな勝利は大きなそれより素晴らしくないわけではない。それらの違いは、取り組む際のマインドセットの違いに由来する。
さらに言えば、データサイエンスには従来にはなかったハイレベルなスキルのある労働者が求められ、そうしたスキルのある労働者に中間レベルのマネージャーの給与でアナリストの仕事が与えられたのだった。このサクセスストーリーは別段珍しいわけではなく、様々なバックグラウンドを持つ多くの人々がこの成功体験に与った。
以上のような成功体験に与った統計学者(上がりのデータサイエンティスト)は自分がwin-loseの状況にあることを悟っている(なぜなら多くのカネを手にできた点では勝利だが、仕事を憎んでいる点では敗北だから)。その一方で、彼らが関わったビジネス自体はlose-loseの状況に陥っている。そうしたビジネスでは、年収75,000ドルから100,000ドルのハイスキルなアナリストで十分可能な仕事に対して、データサイエンティストというだけで年収130,000ドルを支払っているからだ。そして、そんなデータサイエンティストの仕事の質は次第に劣化する。というのも、統計学者上がりの彼らはSQL戦士がするような仕事に興味がないからだ。統計学者は明らかにデータサイエンティストまがいの仕事には過ぎた人材なのだが、そんな彼らが仕事に興味をなくして仕事に精魂込めることがなくなると、パフォーマンスが落ちていくことが多くの研究が示している。
今日の業界では、多くの場合アナリストは自分自身をデータサイエンティストと名乗ったりはしない程度には謙虚な人々だ。対して、多くの「データサイエンティスト」は、そのネームプレートが示すより栄誉ある役割を台無しにしてしまう可能性の高いアナリストである。ちなみにデータサイエンティストを雇いたがっている上司は本物のアナリストとまがい物のそれの区別がつかないので、そんな不見識に付け込んで肩書を変えて年収40,000ドル以上の昇給をせがんでみよう。
ちなみに名目年収がもっとも高かった都市は、サンフランシスコの166,519(約1,800万円)ドルなのだが、生活費を差し引いた実質年収がもっとも高かったのはヒューストンの123,010ドル(約1,340万円)であった。 画像出典:Indeed「Data Scientist: A Hot Job That Pays Well」[/caption]
エンジニアが必要な必合も、データサイエンティストの採用をやめよう。
エンジニアよりデータサイエンティストを重用するという第二の現実を反映しているデータチームに関する話も次々と聞かれる。多くのデータチームは、最先端のモデルを活用して斬新なユースケースを提供するアプリケーション構築の中核を担っている。例えば、BERTを使用してテキスト分類子を構築しているデータチームを想像してみよう。このBERTを使った機能が間もなく稼働するWebアプリケーションのコア機能とも想像しよう。
この種のアプリケーションを構築するために、たくさんのデータサイエンティストを部屋に集めてチームビルディングを行うことは、私から見れば笑止千万なことだ。明らかに必要なのはエンジニアのチームである。フロントエンド開発者、バックエンドの人々、または過去にBERT関連モデルを使って仕事をしたことのある1人か2人の機械学習エンジニアが必要かも知れない。最後に必要なのが、モデルがどのように機能するかを伝えようとして走り回っていたり、あるいはモデルの検証を実行する機会を待っている間に机の上で寝てたりするデータサイエンティストだ。
部屋に1人のデータサイエンティストがいるぶんにはおそらく害はない。しかし、中途半端なRの知識を持つ人が事あるごとに走り回る必要などおそらくない。必要なのは本当に偉大な科学を実行できる素晴らしい統計学の武器を持ち、役に立つソリューションを提供しようとしている時にチームに誠実さをもたらすような人である。ソースコードを書くのはエンジニアに任せよう。大規模な推論を提供しないダッシュボードのようなところならば、エンジニアだけで事足りる。
データサイエンティストは、スケーラブルなアプリケーションの構築、フロントエンドの構築、データパイプラインの構築、または実際に出荷可能なソフトウェアの構築に不可欠なタスクを行うためにいるわけではない。データサイエンティストが介入できるのは、正しい科学が遂行されていること、さらにはアプリケーションが現実の世界に成果をもたらすのに必要な能力を備えていることを確かめるようなところにあり、役に立つソースコードを書くためにいるわけではないのだ。彼らは特定の状況において不可欠なのであり、それ以外の状況では邪魔である。そういうわけで、よいチームマネジメントには各メンバーに相応しい仕事を任せてチームを適切に構築することが不可欠となる。
今日の業界では、多くの開発者とエンジニアが自分自身にデータサイエンティストというラベルを付けるのが好都合だと感じている。彼らはコンピュータサイエンス学部の学位を持ち、もしかしたら修士号も持っているかも知れない。統計学の背景的知識は、いくつかのウィキペディアの簡単な記事やエンジニア向けの統計コースでも得られる。しかし、そんな彼らの上司は既存のテクノロジーと事前に構築された統計学ライブラリを使用して機能するアプリケーションが欲しいだけなので、本当に統計学を理解している必要はない。そんなわけで、彼らは自分のネームプレートにデータサイエンティストと貼り付けて、追加の給料をもらおうと手ぐすねを引いて待っているのだ。そして、彼らは素晴らしいエンジニアなので、本当に素晴らしいソフトウェアを出荷するだろう。
本当に問題なのは、(データサイエンティストを名乗っている)エンジニアのボスが、同じようなエンドユーザ向け製品をより多く提供するために、さらに3人のデータサイエンティストを雇う必要があると考えていることだ。こうして雇われたデータサイエンティストは突然職場を離れ、また素晴らしい数人の統計学畑の人材を雇う。そして、後釜として雇われた彼らも、3ヶ月後には自分たちには統計学者のバックグラウンドがあるものも実際はエンジニアがやるような仕事をしているだけと気づくのだ。少し早送りすると、彼らは仕事に興味を失い、彼らにとってはwin-loseとなり(素晴らしい給料を稼いでいる点では勝ち、仕事を憎む点では負け)、彼らが関わるビジネス自体はlose-loseとなる。
そんな結末は聞き飽きた?
以上の話にさらなる興味や疑問があるなら、Twitterで会話を続けましょう。
原文
『Stop Hiring Data Scientists.』
著者
Luke Posey
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん