最終更新日:
同氏が習得を推奨する4つのスキルとは、以下の通りです。
- 乱雑なデータを整理するスキル。データサイエンス業務の8割はデータのクリーニングだ。
- ツールを使うことに精通する。特定のツールに精通するのではなく、「ツールを使って目的を遂行すること」に慣れる。
- ビジネス的問題に適切なデータサイエンスの解決法あるいはテクニックを応用できるようにする。
- データサイエンスプロジェクトに求められる5つの役割のうち2つ以上に精通する(役割の詳細は記事本文で解説)。
ちなみに、Kesari氏は2020年から始まった経営者向けの優れたブログ記事の執筆者を評価する賞「CSUITE DIGITAL LEADERSHIP AWARDS」を受賞しました。受賞理由は、AIとデータサイエンスのポテンシャルを企業経営者に伝えることに貢献したから、です。
AINOWでは、今後もKesari氏執筆の記事を翻訳することを通して、同氏が論じるAIマネジメント論とAIキャリア論を紹介しています。
なお、以下の記事本文はKesari氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならび組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
目次
キャリアの停滞を回避するために、データサイエンス業界における最大の課題について学ぶ
データサイエンスの仕事に就いている人々が直面する課題は、この職種に就職する時に直面する課題(※訳註1)よりも、はるかに深刻なものである。
多くの場合、仕事への期待と実際の責任の間には大きなミスマッチがある。運良く自分が志す分野で仕事ができたとしても、データサイエンスプロジェクトで他の役割と協力して仕事をするのは本当に大変なこと(※訳註2)なのだ。
プロジェクトマネージャからの日々の要求に対処するよりも、抜歯する方が簡単かも知れない。プロジェクトのなかで困難が生じるというのは真実であり、せっかく提供したソリューションにユーザが手をつけないことに気づくこともある(※訳註3)。「こんなに明白なものを、なぜ誰もが理解したり、使ったりしないのだろう」と疑問に思うかも知れない。
こうした困難のすべてが、データサイエンスのキャリアの早い段階で、職務上の存亡の危機につながる可能性がある。この分野の多くの専門家にとって、キャリアが停滞するリスクは高い。この困難にどのように取り組めばよいのか。
以下では、各人に多くの苦労を引き起こすデータサイエンスプロジェクトにおける4つの大きな困難を伴う課題についてシェアしたいと思う。私が勤めるGramenerでの仕事から得た学びをもとに、それらがデータサイエンティストのキャリアにどのような意味を持つのかを議論する。そして、どのようにして困難を打ち破り、プロジェクトひいてはデータサイエンス業界に欠かせない存在になることができるのか、ということを論じたい。
- 履歴書を専門用語で飾り立てる。書類審査を通過しても、すぐに知識が付け焼刃であることが露見してしまう。
- AIモデルの構築をAPI等の呼び出しと同義に考えてしまう。
- (正答率とP値の関係といった)データ分析に関する基礎知識の欠如。
- データ分析をビジネス的問題に適用する応用力の欠如。
- 簡単なデータ分析で解決する問題に対して、AIモデルを構築したがる。
- データを渡せばデータサイエンティストは画期的な洞察をしてくれる、と過度に期待する。
- 適切なAIモデルを構築するために必要な事前データ分析を省略したがる。
- 少量の学習データしかないのに、過度に良質な結果を期待する。
- プロジェクトの工期を過度に短く設定する。
- 目的変数を変えても、簡単にAIモデルを更新できると思い込んでいる。
- 精度100%を目指す。
- AIモデルの納品後、定期的な追加学習をしなくても性能を維持できると思っている。
1.乱雑なデータを扱う能力を磨く
データの質の悪さは、データサイエンスにおける最重要課題のひとつだ。劣悪なデータは、組織に年間1,500万ドル以上のコストをかける(※訳註4)。重要かつ有用で、驚くような洞察を得るためには、クリーンで構造化されたデータが必要だ。ディープラーニング技術を使うのがお好み(※訳註5)?そうであれば、もっと多くのデータが必要になり、きれいにラベルを貼らなければならない。
データサイエンスでは、8割の時間はデータの準備に、残りの2割は文句を言うことに費やされている! ― Kirk Borne(※訳註6)
ビジネス的問題の解決に必要なデータを発見するためのスキルを磨く必要がある。分析のためにデータを収集して変換する方法を学ぼう。データクリーニングはデータサイエンティストの仕事であることは言うまでもない。。データを弄りまわして手を汚そう。そうすれば異常を見抜く目が養われ、パターンのほうから飛び出してくるようになるだろう。
プロジェクトの目的が顧客体験の分析だとしよう。最初のタスクは、顧客プロファイル、トランザクション、アンケート、ソーシャルアクティビティなど、すべての潜在的なデータ資産を調べることだ。こうしたデータのうち、ビジネス上の問題に結びつていないものはすべてふるい落とさなければならない。データを点検してきれいにすると、さらにいくつかのデータを失うことになる。この作業を数週間から数ヶ月間行い、分析の準備をしよう!
2.テクニックを身につけてツールで困らない
データサイエンス業界は何百ものツールで賑わっている。単一のツールでワークフロー全体をカバーできるものなどない。毎週、素晴らしくて新しいツールが生み出されている。新しいツールの登場の影で、1ダースの企業が廃業したり、買収されたりしている。企業はエンタープライズ・ライセンスに何百万ドルもの費用をかけているが、いずれそうした出費に説得力がないことに気づくだけだ。
このように断片化されたエコシステムは、データサイエンス業界志望者にとって大きな課題となっている。私がよく聞かれる質問のトップは、「PythonとRのどちらを学ぶべきか?それともPowerBIかD3か?」というものだ。私はいつも、ツールは本当のところ重要ではない、と言っている。ツールを扱うテクニックを学ぼう。そうしたテクニックがあれば、あるツールで学んだことを別のものに移し替えることを数週間で常にできるようになる。
ツールは本当のところ重要ではない。大事なのは、価値あるツールを使う各人のスキルだ。
例えば、ビジュアライゼーションをマスターするためには、ツールから始めてはならない。情報デザインの原理、ビジュアルデザインの基礎、そして色彩理論を学ぼう。そして、実際のデータを手に入れ、問題を解決することでテクニックを内面化していこう(※訳註7)。手に入る可視化ツールであれば、どんなものでも良い。特定のツールに自分を最適化しすぎないこと。
ビジュアライゼーションの品質がツールの性能に依存しないことの事例として、ナポレオン戦争におけるロシア戦役の行軍を視覚化したチャールズ・ジョセフ・ミナードのビジュアライゼーション(1861年作成、下記の上部画像)と同じ内容をデータ分析ツールTableauのテンプレートを使って視覚化したもの(下記の下部画像)を比較している。前者は行軍する兵士数を線の太さで表し、進行時の行軍を赤系統の色で着彩、撤退時を黒く表示してロシア戦役の惨敗を視覚的に伝えている。対してTableauによる視覚化は、情報は過不足なく表示されているものも、行軍と兵士数のグラフが分離しているので直観的な理解が難しくなっている。
チャールズ・ジョセフ・ミナードのビジュアライゼーション、画像出典:Medium「What are the Ingredients of a Terrible Data Story?」
Tableauによるロシア戦役のビジュアライゼーション、画像出典:Medium「What are the Ingredients of a Terrible Data Story?」
3.現実世界の問題を解決するためのテクニックを応用する力を習得する
データサイエンスプロジェクトの80%以上が失敗する(※訳註8)。なぜだろうか?間違ったビジネス問題の選択から、間違って問題にアプローチする解決策の立案にいたるまで、ライフサイクル全体を通して課題があるのだ。間違ったテクニックの選択から、それをユーザに伝える際の失敗も含まれる。データサイエンスに求められる任務が、これらの失敗の引きがねとなっている。そして、問題と解決の間にあるギャップのほとんどが、技術的なことではないのだ。
ほとんどのデータサイエンスプロジェクトは、間違った問題を解決しているため、ビジネス的なROI(投資利益率、※訳註9)を達成できていない。
以上のような問題と解決のギャップにおいて、共通している脈絡は何なのか。それは、ビジネス上の問題にスキルをうまく応用できていないことだ。例えば、データサイエンティストが優れたモデルを構築したがるあまりに、ユーザのニーズに注意を払うことを怠っていると、プロジェクトに傷がつく。テクニックやその背後にある数学的な直観だけで終わらせてはいけない。テクニックが問題と関係しているところ、さらにはテクニックを問題に応用するために何をすべきかを見定めるのだ。ユーザが抱える問題解決に投資しよう。
あなたが12の予測テクニックをマスターしたとしよう。ユーザが取引するために明日の価格を必要としているが、過去のデータポイントが1つしかない場合、あなたならどのテクニックを選ぶだろうか。100ポイント、あるいは10,000ポイントで選ぶテクニックは変わるだろうか。彼女が「取引を保留」すべきか「市場価格で売る」べきかを知る必要があるだけの場合はどうだろうか。
4.データ分析で成功するためにデータと分析スキルを超える
企業は、しばしば機械学習のスキルに対してだけ求人を出す(※訳註10)。そんな企業はデータエンジニアリングに投資し、ビジュアライゼーションとデータリテラシーに関して組織化されたトレーニングをいくらか受けたかも知れない。しかし、そんな企業が組織したチームはバランスが悪く、最適ではない結果をもたらすだけだ(※訳註11)。すべてのデータサイエンスチームは、効果的にプロジェクトの成果を上げるために5つのスキルを持っている必要がある。
役割 |
職種名 |
スキル |
---|---|---|
ドメイン知識 | データトランスレーター | ドメイン知識の専門家、ビジネス分析、ソリューションの概念化 |
データ分析 | データサイエンティスト | 統計と機械学習の専門家、データ洞察の解釈、スクリプトの作成 |
情報デザイン | 情報デザイナー | 情報の設計、ユーザ中心のデザイン、インタフェースとビジュアル(部品)のデザイン |
開発 | 機械学習エンジニア | ソフトウェアエンジニアリング、フロントエンド/バックエンドのコーディング、データパイプラインの構築 |
マネジメント | プロジェクトマネージャー | プロジェクト管理、ビジネス分析とソリューションの概念化、チームの運営 |
仮に以上の役割のうちのひとつを担当しているとしたら、その役割にさらに関与するべきだろうか。もちろん、もっと関わるべきだ。どのようなプロジェクトでも、あなたの影響力を高める方法がある。ひとつのスキルを自分のコア分野としてマスターする。これが第一の役割となる。そして、二次的なスキルに投資し、習得する。こうして、あなたは二次的なスキル分野に関してはバックアップ要員として歩み出せるようになり、サポートすることもできるに違いない。
それでは他の3つの役割については?これらについては、幅広く親しんでいるようにしよう。そうすれば他の役割にも関与できるようになり、他の役割の苦労を理解できるようにもなり、それらをあなたの仕事に結びつけることができるようになるに違いない。複数の役割に精通することは、あなたの価値をあなたの重さと等しい金に匹敵するものにするのだ!
データアナリティクス業界で成功するには、データやアナリティクス以外にも多くのことが必要だ。
重要なのは、データサイエンスのキャリアには5つの役割があるということである(※訳註13)。「データサイエンティスト」だけが職種ではないのだ。あなたが機械学習エンジニアだとしよう。セカンダリースキルは情報設計になるかも知れない。そんな時はチャートについて学び、正しいチャートの選び方を知ろう。ユーザがビジュアルに何を求めているのか、そしてビジュアルが構築中のUIにとって何を意味するのかを知るようにしよう(※訳註14)。
Kesari氏によると、データサイエンスチームの進化と成熟は以下のような3つのステージを経て進む(以下の図表も参照)。
- 急ごしらえのキャンプ:とりあえず実行可能なデータサイエンスプロジェクトに取り組むチーム段階。この段階では、広範囲に業務を遂行できるジェネラリストが重要となる。
- わらぶき屋根の家:実行可能なデータサイエンスプロジェクトに成功し、プロジェクトの範囲を広げるチーム段階。この段階では、拡張的プロジェクトに最適なスペシャリストが重要となる。
- 御殿:プロジェクトの拡張に成功し、プロジェクトが企業の基幹業務となりつつあるチーム段階。この段階では、業務ルールの標準化が重要となる。
データサイエンスチーム進化の模式図。横軸はチーム結成からの時間軸、縦軸はチームメンバー数と成熟度。画像出典:Medium「What are the 3 Stages where your Data Science Teams might Fail?」
データサイエンスチームが進化するうえで、注意すべき3項目とは以下の通り。
- 達成可能な小さな目標から着手する。
- 計画的にスペシャリストを登用する。
- チームの成長スピードを管理する。チームの進化と成長は、マラソンを完走することに似ている。ペース配分が重要。
Kesari氏によると、データサイエンティストには「データストラップスキル(データ分析力)」「情報デザインとプレゼン力」「統計と機械学習の専門知識」「プログラミング力」「ドメイン知識」という5つのスキルもしくは知識が求められる。そして、これらのスキルのうち3つ以上に精通した時、希少かつ優れたデータサイエンティストになるのだ(下の画像も参照)。
データサイエンティストに求められる5つのスキル。画像出典:Medium「What’s the secret sauce to transforming into a Unicorn in Data Science?」
- 可視化されたデータが、実際にユーザが求めている情報を提供していない。
- ユーザはデータ可視化ツールに多くの機能を実装したがるが、実際に使うのは一部の重要機能だけ。
- そもそも可視化すべきデータがない、もしくはデータの本質を理解していない。こんな状況では、意味のあるビジュアライゼーションは実行できない。
- 見た目が派手なビジュアライゼーションにこだわる。その結果、わかりにくいものとなる。
- 無闇にインタラクティブなUIを実装する。実際に使うUIは、ほんの一部。
- 色彩設計が不適切。色覚障がい者に配慮していない。
今こそ自分を必要不可欠な人材にする時だ
データサイエンスのすべてのプロジェクトは、以上の4つの課題に直面している。データサイエンスへの投資が失敗したために、組織は何百万ドルもの損失を被っている(※訳註15)。ビジネス上の問題が未解決のままなので、クライアントが困惑したままのこともある。プロジェクトの失敗率が非常識なまでに高いので、データサイエンスのリーダーやマネージャーはパニックに陥る。
以上のようなネガティブな要因が、データサイエンスの専門家に対する過剰な要求と高いプレッシャーにしばしばつながっている。だが前述してきた大局的な課題を理解することこそ、あなたを素晴らしい出発点に立たせるのだ。プロジェクトチームやリーダーに共感するようにしよう。
以上で学んだ4つのヒントは、課題に正面から取り組むためのものである。ヒントを実践すれば、あなたの仕事に対する信頼感が高まり、受け入れられるようになるだろう。そしてすぐに、あなたは必要不可欠な人材となり、キャリアが速く上昇するだろう。
あなたのプロジェクトで以上の課題を粉砕できるよう幸運を祈っています!
以上の提案は役に立ちましたか?課題に取り組むためのヒントになりましたか?よろしければコメントを追加してください。Linkedin、Twitterでの連絡も可能です。
トップ画像出典:UnsplashのSteven Libralon
原文
『4 Superpowers That Will Make You Indispensable In a Data Science Career』
著者
Ganes Kesari
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん