データサイエンスはつまらない(パート1)【前編】

最終更新日:

著者のIan Xiao氏は、顧客企業に機械学習ソリューションを提供するカナダの企業DESSAにおいて「契約リード(Engagement Lead)」という肩書で機械学習プロジェクトを指揮管理しています。同氏がMediumに投稿した記事「データサイエンスはつまらない(パート1)」では、データサイエンス職におけるつまらない側面が解説されています。

同氏の甥はコンピュータサイエンスの修士課程で勉強しており、卒業後はデータサイエンス職に就きたいと考えていると聞いて、同氏は甥が正しい判断を下せるようにデータサイエンス職における「つまらない」側面をあえて伝えようと決意しました。

データサイエンス職を志望する若者は、仕事に就けば機械学習モデルの構築のような知的にエキサイティングな業務に携われると思い込んでいます。しかし、現実には業務時間のほとんどを退屈でつまらない仕事に関わることになる、と同氏は指摘します。こうした理想と現実のギャップを「設計」「コーディング」「QA/デバッグ」「炎上対策」のフェーズごとに論じ、ギャップに耐える対処法も伝授されます。

同氏はデータサイエンス職において理想と現実のギャップに悩むこと自体は極めて正常であると述べたうえで、キャリアを築くためには「最終的な勝利にいたる途上で小さな報酬を得ることを楽しむべき」とアドバイスします。このアドバイスはデータサイエンス職に限らず、すべての職業のキャリア形成に通用するものでしょう。

ちなみに、この記事は続編となるパート2とパート3があり、パート2では2年後のデータサイエンス職に関する考察、パート3ではデータサイエンス職でキャリアを築き優秀となる方法が論じられています。

以下の前編にあたる記事本文では、記事を執筆するにいたった顛末と背景が説明されたうえで「設計」フェーズにおける理想と現実のギャップとその対処法が論じられます。

なお、以下の記事本文はIan Xiao氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。

いかにして私は機械学習の実装というつまらない日々をやり過ごしているか

画像出典:UnsplashJulian Howardより

要約:多くのヒトが、自分自身や他人のやる気を出すためにデータサイエンス(あるいは機械学習)の実行に際するエキサイティングな箇所を採りあげてもて囃す。しかし、私たちは現実と向き合わなくてはならない。実際の仕事はしばしば「つまらない」という現実に。― このつまらなさは、美化されたデータサイエンスと対比される。つならないという思いはストレスを生み出す。そして、その思いが最終的にデータサイエンス職の高い離職率を導く。私は自分が実際に行っていること、そして「データサイエンスにおけるつまらなさ」にどのように対処しているかをシェアしたいと思う。私はデータサイエンティストを志望するようなヒトたちがデータサイエンスに適切な期待を抱く助けとなりたい。一旦データサイエンスのキャリアを追求すると決心したならば、ヒトはデータサイエンスという長いゲームにずっと関わることになる。どうせなら、このゲームを楽しもう。

・・・

あなたは記事を読むのが好き?その場合は、私のMediumLinkedIn、あるいはTwitterをフォローしてください。データサイエンティストとして影響力のあるビジネスを展開したい?その場合は、私が作成した「機械学習の影響力」というPDFファイルのガイドをチェックしてください(このガイドは2019年9月30日から閲覧可能です)。ガイドの準備ができた時には、購読読者にはお知らせします。

・・・

免責事項:この投稿記事は、私が勤務している企業からいかなる支持や支援を受けていません。私はデータサイエンスと機械学習という用語をほぼ同じ意味で使っています。

・・・

1.この記事を書くにいたった顛末

私の若くてハンサムな甥のショーン(Shawn)が最近カナダに来た。彼は現在コンピュータサイエンスの修士課程で勉強している。その修士課程にいる多くの学生と同じように、ショーンは機械学習に強い情熱を抱いている。2年後に修士課程を卒業したら、彼はデータサイエンティスト(あるいは機械学習を扱う必要のある何らかの職種)になりたいと思っている。

(※訳註)画像右側が著者のIan Xiao氏、左側が同氏の甥のショーン(Shawn)

ショーンの成功を切に願っている年長の血縁者として、私は自分のデータサイエンスのキャリアから学んだもっとも隠していたことをシェアしようと決意した。その学びとは、ハーバードビジネスレビューが描いたような「21世紀におけるもっともセクシーな職業」の類ではない。そうではなくデータサイエンスとはヒトを退屈させ、疲弊させ、フラストレーションを引き起こすということだ。こうした学びは、ほかのどの職業のキャリアにも当てはまるだろう。

ショーンにデータサイエンスの真実を伝えることは私の責務だ。たとえその真実が彼を失望させるものであっても。しかし私の伝える真実は、彼が自身のキャリアを選択するにあたって知識に裏打ちされた決断を下す助けとなるだろう(さらに重要なことはデータサイエンスの真実を伝えることによって、深夜3時にわたしの母や叔父から電話がきて、わたしがショーンにアドバイスせざる得ないように家族愛や責任感、メンターシップ、そして誠実さに関する講釈を垂れるのを避けることができるだろう)。

スマートで熱意に溢れ、知りたがり屋な若者であるショーンは私にデータサイエンスにおける「つまらなさ」とはどのようなものなのか詳しく話すようにせがんだ。この記事こそがそのつまらなさについて書かれたものである。

加えて、機械学習のトレンドと機械学習にいかにして関わり続け優秀になるかについても触れようと思う。こうした話題は、この記事に続いて投稿する記事でシェアする。もしこれらの話題に興味があるなら、私のMediumをフォローしてください。

・・・

2.コンテクストの設定

読者諸氏が記事について見通しを立てられるように、私がどのようなキャリアを築いてきたか(つまりは私のLinkedIn)を知ってもらうのは重要だろう。私は、フォーチュン100の企業(※註1)において機械学習システムを実装するチームを率いたり、顧客企業との業務提携をマネージメントしたり、そして技術的な業務を行ったりするデータサイエンスマネージャーという立場から自分の洞察や意見を提供している。

さらに重要なのは用語の定義である。機械学習システムとは機械学習のコンポーネントを有し、ヒトあるいは機械による業務が要求されるそのほかの非機械学習的なシステムも有しているビジネス上の問題を解決するソリューションである。

実装とはソリューションを現実のビジネスで動作するようにすることを意味している。例えば、何らかの機械学習モデルを訓練し評価する実験を用意することは実装ではない。Eメールを介して月々のおすすめの製品情報を送信するレコメンデーションエンジンを用意することは実装である。機械学習モデルを実装することは、良い機械学習モデルを構築することより非常に難しい問題に直面する。こうした問題に興味があるなら、この記事を読むこと。

色々言ってきたものも、私はGoogleやその他の大手ハイテク企業に所属するようなヒトを代表しているわけではない。私は若輩者の開発者から出発し、テクニカルマネージャーになったのだ。Googleのような大手ハイテク企業は実に良い仕事をしているが、私に言わせれば、そうした企業はたった「上位1%」を代表しているに過ぎない。大手ハイテク企業以外でフォーチュン100に選ばれているような企業は技術的洗練度、最先端技術を採用するスピード、そしてツールへの投資とそのツールを使える人材の雇用においてしばしば遅れをとっている。

(※註1)フォーチュン100とは、アメリカの大手経済誌フォーチュンが毎年発表する企業ランキングのひとつ。全米企業上位500社がその総収入にもとづいてランキングされた「フォーチュン500」がもっとも有名であり、フォーチュン100とはそのランキングの上位100社を意味する。
同誌はフォーチュン500のほかにも「100 Best Companies to Work For(働きやすい企業ベスト100社)」や「100 Fastest-Growing Companies(急成長している100社)」といったランキングを発表している。

・・・

3.それでは始めよう

まず手短に言うと私がデータサイエンスはつまらないと言う時には、美化された期待と現実のギャップを悟った時に気持ちがしぼんでしまうことを意味している。

ほとんどの若いデータサイエンティストは意匠を凝らした機械学習モデルを弄りまわして構築したり、色鮮やかなビジュアライゼーションを伴った革命的なビジネス上の洞察をプレゼンすることに業務のほとんどの時間を費やすことを期待している。もちろん、こうしたことはデータサイエンスの一部ではある。

しかしながら、企業がデータサイエンスについてより知るようになると、より実務的な価値に焦点を合わせるようになる。こうした事態は、企業は機械学習モデルの実装をより求めるようになることを意味する。もはや新しい機械学習モデルの導入数、あるいはすでに持っているダッシュボードに意匠を凝らすようなことに興味を示さなくなるのだ。その結果として、データサイエンティストは機械学習が関わらない仕事を頼まれるようになるのだ。かくしてデータサイエンス職がつまらなくなる。

データサイエンスにおいて何が「つまらない」ように見えるかをさらに述べていこう。もし私が読者諸氏に自分の月曜日から金曜日までの典型的な日々を披露したら、それは非常につまらなく見えるだろう。それゆえ私の仕事を主要なカテゴリーに分類し、分類された仕事に対する期待と現実を対比させ、私の現実に対する対処法をシェアしていく。

なお、以下の解説の語り口には「私たち」という主語を使う。というのも、解説における事例は私個人の経験とチームのそれを集めたものから抽出したものだからである。事例は網羅的ではないかも知れないが、要点を得ていると私は考えている。

3.1.設計(業務時間全体の5~10%)

設計とは、問題解決したり素晴らしいアイデアを提案したりして私たちが知的に「ハイ」になる時である。設計における素晴らしいアイデアには新しいモデルアーキテクチャ、データの特徴、そしてシステム設計のようなものが含まれている。だがしかし程なくして、「ハイ」な気分は沈静化する。なぜならば時間的制約やその他の優先事項のおかげで、私たちは最も単純な(そしてしばしば最もつまらない)ソリューションを採用しなければならないからだ。

期待していたこと:NIPSやGoogle AIリサーチブログのような有名な機械学習の業界誌(※註2)で特集されているようなアイデアを実行する。もしかしたら、次のノーベル賞を受賞するアイデアかも。

現実:仕事でよく試したことのあるアイデアを実行する。組み立てる価値のある良い感じ設計図が書かれたホワイトボードを撮影する。

(※註2)NIPSとは、世界的な機械学習カンファレンスであるNeurlPSの以前の名称。NIPSはNeural Information Processing Systemsの略称なのだが、英語で発音すると「nipple(英語で「乳首」という意味)」と似ており不適切ではないかと物議を醸していた。そこで2018年より略称をNeurlPSに改めた。
またGoogle AIリサーチブログとは、Googleが運営する開発者向けのAI技術ブログのこと。毎月数本の記事を投稿しており、自然言語処理における画期的な技術BERTもこのブログで発表された。

対処法:1)自分の専門分野と関係ない友人とドリンクを飲みながら、クレイジーなアイデアについて話し続ける。そんなクレイジーだが馬鹿げたアイデアを、友人は残酷なまでに率直に(そして不躾に)却下するだろう。2)クレイジーかつスマートなアイデアをサイド・プロジェクトで実行する。3)クレイジーなアイデアのほとんどは実際には使えないし、使えたとしてもシンプルなアイデアより多少まし程度である。こうしたことはすぐに分かる。そんなわけで、KISSの法則(愚直なまでにシンプルにする)(※註3)が証明され強化もされて、結局は安寧と終結がもたらされる。

(※註3)KISSの法則とは、「Keep it simple stupid(単純かつ愚直であれ)」、「Keep it simple, stupid(単純にしろ、この間抜け!)」、あるいは「Keep it short and simple(簡潔かつ単純であれ)」という標語の略語で、起源は1960年代のアメリカ海軍とされている。その真意は設計においては単純さが成功のカギとなり不必要に複雑にすべきではない、というものである。

後編に続く…


原文
『Data Science is Boring (Part 1)』

著者
Ian Xiao

翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)

編集
おざけん

2019年10月14日 2019年10月15日更新

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する