データサイエンス職の面接における危険信号

最終更新日:

著者のEmily Robinson氏は、アメリカで定評のあるオンライン講座DataCampでデータサイエンティストを務めています。同氏が個人で運営するブログ『データに夢中』で公開されている記事では、データサイエンス職の面接時に面接者が着目すべき12のポイントが解説されています。

一般に面接とは、企業が面接者を評価するだけではなく面接者が企業を評価するイベントだと言えます。同氏によると企業がデータサイエンスを熟知しているかどうかを見分ける12のポイントがあり、このポイントを面接時にチェックすることによって就職すべき企業かどうかを判断できます。そうしたポイントを簡単に述べると、以下のようになります。

  • データが整備されているか
  • データレビュー体制が整っているか
  • 標準言語が決まっているか
  • データ要求のヒエラルキーを理解しているか
  • バージョン管理がされているか
  • 報告と分析の区別が明確か
  • 面接が構造化されているか
  • 質問時間が与えられるか
  • プログラミングスキルが問われるか
  • 採用後の計画が明確か
  • 教育のサポート体制が整備されているか
  • 複数の面接で説明が首尾一貫しているか

以上の項目がデータサイエンスにおいて重要な理由と項目をチェックする具体的な質問方法は、データサイエンス職の面接を受けると想定された読者(であるあなた)に語りかけるようにして、以下の翻訳記事本文において解説されます。
この記事は、明らかにデータサイエンス職の志望者を読者対象としている「AIキャリア記事」です。しかしながら、以上の12項目は企業のデータサイエンスに対する成熟度を知る指標ともなります。つまり、以上の項目を多く満たしているほどデータサイエンス・プロジェクトに取り組む体制が整っている企業と見なせるのです。それゆえ、この記事はデータサイエンス・プロジェクトを手がけるリーダーや企業経営者にも有益な知見を提供する「AIマネジメント記事」のひとつである、と言えるのではないでしょうか。

なお、以下の記事本文はEmily Robinson氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。

2018/7/3公開

この投稿は、Nolis, LLC社(※註1)の筆頭データサイエンティストJacqueline Nolis氏との共著です。彼女が執筆したほかの投稿のチェックしてみてください。その投稿はデータサイエンス業務の優先順位データサイエンティストの雇用データサイエンスのプロジェクトがうまく行かない時にやるべきことについて論じています。

(※註1)Nolis, LLCとはAI、データサイエンス、機械学習のプロジェクトの立ち上げを支援するコンサルティング会社。同社の筆頭データサイエンティストであるJacqueline Nolis氏はMicrosoftやAirbnbで働いた経験がある。同氏はMediumにAIプロジェクト・マネジメントに関する記事を多数投稿している。

どんな職種の面接であっても、企業があなたを査定するのと同じように、あなたも企業を査定すべきである。ガラス戸からのぞいたりウェブサイトから事前に企業を調べることもできるが、面接こそが企業をより深く理解し重要な質問を尋ねるのにベストな場所だ。企業は働きたくないと思われるようなことを決して直接的には言わないものなので、あなたは働きたくない企業かどうかを判断するサインを自分自身で探さなければならない。

データサイエンティスト職の面接をする企業が発する以下の12のサインを見たら、その企業に就職するのを避けるべきである(そして、面接中に問いただすべき質問でもある)。最初の6つのサインは、すでに複数のデータサイエンティストあるいはアナリストが在籍している企業に主として当てはまる。もしあなたが企業における最初のデータサイエンティストとして加わるのであれば、実に様々な一連の挑戦的課題に直面することになるだろう。そうした課題には、数多くのデータエンジニアリング業務の遂行(危険信号1を参照)、そしてデータサイエンスに関するマインドセットの普及のようなものが含まれる。以上の課題は誰かがしなければならない。もしあなたがエンジニアとして経歴がなく、エンジニアのような仕事をしたいと思っていなくても、最初のデータサイエンティスト業務としてそうした課題に取り組むことを助言する。もしデータサイエンティストのリーダーが既にいてチームがビルドアップしているならば、以下に挙げる事項に対してどのように対処するつもりか質問してみよう。ただし、言うは易く行うは難しということを常に心に留めておこう。

データサイエンスチームがどのように機能しているかに関する危険信号

  1. データエンジニアリングがなされていない、あるいはデータストラクチャがない。データサイエンスは、分析のために簡単に使えるようなデータを必要としている。もし企業がよく管理されたデータインフラストラクチャを持っていなかったら、あなたがデータサイエンティスト業務を行うために必要なものを欠いていることになる。データエンジニアが分析のためのデータを用意する人材なのだが、もし企業がデータエンジニアを雇っていないならば、あなた自身でデータの準備を行わなくてはならない。あなたがデータエンジニアの業務にも対応できると感じているならば何ら問題ないが、もしそうでなければ価値あるものを提供するのに苦労することになるだろう。この危険信号を調べるために面接中に尋ねるべき質問は次のようなものだ。データインフラストラクチャはどんなもので、誰が管理しているか。典型的なデータフォーマットは何か(Excelか、SQLデータベースか、csvか)。
  2. データサイエンティスト相互のレビューがない。強力なデータサイエンスチームは、ミスが亀裂から滑り落ちてしまわないようにする方法を持っているものだ。そうしたチームはコードレビューを行い、プレゼンを実践し、そしてチーム間で一貫したチェックをしているはずだ。もしチームがこうしたチェックを継続的に行っていないならば、成果物が提出されるまでミスが発見されないので、たいてい誰かが懲戒される羽目に陥る。この危険信号に対して尋ねるべき質問は、次のようになる。チームはどんなQAあるいは相互レビューのステップを実行しているのか。
  3. チームにおける標準的言語セットがない。多くのデータサイエンスチームは、それぞれのメンバーに好きな言語を使わせるようにするアプローチを採っているものだ。こうしたアプローチは、メンバーみんなが好きな言語を使えば仕事がより早く終わるだろう、というアイデアにもとづいている。だが、このアプローチには次のような大問題がある。もしメンバーみんながばらばらな言語を使っていたら、誰もほかのメンバーの仕事を引き継げなくなるだろう。チームメンバーが担当するそれぞれのデータサイエンス業務は各人が責任を持っているのだが、もしメンバーが離職したり病気になったり、あるいは誰かの助けが必要な時に誰もその業務を引き継げないと、非常にストレスフルな職場を生み出してしまう。RやPython、もっと言えばSASであっても良いのだが、とにかくチーム間で一貫した言語セットを持つのが望ましい。この危険信号に対して尋ねるべき質問は、次のようになる。チームではどんな言語を使っているか、新しい言語を採用するかどうかはどのように決めているのか。
  4. データ要求のヒエラルキー(※註2)を理解していない。似た危険信号としてデータインフラストラクチャを持っていない、というのがある。こうした危険信号が見られるのは、ただAIのような概念に興奮しているだけでAIを業務に生かす基盤を持たない企業があるからだ。機械学習とAIは企業にハイレベルなデータサイエンスに関する成熟を要求する。その成熟の証にはAIモデルの構築方法、そのモデルの限界、そしてモデルの実装方法を理解していることが含まれる。AIに対する非現実的な期待に応えてもらえるなどと企業が思っている時には、その企業は非難されても仕方がない。この危険信号に対して尋ねるべき質問は、次のようになる。データクリーニング、データの品質チェック、ログの付加のようなAIに関して基礎的だが複雑なアプローチが求められる業務に関して、どんな時間配分で行っているのか。
  5. バージョン管理がなされていない。成熟したデータサイエンスチームは分析やソースコードの変更を追跡し続けているためにGitHubを使うものだ。ネットワークフォルダを共有するという方法を使っているチームもあるが、この方法だと何が変更され、なぜ変更されたのか、あるいは前のバージョンは何だったのかを確認することができなくなる。時にはまったくソースコードを共有しておらず、メンバーそれぞれのPCにあるデータを使っているチームもある。ソースコードをまったく共有しないチームは疫病みたいなものなので避けるべきだ。ソースコードを共有する手段を持たないことは、チームが共同で働いていないことを意味する。この危険信号に対して尋ねるべき質問は、次のようになる。どのようにしてチームでソースコードを共有しているか。ソースコードはすべて共有しているか、あるいは一部だけなのか。
  6. 報告者と分析者のあいだに明確な区別がない。レポートを作成して管理すること、データサイエンスのモデルを構築すること、そして機械学習モデルを製品に実装することといった業務に求められるスキルセットはそれぞれ全く異なる。もし企業が誰に何をやらすか決定する明確な方法を持っていなかったら、あなたが仕事を始めても期待していたのとはまったく異なる仕事をする羽目になるだろう。時系列データを予測するモデルを構築できることを期待していたのにExcelのスプレッドシートに入力された月次の売上データを更新することが仕事だと分かってしまったら、初日から出勤したくなくなる。この危険信号に対して尋ねるべき質問は、次のようになる。データの報告と分析、そして製品に実装するモデルの構築業務をどのように区別しているのか。
(※註2)「データ要求のヒエラルキー」とは、AI製品を開発あるいは導入するために必要とされるデータや業務をマズローの欲求段階説になぞらえて段階的に整理したもの(下の画像参照)。このアイデアの直接的な出典は、データサイエンス・アドバイザーのMonica Rogati氏が投稿したMedium記事『AIを作るために必要とされるもののヒエラルキー』にある。なお、この記事の要約はAINOW海外トレンド記事『【要約つき】AINOWがおすすめの海外記事を紹介!(2018年6月)』に収録されている。

データ要求のヒエラルキー

企業が面接者を評価する方法についての危険信号

  1. 完全に非構造的な面接プロセス:構造化された面接プロセスとは就職希望者が一連の同じ質問を受け、公平に比較され得ることを意味する。こうした面接プロセスは偏見を減らす(※註3)だけではなく、採用チームが雇いたいヒトに対して重視することを考えることを要求する。もし面接が構造化されていないと、面接官が思いつきで質問しているように見える。こうした面接は、面接官が就職希望者に何を求めているのか、そしてどのようにしてヒトを雇用すればよいのかわかっていないことを示す明確な信号となる。面接官が自分の求めているものをよくわかっていないならば、あなたは面接官が仕事において求めているものを提供することに苦労するだろう。この危険信号に対する推奨対応策は、次のようになる。一連のまとまった質問をしているかどうかに着目する、あるいはどのように質問を選んでいるかというメタ質問を尋ねる。
  2. あなたに質問時間を与えない。面接はあなたにとっても企業を知る機会ともなるので、あなたが企業を知るための時間を確保すべきである。もしあなたが質問する時間がなかったら、面接官はあなたを安心させたり、あなた自身が企業に合うかどうか思案してもらうことに関心がないことになる。この危険信号に対する推奨対応策は、次のようになる。もし面接を受けて質問時間が得られなかったらそのことをメモしておいて、面接官にいつ質問すればいいか質問する。
  3. 面接にコーディングが要求されない。プログラミングはデータサイエンティストにとってもっとも重要なスキルというわけではないが、業務上行うべきものである。面接におけるコーディング能力の問い方はオンライン上で行うか宿題として提出させるかであろうが、いずれにしてもはっきりと問うべきものである。もし面接プロセスにおいてプログラミングスキルを問わないとすると、その理由はいくつか考えられる。(1)データサイエンスチームは立ち上がったばかりなので、うまく面接できるヒトがいない。この場合、業務においてもサポートを得られないことを覚悟しよう。(2)チームが面接においてプログラミングスキルを問うプロセスを作る時間を持てていない。これはチームが本気でヒトを採用する気がない信号だ。(3)チームがプログラミングしておらず、また業務においてTableauやExcelのようなBIツールを使っていない。(4)チームがあなたの職務経歴書を非常に信用しているのでプログラミングスキルをテストする必要がないと思っている。しかし、あなたをおだてているようだと、それは雇う気が失せてきている信号だ。この危険信号に対する推奨対応策は、次のようになる。もし面接においてプログラミングスキルが問われなければ、どの面接者が業務に関する技術的スキルを持っているかを区別する方法について面接官に尋ねる。
  4. 採用後数ヶ月の業務計画がない。企業はもっともな理由があって採用活動をしている。もし企業が採用後数ヶ月間におけるあなたが行うことについて明確かつ正確に計画できていないならば、計画できない理由はおそらく「仕事に忙殺されているので、仕事にうまく対処できるようになるまでとにかくヒトを投入しようとしている」ためだろう。こうした傾向は、チームを成長させるうえで極めて危険なやり方である。さらに悪いことには、こうした傾向が認められる企業はたいてい新規採用者を業務に導入するプロセスを設けていないものなのだ。それゆえ、以上のような状況ではチーム全体に甚大なストレスが生じており、当然ながら新規採用者であるあなたもストレスフルな状態に陥る。この危険信号に対する推奨対応策は、次のようになる。採用後の明確な計画があるか、そして新規採用者であるあなたが業務を始めるに伴う導入プロセスがあるか尋ねる。もしこれらの質問に対する極めて明快な回答がなければ、そんな企業からは走って逃げよう。
  5. 継続的な教育へのサポートがない。データサイエンスは大規模かつ急激に進歩している分野であり、あなたは時代遅れにならないように学び続けなければならない。チームは学び続けることを助ける何らかの方法を持つべきである。例えばオンライン教育やカンファレンスに出席するための資金を提供したり、業界記事について議論する月例ミーティングを開催したり、交流会やオープンソースプロジェクトへの参加、さらには口頭発表会への参加を奨励するといったことを行なうべきなのだ。企業が学びに投資することは、一般的に企業が人材に投資することを示すことにもなる。この危険信号に対する推奨対応策は、次のようになる。チームにおける継続的教育へのサポートとしてどんなことを行っているか尋ねる。カンファレンスやワークショップのために出してくれる費用はあるのか?
  6. 採用職種に関する複数の面接官の回答が首尾一貫していない。面接を受けるあなたはたいてい企業内の複数のヒトと面接することになり、そのなかには将来の上司やチームメイト、そしてビジネスの利害関係者といったヒトたちがいる。もし彼らが採用職種の責任レベル、業務の類型、業務を通して提供すべきもの、そして労働時間に関して違ったことを話すならば、おそらく彼ら自身のあいだで一致した内容がないのだ。採用職種に関して面接官が一致したことを話さないのならば、とりわけあなたが着手する業務内容に関連したことでそうであるならば、あなたの業務は矛盾に満ちたものになるだろう。この危険信号に対する推奨対応策は、次のようになる。それぞれの面接において面接官が言ったことを記録しておく。そうした記録に首尾一貫していないものを見つけたら、なぜ首尾一貫していないか尋ねる。
(※註3)リンク設定がされているビジネス系メディアUS版ハーバードビジネスレビューの記事『面接からバイアスを取り除く方法』によると、構造化されていない面接による評価は面接者の採用後の業績と相関が低いことが知られている。そのうえで、採用候補者を正しく評価する方法として、面接における質問を統一すること、質問に対する回答の採点は面接後すぐに行うこと、採点時には採点対象の回答以外は見ないようにする等が提案されている。

以上に挙げた12の危険信号は多く感じられるかも知れない。しかし、企業はこれらの信号をまったく見せないか、反対にそのほとんどを見せる傾向にあり、半分程度見せる企業はほとんどない。危険信号に注目することによって、あなたは嫌いになってしまうような仕事に就くという問題を避けることができる。データサイエンティストになりたいあなたの幸運を祈っています。もしデータサイエンスに関するアイデアやヒントが欲しいならば、robinson_esskyetetraといったわたしたちのツイッターアカウント、あるいはJacqueline氏のMediumアカウントわたしのブログのほかの記事をチェックしてみてください。わたしたちはデータサイエンスのキャリアに関してアドバイスする本も書いています。その本には素晴らしいデータサイエンスのプロジェクト・ポートフォリオの作り方、素晴らしい仕事のオファーにたどり着いてうまく交渉する方法、インパクトのある分析、口頭発表会やオープンソースプロジェクトに参加してデータサイエンスコミュニティにおいてより素晴らしいメンバーとなる方法といったことを書いています。この本はManningより2020年の早い時期に出版される予定です。この本の購入予約を行えば最初の5章を読むことができるうえに、code buildbookシリーズの本を40%OFFで購入できます。この本はこちらからチェックできます。


原文
『Red Flags in Data Science Interviews』

著者
Emily Robinson

翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)

編集
おざけん

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する