シリコンバレーにおけるデータサイエンティストの仕事とは？

著者のLi Miao氏は、Microsoftに勤務するデータサイエンティストです。同氏が今年6月にMediumに投稿した記事『シリコンバレーにおけるデータサイエンティストの仕事とは？』では、シリコンバレーにおけるデータサイエンティストの現状とこの職種に関する心得が解説されています。
同氏によると、シリコンバレーにおけるデータサイエンティストはさらに以下のような3つの職種に細分化されます。

シリコンバレーにおけるデータサイエンティストの3職種

職種名	概要
データアナリスト	データにもとづいた分析とレポート作成を担当。ウェブサイトのA/Bテストの実施と結果分析も行う。
データエンジニア	大規模データインフラの設計と構築を担当。レコメンデーションシステムに活用するデータ等を整備する。
機械学習エンジニア	大規模な機械学習システムの設計・構築を担当。レコメンデーションシステムの実装等を行う。

同氏は以上の3つの職種の報酬事情や必須スキルを論じた後に、データサイエンティストが留意すべき心得として、以下のような3項目を挙げています。

アルゴリズムに固執するな：アルゴリズムの改善による飛躍的な性能向上はあまり期待できない。データの改善こそが、機械学習製品の品質を向上させる。
ビジネス目的が最重要：ビジネス目的の達成こそが最重要課題であり、それを達成しない技術的改善は役に立たない。
全体像を見るべき：プロジェクトにおける担当業務に固執してプロジェクト全体の理解をおろそかにすると、評価されるチャンスを見逃してしまう。

技術的スキルの研鑽だけだけではなく、ビジネスとしてプロジェクトを理解する重要性を説くMiao氏のアドバイスは、シリコンバレーを超えて日本でも通用するものでしょう。

なお、以下の記事本文はLi Miao氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

データサイエンティストを目指すすべての人に役立つ成長と学習
- 序文
データサイエンティストとしての私自身
シリコンバレーにおけるデータサイエンティストの種類とは？
データサイエンティストに必要なスキルとは？
データサイエンティストとしてすべきではないこととは？
次のこと

データサイエンティストを目指すすべての人に役立つ成長と学習

序文

今日、Googleでデータサイエンティストを検索したり、データサイエンティストになるために必要なスキルとは何かを検索したりすると、Medium、LinkedIn、ニュース、プライベートコーチングサイトなどに掲載された大量の情報に圧倒されるだろう。誰もが、データサイエンティストは21世紀に広く必要とされる職業だと言っている。データサイエンティストになるためには、統計学、プログラミング、そして機械学習を習得する必要がある。しかし、たくさんの情報は本当に私たちに多くの価値をもたらしているだろうか。実際の産業界におけるデータサイエンティストは、どのような仕事をしているのだろうか。

仕事とは、報酬と自己実現の組み合わせである。すべての選択は、この2つの次元で描かれた空間において、満足度を最大化できるポイントを見つけることだ。データサイエンティストになりたいか、あるいはより良いデータサイエンティストになりたいかは、自分が仕事でどのような価値を提供できるか、そしてキャリアのなかでどのように自己実現ができるかにかかっている。

ドイツ人は「世界は具体的だ」と言う。今日は具体的に、私がよく知っているシリコンバレーのテック業界、データサイエンティストの仕事に求められるさまざまな条件やスキル、このポジションで成長する方法、そしてチャーリー・マンガーが語ったことについて話そうと思う（※訳註1）。

私が知りたいのは自分がどこで死ぬかということだけであり、そしてそこには決して行かない

（※訳註1）チャーリー・マンガー（1924 – ）とはアメリカの投資家であり、同国の著名な投資家ウォーレン・バフェットが会長を務める投資持株会社バークシャー・ハサウェイの副会長でもある。数々の名言でも知られており、本記事で引用された「私が知りたいのは自分がどこで死ぬかということだけであり、そしてそこには決して行かない」もそのひとつ。
この名言は（死んでしまうような）致命傷を負う可能性のある意思決定は絶対に避けるべきであり、そうした致命的リスクに関する知識こそが重要、と解釈できる。この記事の著者であるMiao氏はマンガ―氏の名言を引用することで、データサイエンティストが直面するリスクを知ることが重要、と示唆していると思われる。

・・・

データサイエンティストとしての私自身

私はイリノイ大学アーバナ・シャンペーン校（※訳註2）を卒業後、Microsoftのシリコンバレーオフィスに入社して早4年が経った。私たちのグループは、同社のクラウドプラットフォーム「Azure」で提供されている音声認識サービスの中核となる「言語モデル」を主に担当している。

データサイエンティストとして、この数年間で私は会社にどのようなインパクトと価値を生み出したのか。以下に成果を列挙してみる。

ディープラーニングを用いたDisfluency Taggingシステムの設計・構築により、Teams Live CaptionとOffice Word DictationでDisfluency TaggingのF1スコアを26.2%向上させ、英独翻訳でBLEUスコアを2.54向上させた。
Bing Voice Searchの音声認識の精度とユーザーエクスペリエンスを向上させ、Surprise Metricを7%削減、Word Error Rateを2%削減した。
ヨーロッパの26の地域で多言語ニューラルネットワーク言語モデルの事前トレーニングを試験的に実施、オールインワンのサブワードトークナイザーを構築。

私の仕事は、一般的にNLPと呼ばれるデータサイエンスの一分野である自然言語処理における機械学習に近いものだ。シリコンバレーでは、企業やグループによって必要とされるデータサイエンティストやスキルの特色が異なる。次の章では、シリコンバレーで求められるデータサイエンティストの種類について話したい。

（※訳註2）イリノイ大学アーバナ・シャンペーン校とは、アメリカの公立名門大学群であるパブリック・アイビーのひとつである名門大学。コンピュータサイエンス学科が有名であり、ビル・ゲイツは2004年にMicrosoft社内の技術カンファレンスで、同大学のコンピュータサイエンス学科の卒業生を最も多く採用したと発言した。

・・・

シリコンバレーにおけるデータサイエンティストの種類とは？

一般的に、データサイエンティストとしてのポジションは3種類ある。

データアナリスト
データエンジニア
機械学習エンジニア

まず、この3つのポジションに求められるスキルが異なる。

データアナリストは、SQLやその他の言語を使ってデータの処理、データの要約、統計データの視覚化、ビジネスインサイトの導出、データ分析にもとづいたレポートの作成を担当する。Facebookにはデータサイエンティスト・アナリティクスに関するキャリアパスがあり、主に統計的実験をA/Bテストとして設計するのを担当している。例えば、今、出来立てのニュースレコメンデーションシステムを設計している場合、この新しいシステムがユーザの粘着性を高め、購読者数を増やして収益を上げるのに役立つかどうかをどのようにわかるだろうか。オンライン評価がその役割を担い、そうした評価としてデータアナリストは一連のA/Bテストの実験設計と統計解析を行う。
データエンジニアは、厳密にはソフトウェアエンジニアの一部門で、主に大規模なデータインフラの設計・構築を担当する。例えばInstagramでは、ユーザが商品を閲覧したりクリックしたりした時刻、あるいは2つの商品を閲覧するあいだで経過した時間など、リアルタイムのユーザーフィードバックデータがデータシステムに沈殿していく。これらのデータは、ユーザのポートレートを構築したり、パーソナライズされた商品のレコメンデーションをより正確に行ったりするために役立てられる。このような大規模なオンラインデータの保存、処理、問い合わせ、メンテナンスは、すべてデータエンジニアの仕事だ。
機械学習エンジニアは、大規模な機械学習システムの設計・開発を担当する。この職種では機械学習、ディープラーニング、優れたプログラミングスキルを習得している必要があり、さらに私の見解では職務を遂行するうえでもっとも重要な柱となるのが、ビジネス上の問題を機械学習の問題に変換することである。機械学習エンジニアは問題を定義するための定量的な指標を設計し、大規模なデータの収集と処理を行い、インテリジェントなアルゴリズムの反復的な最適化を通して全体的なパフォーマンスを向上させるために、機械による自動的意思決定を実現する。YouTube動画のレコメンデーション、Spotifyのデイリープレイリスト、Amazonの商品レコメンデーションなど、生活のなかにあるユビキタスレコメンデーションシステムは機械学習の代表的な応用例だ。また、GoogleアシスタントやAlexaによるインテリジェントな音声認識や人とコンピュータのインタラクション、機械翻訳、インテリジェントな運転支援、ネット広告なども応用例である。これらの背後には機械学習システムがある。

つぎに各職種の報酬面を見ると、一般的にエンジニアリング関連の職種はアナリティクスよりも高くなるが、報酬は主に経済学の基本理論である（各職種に関する）需要と供給で決まる。一連の市販ソフトを使ったチャートのビジュアライゼーションに関する学習曲線は相対的に機械学習やプログラミングよりも低く、実際の業界経験を持つ人材は希少である（※訳註3）。需要側から見ると、クラウドコンピューティング・プラットフォームが多くの業界に浸透したことで、大規模データのデジタル化・流動化が可能になり、データ・インテリジェンスが急速に拡大したことで、この分野の人材の需要が高まっている。各職種の報酬は、以下のような不等式で表せる。

機械学習エンジニア >= データエンジニア >> データアナリスト

もちろん、ソフトウェア開発環境はシリコンバレーが最も必要としているものだ。多くの製品において、機械学習はケーキの上のアイシングのようなものである。例えば、私たちは皆、Zoomを使ってビデオ会議を行っている。機械学習によって提供される機能の一部は、ユーザーエクスペリエンスや顧客定着率の向上に役立つ。しかし、第一原理的なものから考え始めると、まずは低遅延でバリアフリーなビデオコミュニケーションソフトウェアが必要となる。確かに最近の新しい製品やサービスは、すべてデータ・インテリジェンスにもとづいていると思われる。そうした製品はリアルタイムにユーザの行動データを収集し、反復的な機械学習によってインテリジェンスシステムを推進し、より多くのユーザを惹きつけ、より多くのデータを収集するような技術的システムを確立しており、例えばTikTokはデータ->モデル->製品のサイクルを推し進めている（※訳註4）。一般的に、産業界における機械学習は、本質的にエンジニアリングの問題であり、完全にサイエンスの問題ではないと言われている。この部分に関しては、今後のブログ記事で具体的な例を挙げていきたいと思っている。

（※訳註3）学習曲線とは、横軸に学習時間、縦軸に正解数などの学習達成度を設定して、学習時間に応じた習熟度をグラフ化した際に可視化される曲線のこと。一般に学習曲線の急激な上昇は早いスピードで習熟していることを意味し、反対になだらかな上昇は習熟が遅いことを意味する。

（※訳註4）TikTokの動画レコメンデーションシステムで採用されているアルゴリズムとデータの関係については、AINOW翻訳記事『TikTokはなぜユーザを虜にしたのか？その理由はユーザを夢中にしたAIアルゴリズム【前編】』および後編を参照。

・・・

データサイエンティストに必要なスキルとは？

画像出典：Li Miao

上記のスキルツリーには私がデータサイエンティストに必須と考えるハードスキルが含まれているが、ポジションごとのニーズに応じて、（スキルをまとめるための）さまざまな焦点があるだろう。もちろん、実社会で活躍するためには、ハードスキルがすべてというわけではない。真に成長するためには、ソフトスキルがさらに重要になる。同僚とのコミュニケーションの取り方、コラボレーションの仕方、Eメールの書き方、自分が実行したことを上手に伝える方法、リーダーシップの発揮の仕方、自分自身や直属の上司と折り合いをつける方法、自分の影響力を拡大する方法などなど。これらは私が日々反省し、常に学び続けている分野だ。今後のブログでは、（ソフトスキルに関する）私のアイデアをもっと紹介していきたいと思う。

面接では、一般的に以下のような4つの側面から求職者を審査する。

コーディング：Python（アルゴリズム／データ構造）＋SQL
機械学習システム設計
A/Bテスト設計＋統計解析
経験プロジェクトのレジュメ

・・・

データサイエンティストとしてすべきではないこととは？

1.アルゴリズムこそが最優先の「ONE」であり、唯一の「ONE」だと考えない

すでに機械学習が搭載された多くの成熟した製品では、短期間に真新しくて突飛なアルゴリズムを考案しても、製品の性能が急に向上するとは考えられない。急激に性能が向上するようなチャンスは、特に膨大なデータ規模を持つ製品において、従来の機械学習からディープラーニングへの移行期に存在する。また、長期的には5年ごとに起こるアルゴリズムがブレークスルーする瞬間の到来が期待できる。しかし、多くの現実的なケースでは、システムのパフォーマンスを向上させるのに役立つのは、正しく処理された新しい情報によって価値を生み出すようなデータなのだ。

コンピューティングパワーやするユニバーサルなアルゴリズムが、水や電気のようにインフラとなる時代に私たちは生きている。クラウドサービスを使えば、誰もが簡単に機械学習を活用し、独自のデータ製品を作れる。過去に採掘されたことのない、正確かつ斬新にデジタル化されたデータこそが、あなたの仕事の核となるのだ。

2.真のビジネスニーズを見逃すな！

多くの時間をかけてディープラーニングモデルを構築すれば、オフライン時の評価指標を1%改善できるだろう。しかし、こうしたオフラインにおける1%の改善はオンラインでの評価には反映されず、実際のビジネスニーズには役に立たないかも知れない。実際のビジネスニーズをどのようにデータ＋機械学習のソリューションに変換するか、そしてモデルの学習対象を最終的なビジネス目的に合わせてどのように形成するかは、私たちが業務上で最初に考えなければならないことである。

3.全体像を無視してはいけない

自分が関わるプロジェクトに囚われてしまって製品の全体像を把握していないと、まず新たな成長ポイントを発見する機会を失い、次いで努力の限界利益率が大きく低下する。あるオフライン指標を1％向上させるのに半年かかったとして、この1％の向上に誰もそんなに注目してくれないとしたら、このプロジェクトの費用対効果は谷間の深いところにある。常に全体的な方向性を考えると手つかずの原野を見つけられるようになって、0から1を導けるだろう。

（※訳註5）以上に説かれたデータサイエンティストとしての心得と類似したアドバイスを論じたAINOW翻訳記事には、以下のようなものがある。

データサイエンティストの心得を説いたAINOW翻訳記事