最終更新日:
「データサイエンス」という言葉がビジネスシーンで現れるようになったのは、2010年代初頭にGoogleや有名ビジネス誌によって「セクシーな仕事」としてデータサイエンティストが語られたことが直接的なきっかけです。その後バズワード化したデータサイエンスは、その定義が曖昧なままであらゆるビジネスシーンで語られるようになりました。
定義が曖昧なままに「データサイエンス」という用語だけが流行した結果、この用語に対する要求が拡大の一途をたどり、ついにはExcelによる図表作成から機械学習モデルの開発までもがデータサイエンティストの仕事として認識されるに至りました。多大な職務を担うことになったデータサイエンティストのなかには、「自分は肩書を偽っているのではないか」という強迫観念にとらわれる「詐称者症候群」に陥るヒトも現れました。
以上のようなデータサイエンスをめぐる混乱を収拾する処方箋として、同氏は「データサイエンス」を専門特化した領域ごとに分割することを提案します。例えばテキストデータから価値を引き出す人材は「自然言語処理エンジニア」と呼ぶようにすれば、この職種を目指す技術者とそうした人材を雇いたい企業の双方が適切なマッチングに恵まれるようになります。
本記事は、「AI」という言葉が曖昧に語られることの弊害に警鐘を鳴らしたAINOW記事「「AI」という言葉に甘えてはいけない −「AI」の認識の不一致がもたらす本質的な問題−」と同様の問題意識を共有しています。「AI」および「データサイエンス」は、コンテクストやビジネスシーンに合わせて適切に語り分けることによって有意味なものとなるのです。
以下の後編にあたる記事本文では「データサイエンス」が曖昧に語られることによる弊害を確認したうえで、改善策を論じます。
なお、以下の記事本文はThomas Nield氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。
「データサイエンス」を解体する理由
「データサイエンス」はいくつかの素晴らしいことを推進してきた。古きものを若返らせ、面倒なビジネスを新鮮で興奮するものにした。データアクセスと非IT部門のスタッフがソースコードを書くことに難色を示していたIT部門は、渋っていたことを発展させ支援するのに率先して取り組むように強いられた。もっとも重要なことは、データサイエンスが多くの非技術系の専門家にテクノロジーを解放したことだ。法律家はコーディングを学ぶことから利益を得ることができるというアイデアはもはや異端的ではなく、コーディングという儀式はコンピュータ科学者、プロのプログラマー、そしてエンジニアのためだけに受け継がれるものではなくなった。
ヒトビトがよく知る前に「ビッグデータ」と「機械学習」は同義語となってしまい、これらを分けようとする自制心もなくなってしまった(本記事前編より引用)。
以上のようなことは「データサイエンス」キャンペーンが成功し、その繁栄に至る道を歩んだ証拠である。しかし、これ以上「データサイエンス」キャンペーンを推進すると、このキャンペーン自体が有害なものとなる。有害になる理由には、以下のようなことがある。
広すぎる定義
そう遠くない昔においては、もし「ビジネスマネージメント」課程の学士を取得していれば、容易に出世できただろう。しかし今日、伝統的な意味での成功はしばしば特定の分野に焦点を絞って特化することを要求する。なぜなら現在の世界は複雑なものになったからだ。ビジネススクールの学生は金融、サプライチェーンマネージメント、オペレーションズ・リサーチ、会計学、マーケティング、あるいはそのほかの特化したビジネス領域について勉強したほうがよいのだ。
わたしは、「データサイエンス」も以上のような専門特化する移行を経る必要があると信じている。ビジネスそれ自体と同じように、データサイエンスを総体的に理解するにあたっては多くの領域が存在する。それゆえ、こうした多くの領域のすべてを一度に学ぼうとするのは実に不毛なことだ。もちろん、データサイエンス全般を高いレベルで認識することは有益である。時が経つにつれてデータサイエンスに対する関心が変わることも、健全なことである。しかし、データサイエンスを構成する全領域に関して博学であろうとすることは、決して価値を生まない。焦点を絞らない学びは不毛であるというわたしの理解は、コメディアンのブライアン・リーガンが言った「ぼくは学びたいのだ!物事の初学者になりたいんだ!」という台詞によってもっともうまく風刺されている(※註1)。
いつもわたしを困惑させるのは「データサイエンス」はニューラルネットワークの分類器を構築しチューニングするのと同様に、ExcelやTableauで図表を生み出すことができることだ。よく考えると、図表を作ることとニューラルネットワークモデルを作ることにどんな関係があるのか。このふたつの業務はその本質、求められる技術的スキル、そして報酬において何千マイルも離れている。SQLクエリを書くこととベイズ統計にもとづいたモデルを構築することはどうだろう。これらには互いに関係のないスキルセットが必要とされ、そのスキルセットにはまったく互換性はない。それにしても、なぜわたしたちは極端に多様なスキルセットをもったヒトビトを「データサイエンティスト」と総称して、そんなヒトビトの採用を曖昧かつ困難なものにしてしまうのか。
以上の議論を読んで「ExcelやTableauでチャートを作ることとニューラルネットワークモデルを構築することは「データサイエンス」の領域においてうまく関連づけられており、データサイエンスは諸々の領域の統合と融合を助けてくれるのだ」と反論するヒトもいるかも知れない。こうした反論はある程度の議論の余地がある。しかし、マーケティング、金融、サプライチェーン、会計学、そしてそのほかのビジネス職務も互いに関連しあっていることを思い出してほしい。これらはビジネスの遂行という共通の目標があるにもかかわらず依然として明確に分けられ、もはや「ビジネスマネージメント」という総体が強調されるようなことはない。細分化と専門特化はある領域が成熟する過程のひとつと考えられ、時が経つにつれて細分化された諸領域は分かれる前はひとつであった領域より注目を集めるものなのだ。
いつもわたしを困惑させるのは「データサイエンス」はニューラルネットワークの分類器を構築しチューニングするのと同様に、ExcelやTableauで図表を生み出すことができることだ。よく考えると、図表を作ることとニューラルネットワークモデルを作ることにどんな関係があるのか。
習得するのに圧倒される
この記事をわたしに書かせるように強いたことのひとつとして、「詐称者症候群」に陥ったように感じていると白状するデータサイエンティストが書いた記事の数が多くなっていることがある。そんな記事のひとつとして、わたしがネットを回って見つけたものもある。こんな記事もある(※註2)。時間が経つにつれて、さらに多くのデータサイエンティストが続々と進んで自己欺瞞に陥っていることを白状するようになっている。専門的に言えば、詐称者症候群が引き起こす心の重みはヒトを恐怖で満たし、夜も寝られないものとする。この症候群に陥ると、「詐欺師として見つかってしまうまでにどれだけ時間が残されているだろうか」という問いかけから逃れることができなくなる。
データサイエンティストにまつわる詐称者症候群に関しては、お掃除ロボット「ルンバ」を開発するiRobotで主席データサイエンティストを務めるBrandon Rohrer氏が自身のブログで言及している。そのブログでは、データサイエンティストに関する学位や資格制度が確立されていない現状では、詐称者症候群を克服する方法は良質のポートフォリオを作成することだと説かれている。
またSamsungアメリカ法人でチーフ・データサイエンティストを務めたことがあるJT Kostman氏がLinkedInに寄稿した記事では、データサイエンティストは様々な経歴やバックグラウンドを持っているものであり、決してエリート集団ではないことを指摘している。そのうえで多様な人材が集まっていることこそがデータサイエンス業界を魅力的なものにしているので、経歴やバックグラウンドが他人と違っていても詐称者症候群に陥らずに気にしないことだ、と述べている。
しかし、詐称者症候群はより大きな問題があることを示す兆候である、ということをこの記事からわかってもらいたいと思っている。「データサイエンス」とは「データ」に関係する一切合切であるとわかるのにあまりにも時間がかかってしまった。悲しいことに、データに関する一切合切を身に付けることに没頭しているヒトビトがいる。なぜそんなことを望むヒトがいるのかについては、もはやわたしの理解を超えている。
上のグラフは、人気のある(しかし時代遅れでもある)データサイエンティストになるためのロードマップである。このロードマップは多くのヒトにとってその人生を費やしても習得不可能なのは言うまでもなく、なぜ「フリーサイズ」なカリキュラムを用意するのかという疑問が生じる。おそらくこのカリキュラムを学べばすべてのトピックについて浅い知識が得られるだろうが、実際には異なった環境で異なった問題に取り組んでいるものである。それゆえ問題が生じたそれぞれの時点で、個別的な仕事に関して必要とされるツールを学べばよいのではないだろうか。ツールやプラットフォームの流行り廃りを気にしても仕方がないし、スキルはとても速くレガシー化してしまうものだ。以上のロードマップで廃れない部分は、古典的な数学的概念くらいだ。
以上の議論から、全般的スキルや知識が全く無駄であると主張していると誤解しないでほしい。すでに解決法が存在することに関する全般的知識を学び習得することは常によいことだ。しかしながら、日々の現実的な生活において要領のよいヒトは、FOMO(※註3)に駆られるよりは何が重要な知識かを見分けてその知識の習得を優先するものなのだ。
すべては飽和した
データは今や電気のようなものである。データはあらゆる場所で様々な目的で使われている。19世紀においては、ヒトビトは電気が実現することに対して驚嘆したのだった。
今日、もはや電気そのものは注目されず電気で動く製品の方が注目される。電気があることを当然と思うほどではないにしても、ご存知の通り、現在ではもはや電気を崇めたてまつることを止めている。データでも同様のことが起こる。データは成功を収め、新しい普通となった。ゆえにデータを熱狂的に崇拝し続けるよりは、データが実現する次のイノベーションに焦点を合わすべきなのだ。
自然言語処理は、顧客の不平不満に対処する業務を改善するきっかけを与えてくれると考えているだろうか。そう思うのなら「データサイエンス」でもなく「機械学習」でもなく、ましてや「AI」ではなく「自然言語処理」を推進しよう。「データサイエンス」で語られてきたことは、専門特化して焦点を絞るべきなのだ。利益、コスト、収入、あるいは運用可能性の最適化に興味があるならば、最適化に関する仕事に就けばよい。「データサイエンス」は今やホワイトノイズ(※註4)と化しており、用語としては役に立たない。「データサイエンス」という用語は使わずに専門特化して、まだ応用や解決がなされていない問題が明白にある領域に焦点を絞るようにしよう。
「データサイエンス」はホワイトノイズのようだという表現は、「データサイエンス」が多くの意味を含み過ぎて実用的には無意味になってしまっていることを譬えている。
バズワードのジレンマ
最後に記事をまとめるにあたり、少しばかりの最終的な懸案事項を述べよう。わたしは「データサイエンス」という用語を使うのを止めるべきことを明らかにしてきた。だが実際、この用語が使われなくなることなど起こるのだろうか。遅かれ早かれそうなる、とわたしは思っている。ちょうど「クラウドコンピューティング」という用語が広範に使われなくなって代わりにより専門特化した用語が使われるようになったという用語の変遷が、データサイエンスでも起こると考えているのだ。以上のようなわたしの考えにわたし自身追従できるのか。わたし自身、まだ確信を持てていない。データサイエンスという用語は依然として曖昧なままであるが、YouTubeでわたしの話を披露したり「データサイエンスに向けて」(英語原題:Towards Data Science)と題された一連のブログシリーズを読んでもらうことがヒトビトにわたしの考えを伝える唯一の方法なのかも知れない。わたしは自分と同じように行動するヒトを非難することはできない。
「データサイエンス」という用語に関して、次のように自問してみよう。わたしたちはポジティブな変化を広げるために、あるいは自分たちの目的に利用するためにバズワードを使っているのだろうか。「データサイエンス」というバズワードはポジティブな効果を世界規模で起こしたことを思い出してほしい。データサイエンスは専門家の仕事を民主化し、デジタル的な労働に関して多くのヒトを強化した。しかし、「データサイエンティスト」を自称する連中のなかには自分の能力を誇張し、流行から利益を得ていた輩もいるとわたしは確信している。
まとめると、ヒトや仕事の一般化は避けるようにしよう。「データサイエンティスト」という職種名を使うのを止めて、代わりにそれぞれの業務が必要としている仕事を反映している職種名を使うようにすべきなのだ。「データサイエンティスト」ではなく「データエンジニア」、「オペレーションズ・リサーチ開発者」、伝統的な「統計学者」、そして「機械学習アナリスト」といったヒトを雇うようにしよう。こうすればみんなが自分の居場所を見つけるチャンスが得られ、それぞれのノウハウを最大限活用して仕事に貢献するだろう。そして、諸々の職種はやがて明確に組織化され、有意味な仕方で職種名と職種のニーズが釣り合うようになるだろう。
次の記事:
原文
『Data Science Has Become Too Vague』
著者
Thomas Nield
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん