最終更新日:
「データサイエンス」という言葉がビジネスシーンで現れるようになったのは、2010年代初頭にGoogleや有名ビジネス誌によって「セクシーな仕事」としてデータサイエンティストが語られたことが直接的なきっかけです。その後バズワード化したデータサイエンスは、その定義が曖昧なままであらゆるビジネスシーンで語られるようになりました。
定義が曖昧なままに「データサイエンス」という用語だけが流行した結果、この用語に対する要求が拡大の一途をたどり、ついにはExcelによる図表作成から機械学習モデルの開発までもがデータサイエンティストの仕事として認識されるに至りました。多大な職務を担うことになったデータサイエンティストのなかには、「自分は肩書を偽っているのではないか」という強迫観念にとらわれる「詐称者症候群」に陥るヒトも現れました。
以上のようなデータサイエンスをめぐる混乱を収拾する処方箋として、同氏は「データサイエンス」を専門特化した領域ごとに分割することを提案します。例えばテキストデータから価値を引き出す人材は「自然言語処理エンジニア」と呼ぶようにすれば、この職種を目指す技術者とそうした人材を雇いたい企業の双方が適切なマッチングに恵まれるようになります。
本記事は、「AI」という言葉が曖昧に語られることの弊害に警鐘を鳴らしたAINOW記事「「AI」という言葉に甘えてはいけない −「AI」の認識の不一致がもたらす本質的な問題−」と同様の問題意識を共有しています。「AI」および「データサイエンス」は、コンテクストやビジネスシーンに合わせて適切に語り分けることによって有意味なものとなるのです。
以下の前編にあたる記事本文では「データサイエンス」をめぐる混乱した現状を確認したうえで、この用語の起源に遡ります。
なお、以下の記事本文はThomas Nield氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。
専門化して分割しよう!
わたしは「データサイエンス」という用語を軽視してなどいないが、この用語を専門分野に分割することにも反対していない。誤解を恐れずに言えば、世界的な「データサイエンス」運動は必要不可欠であり、歪んで統合された世界にポジティブなインパクトを与えているとわたしは考えている。しかし、データサイエンスのキャンペーンはすでに勝利をおさめ、誰もがそのアイデアを買ってしまった。もはやデータサイエンスを布教し、この用語のもとで誰かを雇うよりは、できることならヒトビトがこの用語が起こした変化に対応できるように舞い上がった埃を落ち着かせるべきなのだ。
データサイエンスの専門家たちは、もはや「データサイエンティスト」という重い肩書に耐えられないと思っている。彼らのほとんどが博士号など持っていないし、すべての新しいトピックに関して百科事典的な知識があるわけでもない。おそらくデータサイエンティストは専門特化して、すべてを知っているはずだというプレッシャーから解放されるべきなのだ。データサイエンスはあまりにもバズワードとして流布してしまい、どこでも語られるようになったことで曖昧になってしまい、しばしば無意味なものとなってしまった。もはや特徴すらなくしてしまったものの主(あるじ)であることをいったい誰が望むだろうか。
興味深いことに8年前、「データサイエンス」には懸念点があると多くのヒトが主張し、データサイエンスは真の科学ではないのではないか、ということが議論された。この議論は結局、「データを伴わない科学を見せてほしい」というところで決着した。
この記事では、まず「データサイエンス」がどのように発展したかに光をあて、そのうえでなぜこれが今や分割すべき時なのかも知れないことを論じたいと思う。
ジャバウォック効果
2010年、短命ではあったが記憶に残るテレビドラマシリーズ「テッドよりはまし」というものがあった。このドラマは企業文化を誇張して風刺するという職場を小馬鹿にするコメディであった。とは言うものも、このドラマのエピソードのひとつジャバウォックは企業におけるバズワード効果をこのうえなく正確にとらえている。
ドラマの主人公であるテッドは、気に入っていたプロジェクトのために予算をくすねていた。かれの上司であるベロニカは予算が動いたことに気づき詰め寄ったところ、彼は資金は革命的な「ジャバウォック」プロジェクトに動かしたと言って嘘をついて、その場を言いつくろった(※註1)。
面白いのはここからである。ベロニカは「ジャバウォック」が何であるをはっきりさせるのではなく、無知で無能と思われて蚊帳の外に置かれることを恐れるあまり「知ったかぶり」をするのである。彼女はこの存在しないジャバウォックプロジェクトを企業内のほかのプロジェクトを差し置いてトッププライオリティのものとして推進した。こういうわけで企業幹部と従業員の全員がジャバウォックとは何であるか全く知らないなかで働き、それでいてジャバウォックを知らないことを互いに白状することなど許されない、という笑うしかない結果が生じたのだ。
「ジャバウォック」についてみんな知らないという弱点を突くことでプロジェクトは大きくなったのだが、ついにテッドはこのプロジェクトのキーノート講演を前にしてすべてを白状する。するとベロニカはテッドに何としてもプレゼンテーションを続けるように言った。なぜなら「製品はプレゼンを知らないヒトのためのもの」だからだ。
「ジャバウォック」とはアナロジーであることを説明する必要はおそらくないであろう。ジャバウォックを「ブロックチェーン」、「ビッグデータ」、「ビットコイン」、「人工知能」、「モノのインターネット」、「量子コンピュータ」、「機械学習」あるいは「データサイエンス」に置き換えれば、わたしの言わんとしていることが正確にわかるだろう。企業文化にはイノベーションを誇大に宣伝してきた長い歴史があり、ヒトビトはそんな流行を理解しているふりをして、その流行の限界に遭遇するとほかの流行を追いかけてきたのだ。
そんなわけで「ジャバウォック効果」に光を当ててきたのだが、先を続けよう。
データサイエンスの手短な歴史
もし「データサイエンス」を「データ」を扱う必要のある何かとして定義するならば、コンピューティングの黎明期まで遡ることもできるだろう。データサイエンスにとってデータと同様に数学や統計学も必要不可欠だと考えるならば、数世紀前まで遡って統計学者のことを「データサイエンティスト」の起源と言うことができるだろう。
話を簡潔にするために、1990年代に行ってみよう。物事は非常にシンプルであった。アナリスト、統計学者、リサーチャー、そしてデータエンジニアは時折重複することはあってもそれぞれ分離された役割を担っていた。こうしたヒトビトのツールセットはしばしばスプレッドシート、R、MATLAB、SAS、そして/あるいはSQLから構成されていた。
もちろん2000年代を経て以上のような状況は変わった。Googleはデータ収集と分析を推進して、想像を絶する高みにまで達した。2009年、Googleの幹部は統計学者こそ次の10年間における「もっともセクシーな職業」となることを強調した(※註2)。この発言は10年ほど前のことだが、わたしはこれを聞いて奇妙な感情を抱いたことを今でも覚えている。しかし驚いたことに、2011年には「ハーバードビジネスレビュー」がこの概念を「データサイエンス」と名付けてメインストリームに出し、21世紀におけるもっともセクシーな仕事と宣言したのだ(※註3)。
以上のように宣言された時こそ「ジャバウォック」風に熱狂が始まった瞬間であった。ハーバードビジネスレビューは空虚なものを「データサイエンス」と呼び、みんなは競ってこの空虚を埋めようとした。SQL開発者、アナリスト、リサーチャー、クオンツ、統計学者、物理学者、生物学者、そしてほかの有象無象の専門家たちは「データサイエンス」の専門家として自分たちをリブランディングした。シリコンバレーの企業は「アナリスト」や「リサーチャー」のような伝統的な肩書の仕事があまりにも限定されたもののように聞こえると感じて、より強力でインパクトのある「データサイエンティスト」と仕事の名前を変えた。
ちなみに、この記事では「データサイエンス」という用語は使われいない。
さらに当時のデータサイエンティストの社会的地位は1980~1990年代における「クオンツ」に似ている、と指摘されている。1980年代、クオンツは金融業務に数学と物理学にもとづいた手法をもちこんで注目された。その後、アメリカの各大学で金融工学を教える学科が設立され、大量生産された第2世代のクオンツが誕生した。
"A data scientist is a statistician who lives in San Fransisco" #monkigras pic.twitter.com/HypLL3Cnye
— Jeremy Jarvis (@jeremyjarvis) January 30, 2014
シリコンバレーの外では、ほとんどのヒトが研究所にいる白衣をまとった博士号持ちの人物を「サイエンティスト」と見なしていたので混乱はいっそう増した。直観に反して、データサイエンティストは実際には(理系学士、文系学士、MBA取得者、そして時々博士号持ちのような)様々な教育レベルの(技術的または非技術的な)多くのバックグラウンドを持っていた。それゆえ多くの人材採用マネージャー、人事部門、そして組織全般がデータサイエンティストに求めるものは何であるかを定義するのに苦労したのだ。こうした混乱した状況が、若いデータサイエンティストがMySQLデータベースの部署に投げ込まれて意義あることができなくなってしまったという悲しい逸話を多くのヒトが聞くようになった原因となったのだ。
「機械学習」が急速に進歩したのと同様に、(「ビッグデータ」のことを考えればわかるように)データエンジニアリングの進歩が拡大していくと、「データサイエンス」が広げる傘はより大きく曖昧になっていった。こうしてバズワードが、それを語っているがほとんど理解していない多くのヒトビトにますます投げ込まれていった。ヒトビトがよく知る前に「ビッグデータ」と「機械学習」は同義語となってしまい、これらを分けようとする自制心もなくなってしまった。
さらに悪いことに企業は無知にもとづいた決定をしてしまい、実際には検索アルゴリズムについて知っているオペレーションズ・リサーチに関する人材が必要な時に、スケジューリングのような日々の問題を解決するためにデータサイエンスのスキル「X」(Xには例えばディープラーニングが入る)が必要だと考えてしまうのである。流行していて最先端の解決策はほとんどの問題においてベストな解決策ではなく、コストが嵩む失策ですらあり得るのだ。こうした企業が流行に飛びついて間違う傾向については、以下に示すわたしの2本の記事で読むことができる。
「データサイエンス」の領域は「ジャバウォック」効果によって消費され尽くされている。もしデータサイエンスの成功を引き続き望むのであれば、それを一般化してより混乱を引き起こすよりは専門特化する必要がある。
(後編に続く…)
原文
『Data Science Has Become Too Vague』
著者
Thomas Nield
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん