曖昧になり過ぎてしまったデータサイエンス【前編】

最終更新日:

著者のThomas Nield氏はアメリカ大手航空会社サウスウエスト航空のビジネスコンサルタントを務めており、以前に紹介したAINOW翻訳記事「ディープラーニングはすでに限界に達しているのではないか?」の著者でもあります。同氏がMediumに投稿した記事「曖昧になり過ぎてしまったデータサイエンス」では、データサイエンスがバズワード化したことによる弊害と改善策が論じられています。

「データサイエンス」という言葉がビジネスシーンで現れるようになったのは、2010年代初頭にGoogleや有名ビジネス誌によって「セクシーな仕事」としてデータサイエンティストが語られたことが直接的なきっかけです。その後バズワード化したデータサイエンスは、その定義が曖昧なままであらゆるビジネスシーンで語られるようになりました。
定義が曖昧なままに「データサイエンス」という用語だけが流行した結果、この用語に対する要求が拡大の一途をたどり、ついにはExcelによる図表作成から機械学習モデルの開発までもがデータサイエンティストの仕事として認識されるに至りました。多大な職務を担うことになったデータサイエンティストのなかには、「自分は肩書を偽っているのではないか」という強迫観念にとらわれる「詐称者症候群」に陥るヒトも現れました。
以上のようなデータサイエンスをめぐる混乱を収拾する処方箋として、同氏は「データサイエンス」を専門特化した領域ごとに分割することを提案します。例えばテキストデータから価値を引き出す人材は「自然言語処理エンジニア」と呼ぶようにすれば、この職種を目指す技術者とそうした人材を雇いたい企業の双方が適切なマッチングに恵まれるようになります。
本記事は、「AI」という言葉が曖昧に語られることの弊害に警鐘を鳴らしたAINOW記事「「AI」という言葉に甘えてはいけない −「AI」の認識の不一致がもたらす本質的な問題−」と同様の問題意識を共有しています。「AI」および「データサイエンス」は、コンテクストやビジネスシーンに合わせて適切に語り分けることによって有意味なものとなるのです。

以下の前編にあたる記事本文では「データサイエンス」をめぐる混乱した現状を確認したうえで、この用語の起源に遡ります。

なお、以下の記事本文はThomas Nield氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。

専門化して分割しよう!

わたしは「データサイエンス」という用語を軽視してなどいないが、この用語を専門分野に分割することにも反対していない。誤解を恐れずに言えば、世界的な「データサイエンス」運動は必要不可欠であり、歪んで統合された世界にポジティブなインパクトを与えているとわたしは考えている。しかし、データサイエンスのキャンペーンはすでに勝利をおさめ、誰もがそのアイデアを買ってしまった。もはやデータサイエンスを布教し、この用語のもとで誰かを雇うよりは、できることならヒトビトがこの用語が起こした変化に対応できるように舞い上がった埃を落ち着かせるべきなのだ。

データサイエンスの専門家たちは、もはや「データサイエンティスト」という重い肩書に耐えられないと思っている。彼らのほとんどが博士号など持っていないし、すべての新しいトピックに関して百科事典的な知識があるわけでもない。おそらくデータサイエンティストは専門特化して、すべてを知っているはずだというプレッシャーから解放されるべきなのだ。データサイエンスはあまりにもバズワードとして流布してしまい、どこでも語られるようになったことで曖昧になってしまい、しばしば無意味なものとなってしまった。もはや特徴すらなくしてしまったものの主(あるじ)であることをいったい誰が望むだろうか。

興味深いことに8年前、「データサイエンス」には懸念点があると多くのヒトが主張し、データサイエンスは真の科学ではないのではないか、ということが議論された。この議論は結局、「データを伴わない科学を見せてほしい」というところで決着した。

この記事では、まず「データサイエンス」がどのように発展したかに光をあて、そのうえでなぜこれが今や分割すべき時なのかも知れないことを論じたいと思う。

ジャバウォック効果

2010年、短命ではあったが記憶に残るテレビドラマシリーズ「テッドよりはまし」というものがあった。このドラマは企業文化を誇張して風刺するという職場を小馬鹿にするコメディであった。とは言うものも、このドラマのエピソードのひとつジャバウォックは企業におけるバズワード効果をこのうえなく正確にとらえている。

ドラマの主人公であるテッドは、気に入っていたプロジェクトのために予算をくすねていた。かれの上司であるベロニカは予算が動いたことに気づき詰め寄ったところ、彼は資金は革命的な「ジャバウォック」プロジェクトに動かしたと言って嘘をついて、その場を言いつくろった(※註1)。

(※註1)「ジャバウォック(Jabberwocky)」という単語は、『鏡の国のアリス』の著者ルイス・キャロルが発表した詩『ジャバウォックの詩』に由来する。この詩はジャバウォックと呼ばれる架空の怪物を退治した顛末を伝える叙事詩という体裁となっているが、実際は造語が頻出するナンセンス詩として評価されている。

面白いのはここからである。ベロニカは「ジャバウォック」が何であるをはっきりさせるのではなく、無知で無能と思われて蚊帳の外に置かれることを恐れるあまり「知ったかぶり」をするのである。彼女はこの存在しないジャバウォックプロジェクトを企業内のほかのプロジェクトを差し置いてトッププライオリティのものとして推進した。こういうわけで企業幹部と従業員の全員がジャバウォックとは何であるか全く知らないなかで働き、それでいてジャバウォックを知らないことを互いに白状することなど許されない、という笑うしかない結果が生じたのだ。

「ジャバウォック」についてみんな知らないという弱点を突くことでプロジェクトは大きくなったのだが、ついにテッドはこのプロジェクトのキーノート講演を前にしてすべてを白状する。するとベロニカはテッドに何としてもプレゼンテーションを続けるように言った。なぜなら「製品はプレゼンを知らないヒトのためのもの」だからだ。

「ジャバウォック」とはアナロジーであることを説明する必要はおそらくないであろう。ジャバウォックを「ブロックチェーン」、「ビッグデータ」、「ビットコイン」、「人工知能」、「モノのインターネット」、「量子コンピュータ」、「機械学習」あるいは「データサイエンス」に置き換えれば、わたしの言わんとしていることが正確にわかるだろう。企業文化にはイノベーションを誇大に宣伝してきた長い歴史があり、ヒトビトはそんな流行を理解しているふりをして、その流行の限界に遭遇するとほかの流行を追いかけてきたのだ。

そんなわけで「ジャバウォック効果」に光を当ててきたのだが、先を続けよう。

データサイエンスの手短な歴史

もし「データサイエンス」を「データ」を扱う必要のある何かとして定義するならば、コンピューティングの黎明期まで遡ることもできるだろう。データサイエンスにとってデータと同様に数学や統計学も必要不可欠だと考えるならば、数世紀前まで遡って統計学者のことを「データサイエンティスト」の起源と言うことができるだろう。

話を簡潔にするために、1990年代に行ってみよう。物事は非常にシンプルであった。アナリスト、統計学者、リサーチャー、そしてデータエンジニアは時折重複することはあってもそれぞれ分離された役割を担っていた。こうしたヒトビトのツールセットはしばしばスプレッドシート、R、MATLAB、SAS、そして/あるいはSQLから構成されていた。

もちろん2000年代を経て以上のような状況は変わった。Googleはデータ収集と分析を推進して、想像を絶する高みにまで達した。2009年、Googleの幹部は統計学者こそ次の10年間における「もっともセクシーな職業」となることを強調した(※註2)。この発言は10年ほど前のことだが、わたしはこれを聞いて奇妙な感情を抱いたことを今でも覚えている。しかし驚いたことに、2011年には「ハーバードビジネスレビュー」がこの概念を「データサイエンス」と名付けてメインストリームに出し、21世紀におけるもっともセクシーな仕事と宣言したのだ(※註3)。

以上のように宣言された時こそ「ジャバウォック」風に熱狂が始まった瞬間であった。ハーバードビジネスレビューは空虚なものを「データサイエンス」と呼び、みんなは競ってこの空虚を埋めようとした。SQL開発者、アナリスト、リサーチャー、クオンツ、統計学者、物理学者、生物学者、そしてほかの有象無象の専門家たちは「データサイエンス」の専門家として自分たちをリブランディングした。シリコンバレーの企業は「アナリスト」や「リサーチャー」のような伝統的な肩書の仕事があまりにも限定されたもののように聞こえると感じて、より強力でインパクトのある「データサイエンティスト」と仕事の名前を変えた。

(※註2)大手調査会社Mckinseyは2009年1月、GoogleのチーフエコノミストであるHal Varian氏をインタビューした記事を公開した。このインタビューにおいて同氏は「次の10年間でセクシーな仕事は統計学者」と発言した。その理由は、データに囲まれるようになった現在の環境ではそのデータから価値を引き出す能力のニーズが高まるから、と説明している。またデータの価値を引き出す仕事には古典的な統計学の専門知識に加え、データを視覚化してその意味を伝える能力も必要だと同氏は述べている。
ちなみに、この記事では「データサイエンス」という用語は使われいない。
(※註3)ビジネスメディア誌US版『ハーバードビジネスレビュー』は2012年10月号に「データサイエンティスト:21世紀のもっともセクシーな仕事」と題された記事を掲載した。その記事ではデータサイエンティストとは「ビッグデータの世界のなかで何かを発見するための訓練経験と好奇心がある高度な専門家」と説明し、2008年にはこの肩書がFacebookで使われいた、と述べている。また、記事のタイトルにある「セクシー」とは「需要の多い希少な資質を持っていること」と説明している。
さらに当時のデータサイエンティストの社会的地位は1980~1990年代における「クオンツ」に似ている、と指摘されている。1980年代、クオンツは金融業務に数学と物理学にもとづいた手法をもちこんで注目された。その後、アメリカの各大学で金融工学を教える学科が設立され、大量生産された第2世代のクオンツが誕生した。

(※註4)上のツイートは、クラウド環境を提供するサービスを展開するイギリスのスタートアップbrightboxの共同設立者Jeremy Jarvis氏がツイートしたもの。「データサイエンティストとはサンフランシスコに住んでいる統計学者である」とツイートして、シリコンバレー界隈で語られた「データサイエンティスト」の空虚さを皮肉っている。

シリコンバレーの外では、ほとんどのヒトが研究所にいる白衣をまとった博士号持ちの人物を「サイエンティスト」と見なしていたので混乱はいっそう増した。直観に反して、データサイエンティストは実際には(理系学士、文系学士、MBA取得者、そして時々博士号持ちのような)様々な教育レベルの(技術的または非技術的な)多くのバックグラウンドを持っていた。それゆえ多くの人材採用マネージャー、人事部門、そして組織全般がデータサイエンティストに求めるものは何であるかを定義するのに苦労したのだ。こうした混乱した状況が、若いデータサイエンティストがMySQLデータベースの部署に投げ込まれて意義あることができなくなってしまったという悲しい逸話を多くのヒトが聞くようになった原因となったのだ。

「機械学習」が急速に進歩したのと同様に、(「ビッグデータ」のことを考えればわかるように)データエンジニアリングの進歩が拡大していくと、「データサイエンス」が広げる傘はより大きく曖昧になっていった。こうしてバズワードが、それを語っているがほとんど理解していない多くのヒトビトにますます投げ込まれていった。ヒトビトがよく知る前に「ビッグデータ」と「機械学習」は同義語となってしまい、これらを分けようとする自制心もなくなってしまった。

さらに悪いことに企業は無知にもとづいた決定をしてしまい、実際には検索アルゴリズムについて知っているオペレーションズ・リサーチに関する人材が必要な時に、スケジューリングのような日々の問題を解決するためにデータサイエンスのスキル「X」(Xには例えばディープラーニングが入る)が必要だと考えてしまうのである。流行していて最先端の解決策はほとんどの問題においてベストな解決策ではなく、コストが嵩む失策ですらあり得るのだ。こうした企業が流行に飛びついて間違う傾向については、以下に示すわたしの2本の記事で読むことができる。

「データサイエンス」の領域は「ジャバウォック」効果によって消費され尽くされている。もしデータサイエンスの成功を引き続き望むのであれば、それを一般化してより混乱を引き起こすよりは専門特化する必要がある。

後編に続く…


原文
『Data Science Has Become Too Vague』

著者
Thomas Nield

翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)

編集
おざけん

2019年9月24日 2019年9月25日更新

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する