読者の関心を惹くデータ分析プロジェクトを作成するために同氏が挙げている秘訣は、以下のような8項目にまとめられます。
- 使いたいツールよりも分析のゴールを重視
- 方法論を用意する
- 一人でブレインストーミングをしてアイデアを出す
- 予備分析を行う
- ストーリーボードを活用する
- 読者が役立つと思える内容にする
- 前提知識のない人からフィードバックを得る
- 細部にまで気を配る
以上の8項目に注意しながらKaggleでデータ分析プロジェクトを公開し続けたところ、Yadhunath氏はKaggle Notebooks Expertの称号を取得しました。これらの秘訣は、魅力的なデータサイエンスプロジェクトの作成に大いに役立つことでしょう。
なお、以下の記事本文はRamshankar Yadhunath氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならび組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
目次
仕事で頭角を現すための8つの実行可能なヒント
たずさわっている分野でキャリアを積むうえで最も重要なのは、仕事で知られるようになることだ。データ分析に関しては、自分の知識や専門知識をアピールできる印象的なプロジェクトを立ち上げるのが、資格取得や講座受講のような他のすべての方法に勝る(※訳註1)。
では、どのようにして印象的なプロジェクトを構築するのだろうか。さらに重要なのは、何が分析プロジェクトを印象的なものにするのだろうか。
この記事では、さまざまなデータセットをまたぐナラティブ(※訳註2)を構築することで、私が Kaggle Notebooks Expertになった際に役立った8つのヒントを紹介する。それでは、早速始めてみよう。
ヒント1:使いたいツールよりも分析のゴールを選ぶ
「あなたが絞り込んだ焦点があなたの現実を決定する、このことをいつも忘れない」 – ジョージ・ルーカス
私たちの心を奪う魅力的なデータビジュアライゼーションのパッケージのなかに迷い込んでしまうのは、よくあることだ。新しいツールを学ぶことは何も悪いことではないが、プロジェクトに取り組む際には、ある種の節度が必要なのだ。
分析プロジェクトの最終目標は、新しいツールの知識を誇示することではなく、提供されたデータの中から有用なパターンを発見することである。したがって、どのツールを使わなければならないかと悩むよりも、データに対して質問することに集中した方が実りあるものになるだろう。
もちろん、プロジェクトの要件によっては、他のものより好ましいライブラリがある場合もあるだろう。こうした場合が生じるのは、使用するライブラリを決定するために少しの作業が必要になることがあるのに関連している。そうは言っても、ライブラリや言語の選択が分析の指針にならないように注意しよう!
ヒント2:方法論を用意しておく
「やっていることをプロセスとして記述できない場合は、あなたは自分のやっていることをわかっていない」 – W・エドワーズ・デミング(※訳註3)
方法論とは、本質的には研究を導くコンテクストを形作るフレームワークである。分析プロジェクトのコンテクストで簡単に言い直せば、プロジェクトに取り組んでいるあいだ、方法論はプロジェクトの過程を着実に進められるようにしてくれる。
方法論を持つのが重要なのは、目標への道筋が明確になるからである。また、自分のプロジェクトを他の人に説明しなければならないときにも、非常に役に立つ。
方法論は、データ取得から結果発表、そしてその他の中間的な作業を含むすべてのステップにおいて、各ステップを完全にコントロールできるようにしてくれるから大事とも言える。
方法論を持つことで得られるあまり知られていない利点には、プロジェクトについてより深く考えるようになることがある。例えば、私はアメリカ警察における人種的差別に根ざした暴力を分析したプロジェクトで「自分のバイアスを理解する」というステップを入れた(※訳註4)。このステップを含めることで、私の発見が自分の内部バイアスの影響を受けないことを確認できた。
人種的差別を受けたこともしたこともない同氏にとって、人種的差別は映画やニュースを通じて知るものであった。こうした自身がもつ人種的差別に関する知識を反省した結果、その知識のいくつかが間違っており、間違った理由も理解できた。
ヒント3:日常生活でしてきたようにブレインストーミングをする
「良いアイデアをたくさんもらって、悪いアイデアを捨てるのが一番の方法」 – ライナス・ポーリング(※訳註5)
データセットを分析しようとする試みの始めの頃は、たいてい大きな混乱に陥る可能性がある。特にKaggle Survey Challenge 2020のデータセットのように、インスタンスや特徴量がたくさんある場合はなおさらだ。
混乱した時にこそ、ブレインストーミングが重要になる。ブレインストーミングとは、簡単に言えば、(論文のような)物理的なものや(コンピュータのような)デジタルなものにとらわれている心を解き放って、新しいアイデアを思いつくことだ。
ブレインストーミングの定義のほとんどがそれをグループプロセスであると規定しているが、個々人のブレインストーミングがグループセッションより良質の考えを生むという説を支持する調査がある。
データ分析プロジェクトのために個人でブレインストーミングを行うコンテクストでは、それを始めるのに役立つ3つのステップがある。
- データセットの説明を読む – データを収集した人にとって主な優先順位は何かを考えてみる。
- 特徴量の説明を読む – あなたから見て、ステップ1で考えた主な優先順位に則している最良の特徴量とは何か。
- 過去の仕事を読む – 過去に同じまたは類似した種類のデータを使って仕事をしたことがある人がいれば、そうした人の仕事を見直す。
以上を実行した後であれば、思いついたアイデアをすべて1枚の紙に(あるいは私が通っていた学校のように古くなければ、デジタル媒体に)書けるだろう。こうしたブレインストーミングは、まさに日常生活でしてきたようようなことだろう。アイデアが心から消えてしまう前に、データ分析で使えるアイデアを書き留めておこう。
なお、ブレインストーミングはあなたの分析のバックボーンとなるので、きちんと説明がつくものであるべきだ。
ヒント4:最も有望なナラティブを特定するために予備分析を行う
「物事を知っているとは思われないのは、知りたいことの第一の条件や第一の原理を知り、その最も単純な要素に至るまで分析を行っていないからである」 – アリストテレス
ブレインストーミングの後、分析のナラティブとして追求したいアイデアが複数ある可能性がある。しかし、あなたの仕事を明確でインパクトのあるものにしたいのであれば、1つの主要なアイデアだけを選択する必要がある(※訳註6)。
こうした選択をするためには、システムを素早く立ち上げて予備分析を実行するコードを書くのが有用だ。こうした作業は探索的データ分析の一部である可能性があり、それゆえ、最も有望な語るべきストーリーに焦点を当てる前に、手元のデータを可視化する必要がある。
例えば、2020年のKaggle における機械学習とデータサイエンスに関する調査の課題では、予備分析を通じて、21歳以下のインド人回答者の伸びが、調査の他の回答者と比較して最も速かったことを、私は発見した。こうした予備分析結果は、残っている分析を続けられるように私のプロジェクトを構築するのに役立った。
- 記憶力の負荷を軽減できる。
- 多数の小さい目標より単一の大きな目標のほうが、達成すべき意義がある。
- 目標をひとつに絞ると、恐れもひとつとなる。
- どんな会話もひとつの目標に照らして話せるので、話しやすくなる。
ヒント5:ストーリーボードを使ってナラティブを構築する
「私にとってのストーリーボードとは、映画全体を事前に視覚化する方法だ」 – マーティン・スコセッシ
データを使ったストーリーテリングに関しては、個人的にはコール・ヌスバウマー・クナフリク(※訳註7)がこの分野で最も優れた頭脳の持ち主の一人であると思っている。彼女が自身の本や多くの講演を通じて広めたアイデアのリストは膨大なものだが、私が非常に参考になると思うアイデアのひとつは、ストーリーボード作成プロセスだ。
プロのライターが言うように、良いストーリーには5つのパートがある – それらは「序幕」「上昇」「クライマックス」「下降」「破局」である(※訳註8)。あなたのデータ分析プロジェクトのコンテクストにおいても、同じような構造に沿ってストーリーボードを作れる。
はじめにあなたが持っているデータを紹介し、分析あるいは主な目標の「理由」の陳述に移動し、選択したサブ目標も分析し、主な目標につなげるようにして考察を報告し、最後にすべての発見を結合したうえで最も重要な発見を選択し、関係する利害関係者が選択できる決定として発見を報告するのだ。
フライタークのピラミッド
ヒント6:それはあなたではなく、彼らに関わること
「それはあなたではなく、彼らに関わることなのだ」 – クリント・イーストウッド
より哲学的な観点から言えば、私が分析する時には、その分析は自分の目を満足させるだけのものでは決してない、と読者が理解するように促している。分析作業の影響は、それが関係する利害関係者のためにどれだけ有用であるかにのみ関係しているのだ。
それゆえ、不要なグラフをレポートに挿入しないようにしよう。苦労して挿入したからといって、それを誇示する必要はないのだ。また、全体の分析にまとまりがない場合は、ゴミ箱の中を見て廃棄したデータやグラフを調べなければならない。
利害関係者が選択できて実行可能な目標と、分析の成果を結び付けられるのも重要だ。
さらには、意味のない可視化で聴衆を誤解させないようにしよう(※訳註9)。
- 故意に軸を省略する
- 故意にY軸の間隔を変える
- データを意図的に取捨選択する(良いデータあるいは悪いデータだけ集める)
- グラフ形式の不適切な選択
- 慣習に反したビジュアライゼーション
ヒント7:はじめにフィードバックを得る
「フィードバックはチャンピオンの朝食である”」- ケン・ブランチャード(※訳註10)
あなたが最後まで分析して作った草稿の初版は、話そうとしているピックについて知らない人と必ず共有しなければならない。
以上が効果的なのは、次のような単純な理由からだ。トピック X について何の知識もない人が、あなたが伝えようとしているトピック X についてのデータに基づいたストーリーを理解して評価できるならば、そのナラティブは首尾一貫しており、なおかつ明確で、魅力的なものであるということを意味している。
以上の反応が起こらない場合は、製図板に戻って、再びナラティブに取り組む時間を過ごそう。このプロセスを(前提知識のない人にもわかってもらうという)目的が達成されるまで繰り返しそう!
フィードバックはあなたを幸せにするためではなく、改善するためのものであることを忘れないでおこう。そういうわけで、気に入らないことを聞いても敵対的にならないように!(※訳註11)
- どんなフィードバックも、成功に貢献する贈り物である。
- フィードバックは待つものではなく、求めるもの。
- 気に入らないフィードバックは、たいてい役に立つ。
- 間違っているように思えるフィードバックでも、正しいと仮定してみる。
- フィードバックをくれた人に「このフィードバックは、なぜ有益あるいは重要なのですか」と問うてみる。
- たとえ如何なる提案も求めていなくても、「何か提案はありますか」とフィードバックをくれそうな人に問うてみる。
ヒント8:細部にまで気を配る
「良い(good)ものと素晴らしい(great)ものの違いは、細部へのこだわりにある」 – チャールズ・R・スウィンドール(※訳註12)
テーマを展開するプロット、レポートで使用するタイポグラフィや文字色などの小さなことであっても、読者があなたの作品をどのように受け止めるかに大きな影響を与え得る。
著者が細部に重点を置いた分析の代表的な例として、アンドレア・オルト―氏のBirdcall Recognition EDA(※訳註13)がある。このKaggleプロジェクトは、ビジュアライゼーションも鳥の配色に合わせて作られている。
一貫性も分析レポートの非常に重要な要素である。見た目が派手なレポートが必要とされているわけではない。分析されたデータに関するストーリーを語るミニマルなものが必要なのだ。
画像出典:Kaggle「Birdcall Recognition EDA」
その他の役立ったヒント
以下のリンクには、これまでの私のデータサイエンティストとしての旅でポジティブな影響を大いに与えてくれた最高のデータアナリストやストーリーテラーから得られるヒントが含まれている。
- John Miller「分析レポーティングのベストプラクティス」
- Rachael Tatman「より専門的なデータサイエンスコードへの6つのステップ」
- Ben Wellington「ストーリーテリングでデータをより意味のあるものにする」
- David McCandless「データビジュアライゼーションの美学」
お役に立てれば幸いです。それでは頑張って 🙂
原文
『How to Create a Data Analytics Project That People Want to Read』
著者
Ramshankar Yadhunath
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん