読みたくなるデータ分析プロジェクトの作り方

著者のRamshankar Yadhunath氏はインドの名門私立大学アムリタ大学でコンピュータサイエンスを学んだ後、ロンドン大学でデータサイエンスの修士号を取得して現在はロンドンでデータサイエンティストとして活躍しています（同氏の詳しい経歴は個人サイトを参照）。同氏がMediumに投稿した記事『読みたくなるデータ分析プロジェクトの作り方』では、読者の関心を惹くようなデータ分析プロジェクトを作成する秘訣が解説されています。
読者の関心を惹くデータ分析プロジェクトを作成するために同氏が挙げている秘訣は、以下のような8項目にまとめられます。

使いたいツールよりも分析のゴールを重視
方法論を用意する
一人でブレインストーミングをしてアイデアを出す
予備分析を行う
ストーリーボードを活用する
読者が役立つと思える内容にする
前提知識のない人からフィードバックを得る
細部にまで気を配る

以上の8項目に注意しながらKaggleでデータ分析プロジェクトを公開し続けたところ、Yadhunath氏はKaggle Notebooks Expertの称号を取得しました。これらの秘訣は、魅力的なデータサイエンスプロジェクトの作成に大いに役立つことでしょう。

なお、以下の記事本文はRamshankar Yadhunath氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならび組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

画像出典

仕事で頭角を現すための8つの実行可能なヒント
ヒント1：使いたいツールよりも分析のゴールを選ぶ
ヒント2：方法論を用意しておく
ヒント3：日常生活でしてきたようにブレインストーミングをする
ヒント4：最も有望なナラティブを特定するために予備分析を行う
ヒント5：ストーリーボードを使ってナラティブを構築する
ヒント6：それはあなたではなく、彼らに関わること
ヒント7：はじめにフィードバックを得る
ヒント8：細部にまで気を配る
その他の役立ったヒント

仕事で頭角を現すための8つの実行可能なヒント

たずさわっている分野でキャリアを積むうえで最も重要なのは、仕事で知られるようになることだ。データ分析に関しては、自分の知識や専門知識をアピールできる印象的なプロジェクトを立ち上げるのが、資格取得や講座受講のような他のすべての方法に勝る（※訳註1）。

では、どのようにして印象的なプロジェクトを構築するのだろうか。さらに重要なのは、何が分析プロジェクトを印象的なものにするのだろうか。

この記事では、さまざまなデータセットをまたぐナラティブ（※訳註2）を構築することで、私が Kaggle Notebooks Expertになった際に役立った8つのヒントを紹介する。それでは、早速始めてみよう。

（※訳註1）この記事の著者Yadhunath氏は、AINOW翻訳記事『僭越ながら、オンライン講座はあなたをデータサイエンティストにしないだろう』において、データサイエンティストの求職にあたっては保有資格やオンライン講座の修了証は役に立たず、自発に取り組んだデータサイエンスプロジェクトがアピールできる材料になることを力説している。

（※訳註2）ナラティブ（narrative）とは、話者が脈絡のある話を伝える行為全体を意味する。ナラティブで話される内容がストーリー（story）である。ストーリーは完結しており不変なのに対して、ナラティブは状況に応じて変化する。ナラティブは、意味的にはストーリーよりプレゼンに近い。もっとも、ナラティブとストーリーはしばしば混同される。

ヒント1：使いたいツールよりも分析のゴールを選ぶ

「あなたが絞り込んだ焦点があなたの現実を決定する、このことをいつも忘れない」 – ジョージ・ルーカス

私たちの心を奪う魅力的なデータビジュアライゼーションのパッケージのなかに迷い込んでしまうのは、よくあることだ。新しいツールを学ぶことは何も悪いことではないが、プロジェクトに取り組む際には、ある種の節度が必要なのだ。

分析プロジェクトの最終目標は、新しいツールの知識を誇示することではなく、提供されたデータの中から有用なパターンを発見することである。したがって、どのツールを使わなければならないかと悩むよりも、データに対して質問することに集中した方が実りあるものになるだろう。

もちろん、プロジェクトの要件によっては、他のものより好ましいライブラリがある場合もあるだろう。こうした場合が生じるのは、使用するライブラリを決定するために少しの作業が必要になることがあるのに関連している。そうは言っても、ライブラリや言語の選択が分析の指針にならないように注意しよう！

ヒント2：方法論を用意しておく

「やっていることをプロセスとして記述できない場合は、あなたは自分のやっていることをわかっていない」 – W・エドワーズ・デミング（※訳註3）

（※訳註3）W・エドワーズ・デミング（1900-1993）とは、アメリカの統計学者。第二次世界大戦後、デミングは日本の国勢調査の計画立案に関わったことを契機として、日本の産業に統計的手法にもとづいた品質管理技術を普及させた。

方法論とは、本質的には研究を導くコンテクストを形作るフレームワークである。分析プロジェクトのコンテクストで簡単に言い直せば、プロジェクトに取り組んでいるあいだ、方法論はプロジェクトの過程を着実に進められるようにしてくれる。

方法論を持つのが重要なのは、目標への道筋が明確になるからである。また、自分のプロジェクトを他の人に説明しなければならないときにも、非常に役に立つ。

方法論は、データ取得から結果発表、そしてその他の中間的な作業を含むすべてのステップにおいて、各ステップを完全にコントロールできるようにしてくれるから大事とも言える。

方法論を持つことで得られるあまり知られていない利点には、プロジェクトについてより深く考えるようになることがある。例えば、私はアメリカ警察における人種的差別に根ざした暴力を分析したプロジェクトで「自分のバイアスを理解する」というステップを入れた（※訳註4）。このステップを含めることで、私の発見が自分の内部バイアスの影響を受けないことを確認できた。

（※訳註4）Yadhunath氏は、2020年8月、Kaggleデータセット「警察による暴力と人種的公平性」を活用してアメリカ警察における人種的差別に根ざした暴力行為を考察するプロジェクトの結果を公開した。このプロジェクトにおいて、同氏は自身の人種に関わるバイアスを確認するステップを実行した。
人種的差別を受けたこともしたこともない同氏にとって、人種的差別は映画やニュースを通じて知るものであった。こうした自身がもつ人種的差別に関する知識を反省した結果、その知識のいくつかが間違っており、間違った理由も理解できた。

この方法論の第2ステップと第3ステップは、私の結果が偏っていないことを確認する上で非常に重要だった（画像出典：著者作成）

ヒント3：日常生活でしてきたようにブレインストーミングをする

「良いアイデアをたくさんもらって、悪いアイデアを捨てるのが一番の方法」 – ライナス・ポーリング（※訳註5）

（※訳註5）ライナス・ポーリング（1901-1994）は、アメリカの生化学者。分子生物学の草分けの一人とされる。数々の名言でも知られ、上記の引用文もそのひとつ。

データセットを分析しようとする試みの始めの頃は、たいてい大きな混乱に陥る可能性がある。特にKaggle Survey Challenge 2020のデータセットのように、インスタンスや特徴量がたくさんある場合はなおさらだ。

混乱した時にこそ、ブレインストーミングが重要になる。ブレインストーミングとは、簡単に言えば、（論文のような）物理的なものや（コンピュータのような）デジタルなものにとらわれている心を解き放って、新しいアイデアを思いつくことだ。

ブレインストーミングの定義のほとんどがそれをグループプロセスであると規定しているが、個々人のブレインストーミングがグループセッションより良質の考えを生むという説を支持する調査がある。

データ分析プロジェクトのために個人でブレインストーミングを行うコンテクストでは、それを始めるのに役立つ3つのステップがある。

データセットの説明を読む – データを収集した人にとって主な優先順位は何かを考えてみる。
特徴量の説明を読む – あなたから見て、ステップ1で考えた主な優先順位に則している最良の特徴量とは何か。
過去の仕事を読む – 過去に同じまたは類似した種類のデータを使って仕事をしたことがある人がいれば、そうした人の仕事を見直す。

以上を実行した後であれば、思いついたアイデアをすべて1枚の紙に（あるいは私が通っていた学校のように古くなければ、デジタル媒体に）書けるだろう。こうしたブレインストーミングは、まさに日常生活でしてきたようようなことだろう。アイデアが心から消えてしまう前に、データ分析で使えるアイデアを書き留めておこう。

なお、ブレインストーミングはあなたの分析のバックボーンとなるので、きちんと説明がつくものであるべきだ。

ヒント4：最も有望なナラティブを特定するために予備分析を行う

「物事を知っているとは思われないのは、知りたいことの第一の条件や第一の原理を知り、その最も単純な要素に至るまで分析を行っていないからである」 – アリストテレス

ブレインストーミングの後、分析のナラティブとして追求したいアイデアが複数ある可能性がある。しかし、あなたの仕事を明確でインパクトのあるものにしたいのであれば、1つの主要なアイデアだけを選択する必要がある（※訳註6）。

こうした選択をするためには、システムを素早く立ち上げて予備分析を実行するコードを書くのが有用だ。こうした作業は探索的データ分析の一部である可能性があり、それゆえ、最も有望な語るべきストーリーに焦点を当てる前に、手元のデータを可視化する必要がある。

例えば、2020年のKaggle における機械学習とデータサイエンスに関する調査の課題では、予備分析を通じて、21歳以下のインド人回答者の伸びが、調査の他の回答者と比較して最も速かったことを、私は発見した。こうした予備分析結果は、残っている分析を続けられるように私のプロジェクトを構築するのに役立った。

（※訳註6）オーストラリアの有名ブロガーのTim DenningがMediumに投稿した記事『一度に1つのことに焦点を当てるその理由』において、目標をひとつに絞る効用として以下のような4項目を挙げている。

記憶力の負荷を軽減できる。
多数の小さい目標より単一の大きな目標のほうが、達成すべき意義がある。
目標をひとつに絞ると、恐れもひとつとなる。
どんな会話もひとつの目標に照らして話せるので、話しやすくなる。

ヒント5：ストーリーボードを使ってナラティブを構築する

「私にとってのストーリーボードとは、映画全体を事前に視覚化する方法だ」 – マーティン・スコセッシ

データを使ったストーリーテリングに関しては、個人的にはコール・ヌスバウマー・クナフリク（※訳註7）がこの分野で最も優れた頭脳の持ち主の一人であると思っている。彼女が自身の本や多くの講演を通じて広めたアイデアのリストは膨大なものだが、私が非常に参考になると思うアイデアのひとつは、ストーリーボード作成プロセスだ。

プロのライターが言うように、良いストーリーには5つのパートがある – それらは「序幕」「上昇」「クライマックス」「下降」「破局」である（※訳註8）。あなたのデータ分析プロジェクトのコンテクストにおいても、同じような構造に沿ってストーリーボードを作れる。

はじめにあなたが持っているデータを紹介し、分析あるいは主な目標の「理由」の陳述に移動し、選択したサブ目標も分析し、主な目標につなげるようにして考察を報告し、最後にすべての発見を結合したうえで最も重要な発見を選択し、関係する利害関係者が選択できる決定として発見を報告するのだ。

（※訳註7）コール・ヌスバウマー・クナフリク（Cole Nussbaumer Knaflic）はデータにもとづいたストーリーの作成を支援するスタートアップstorytelling with dataの設立者であり、Googleの元社員でもある。Googleでは、データにもとづいた人材採用部門「Peo Operation」のマネージャーであった。

（※訳註8）記事で言及されているストーリーの5部構成は、ドイツの作家グスタフ・フライタークが提唱したので「フライタークのピラミッド」とも呼ばれる。ピラミッドと呼ばれる所以は、ストーリーの脈絡はクライマックスを頂点として左右対称な三角形として図示できるからである（下の画像も参照）。

フライタークのピラミッド

画像出典：wikipedia『プロット (物語）』の「歴史」より

ストーリー構造における5つのパート（画像出典：著者作成、このソースにインスパイアされた）

Kaggle 2020 Survey Analysis Challengeで私が使ったストーリーボード（画像出典：著者）

ヒント6：それはあなたではなく、彼らに関わること

「それはあなたではなく、彼らに関わることなのだ」 – クリント・イーストウッド

より哲学的な観点から言えば、私が分析する時には、その分析は自分の目を満足させるだけのものでは決してない、と読者が理解するように促している。分析作業の影響は、それが関係する利害関係者のためにどれだけ有用であるかにのみ関係しているのだ。

それゆえ、不要なグラフをレポートに挿入しないようにしよう。苦労して挿入したからといって、それを誇示する必要はないのだ。また、全体の分析にまとまりがない場合は、ゴミ箱の中を見て廃棄したデータやグラフを調べなければならない。

利害関係者が選択できて実行可能な目標と、分析の成果を結び付けられるのも重要だ。

さらには、意味のない可視化で聴衆を誤解させないようにしよう（※訳註9）。

（※訳註9）ビジュアライゼーションツールを開発・販売するスタートアップVENNGAGEは、2020年４月、『ライターが誤解を招くグラフを使用してあなたを操作する5つの方法』と題されたブログ記事を公開した。その記事では、以下のような5つの誤解を招くグラフ作成方法が解説されている。

故意に軸を省略する
故意にY軸の間隔を変える
データを意図的に取捨選択する（良いデータあるいは悪いデータだけ集める）
グラフ形式の不適切な選択
慣習に反したビジュアライゼーション

ヒント7：はじめにフィードバックを得る

「フィードバックはチャンピオンの朝食である”」- ケン・ブランチャード（※訳註10）

（※訳註10）ケン・ブランチャード（1939-）はアメリカの作家、ビジネスコンサルタント。多言語に翻訳されている著書『1分間マネージャー』をはじめ、多数の著作で知られる。ブランチャード・ジャパンは、ブランチャードのマネジメント論をコーチングするサービスを展開している。

あなたが最後まで分析して作った草稿の初版は、話そうとしているピックについて知らない人と必ず共有しなければならない。

以上が効果的なのは、次のような単純な理由からだ。トピック X について何の知識もない人が、あなたが伝えようとしているトピック X についてのデータに基づいたストーリーを理解して評価できるならば、そのナラティブは首尾一貫しており、なおかつ明確で、魅力的なものであるということを意味している。

以上の反応が起こらない場合は、製図板に戻って、再びナラティブに取り組む時間を過ごそう。このプロセスを（前提知識のない人にもわかってもらうという）目的が達成されるまで繰り返しそう！

フィードバックはあなたを幸せにするためではなく、改善するためのものであることを忘れないでおこう。そういうわけで、気に入らないことを聞いても敵対的にならないように！（※訳註11）

（※訳註11）リーダーシップに関する著作を多数執筆しているアメリカの作家Dan Rockwellは、自身が執筆したブログ記事『気に入らないフィードバックを受け止める7つの方法』で気に入らないフィードバックを真摯に受け取るのに役立つ以下のような7つの心構えを説いている。

どんなフィードバックも、成功に貢献する贈り物である。
フィードバックは待つものではなく、求めるもの。
気に入らないフィードバックは、たいてい役に立つ。
間違っているように思えるフィードバックでも、正しいと仮定してみる。
フィードバックをくれた人に「このフィードバックは、なぜ有益あるいは重要なのですか」と問うてみる。
たとえ如何なる提案も求めていなくても、「何か提案はありますか」とフィードバックをくれそうな人に問うてみる。

ヒント8：細部にまで気を配る

「良い（good）ものと素晴らしい（great）ものの違いは、細部へのこだわりにある」 – チャールズ・R・スウィンドール（※訳註12）

（※訳註12）チャールズ・R・スウィンドール（1934-）は、アメリカの牧師。15の言語で展開するラジオ番組の運営で知られる。

テーマを展開するプロット、レポートで使用するタイポグラフィや文字色などの小さなことであっても、読者があなたの作品をどのように受け止めるかに大きな影響を与え得る。

著者が細部に重点を置いた分析の代表的な例として、アンドレア・オルト―氏のBirdcall Recognition EDA（※訳註13）がある。このKaggleプロジェクトは、ビジュアライゼーションも鳥の配色に合わせて作られている。

一貫性も分析レポートの非常に重要な要素である。見た目が派手なレポートが必要とされているわけではない。分析されたデータに関するストーリーを語るミニマルなものが必要なのだ。

（※訳註13）ルーマニア在住のデータサイエンティストでKaggle Notebook Masterでもあるアンドレア・オルト―が公開しているKaggleプロジェクト「Birdcall Recognition EDA」では、野鳥の鳴き声を識別するモデルを開発するに際して作成された多数のグラフが掲載されている。そのグラフには、美しい野鳥のイラストが描かれている（以下の画像参照）。