いかにしてわたしの学部生のチームがデータサイエンスコンペで修士生と博士生に勝利したか

著者のBrandon Walker氏はIBMに所属するデータサイエンティストであり、テキサス A＆M大学で統計学と経済学の教鞭も執っています（同氏の詳しい業績はこちらを参照）。同氏がMediumに投稿した記事『いかにしてわたしの学部生のチームがデータサイエンスコンペで修士生と博士生に勝利したか』では、同氏が指導した学部生から成るデータサイエンスチームがデータサイエンスのコンペで修士生と博士生のチームに勝利した要因が解説されています。

テキサス A＆M大学が主催したデータサイエンスコンペでは、ロサンゼルスで実際に運用されている自転車シェアサービスに関するデータにもとづいてデータサイエンスプロジェクトを立ち上げ、プロジェクトでの取り組みをプレゼンするという課題が出題されました。

コンペに参加した多数のチームはデータサイエンス専攻の修士生と博士生から成り、対して同氏が指導していたチームは学部生からのみ構成されていました。こうしたなか、修士生と博士生のチームは数学的に精緻なシェア自転車の使用予測モデルを開発し、プレゼンでもデータクリーニングやハイパーパラメータといった技術的な解説に注力しました。学部生チームも使用予測モデルを開発しましたが、そのほかにも駐輪ステーションごとの利用自転車数予測、さらには成功する新規ステーションの設置場所に関する評価モデルも開発して、自転車シェアサービスを改善するソリューションを提案しました。

実際にサービスを改善できるソリューションを提案したことが評価されて、学部生チームは見事コンペで優勝しました。こうした結果になった理由として、学部生チームはプロセス＝手段の精緻さではなく、データサイエンスプロジェクトで真に重要な価値=ビジネス的結果を提供したから、と同氏は論じています。

「データサイエンスプロジェクトで重要なのは、手段ではなく結果」という考察は、例えばAINOW翻訳記事『12の機械学習スタートアップと働いてわたしが学んだこと』においても「考えるべきは問題であり、手段ではない」という表現で指摘されていることも考慮すると、「ビジネス価値駆動的」という観点は良いデータサイエンスプロジェクトの本質を突いていると言ってよいでしょう。

なお、以下の記事本文はBrandon Walker氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。

テキサスA＆Mデータサイエンス研究所のコンペに参加して明らかになったデータサイエンスの成功に関しては、幾ばくかの秘密があるように思われる。そこでわたしがコンペで経験したことを概略し、わたしが教えた学部生のチームが並みいる修士生と博士生のチームを負かすことに成功したカギとはどのようなものであったかを説明したい。

コンペの仕組み
- 挑戦すべき課題に関する声明
- わたしのチーム
他のチームが提出したもの
わたしのチームが提供したもの

コンペの仕組み

コンペに参加した各チームには、ロサンゼルスの自転車シェアサービス（Metro Bike Share）のデータが配布された。そのデータにはロサンゼルスの自転車ステーション間のすべての利用情報が詳述され、利用時の位置情報（スタート地点と終点）、利用された日付と時刻、およびユーザの支払いプラン（年間利用者／月間利用者／ 1回の利用のみ）も提供された（※訳註1）。コンテストの開始日から1か月以内に、20ページのレポートを提出するよう求められた。レポートの提案内容を見たうえで7つのグループが選抜され、選抜されたグループは優勝者を決める学術関係者と業界関係者から成る審査団に対してプレゼンする。

挑戦すべき課題に関する声明

「中心的な問題は、Metro Bike Shareプログラムが始まった2016年から今日までにおいて、ロサンゼルスの自転車通勤者がどのように変化したか、ということだ。特に、出場者は典型的な一日における収益と利用状況がどのように変化したかをロケーションと時間の両面から考察するように求められる。3つの地域すべてでチケットとパスポートの数は増えているのか（※訳注2）？片道通勤者の走行距離は伸びたのか、そして走行距離の変化はどのくらいか？利用回数は増えているのか？チームの取り組みは使用される方法、考察における深さのレベル、精確さ、そして創造性とプレゼンテーションスキルなどの分析を構成する要素から評価される」

わたしのチーム

Josiah Coad（コンピューターサイエンス専攻／数学も専攻）
Chinmay Phulse（コンピューターサイエンス）
Sheelabhadra Dey（コンピューターサイエンス）
わたし（統計／経済学）

（※訳註1）Metro Bike Shareの自転車利用状況に関しては、こちらからデータを入手することができる。データは2016年第三四半期から四半期ごとにまとめられている。データには以下のような情報が含まれている。

利用ID
利用期間（分）
利用開始時間と利用終了時間
利用開始ステーションのIDと位置情報
利用終了ステーションのIDと位置情報
自転車ID
利用者のプラン有効期限（1日／30日／365日のいずれか）
利用カテゴリー（片道 or周遊）
定期パスの種類（1日／月間／年間）
自転車の種類（クラシック／電動／スマート）

クラシック自転車は前方にカゴがついた3段変速式の基本的な自転車。電動自転車は電動駆動装置がついている。スマート自転車は8段変速式。

利用料金の支払いは、走行時間で精算する方法と定期パスを使う方法の2種類がある。

30分利用につき1.75ドルかかる。
電動自転車はロックを解除するのに1ドルかかる。
スマート自転車サービスエリア内で利用する場合は利用後のロックに2ドルかかり、サービスエリア外でのロックには20ドル（約2,200円）かかる。
定期パスの価格は1日パスが5ドル（約550円）、月間パスが17ドル（約1,900円）、年間パスが150ドル（約16,000円）。

（※訳註2）Metro Bike Shareサービスのステーションは、ロサンゼルス市内の以下のような3つのエリアに集中している（下の画像参照）。

画像出典：Metro Bike Share「Station Map」より[/caption]

サンタモニカ空港、ジュラシック・テクノロジー博物館を含むロサンゼルス南西部エリア
ロサンゼルス自然史博物館、ダウンタウン・ロサンゼルス、グリフィス天文台を含むロサンゼルス東部エリア
スタジオシティ、バレービレッジ、ノースハリウッドを含むロサンゼルス北部エリア

他のチームが提出したもの

以下の提出物は他のチームに共通していた：

レポートのみを提出
そのレポートの主な焦点は、過去の自転車使用量に基づいた自転車使用量の予測モデルであった
外部データは使用していない
プレゼンテーションでは専らデータクリーニング、モデルの選択、ハイパーパラメータの最適化について話した

わたしのチームが提供したもの

（必要だったため）pdfを提出したが、そのpdfには開発したすべてのモデルに関する情報とビジュアライゼーションを提供するインタラクティブなWebアプリへのリンクがあった。私たちのレポートは以下の4つのことに焦点を合わせた：

自転車の使用状況の予測モデルを提出。しかし他のグループとは異なり、LA Bike Shareが新しいサービスなので多くのステーションを追加されただろう、と私たちのグループは認識していた。新規ステーションの追加は自転車使用量に大きく影響し、ステーション数が突然増加した場合、過去のデータから将来の成長を予測することが妨げられる。他のグループは自己回帰モデルのみを使用していたのに対し、わたしたちのモデルは将来オープンするステーションの数を考慮に入れた。
一日の終わりに各ドッキングステーションで利用終了する自転車の数をモデル化した。こうしたモデルをふまえて、高密度のステーションから低密度のステーションに自転車で移動するようにユーザを促すために、支払いの仕組みをどのように変更できるかについて議論した。
新しいステーションの設置場所に関する有益な提案ができるように、LA Bike ShareのWebサイトをスクレイプした。それから新規ステーションの設置場所に関する密度マップと、その場所についてのユーザが書いた内容をワードクラウドにした。この試みにより、人気のある設置場所とその種類が明らかになった。
設置場所にもとづいて新規ステーションの成功を予測するアルゴリズムを作成した。このアルゴリズムは社会経済のデータ、設置場所に近い駅の繁栄ぶり、歩きやすさ、ロサンゼルスの地下鉄駅までの距離に基づいて構築された。

わたしが思うに、データサイエンティストはデータから価値を創造するというデータサイエンスのポイントをしばしば忘れてしまい、代わりにプロセスに集中し過ぎてしまう。わたしたちのチームは多くのモデルを提供しただけでなく、モデルが基礎的なビジネスにどのように影響するか、そしてモデルが与える影響にもとづいて採用できる／すべきアクションについて話した。こうしたデータから導かれた提案こそ、データサイエンティストを雇うヒトが本当に聞きたいことなのだ。

おそらく以下のベン図のいくつかのバージョンを見たことがあるのではなかろうか（※訳註3）。私のチームは信じられないほどの能力を備えたユニコーンだと言うつもりはないが、それでも我がチームはベン図の3つのサークルすべての交差点にいると思うのだが、どうだろうか？機械学習に焦点を当てる一方でユースケースを欠いていたので、多くのグループは自分たちがコーディングと統計の交差点にいることに気づいたことだろう。わたしが知る限りでは、他のチームはわたしたちよりもはるかに洗練されたモデルを持っていたが、ユースケースを考え出し、実際に機能する結果を提供する段になると、我がチームは輝いていた。コーディング領域と統計領域の交差点にうまく適合しているグループが多かったが、ドメイン領域というほかのサークルで使われるツールの知識がなかったので、ドメイン領域をレポートに落とし込むことに悪戦苦闘したのではないか、とわたしは推測している。読者諸氏がデータサイエンスの仕事に携わる時には、仕事の影響力を最大化して顧客に採用されるためにも以下の3つのサークルを兼ね備えるようにしよう。

データサイエンスに関するベン図

最後に、わたしたちのプロジェクトは他のプロジェクトより見るのがずっと楽しかったと言いたい。「見て楽しい」と思うことについては、見るヒトが小学校1年生であろうが、博士号持ちであっても等しく評価できる（※訳註4）。ヒトは目の前にインタラクティブな地図があれば、それを弄りたくなるものだ。誰もがモデルの背後にある数学を理解しているわけではない。モデルの数学的背景を理解できるヒトであっても、そんなヒトはたいてい（そのモデルを気にかけて）モデルの「なぜそうなのか」を本当に掘り下げるために時間を割いたりしない。その一方で誰もがビジネスのユースケースについて考え、気にかけている。魅力的でインタラクティブなビジュアライゼーションを作ることは、データサイエンスの仕事が採用されるように促す違いを生み出す。わたしは次のようなことを度々言ってきた。「データサイエンスにおいては時としてあなたの仕事が洗練されているかではなく、どのくらいのヒトがあなたのプレゼンを理解したかによってジャッジされるのだ」。

（※訳註3）データサイエンティストに求められるスキルと知識の関係を図示したベン図に関しては、AINOW翻訳記事『データサイエンティストという職業における第三の波』で詳しく論じられている。

（※訳註4）データサイエンスプロジェクトにおけるビジュアライゼーションの重要性については、AINOW翻訳記事『意識の高いデータサイエンティストにオススメの6つのこと』で指摘されている。

原文
『How My Team of Undergrads Won a Data Science Competition for Graduate and Ph.D. Students』