HOME/ AINOW編集部 /Kaggleで勝ちっぱなしのデータサイエンティストに話を聞いてみた
2021.02.22

Kaggleで勝ちっぱなしのデータサイエンティストに話を聞いてみた

最終更新日:

著者のParul Pandey氏は世界各地に拠点のあるAIスタートアップH2O.aiでデータサイエンス・エバンジェリストを務めており、AINOW翻訳記事『あなたのビジネスにAI戦略を効果的に使用する方法』の著者でもあります。同氏が最近Mediumに投稿した記事では、H2O.aiに所属するKaggleグランドマスターにKaggleの取り組み方に関してインタビューしました。
データサイエンティストのPhilipp Singer氏は、オーストリアのグラーツ工科大学で博士号を取得後、自身の知識を応用する機会を求めてデータサイエンス業界に入りました。同氏がKaggleを始めたのは単なる情報収集がきっかけだったのですが、優秀な成績をおさめたことによってKaggleに夢中になりました。そんな同氏のKaggleの取り組み方、そしてKaggleから学んだことの要点をまとめると、以下のようになります。
  • Kaggleの必勝法はないものも、様々なコンペで共通して使えるノウハウをまとめた汎用的なツールボックスを作成した。
  • Kaggleコンペに取り組む際は、類似の課題に関する解決策や課題に関連する論文を調べながらモデルを開発する。
  • Kaggleを通して、オーバーフィッティングの影響をあまり受けない頑健なモデルの開発ノウハウを習得できた。
  • Kaggleコンペで使われる技術をフォローすれば、最新技術に触れられる。さらに新しい技術がKaggleで使われ続けた場合、その技術は頑健で長く使えるものと判断できる。
  • 最新技術のフォローにはKaggleのほかに、有名な研究者や開発者をTwitterなどでフォローするのがよい。

インタビューの最後で、同氏はKaggleあるいはデータサイエンス業界の入門者に対して「手を汚し、失敗を恐れず、常に新しいことを学ぶ意欲」を持つようにとアドバイスしています。Kaggleグランドマスターになるためには、とにかく一歩ずつ歩むことが必要というわけなのです。

なお、以下の記事本文はParul Pandey氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならび組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

Philipp Singerとの対談:彼はデータサイエンティスト、Kaggleダブルグランドマスター、そしてコンピュータサイエンスの博士号取得者である。

Kaggleのグランドマスターに話を聞くこのインタビューシリーズでは、KaggleのグランドマスターにしてH2O.aiで活躍しているデータサイエンティストたちとの話を紹介して、彼らの旅路、インスピレーション、成果を共有している。これらのインタビューは、Kaggleのグランドマスターになるために何が必要かを理解したいと思っている人たちのモチベーションを高め、励ますことを目的としている。

このインタビューでは、Kaggleの世界ではPsiとして知られているPhilipp Singerとの交流を共有する。彼はKaggleダブルグランドマスターであり、H2O.aiシニアデータサイエンティストである。彼はグラーツ工科大学(※訳註1)でコンピュータサイエンスの博士号を優秀な成績で取得し、そこでソフトウェア開発と経営管理の修士課程も修了している。

(※訳注1)グラーツ工科大学とは、1811年創立のオーストリアで有数の工科大学。卒業生には交流電気方式を発明した二コラ・テスラがいる。

Philippには、Kaggleでの複数の勝利や上位入賞、有名なWorld Wide Web Conferenceでの最優秀論文賞など、科学的な栄誉を含むいくつかの実績がある。彼は現在、Kaggleのコンペティションで世界第3位にランクされており、こうした実績は非常に印象的であり、同時にKaggle参加者を鼓舞するものである。

Philippの最も注目すべき業績の一つは、NFLの第2回年次Big Data Bowlコンペ(※訳註2)で仲間のH2O.aiデータサイエンティストであるDmitry Gordeevとチームを組んで優勝したことだ。世界中から集まった2,000人以上のデータサイエンティストがKaggleでランプレイの結果を予測して競い合った。PhilippとDmitry Gordeevは、課題に対して独自のアプローチをして5万ドルの賞金を獲得した(※訳註3)。

(※訳註2)NFL Big Data Bowlとは、アメリカのプロアメフトリーグであるNFLが出題したKaggleコンペのこと。2019年10月9日から2020年1月6日まで開催され、賞金は75,000ドル(約780万円)であった。その内容は、アメフトの攻撃戦術のひとつであるランプレイ(クォーターバックからボールを受け取ってゴールに向かって走るプレイ)の獲得距離を予測するモデルを開発するというもの。提供されたアメフトの試合データには、ボールを保持している選手のフィールド上での位置、身体の向き、移動速度等が含まれていた。
(※訳註3)Philipp氏とDmitry氏は、提供された試合データに含まれる特徴量を以下のような3つのカテゴリーに分けた。
  1. ボールを保持している選手に関する身体の方向等のデータ。
  2. ボール保持選手の前進を阻止するためにディフェンスする対戦チーム選手たちに関する位置等のデータ。
  3. ボール保持選手をディフェンスする選手をブロックする(ボール保持選手と同じチームにいる)オフェンス側選手たちに関する位置等のデータ。

以上のデータグループに関して、CNNを使って特徴を抽出して予測モデルを作成した(下のモデル概略図を参照)。

インディアナポリスで講演する2019-20 Big Data Bowl優勝者のPhilipp Singer氏とDmitry Gordeev氏(奥)

・・・

このインタビューからは、彼の学歴、Kaggleへの情熱、そしてデータサイエンティストとしての仕事について詳しく知ることができる。以下はPhilippとの会話からの抜粋である。

あなたはコンピュータサイエンスの博士号をお持ちですね。学術研究に固執するのではなく、キャリアとしてデータサイエンスを選んだのはなぜですか?

Philipp: オーストリアのグラーツ工科大学でコンピュータサイエンスの博士号を取得し、ドイツでポスドクとして働きました。学術的なキャリアのあいだに様々なデータサイエンスに触れ、有名な学会やジャーナルで多くの論文や記事を発表しました。そうしたキャリアの次のステップとして、私は教授職を目指すべきと思っていました。実際、教授職は非常に魅力的に思えました。しかし、教えることは好きですが、もっと応用的な仕事をしたいとも思っていました。というのも、学術研究によってできることを超えて、自分の仕事をもっとインパクトのあるものにしたいと思っていたからです。そのため、データサイエンスの仕事をすることにしました。そんなわけで博士課程をすっかり楽しみ、この時期に多くのことを学んだ後、今ではデータサイエンスと機械学習の最前線にいて、H2O.aiで真の価値の作り手としての役割を果たせることを嬉しく思っています。

・・・

Kaggleとの関係はどのように始まりましたか?また、グランドマスターになるまでの旅において、何によってモチベーションを維持しましたか?

Philipp: 私がKaggleにサインアップしたのは8年ほど前で、博士号取得に向けての第一歩に近い頃でした。サインアップしたのは、このプラットフォームの話を聞いて、チェックしたくなったからでした。私はサンプル投稿以上のことはしませんでしたが、その後6年間Kaggleに触っていませんでした。2年ほど前、Dmitry(当時のKaggleにおける登録名はdott1718、現在は仕事の同僚)と私は仕事でのサイドプロジェクトとして一緒にKaggleのコンペを試してみることにしました。当初はコンペにほとんど期待していなかったのですが、コンペで勝利してしまい、この勝利によってすっかり夢中になってしまい、こうして私のKaggleの旅は始まりました。Kaggleにおける私のアプローチは、常にモチベーションを維持するために新しいタイプの問題に取り組むことであり、適切に解決すべき新しくてエキサイティングな問題がKaggleにはまだあります。またKaggleで才能ある人々に会って一緒に仕事をしたり、コミュニティがどのように努力しているかを見たりして楽しんでいます。

・・・

最近ではKaggleのリーダーボードで素晴らしい結果を残しており、先日行われたコンペであるNFLの始まりと未来― インパクトの検出(※訳註4)で2位となりました。問題をうまく解決するためにどのようなアプローチをとっているのでしょうか?

Philip::どうすればKaggleのコンテストで勝てるのかとよく聞かれますが、勝利が得られる汎用的な秘伝のソースがあるとは思っていません。Kaggleでの成功の多くは、経験と一見するとあまり知られていないことに触れて学ぶ意欲にもとづいています。時間をかけて、私は自分が取り組んできた各コンペの構成要素を集めて作った独自で汎用的なツールボックスを組み立ててきました。例えば、適切な交差検証の設定方法、モデルに使用するライブラリ、モデルを適切にフィットさせる方法、パフォーマンスを追跡する方法、そして同様のノウハウを理解しています。そのため、最近のコンペでは新しく重要な部分に集中する時間が増えているのです。より効率性と競争性を身につけるために、コンペの後は常にワークフローを改善しようともしています。

Kaggleでの成功の多くは、経験と一見するとあまり知られていないことに触れて学ぶ意欲にもとづいています。

(※訳註4)NFLの始まりと未来― インパクトの検出とは、NFLが開催したアメフトを題材としたKaggleコンペ。その内容はNFLの試合に関する画像や動画から、選手どうしが衝突した際に生じるインパクトを予測するというもの。学習データには、試合をエンドゾーンから撮影した動画とフィールドをサイドから撮影した動画の組を1単位としたものが提供された。

・・・

参加するコンペはどうやって決めるのですか?

Philipp氏のKaggleにおける上位実績一覧

Philipp:私は主に、データや解決すべき問題に関して面白いと思えそうな新しいタイプの問題やコンペに取り組むようにしています。時には毎週変化する技術の状態を知るために、よりスタンダードなコンテストにも挑戦しています。

・・・

Kaggleの問題にはどのようにアプローチするのが一般的ですか?コミュニティと共有したいお気に入りの機械学習の教材(オンライン講座、ブログなど)があれば教えてください。

Philipp:私はすでに蓄積した方法、ツール、経験のレパートリーに頼って、目の前にある特定の問題を研究しようとします。つまり、Kaggle上で似たような問題の過去の解決策を研究したり、関連する論文を読んだりしているのです。問題について学ぶための最良の方法は、実際に取り組んで、その取り組みの最中で学ぶことです。

・・・

H2O.aiのデータサイエンティストとして、あなたの役割と働いている専門分野は何ですか?

Philipp氏はKaggleグランドマスターフェローとしてH2O.aiに所属

(※訳註5)上のH2O.aiのメンバー写真一覧のうち、左下隅の写真がこの記事の著者であるPaurl Pandey氏

Philipp:H2O.aiでは、私の役割は非常に多面的です。私はいつも顧客に向き合ったプロジェクトに取り組んでおり、そこでの私の目標はデータサイエンスの専門知識を使ってプロジェクトをサポートすることです。さらにKaggleのグランドマスターとして、常に最先端の経験と知識を活用して、継続的に製品を改善し、新しい最先端のプロトタイプやソリューションを開発しようとしています。例えば、Driverless AIの新機能の提案をしたり、WaveでAIアプリケーションを開発して、新しい技術やフルパイプラインのデータサイエンスソリューションを実証したりしています(※訳註6)。

(※訳註6)Driverless AIとは、H2O.aiが開発・提供する機械学習プラットフォーム。特徴エンジニアリング、チューニング等を効率よく実行でき、数分から数時間で機械学習が開発できる。
Waveとは、同社が開発・提供するPythonアプリの開発フレームワーク。インタラクティブなAIアプリケーションをすばやく開発できる。

・・・

Kaggleからの学びをH2o.aiのあなたの専門分野に応用したことのなかで、何がいちばん良かったですか?

Philipp:Kaggleで学ぶ重要なことのひとつは、一般化しやすく、強いオーバーフィッティングの影響を受けない頑健なモデルをどのように生成するかということです。このノウハウを実践するには、目に見えないプライベートデータをうまく処理する必要があるので、Kaggleでは非常に重要です。つまり、頑健な交差検証について多くを学び、特徴分布のシフトや特定の本質的な側面のようなデータの異なった断面を気にすることが大事なのです。私はこの知識をH2O.aiでの仕事にうまく活用できています。こうした学びを生かして、専門知識と各分野の知識でサポートしながら、顧客が頑健な機械学習を実行できるようにしたいと思っています。

・・・

データサイエンス領域は急速に進化しています。どのようにして最新の開発に対応しているのでしょうか?

Philipp:私はほとんどの場合、最新の開発についていくためにKaggleを使っています。Kaggleは、新しい技術が実践的で問題に応用できるものなのか、それとも役に立たないのかを振り分ける素晴らしいフィルターでもあるのです。通常、頑健な手法は生き残り、たまにしか機能しない限界的な手法はフィルタリングされてしまいます。同時に、私はtwitterや他のプラットフォームで有名な研究者や実務家をフォローすることで最新の情報を得るようにしています。

あなたの機械学習の専門知識を活かしたい分野や問題はありますか?

2020年1月9日に開催されたウィーンデータサイエンスグループのミートアップではPhilipp氏が講演した

Philipp:(自分の専門知識を活かすのに)とくにこだわりはありません。仕事やKaggleで出会う興味深い問題に驚かせてほしい、とわたしはいつも思っています。一見面白いとは思えないような問題を掘り下げることはとても重要です。(様々な問題に取り組むことで)問題に対して偏見のない視点に立ったり、他の問題で得た経験をデータに応用したりすることもできるでしょう。

・・・

データサイエンスやKaggleを始めたばかりの方や、これからデータサイエンスの旅を始めたいと思っている方に一言アドバイスをお願いします。

Philipp:手を汚し、失敗を恐れず、常に新しいことを学ぶ意欲を持ちましょう。

・・・

PhilippのKaggleの旅は非常に注目に値する。彼の旅、献身、そして成果は、この分野ですでに働いている人やキャリアを築こうとしている人にとって、インスピレーションの源となることは間違いだろう。

・・・

このインタビューシリーズのほかの記事も読んでみよう:


原文
『Meet the Data Scientist who just cannot stop winning on Kaggle』

著者
Parul Pandey

翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)

編集
おざけん

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

「Yahoo!知恵袋」でも活用、LINEヤフーの生成AI活用戦略

IMFレポート解説:無策だとAIによって格差社会となる。「公平なAI先進国」になるための日本の政策とは?

AGI実現までのロードマップを歩み出す

生成AI導入事例集|産官学の生成AI導入背景、実装方法、効果まで完全網羅

あなたにおすすめの記事

「Yahoo!知恵袋」でも活用、LINEヤフーの生成AI活用戦略

IMFレポート解説:無策だとAIによって格差社会となる。「公平なAI先進国」になるための日本の政策とは?

AGI実現までのロードマップを歩み出す

生成AI導入事例集|産官学の生成AI導入背景、実装方法、効果まで完全網羅