今回インタビューしたGuanshuo Xu氏は、アメリカ・ニュージャージー工科大学で電気・電子工学の博士号を取得した後、データサイエンティストになりました。その後、Kaggleを発見してのめり込み、ついにコンペで世界1位を獲得しました。そんな同氏のKaggleの取り組み方を要約すると、以下のようになります。
- Kaggleコンペに参加するモチベーションは、賞金を獲得することや最新技術を学べることなど複合的な満足感から得ている。
- コンペで世界1位になるより、1位を維持することのほうが難しい。
- 1位を維持するには、複数のコンペに同時に参加することが求められる。
- 問題に取り組む際には、はじめにデータや問題の理解に時間をかけてから、コーディングとモデリングに着手する。
- 新しい技術を調べる時は、すぐに役に立たないものは除外して、刺激的なものを優先する。
最後の質問としてデータサイエンティスト入門者あるいは志望者にアドバイスを求められたところ、「学習やスキルアップのための適切なプラットフォーム」を見つけることが重要であり、そうしたプラットフォームのひとつとしてKaggleを利用するのも得策、とxu氏は答えました。
なお、以下の記事本文はParul Pandey氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならび組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
Guanshuo Xu氏との対談:彼はデータサイエンティスト、Kaggleコンペティション・グランドマスター(ランク1)、そして電気工学博士
このインタビューシリーズは、H2O.aiで活躍するデータサイエンティストやKaggleグランドマスターが、現在にいたるまでの道のりやインスピレーション、そして達成感を語ってくれるものである。これらのインタビューの意図は、Kaggleグランドマスターになるために必要なことを理解したいと思っている人たちのモチベーションを高め、励ますことにある。
今回の記事では、Guanshuo Xu氏とのやりとりを紹介する。彼は、Kaggleコンペティションのグランドマスターであり、H2O.aiのデータサイエンティストでもある。ニュージャージー工科大学(※訳註1)で電気・電子工学の博士号を取得し、機械学習を用いた画像のフォレンジック( forensics)とステガナリシス(steganalysis)(※訳註2)を研究していた。
Guanshuo氏は、多くの業績を残している人物である。彼が考案した実世界での画像改ざんの検出と特定のための手法は、第1回IEEE Image Forensics Challengeで2位を獲得した。また、彼が考えたディープニューラルネットワークのアーキテクチャ設計は、画像ステガナリシスにおいて、従来の特徴ベースの手法を初めて凌駕した。さらに最近では、Alaska2 Image SteganalysisとRSNA STR Pulmonary Embolism Detectionのコンペで優勝し、Kaggleのコンペティションティアで世界ランク1位を達成した。
また、CTDS.show(※訳註3)が公開しているKaggleでの成果を語った彼のインタビュー動画へのリンクも紹介する。
・・・
今回のインタビューでは、Guanshuo氏の学歴、Kaggleへの情熱、そしてナンバーワンの座を獲得するまでの道のりについて詳しく紹介する。以下では、彼との会話を抜粋する。
あなたは電気工学の博士号を取得しています。機械学習を仕事にしようと決めたのは、その影響でしょうか?
Guanshuo:その通りです。私の博士課程の研究では、機械学習の技術を使って画像の改ざん検出や隠しデータの検出などの問題を解決しました。例えば、私の最後の博士課程の研究プロジェクトは、ディープニューラルネットを使って画像のステガナリシスを解析するというものでした。このように、私の学歴と研究は機械学習に直接関係しています。そうしたわけで、機械学習は私にとって自然なキャリアの選択でした。
・・・
Kaggleとの出会いはどのようなものだったのでしょうか。また、グランドマスターになるまでには、何によってモチベーションを保ったのでしょうか?
Guanshuo:Kaggleを発見したときから、私はそれにハマりました。継続してKaggleに参加するモチベーションになっているのは、大会で優勝して賞金を獲得すること、新しいテクニックを学ぶこと、機械学習に対する理解を広げたり深めたりすること、そして驚くほど効果的なモデルを構築することなどから得られる複合的な満足感です。
・・・
大会で世界ナンバーワンになった気分とはどんなものですか?コンペ中に余計なプレッシャーがかかることはありませんか?
Guanshuo:正直なところ、ナンバーワンを達成することよりも、それを維持することに大きなプレッシャーを感じます。それは、「よりスムーズな」パフォーマンスが求められるからです。以前よりも多くのコンペに同時に参加しなければならないこともあります。
・・・
Kaggleの問題にはどのように取り組んでいますか?
Guanshuo:私のアプローチは、問題の種類やコンペの目標によって異なります。最近では、データや問題を理解するために何日か、場合によっては何週間もかけます。例えばプライベートテストデータの分布を推測したり、適切な検証方法や詳細なモデリング手順などを含む解決策を考えたりすることが多いです。全体的なアプローチのイメージがつかめたら、コーディングとモデリングを始めます。このプロセスにより、理解が深まり、必要に応じて全体のアプローチに修正や調整を加えます。
・・・
好きなプログラミング言語、統合開発環境、アルゴリズムなど、あなたのツールキットなどを少し覗かせてください。
Guanshuo:私のツールキットに関しては、主にgedit(※訳註4)、Python、そしてディープラーニング用のPytorchを使用しています。
・・・
データサイエンスの領域は急速に進化しています。どのようにして最新の動向を把握していますか?
Guanshuo:新しいものや技術については、Kaggleや同僚、あるいは単純にググって知ることが多いです。機械学習の新しい開発技法を調べるにあたっては、実際のニーズを参考にします。すぐに役に立たないものは除外して、潜在的に刺激的なものをより注目します。さらに必要なときに必要な情報を得るようにしています。
・・・
データサイエンスの旅を始めたばかり、あるいは始めたいと思っている人たちにアドバイスをお願いします。
Guanshuo:アドバイスはそれを聴く人のバックグラウンドや興味によって異なるものです。しかし、学習やスキルアップのための適切なプラットフォームを見つけられれば、一般に万事がずっと楽になります。適切な学習プラットフォームのひとつとして、Kaggleのコンペに参加するのも有効な手段だと思います。
・・・
世界ナンバーワンの座を獲得するのは並大抵のことではないのだが、Guanshuo氏の妥協しない姿勢と努力は、まさに賞賛に値する。彼がKaggleで勝ち取ったさまざまなソリューションを見ると、問題解決に不可欠な要素となる構造化されたアプローチがよくわかるのだ。
・・・
このシリーズの他のインタビューを読む
- Rohan Rao:数独からKaggleへ向かうデータサイエンティストの旅
- Shivam Bansal:Kaggleの「Data Science for Good」コンペティションを支配するデータサイエンティスト
- ベラルーシ出身の最初で唯一のKaggleグランドマスターのYauhenに会ってみた
- Sudalai Rajkumar: 数字への情熱が機械エンジニアをKaggleグランドマスターに変えた
- Gabor Fodor:Kaggleの世界における 「ベルーガ」の感動的な旅
- Kaggleで勝ちっぱなしのデータサイエンティストに話を聞いてみた(※訳註5)
- トルコのグランドマスターは、Kaggleで成功するためには他の人から学ぶことが重要だと言った
この記事はH2O.aiブログで初出された
・・・
👉 私が執筆した他の記事を読むことに興味がありますか。こちらのレポジトリには、私が書いた記事がカテゴリごとにまとめられています。
原文
『What it takes to become a World No 1 on Kaggle』
著者
Parul Pandey
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん