HOME/ AINOW編集部 /Kaggleで世界ナンバーワンになるために必要なこと
2021.07.16

Kaggleで世界ナンバーワンになるために必要なこと

著者のParul Pandey氏は世界各地に拠点のあるAIスタートアップH2O.aiでデータサイエンス・エバンジェリストを務めており、同氏の記事はAINOWでも度々紹介してきました。同氏が最近Mediumに投稿した記事『Kaggleで世界ナンバーワンになるために必要なこと』は、Kaggleグランドマスターにインタビューするシリーズの最新記事です。
今回インタビューしたGuanshuo Xu氏は、アメリカ・ニュージャージー工科大学で電気・電子工学の博士号を取得した後、データサイエンティストになりました。その後、Kaggleを発見してのめり込み、ついにコンペで世界1位を獲得しました。そんな同氏のKaggleの取り組み方を要約すると、以下のようになります。
  • Kaggleコンペに参加するモチベーションは、賞金を獲得することや最新技術を学べることなど複合的な満足感から得ている。
  • コンペで世界1位になるより、1位を維持することのほうが難しい
  • 1位を維持するには、複数のコンペに同時に参加することが求められる。
  • 問題に取り組む際には、はじめにデータや問題の理解に時間をかけてから、コーディングとモデリングに着手する。
  • 新しい技術を調べる時は、すぐに役に立たないものは除外して、刺激的なものを優先する。

最後の質問としてデータサイエンティスト入門者あるいは志望者にアドバイスを求められたところ、「学習やスキルアップのための適切なプラットフォーム」を見つけることが重要であり、そうしたプラットフォームのひとつとしてKaggleを利用するのも得策、とxu氏は答えました。

なお、以下の記事本文はParul Pandey氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならび組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

画像出典:著者作成

Guanshuo Xu氏との対談:彼はデータサイエンティスト、Kaggleコンペティション・グランドマスター(ランク1)、そして電気工学博士

このインタビューシリーズは、H2O.aiで活躍するデータサイエンティストやKaggleグランドマスターが、現在にいたるまでの道のりやインスピレーション、そして達成感を語ってくれるものである。これらのインタビューの意図は、Kaggleグランドマスターになるために必要なことを理解したいと思っている人たちのモチベーションを高め、励ますことにある。

今回の記事では、Guanshuo Xu氏とのやりとりを紹介する。彼は、Kaggleコンペティションのグランドマスターであり、H2O.aiのデータサイエンティストでもある。ニュージャージー工科大学(※訳註1)で電気・電子工学の博士号を取得し、機械学習を用いた画像のフォレンジック( forensics)とステガナリシス(steganalysis)(※訳註2)を研究していた。

(※訳註1)ニュージャージー工科大学は、ニュージャージー州にあるアメリカトップレベルの州立工科大学。マーキュリー計画、ジェミニ計画、アポロ計画のすべてに参加した唯一の宇宙飛行士であるウォルター・シラーは同大学の卒業生。
(※訳註2)(デジタル・)フォレンジックとは、コンピュータ犯罪においてデジタルデバイスに記録された情報の復元や回収を行う調査活動のこと。ステガナリシスとは、画像や音楽データといったデジタル情報のなかに隠されたデータを発見する調査活動のこと。フォレンジックとステガナリシスは、サイバー犯罪の捜査に活用される。

Guanshuo氏は、多くの業績を残している人物である。彼が考案した実世界での画像改ざんの検出と特定のための手法は、第1回IEEE Image Forensics Challengeで2位を獲得した。また、彼が考えたディープニューラルネットワークのアーキテクチャ設計は、画像ステガナリシスにおいて、従来の特徴ベースの手法を初めて凌駕した。さらに最近では、Alaska2 Image SteganalysisRSNA STR Pulmonary Embolism Detectionのコンペで優勝し、Kaggleのコンペティションティアで世界ランク1位を達成した。

また、CTDS.show(※訳註3)が公開しているKaggleでの成果を語った彼のインタビュー動画へのリンクも紹介する。

(※訳註3)CTDS.showとは、H2O.aiインド支社所属の機械学習エンジニアSanyam Bhutani氏が運営する世界各国のAIエンジニアにインタビューするYouTubeチャンネル。なお、「CTDS」はChai Time Data Science(データサイエンスのチャイタイム)の頭文字をとった略称である。AINOW翻訳記事で度々紹介しているオーストラリア在住の機械学習エンジニアDaniel Bourke氏のインタビュー動画も公開している。

・・・

今回のインタビューでは、Guanshuo氏の学歴、Kaggleへの情熱、そしてナンバーワンの座を獲得するまでの道のりについて詳しく紹介する。以下では、彼との会話を抜粋する。

あなたは電気工学の博士号を取得しています。機械学習を仕事にしようと決めたのは、その影響でしょうか?

Guanshuo:その通りです。私の博士課程の研究では、機械学習の技術を使って画像の改ざん検出や隠しデータの検出などの問題を解決しました。例えば、私の最後の博士課程の研究プロジェクトは、ディープニューラルネットを使って画像のステガナリシスを解析するというものでした。このように、私の学歴と研究は機械学習に直接関係しています。そうしたわけで、機械学習は私にとって自然なキャリアの選択でした。

・・・

Kaggleとの出会いはどのようなものだったのでしょうか。また、グランドマスターになるまでには、何によってモチベーションを保ったのでしょうか?

Guanshuo:Kaggleを発見したときから、私はそれにハマりました。継続してKaggleに参加するモチベーションになっているのは、大会で優勝して賞金を獲得すること、新しいテクニックを学ぶこと、機械学習に対する理解を広げたり深めたりすること、そして驚くほど効果的なモデルを構築することなどから得られる複合的な満足感です。

・・・

大会で世界ナンバーワンになった気分とはどんなものですか?コンペ中に余計なプレッシャーがかかることはありませんか?

コンペティション・カテゴリーにおける現時点での上位5名のkaggler | 画像出典:Kaggleウェブサイト

Guanshuo:正直なところ、ナンバーワンを達成することよりも、それを維持することに大きなプレッシャーを感じます。それは、「よりスムーズな」パフォーマンスが求められるからです。以前よりも多くのコンペに同時に参加しなければならないこともあります。

・・・

Kaggleの問題にはどのように取り組んでいますか?

Guanshuo氏が参加したコンペの履歴一覧:画像出典:https://www.kaggle.com/wowfattie/competitions

Guanshuo:私のアプローチは、問題の種類やコンペの目標によって異なります。最近では、データや問題を理解するために何日か、場合によっては何週間もかけます。例えばプライベートテストデータの分布を推測したり、適切な検証方法や詳細なモデリング手順などを含む解決策を考えたりすることが多いです。全体的なアプローチのイメージがつかめたら、コーディングとモデリングを始めます。このプロセスにより、理解が深まり、必要に応じて全体のアプローチに修正や調整を加えます。

・・・

好きなプログラミング言語、統合開発環境、アルゴリズムなど、あなたのツールキットなどを少し覗かせてください。

Guanshuo:私のツールキットに関しては、主にgedit(※訳註4)、Python、そしてディープラーニング用のPytorchを使用しています。

(※訳註4)geditとは、デスクトップ環境のひとつであるGNOMEの標準テキストエディタ。複数のプログラミング言語に対応したハイライト表示をはじめとしたプログラム開発者向け機能を実装している。

・・・

データサイエンスの領域は急速に進化しています。どのようにして最新の動向を把握していますか?

Guanshuo:新しいものや技術については、Kaggleや同僚、あるいは単純にググって知ることが多いです。機械学習の新しい開発技法を調べるにあたっては、実際のニーズを参考にします。すぐに役に立たないものは除外して、潜在的に刺激的なものをより注目します。さらに必要なときに必要な情報を得るようにしています。

・・・

データサイエンスの旅を始めたばかり、あるいは始めたいと思っている人たちにアドバイスをお願いします。

Guanshuo:アドバイスはそれを聴く人のバックグラウンドや興味によって異なるものです。しかし、学習やスキルアップのための適切なプラットフォームを見つけられれば、一般に万事がずっと楽になります。適切な学習プラットフォームのひとつとして、Kaggleのコンペに参加するのも有効な手段だと思います。

・・・

世界ナンバーワンの座を獲得するのは並大抵のことではないのだが、Guanshuo氏の妥協しない姿勢と努力は、まさに賞賛に値する。彼がKaggleで勝ち取ったさまざまなソリューションを見ると、問題解決に不可欠な要素となる構造化されたアプローチがよくわかるのだ。

・・・

このシリーズの他のインタビューを読む

(※訳註5)このインタビュー記事の翻訳は、AINOW翻訳記事『Kaggleで勝ちっぱなしのデータサイエンティストに話を聞いてみた』を参照。

この記事はH2O.aiブログで初出された

・・・

👉 私が執筆した他の記事を読むことに興味がありますか。こちらのレポジトリには、私が書いた記事がカテゴリごとにまとめられています。


原文
『What it takes to become a World No 1 on Kaggle』

著者
Parul Pandey

翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)

編集
おざけん

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

「Yahoo!知恵袋」でも活用、LINEヤフーの生成AI活用戦略

IMFレポート解説:無策だとAIによって格差社会となる。「公平なAI先進国」になるための日本の政策とは?

AGI実現までのロードマップを歩み出す

生成AI導入事例集|産官学の生成AI導入背景、実装方法、効果まで完全網羅

あなたにおすすめの記事

「Yahoo!知恵袋」でも活用、LINEヤフーの生成AI活用戦略

IMFレポート解説:無策だとAIによって格差社会となる。「公平なAI先進国」になるための日本の政策とは?

AGI実現までのロードマップを歩み出す

生成AI導入事例集|産官学の生成AI導入背景、実装方法、効果まで完全網羅