【Michael Black氏エッセー】31年間のICCVを振り返って

著者のMichael Black氏は、37人のノーベル賞受賞者を輩出しているドイツの研究機関マックス・プランク協会傘下でインテリジェントシステムを研究するマックス・プランク研究所を率いており、世界的な3つのコンピュータビジョンのカンファレンスであるECCV、ICCV、CVPRのすべてで受賞歴のある唯一の研究者です。同氏がMediumに投稿した記事『31年間のICCVを振り返って』では、1990年から2021年までのICCVの歩みが同氏の個人的な思い出を振り返りながら綴られています。

Black氏が大学院生であった1990年、日本の大阪で開催されたICCVに初めて参加した時、指導教官が日本までの旅費を出してくれました。この時以来、論文を書けば世界中を旅行できることをモチベーションとして、同氏は1990年から2021年のすべてのICCVに参加しました。
ICCVの歴史のなかでもっとも大きな出来事は、ディープラーニングの台頭です。ジェフリー・ヒントン率いる研究チームがAlexNetでImageNetチャレンジを制したことは、当時のコンピュータビジョン研究者に大きな衝撃を与えました。その衝撃の深さは、以下の記事本文で生き生きと書かれています。
Black氏は現在のコンピュータビジョンにおける研究動向にも言及しており、そうした動向は以下のような3つのカテゴリーに分類できます。

現在におけるコンピュータビジョン問題の3カテゴリー

低レベルの問題：動画における動体検出のような画像／動画のなかにあるピクセルの演算処理で問題が完結している問題。これらの問題には多数の解決手法があり、必要量の学習データを用意すれば解決する。
中レベルの問題：人間の姿勢の推定のような画像／動画のなかのピクセルから現実世界の視覚情報を推定する問題。これらの問題は解決手法が開発されているものも、学習データの収集がまだ難しい。
高レベルの問題：画像／動画のなかの人間が抱く感情、人間の行為の予測のような視覚情報としては与えられない事象の推定。これらの問題は、そもそもどのような性能指標を用いて研究すべきかがわかっていない。

以上のようにコンピュータビジョンの問題を分類したうえで、まだ手つかずの高レベルの問題があるので、ICCVは今後も活発なカンファレンスになるだろう、とBlack氏は述べています。

なお、以下の記事本文はMichael Black氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

2021年のThe International Conference on Computer Visionはバーチャル開催だったにもかかわらず、本当の会議場にいるにいるように感じられました。

私が初めてICCVに参加したのは1990年に開催された大阪であった。私は比較的新しい博士課程の学生で、「推移的移動の検出のためのモデル」というテーマで口頭発表した。指導教官のAnandan（※訳註1）は、カンファレンスの前に私に「これは君にとって大きなカンファレンスだ。この講演が終わったら、君は有名になるだろう」と言われた。そう言われて正直なところ、私は怖かった。

妻も一緒だったので、カンファレンスの前の1週間を使って日本各地を観光した。そのあいだ、私はずっとお腹を壊していた。日本食が合わないのかと思いきや、ストレスのせいだったのだ！講演が終わった瞬間、お腹はすっかり元気になった。結局、あの講演のことは誰も覚えていないだろうし、あの講演で私が有名になったわけでもない。名声とは、1本の論文から得られるものではない。それが得られるとすれば、長年の貢献によって築かれた評判からなのだ。

（※訳註１）Padmanabhan Anandanはコンピュータビジョンを専門とする人工知能研究者。イェール大学、Microsoft、Adobeなどで研究生活を送った。Anandanと本記事の著者Michael Blackとの共同論文はコンピュータビジョンにおいて有名であり、「Black and Anandan」法は同分野におけるロバスト統計の普及に寄与した。

ICCV’90における私の講演を写したひどい写真

1990年当時のICCV議事録を見ると、いくつかの点が印象的だ。

https://www.computer.org/csdl/proceedings/iccv/1990/12OmNAsTgXe

論文は、4ページから12ページまでさまざまななようだ。なぜそうかは覚えていないが。また、現在の論文に比べて著者の数が少なく、1人だけの場合も多かった。当時は、Sandy Pentlandのような上級教授でもシングルオーサーの論文を書けたのだ。著者の多くは現在も活躍している（Trevor Darrell、Luc van Gool、Pietro Perona、Jitendra Malik、Bill Freemanなど）。女性はほんの一握りで、残念ながら現在でもあまり進歩していない。また、分野がまだ若く、規模もそれほど大きくなかったため、論文に含まれる参考文献も今より多くなかった。文献を把握するのは、今よりもずっと簡単だった。126本の論文のうち、ニューラルネットワークに関するものが1本あった。「ホップフィールド・ニューラルネットワークによる物体認識」というものだ。

当時は、WWWもGitHubもGPUもなく、基礎となる既存の研究もほとんどなかった。私は空のEmacsバッファで博士号を取得し、（LispとCの）タイピングを始めていた。人々が莫大な費用をかけてデジタル化した少数の動画があり、これらの少数のシーケンスは誰もが使用していた。（当時の研究環境を知るには）画像や動画のデータをコンピュータに取り込む方法がない状態で、コンピュータビジョンの研究をすることを想像してみよう！

1990年当時の私にとって最も驚いたことは、指導教官が日本に行くための飛行機代を出してくれたことだった！それまであまり旅をしたことがなかった私は、すぐに旅の虜になった。論文を書き続ければ、無料で世界中を旅できるのだ！旅は大きなモチベーションになり、そのおかげで博士課程のあいだ生産的に過ごせた。今でも、論文がないとカンファレンスには参加できないと思っている。

ICCV 1990のレセプション ― 食事は無料だった。人生は良好だ！

当時の（コンピュータビジョンの）コミュニティはかなり小さかった。ICCV 1990は第3回目のICCVで、参加者は419名とかなり多かった。私にとっては初めてのコンピュータビジョンのカンファレンスだったが、皆がとてもフレンドリーに歓迎してくれたのが印象的だった。そこで出会った若き日のAndrew Zissermanとは、ホテルからカンファレンス会場まで一緒に歩いて行った。Andrew Blakeとの共著『視覚的再構築』は、私にとってバイブルのような存在だった。彼の頭の良さ、頭の回転の速さ、そして会場とホテルのあいだを歩きながら独学で日本語を読んでいることに驚いた。

当時も今もICCVで感銘を受けているのは、（参加する）人々がいかに親しみやすく、オープンであるかということだ。Andrewは1990年にはすでに有名だったが、私のような新米の大学院生にも時間を割いて話しかけてくれた。彼のように、初期のカンファレンスで出会った人々は、私のキャリアを通じて友人や同僚となっている。今の若い研究者たちも、かつての私と同じように歓迎されていると思って欲しい。

最近のカンファレンスでは、多くの若い人たちが私のところに来て自己紹介をしてくれるが、彼らに会うのはとても嬉しい。彼らは（コンピュータビジョンという）研究分野の未来なのだ。また、私は多くのポスターを見に行く。ポスター発表こそ、私がこの分野の新人に出会い、彼らがどんな風に考えているかを知る場所だからだ。そんな場所で楽しい議論をしていると、私のバッジを読んで私が誰であるか気づかれる時がある。そうなると「ああ、あなたがMichael Blackですね！」と言われて、学界の古参のような威圧感を与えてしまっているのではないかと勘繰ってしまう。そんな時、私は彼らの論文を理解したいと思っている研究者の一人に過ぎないと言って、彼らを安心させるようにしている。

もちろん、ICCV 1990とICCV 2021には大きな違いがたくさんある。この分野が大きく成長したことに加えて、最も大きな変化は使用するツールにある。取り組んでいる問題は似ているが、今日、私たちのツールはニューラルネットワークをベースにしている。

ImageNetチャレンジでAlexNetが1位になった後、ある程度の年齢になっていた人々は誰もが5段階の悲痛を経験した。第１段階として、ショックと否定があった。（AlexNetの成果によって生じた）ショックから世界がひっくり返り、何もかもが元通りには戻らないように感じられたのだ。しかし、そんな結果は否定できなかった。

そして、怒りとともに駆け引きが始まる。「確かに、これらのもの（ディープラーニング）は分類に優れている。分類が得意なのは当たり前だ。しかし、私の問題はすべて連続した数字を予測する回帰問題であり、これらのものは連続した数字を予測することには決して向いていない」。私は確かにそう自分に言い聞かせた。しかし、その後、ディープネットは回帰問題を解くのに非常に適していることが判明した。

次に生じたのがうつだ。年配の研究者の多くはこう思った。「自分のキャリアはもう終わりだ。今までやってきたことは何の役にも立たない。過去5年間に書いたものは、もう二度と引用されることはないだろう。それに、こんな新しいことには興味はない。微積分も多様体も幾何学も線形代数も好きだ。特定の方法で問題を考えるのが好きなんだ。そして、それが得意でもある。しかし、この新しいことは別の方法で問題を考えることになり、興味がわかない。私はこれからどうすればいいのだろう」。

そこで止まってしまった人もいた。ある程度の年齢になっていれば、引退するには良い時期だったのかもしれない。しかし、多くの人はそこで踏みとどまった。悲しみを乗り越えていくうちに、ある時、転機が訪れ「悲しむのは終わりだ」と受け入れ始めた。そして、希望が生まれて来た。このような状況を経験した人は、心機一転して希望をもって研究現場に戻ってくる。全く新しいツールを手に入れ、興味を持っていた問題に対して新しい展望を持ち、人生を歩み始めるのだ。

とはいえ、この革命から8～9年が経過した今、いくつかの問題は、少なくとも私にとってはそれほど面白くないということが明らかになった。しかし、以前には見えなかった別の問題が見えている。

私のキャリアは、1990年のICCVで発表したオプティカルフロー推定の研究から始まった。マックス・プラント研究所所属の私のグループは、昨年、オプティカルフローネットワークに対する敵対的な攻撃についての論文（※訳註2）を発表した。しかし、これがオプティカルフローに関する私の最後の論文になるかも知れない。問題が解決されたとは決して言わないが、合成データやラベルのない動画データ（※訳註3）など十分なデータがあれば、誰かが解決してほしいと思うところまでは解決可能な問題だ。

実際、ステレオ、アルベド、表面法線の推定など、画像のすべてのピクセルで同じことを実行でき、その精度を数値で測定できるという意味で、これらの問題は低レベル問題と呼ばれている。こうした問題は十分なデータがあれば十分に解決できるので、私にとってはそれほど興味深い問題ではなくなった。

その一方で、現在面白いと思っているのは、中レベルの問題のクラスだ。私は、人間の3次元の姿勢や形状の推定もこのクラスに入ると考えている。これら中レベルの問題は、画像に不均一な処理を行うが、評価には測定値から算出される精度を使用する。人の3次元姿勢や形状を推定する場合、ピクセルに完全に縛られていないものを推定する。3次元世界にある何かを推定するのだ。しかし、推定した結果の精度は、やはり定量的に評価できるものである。こうした推定値を採用するメリットは、ラベル付きのデータがあれば、この問題を解決するためのニューラルネットワークの学習が比較的容易であることだ。面白いのは、そのようなラベル付きデータを手に入れるのはまだ難しいことである。この3D人体姿勢・形状推定の進歩はかなり早く、自己教師ありの手法も向上しているので、この問題も5年後には興味深いものではないかも知れない。

しかし、このような中レベルの問題の先には、私たちが理解していない素晴らしい世界がある。私はそれを「高レベル問題」と呼んでいる。コンピュータビジョンには「画像にないものを見る」というより幅広い使命がある。それがコンピュータビジョンの本当の目的なのだ。画像の原因は何か？これから何が起こるのか？私の場合は、人間とその動き、およびその行為に興味がある。彼らは何をしているのか？なぜそれをしているのか？彼らの感情はどうなっているのか？次に何をするのか？これらは、ピクセルからは直接観察できないものである。誰かの頭のなかがどうなっているか教えてくれる測定可能な画像内のピクセルなど無いのだ。私たちが使っている手法から算出できる精度では簡単には測定できないため、これらの問題の進展は遅いだろう。高レベル問題のおかげで、今後数年間のICCVでも私は忙しくなると思っている。

（ニューラルネットワークの台頭のほかに認められる）1990年と現在のあいだのもうひとつの大きな違いは、産業界の参画だ。ICCVでは企業からの論文が多く見られる。1990年当時は、私たちがやったことが世の役に立つほどうまくいったものは多くなかった。幸いなことに現在はそんなことはなく、ICCV2021で出た多くのアイデアが製品化されるだろう。

コンピュータビジョンが実際のユーザの手に渡ることはエキサイティングなことなのだが、ICCVでの研究論文から実際に顧客が日常的に使用する製品になるまでに必要なことを、多くの人々が過小評価しているように思う。製品が実際に使われるようになるまでには、元の研究のDNAは残っているのだが、多くの人々が製品化に貢献し、製品化に至るまでに多くのアイデアが生まれる。そして、実際に顧客に良い体験をもたらすものは、元になった技術とはまったく関係のないものが多いのだ。だからこそ、研究者は「私は製品化に貢献したが、その貢献は大きなパズルの一部に過ぎない」と感じるのではないだろうか。

幸運なことに、初めてICCVに参加して以来、その後のすべてのICCVに参加することができ、そのおかげで世界を見て回り、素晴らしい友人を作れた。ICCVの将来については、2023年にパリで開催される対面式の会議に戻れることを楽しみにしている。バーチャルミーティングでは、本物の感覚を味わうことはできませんからね。現地でお会いできるのを楽しみにしています！

（※訳註2）本記事の著者Michael Black氏が所属するマックス・プランク研究所とドイツ・テュービンゲン大学の研究チームが共同執筆した論文「オプティカルフローへの攻撃」では、動画内のオブジェクトの動きをベクトルで表現したオプティカルフローを推定するAIモデルに対して、推定を阻害する攻撃を実行した場合の実験結果がまとめられている。
オプティカルフローを推定する複数のAIモデルに対して、画像内に画像面積に対して1%に満たないノイズを混入させるとAIモデルによっては動くオブジェクトを誤認する。この実験結果は、オプティカルフロー推定モデルが応用される自動運転車の安全性を保障するうえで重要な知見となる。
以下の画像が、ノイズとして使用したパッチ群。

以下の画像がノイズによる攻撃を実行した場合の各種オプティカルフロー推定モデルが認識した画像。オプティカルフローをその推定値に応じて色を付けて視覚化している。右側の画像列「Difference」は、攻撃がない状態と攻撃状態のオプティカルフローの差を示している。着彩された面積が広いほど、攻撃による誤認が多いことを意味する。

さらに以下の動画は、上記論文の内容を要約している。

（※訳註3）マックス・プラント研究所、NVIDIA、そしてMITが共同執筆した論文「競争的コラボレーション：深度、カメラモーション、オプティカルフロー、そしてモーションセグメント」は、本記事で言及されている低レベルのコンピュータビジョン問題に分類される単一ビューの深度予測、カメラの動きの推定、オプティカルフロー、および動画を静止シーンと移動領域にセグメンテーションすることを教師なし学習で解決する方法が提案されている。これらの低レベルの問題は幾何学的に補完し合う関係にあるので、これらの問題に対して一括して教師なし学習を実行すると、既存の研究成果を上回る精度を実現できた。