最終更新日:
▼前編の記事はこちら
同氏はNeurIPSとICMLにおける2,200本の採択論文を、科学論文の動向を考察する際に用いられる指標Nature Indexをヒントにして発案した独自指標「パブリケーション・インデックス」にもとづいて考察しました。その考察結果は、以下のようにまとめることができます。
- AI研究をリードしているのはアメリカであり、アメリカの大学と企業が発表した論文が数多く採択されている。
- Googleは、AIを研究する組織として世界各国の有名大学を大きく凌駕している。
- 国別で見ると1位がアメリカ、次いで中国、イギリスとなり、日本は8位にランクインする。
- 日本の大学はトップ20にランクインしていないものも、日本企業はトップ20に2社ランクインしている。
同氏は、今後のAI研究におけるアメリカと中国の覇権争いについても考察しています。AI研究の覇権争いにおいて重要となる要因は、アルゴリズムとハードウェアと学習データの3つです。アメリカはアルゴリズムとハードウェアで中国に対して優位に立っているので、学習データのみでリードしている中国に勝利するだろう、と結論づけられています。
以上のような考察から世界のAI研究における日本の立ち位置を見ると、世界の上位国から大きな後れをとっていないものも、特に大学におけるAI研究で世界に存在感を示せていない、ということが言えます。こうしたなか、先日発表された東京大学とソフトバンクによる「Beyond AI 研究所」の共同設立のような取り組みは、日本のAI研究が世界にアピールできるようになる契機となるのではないでしょうか。
以下の後編にあたる記事本文では、基礎的データにもとづいた統計的分析とAI研究をめぐるアメリカと中国の覇権争いの行方について論じます。
なお、以下の記事本文はGleb Chuvpilo氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。
目次
さらなる分析
学界 vs.産業界—パブリケーション・インデックスのシェア:
学界— 77.8%
産業界— 22.2%
NeurIPS 2019とICML 2019における2200の論文タイトルのトップ150ワード(「ワードクラウド」を使用して作成):
一人当たりのパブリケーション・インデックスから見たトップ30か国(パブリケーション・インデックスを国の人口で除算。人口単位は数百万単位):
1.スイス— 6.97
2.イスラエル— 4.88
3.アメリカ— 3.85
4.シンガポール— 2.34
5.カナダ— 2.17
6.デンマーク— 2.11
7.イギリス— 1.90
8.フィンランド— 1.75
9.フランス— 1.41
10.スウェーデン— 1.11
11.オーストラリア— 1.08
12.韓国— 0.91
13.オランダ— 0.89
14.オーストリア— 0.84
15.ドイツ— 0.78
16.ラトビア— 0.67
17.ベルギー— 0.44
18.エストニア— 0.44
19.日本— 0.39
20.ノルウェー— 0.32
21.キプロス— 0.28
22.アラブ首長国連邦— 0.26
23.台湾— 0.22
24.アイルランド— 0.21
25.イタリア— 0.19
26.サウジアラビア— 0.15
27.ギリシャ— 0.14
28.中国— 0.13
29.チェコ共和国— 0.11
30.ニュージーランド— 0.11
AI研究をリードするトップ40のグローバル組織のツリーマップ(面積はパブリケーション・インデックスに比例):
トップ40の組織がまとめてパブリケーション・インデックス全体の55%を提供し、全体で2,200のうち1,212.3の値を占めている。
AI研究における競争の測定(ハーフィンダール指数の算出):
ハーフィンダール指数(ハーフィンダール・ハーシュマン指数とも呼ばれる)は、業界に対する参加者の規模の尺度であり、参加者間の競争量の指標である。
計算式:(※訳注2)
ハーフィンダール指数の解釈:
- 100未満のHは、非常に競争の激しい業界を示す。
- 1,500未満のHは、産業が集中していないことを示す。
- 1,500〜2,500のHは、中程度の集中を示す。
- 2,500を超えるHは、高度の集中を示す。
(パブリケーション・インデックスの合計から分配された各組織の指標値を使った)データセットの場合:H = 146.47。これは、集中が進んでいない業界を示している。つまり、2019年のAI研究には独占の兆候はないことになる。
ディスカッション:誰がAIの未来を担うか
AIの覇権を握ることを目指したアメリカと中国の戦略的競争の状況について、近年白熱した議論が続いている。以下の分析ではよりバランスのとれた視点でどちらかに加勢したいのだが、分析を始める前に、少し歴史を整理しよう。
- 2016年にはAIに関する2つの重要なイベントが起こった。3月、GoogleのAlphaGoはハンディキャップなしで九段のプロ囲碁棋士イ・セドルを破った最初のコンピュータープログラムになった。10月には、オバマ大統領政権は「人工知能の未来への準備」と呼ばれるAIの将来の方向性と懸案事項に関する戦略を発表した。
- 中国ではこれらの2つのイベントが「スプートニクの瞬間」(※訳註3)を生み出し、中国政府に人工知能を優先し劇的に投資額を増やすことを納得させた(カイ・フー・リーの『AI Superpowers』を参照)。
- これに対応して、2017年7月、中国共産党は2030年を野心的なAIの目標達成の期限と設定した。この野心的プランでは2020年までにAI経済のトップティアに到達し、2025年までに主要な新しいブレークスルーを達成し、 2030年までにAIにおけるグローバルなリーダーとなるとされている。この戦略は「新世代の人工知能開発計画」として知られるようになり、省庁、地方政府、民間企業がAIの研究開発に関する多くの政策を立案し、数十億ドルを投資するように促すにいたった。
- CNASなどの特定のシンクタンクは、中国のAI戦略にはオバマ政権のレポートに書かれた主要な原則が反映されていると主張した。現在ではそうした原則を(トランプ政権になった)アメリカではなく中国が採用している。
- このコピー戦略は新しいものではない。ピーター・ティエルの『Zero to One』を引用すると、「中国は19世紀の鉄道、20世紀のエアコン、さらには都市全体でさえ先進国で稼働していたすべてを率直にコピーした。中国は途中でいくつかのステップをスキップするかも知れない―例えば、固定電話を導入せずに直接ワイヤレスフォンに行く―しかし、彼らはすべて同じようにコピーするのだ」
- 2017年は、まさにわたしがAIの研究状況の追跡を開始した年である。その結果、以下のチャートに要約される中国のベースラインを確立した。そのチャートは、アメリカが中国全体のパブリケーション・インデックスに対して11倍のリードを持っていることを示している(下のグラフを参照):
- 2019年、アメリカは中国に対して7倍リードしている(アメリカ— 1260.2、中国— 184.5)。それゆえ、ギャップは明らかに縮小している。さらにアレン研究所が行った人工知能に関する分析は、中国が最も引用された論文上位10%のオーサーシップのシェアを着実に増やしていることを発見した。中国のシェアは2018年に26.5%で、アメリカの29%に大きく後れをとっていない(※訳註4)。
今度の10年間におけるアメリカのAI競争力はもはや優位のようには見えない、と言うヒトもいるかも知れない。ただし、競争結果は現代のAIの3つの主要な要素であるアルゴリズム、ハードウェア、学習データの進歩の相互作用に依存すると考えられ、AI業界を支配するには3つの要素すべてを正しく取得する必要がある。
アメリカはMIT、スタンフォード、CMU、UCバークレーなどの世界クラスの大学におけるコンピューターサイエンスに関する進歩によってもたらされた数十年の実績にもとづいて、今後数年間AIアルゴリズムで強力なリードを獲得すると考えられる。さらにカンファレンスで内部的な研究を公開するGoogleやFacebookのような企業にあるオープンな社風は、トップAI研究者が学界と産業界の間をシームレスに移動できる活気あるエコシステム(あるいは一種の回転ドア)を生み出した(ヤン・ルカンまたはアンドリュー・エンのことを考えてみよう(※訳註5)) 。
加えてアメリカはシリコンバレーの本拠地であり(「シリコンバレー」という言葉の定義自体がシリコンが注目されるようにになった起源とも言える)、1957年にフェアチャイルドセミコンダクターを設立するために8人の反逆者がショックレーセミコンダクター研究所から去って以来、シリコンバレーはハードウェア・イノベーションの最前線にあった。ディープラーニングのアルゴリズムは非常に計算量が多く、ビットコインのマイニングにいたってはスイスより多くの電力を消費する(※訳註6)。今後10年間で、中国がハードウェアでアメリカに追いつくことは非常に難しいと考えられる。
しかしながら、学習データに関してはアメリカの優位性は疑わしい。中国が学習データでアメリカを凌駕するかも知れないのは、国家の設計が異なるからだ。つまり、学習データをめぐって広範なプライバシーと公共性の対立に関する議論があり、アメリカは前者を選ぶ傾向にあるのに対して、中国は後者を選ぶのだ。今日の中国では、AI は何億もの街頭カメラから顔をスキャンし、何十億ものWeChatメッセージを読み取り、何百万もの健康記録を分析している。こうしたデータ収集は、公共の福祉としてのデータという議論にもとづいて為されている。収集された学習データの可用性は、中国の14億人の人口と相まって、同国に対して大きな戦略的優位性をもたらしている。
結論を出すのは難しいが、最初の2つの要素(アルゴリズムとハードウェア)は最後の要素(データの可用性)を上回り、アメリカは今後もAIでのリードを維持すると考えられる。
アンドリュー・エンは中国の検索エンジンサービス最大手の百度(Baidu)でチーフ・サイエンティストを務めた後、オンライン学習サービスCourseraを設立し、アメリカ・スタンフォード大学で教鞭を執っている(産業界から学界へのキャリア)。
データセット
カンファレンスでは刊行物のデータが標準形式でリリースされないため、分析は完全に手作業で行われたことに留意してください(分析作業にはHTML解析、Pythonによるデータ変換、多くの手作業による氏名の標準化、およびいくつかの不明な所属先の処理があった)。バグを見つけた場合は、メールでお問い合わせください。喜んでバグを修正致します。データセットをダウンロードして再生したい場合は、こちらに投稿されているのでご利用ください。データ分析は楽しいですよ!
・・・
私について:私の名前はGleb Chuvpiloであり、私はThundermark Capitalのマネージングパートナーです。同社は、AIとロボットのスタートアップに投資するベンチャーキャピタル企業です。私は、MITのコンピューターサイエンスと人工知能ラボで修士号を、ペンシルベニア大学のウォートンスクールで財務および戦略管理のMBAを取得しています。私についての詳細はこちらをご覧ください。AI、ロボット工学、イノベーション全般、またはとりわけスタートアップのアイデアについて話したい場合は、gleb@thundermark.comに連絡してください。
原文
『AI Research Rankings 2019: Insights from NeurIPS and ICML, Leading AI Conferences』
著者
Gleb Chuvpilo
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん