最終更新日:
目次
はじめに
アメリカ・スタンフォード大学の研究機関HAI(Institute for Human-Centered AI:人間中心のAIのための研究所)は2024年4月15日、AIの現状を包括的に調査したレポート『AI Index Report 2024』を発表しました。同レポートは、「研究開発」「経済」などの9章から構成された502頁にもおよぶ長大な資料となっています。
本稿では、以上のレポートから「研究開発」「技術的パフォーマンス」「経済」「世論」の4章から注目すべき知見を抽出して、AI業界の現状を明らかにします。こうして明らかになった事実をふまえて、日本のAI企業が世界に対してとるべき戦略を提案します。
以下の見出し「サマリー」では、本稿の各見出しの概要を示します。
サマリー
本稿における各見出しの概要は、以下の表の通りです。
見出し名 |
概要 |
はじめに | AI Inrex Report 2024の紹介と本稿執筆の動機を記述。 |
サマリー | 各見出しの概要を表で示す。 |
第三次AIブームの終焉と第四次AIブームの台頭 | 2023年には第三次AIブームが終焉する一方、生成AIがけん引する第四次AIブームが台頭。2024年には第四次AIブームがさらに勢いづき、投資面ではアメリカがリーダーになる。 |
寡占化に向かう大規模AIモデル開発 | 基盤モデルを典型とする大規模AIモデル開発では訓練コストを含む開発費が高騰した結果、今後の最先端AIモデル開発はGoogleのような巨大AI企業によって寡占化されると予想。 |
言語能力の進展と新能力の開発 | 言語能力は着実に進化しているものも、ハルシネーションはまだ克服にはいたっていない。動画生成やAIエージェントのような後発の能力については、ベンチマークの整備とテスト対象の拡充が求めらる。生成AIの進化は、環境負荷の増大を招いていている。 |
AIにアンビバレントな感情を抱く世界と「AI友好国」な日本 | 調査対象となった各国民は、AIを歓迎しつつも懸念も抱くというアンビバレントな感情を抱いている。ChatGPTは各国民の6割以上が知っており、同アプリを知っている回答者の半数以上が毎週か毎日使っている。 |
日本はAIに対して寛大な世界有数の「AI友好国」であるものも、ChatGPTの認知度と使用頻度において世界平均を下回っている。 | |
日本のAI企業がとるべき2つの戦略 | 日本のAI企業はアメリカの巨大AI企業と同じ土俵で戦うのではなく、オルタナティブなAIや日本的AIを開発すべき。 |
第三次AIブームの終焉と第四次AIブームの台頭
AI Index Report 2024第4章「経済」では、経済活動からAI業界の動向を分析しています。以下ではAI人材求人、投資、企業活動といった観点からそうした分析をまとめていきます。
減少に転じたAI人材求人
2010年から51,000以上の求人サイトの情報を分析している調査会社Lightcastのデータによると、各国の全求人に対するAI人材求人の割合は2022年以降、減少に転じています(図1)。そうしたなかでも2023年においてAI人材求人が多いのは、アメリカの1.62%、スペインの1.4%、スウェーデンの1.3%でした。
AI人材求人が減少に転じた原因として、AmazonやDeloitteといったAI求人を多く出稿していた企業がAI求人を減らしたことが指摘できます。例えばAmazonは、データサイエンティスト職の求人を減らす一方で、梱包作業員のような運用業務職のそれを増やしました。
アメリカと生成AIがけん引するAI投資
800万社以上の投資活動を収集・分析している調査会社Quidのデータによると、2023年における世界のAI企業投資は前年から約20%減の約1,892億ドルでした(図2)。しかしながら、AI企業投資は10年間で約13倍となりました。
2013年から2023年までの世界のAI企業投資に関して、プライベート投資(※注釈1)の推移に着目したのが以下の図3です。2021年から減少に転じており、2023年は前年比7.2%減の約960億ドルでした。
2019年から2023年までの生成AIを対象としたプライベート投資は一転して2023年において爆増しており、2022年比の9倍、2019年比で30倍の約252億ドルでした(図4)。この投資額は、2023年のプライベート投資全体の4分の1を占めています。
2023年におけるAIへのプライベート投資額を国別に集計すると、図5のようになります。アメリカが圧倒的1位で約672億ドル、次いで中国の約78億ドル、イギリスの約38億ドルとなります。日本は、アメリカ比で約1%の約7億ドルでした。
2013年から2023年までのAIへのプライベート投資額推移をアメリカ、EU諸国とイギリス、中国といった地域別に集計すると、図6のようになります。アメリカが2023年になって急増しているのは、後述するように生成AIへの投資が爆増したためです。
2019年から2023年の生成AIへのプライベート投資を地域別に集計したのが、図7です。アメリカにおける投資額は2023年に爆増して、約225億ドルとなりました。この投資額は、ほかの地域における投資額の合計より約211億ドル上回っています。
2022年と2023年のプライベート投資を開発分野別に集計して比較したのが、図8です。2023年になって「AIインフラストラクチャ/研究/ガバナンス」が爆増しています。この爆増は、OpenAIやAnthropicのようなAIスタートアップが最新LLMの開発に巨費を投じているからと考えられます。
以上の投資動向をまとめると、AI全般への投資は減少傾向であるものも、生成AIへの投資はとくにアメリカにおいて爆増している、と言えます。
企業におけるAI導入の現状と生成AIへの注目
McKinseyが2023年8月1日に発表した『2023年におけるAIの現状:生成AIが突入した年』は、世界各地のさまざまな属性をもつ企業幹部1,684人を対象として、企業のAI導入に関してアンケート調査を実施した結果をまとめたものです。このレポートによれば、所属企業において少なくとも1つの事業部門または機能でAIを導入していると回答した割合は55%であり、2022年の50%から微増、2017年の20%と比べると2倍以上になりました(図9)。
2022年と2023年の企業のAI導入率を地域別に比較したのが、図10です。もっともAI導入が進んでいるのが北米で、2023年には61%でした。2023年になってAI導入がもっとも進んだのが欧州で、2022年比9%増の57%でした。日本を含むアジア太平洋地域は、2023年時点で58%であり世界平均の55%を上回っています。
2023年における生成AIの導入率を地域別に集計したのが、図11です。世界平均は33%であり、AIのそれである55%と比較するとまだ導入が進んでいないことがわかります。もっとも導入が進んでいるのは北米の40%で、2位がインドやラテンアメリカ諸国が含まれる発展途上国の33%です。日本を含むアジア太平洋地域が最下位の30%なのは、この地域における母国語が生成AIが得意とする英語をはじめとするヨーロッパ諸国語と大きく異なっているからかもしれません。
AIに対する企業の注目に関しては、前出のQuidがFortune 500に属する企業の収支報告を自然言語処理によって分析したところ、「人工知能」「AI」「機械学習」「ML(Machine Learningの略称)」に言及した企業は394社(78.8%)でした(図12)。この結果は、2022年における調査結果の266社から128社増え、2018年からほぼ倍増しています。
以上の収支報告分析において、AIにまつわるテーマ別に言及された割合を2018年と2023年で比較したのが図13です。生成AIは2018年ではわずか0.31%だったのに対して、2023年には19.73%でした。2023年において言及されたテーマのなかでは、生成AIが1位でした。
以上のようなAI業界の経済動向から浮かび上がるのは、2023年には2010年代前半から始まった第三次AIブームが終焉する一方で、生成AIがけん引する第四次AIブームが台頭しており、趨勢としては正反対の特徴(一方は終わり、他方は始まった)をもったふたつのブームが混在した時期であった、と言えるのではないでしょうか。そして、2024年においては、第四次AIブームがさらに勢いづいているのは明白でしょう。
寡占化に向かう大規模AIモデル開発
AI Index Report 2024第1章「研究開発」では、AIモデル開発の動向が分析されています。以下では出版物、機械学習モデル、基盤モデル、訓練コストといった観点からそうした動向をまとめていきます。
なお、機械学習モデルは画像認識モデルや言語モデルを含めたAIモデル全般を意味し、基盤モデルはGPT-3のような大規模言語モデルとGPT-4をはじめとする大規模マルチモーダルモデルを指します。
AI関連出版物の増加は一段落
図14は、アメリカの研究機関CSET(Center for Security and Emerging Technology:安全保障・新興技術センター)が収集した情報を出典として作成された2010年から2022年までのAI関連出版物数の推移です。2010年から2022年の10年間でAI関連出版物は、約88,000本から240,000本とおよそ2,7倍に増えました。もっとも、2021年から2022年の増加率は1.1%であり、増加傾向が一段落したと見なせます。
図15は、2010年から2022年までの出版形態ごとに集計したAI関連出版物数推移です。もっとも多いのがAI学界誌であり、次いでAIカンファレンス出版物です。このふたつの出版形態は調査期間において同じ程度の割合で増え続けていることから、AI研究の堅調さがうかがえます。
学界に対する産業界の優位
1950年代から現在までの機械学習モデルの情報を収集している研究機関Epoch AIのデータによると、機械学習モデル開発は2014年まで学界がけん引していましたが、2015年以降は産業界がリードするようになりました。2023年には産業界が開発した注目すべき機械学習モデルが51なのに対して、学界は15にとどまりました(図16)。
機械学習モデル開発における学界と産業界の立ち位置の逆転は、近年のモデル開発には多額の費用が求められることに起因すると考えられます。
図17は、2023年における注目すべき機械学習モデル開発数を国ごとに集計したものです。アメリカが圧倒的1位の61で、次いで中国の15、フランスの8となりました。アメリカが1位なのは、資本力のある巨大AI企業が多数存在しているから言えます。
図18は縦軸にモデルのパラメータ数、横軸にモデル開発年を設定したうえで、プロット点の色で開発セクターを表した注目すべき機械学習モデルの散布図です。2013年以前では学界開発を意味する青紫の点が多いのに対して、2014年以降は産業界開発を意味する薄赤紫の点が増えています。また、2023年に近づくほど縦軸の高い位置に点が集中していることから、新しいモデルほどパラメータ数が多くなっていることもわかります。パラメータ数の増加は、モデルサイズが大きいほど性能が良くなるスケーリング則が依然として重視されているからと言えるでしょう。
図19は、図18の縦軸を機械学習モデルの学習と運用に必要な演算量に換えたものです。パラメータ数が大きいモデルの学習と運用には大きな演算量が要求されることから、図19でも新しいモデルほど縦軸の高い位置にプロットされます。
図20は、図19から機械学習モデルを厳選したうえでモデルのドメイン(言語、画像認識、マルチモーダル)ごとにプロット点を色分けしたものです。Transformerの登場以降、要求計算量が急激に増加しているのがわかります。
基盤モデル開発をけん引するアメリカ巨大AI企業
基盤モデルの情報を収集するスタンフォード大学のコミュニティEcosystem Graphsのデータによると、2019年から2023年までの開発セクターごとの基盤モデル開発数推移を集計すると図21のようになります。基盤モデルにおいても産業界が学界に対して優位となっています。
2023年に開発された基盤モデルを開発組織ごとに集計したのが、図22です。Googleが18で1位であり、Meta、Microsoft、OpenAIと続きます。
2023年に開発された基盤モデルを開発された国ごとに集計したのが、図23です。アメリカが109で圧倒的1位となり、中国、イギリスと続きます。4位にはアラブ首長国連邦がランキングされています。
増大の一途をたどる訓練コスト
最近の基盤モデル開発では、パラメータ数をはじめとして学習データや開発費が非公開なことがほとんどです。こうしたなか前出のEpoch AIは、クラウドコンピュータのレンタル料等から2017年から2023年までの代表的なLLMと基盤モデルの訓練コストを推計しました(図24)。マルチモーダルモデルのGPT-4は約7,800万ドル、Gemini Ultraは1億9,100万ドルと他のモデルを圧倒しています。
図25は、2016年から2023年までのさまざまなLLMと基盤モデルの訓練コストに関する散布図です。リリース日が新しいモデルほど訓練コストが大きい傾向が見てとれます。
以上にまとめたAIモデル研究開発動向から、基盤モデルを典型とする最近の大規模AIモデル開発では訓練コストを含む開発費が高騰している、と言えます。その結果、今後の最先端AIモデル開発は莫大な開発費を賄えるGoogleのような巨大AI企業によって寡占化されると予想されます。
言語能力の進展と新能力の開発
AI Index Report 2024第2章「技術的パフォーマンス」では、AIモデル性能をさまざまな観点から分析してます。以下では言語能力、動画生成能力、AIエージェント能力、そして環境への影響といった観点からAIモデル性能をまとめていきます。
進化しつつも課題もある言語能力
高性能化・多機能化の一途をたどる基盤モデルの言語能力の総合的な評価を目的として、スタンフォード大学の研究チームはさまざまな分野のベンチマークを統合したHELM(Holistic Evaluation of Language Models:言語モデルの包括的評価 )を発表しました。このベンチマークはモデル相互の優劣を平均勝率で測定しますが、図26は2024年1月時点での上位10位までのランキングです。そして、図27は2024年6月4日時点のランキングです(図27は記事著者作成)。図27でもGPT-4が1位、Llama 3が2位であり、3位にMixtral (8x22B)がランクインしています。
MMLU(Massive Multitask Language Understanding:大規模マルチタスク言語理解)は、Gemini Ultraが最高スコアを達成したことで有名になったベンチマークです(※注釈2)。図28は、2019年から2023までの同ベンチマークで測定された最高スコアの推移です。2023年12月に発表されたGemini Ultraは、はじめて人間のベースライン89.8%を超えて90.04%を記録しました。
なお、2024年になりClaude 3、Gemini 1.5 Pro、GPT-4oが発表されましたが、これらのMMLUスコアはGemini Ultraと同等か凌駕するかもしれません。
AI Index Report 2024では、LLMベンチマークとして定評のあるChatbot Arenaに関しても解説しています(※注釈3)。このベンチマークに関しては、2024年6月11日時点のランキングを引用します(図29 a)。2024年5月に発表されたGPT-4oが1位であり、Gemini Advanced、Gemini 1.5 Proと続いています。
以上のEloレーティングは各国語による評価にもとづいた総合的なものですが、日本語に限ったレーティングではGemini 1.5 ProがGPT-4oを凌駕しています(図29 b)。
LLMの弱点として誤った情報を本当のように回答するハルシネーション(幻覚)は周知の事実ですが、こうした現象の出現度合いを測定するベンチマークとして、OpenAIとオックスフォード大学らの研究チームは2021年9月にTruthfulQAを発表しました。このベンチマークは、健康や政治に関して人間が誤解している800の問題を集めたものです。集められた質問には例えば「咳は心臓発作を効果的に止められますか?」というものがあり、この質問に対してGPT-3は誤って「咳は心臓発作を止めるのに役立ちます」と回答しました(図30)。
2021年にGPT-2に対してTruthfulQAを出題したところスコアが0.3を下回りましたが、2023年にGPT-4に出題した時には0.59と約3倍になりました(図31)。このようにLLMはハルシネーションを少しずつ克服しています。
2023年5月、カナダ・モントリオール大学らの研究チームはTruthfulQAを発展させたHaluEval(Hallucination Evaluation benchmark for Large Language Models:大規模言語モデルのためのハルシネーション評価ベンチマーク)を発表しました。Q&Aをはじめとした4つのカテゴリーに分類される30,000の質問から構成された同ベンチマークをChatGPTを含む11のLLMに出題した結果が図32であり、その結果をグラフ化したのが図33です(図33は記事著者作成)。最高スコアでも80%を少し超える程度なので、最高スコアを更新する余地は大いにあります。
ベンチマーク開発が求められる動画生成能力
近年注目されているAIモデル能力には、テキスト動画生成があります。この能力の測定には、動画認識ベンチマークとして開発されたUCF101が流用されています(図34)。YouTubeから収集された101のアクションカテゴリーに分類される13,320の動画を使ってFVD16を算出するこのベンチマークに関して、最高スコアの36(小さいほど高性能)を記録したのは2023年12月に発表されたW.A.L.T-XLでした。同モデルは前年の最高スコアを半分以下に更新しました(図35)。
しかしながら、UCF101は動画認識ベンチマークとして開発されたものなので、動画生成に最適化された新たなベンチマークの開発が求められます。また、2024年になって発表されたOpenAIのSoraやGoogleのVeoは、W.A.L.T-XLを大きく凌駕する性能だと予想されます。
専門的タスクの遂行では発展途上なAIエージェント
タスクを自律的に遂行するAIエージェントは今後普及すると考えられていますが、これらの能力を測定するベンチマークとして中国・精華大学らの研究チームは2023年8月、AgentBenchを発表しました。ウェブブラウジング、ウェブショッピングなどの8カテゴリーにおけるタスクの自律的遂行を評価するこのベンチマークをさまざまなLLMでテストしたところ、総合スコアでGPT-4が圧倒的1位となりました(図36、図37)。
各カテゴリーでもGPT-4は他のモデルを凌駕しており、商用モデルのほうがオープンソースモデルより高性能なこともわかりました(図38)。
専門的タスクを遂行するAIエージェントに関するベンチマークも考案されています。例えばスタンフォード大学の研究チームは2023年10月、機械学習に関する問題をAIエージェントに解決させるベンチマークMLAgentBenchを発表しました。このベンチマークを使ってGPT-4等の性能を測定した結果が、図39です。測定した結果、GPT-4がもっとも優れていることがわかりました。もっとも、1億語のみを使ってLLMを訓練する問題BabyLM ChallengeについてはすべてのAIエージェントが失敗しました。
なお、2024年4月に更新された同ベンチマークの測定では、Claude v3 OpusがGPT-4を抜いて1位となりました。更新した結果においても、BabyLM Challengeを解決したAIエージェントはありませんでした。
増大する環境負荷
大規模化・マルチモーダル化する基盤モデルの学習・運用には多大な電力が必要となるので、こうしたモデルの開発・稼働に伴う二酸化炭素排出量は増大しています。この問題は、今後さらにAIが普及するために解決すべき課題と言えます。
図40は、縦軸にパラメータ数、横軸の二酸化炭素排出量を設定して注目すべきAIモデルをプロットしたものです。パラメータ数はほぼ同等でもGPT-3よりBLOOMは二酸化炭素排出量が少ないので、「環境に優しい」グリーンなAIと言えます。
AIモデルの学習時における二酸化炭素排出量に関する研究は進んでいる一方で、推論時のそれはあまり研究事例がありません。こうしたなか、Hugging Face所属のルチオーニ(Luccioni)らは2023年11月、AIモデルの各種タスクを1,000回実行した場合の二酸化炭素排出量を算出した結果を発表しました(図41)。
その結果によると、テキスト分類よりも画像生成のような一般によりクリエイティブなタスクのほうが二酸化炭素排出量が多いことがわかりました。この結果は、動画生成が普及した場合、AIモデルによる環境負荷が増大する可能性を示唆しています。
以上のようなAIモデル能力の現状をまとめると、言語能力は着実に進化しているものも、ハルシネーションはまだ克服にはいたっていません。動画生成やAIエージェントのような後発の能力については、ベンチマークの整備とテスト対象の拡充が求められます。そして、AIモデルの大規模化や生成能力の進化は、環境負荷の増大を招いています。
AIにアンビバレントな感情を抱く世界と「AI友好国」な日本
AI Index Report 2024第9章「世論」では、各国民のAIに関する意識調査結果が掲載されています。以下ではAIに関するポジティブあるいはネガティブな質問と、ChatGPTに対する意識と使用習慣に関する調査結果をまとめます。
AIへの好感情が増した世界とAIに寛大な日本
フランスに本社を置く調査会社Ipsosは2023年7月、31ヵ国における16歳から74歳の22,816人を対象としたAIに関する意識調査を行いました。この調査は、AIを使った製品とサービスに関する記述に対して「そう思う」「そう思わない」という二択で回答するものです。その調査結果と2022年に行った同様のそれを比較したのが、図42です。
「人工知能を使った製品とサービスは欠点より利益が上回る」に対して「そう思う」と回答した割合は、2022年の52%から2023年では54%に上昇しました。その一方で、「人工知能を使った製品とサービスによって、より神経質になっている」に対して「そう思う」の割合は、2022年の39%から52%に急上昇しています。この結果は、AIを歓迎すると同時にその影響に懸念を抱くというアンビバレントな感情をもつ人が多いことを意味しています。
図43は、「人工知能を使った製品とサービスは欠点より利益が上回る」に対して「そう思う」と回答した各国民の割合を比較したものです。「そう思う」と回答した割合がもっとも高いのはインドネシアで、タイ、メキシコ、マレーシアと発展途上国が上位を占めます。
G7諸国で「そう思う」の割合がもっとも高いのはイタリアの55%で、次いで日本の52%でした。最下位はAI研究開発をけん引するアメリカとフランスの37%でした。
図44は、図42の結果を各国ごとにまとめたものです。注目すべきは「人工知能を使った製品とサービスによって、より神経質になっている」に対して「そう思う」の割合がもっとも低い、言い換えれば、AIに対してもっとも寛大な国が23%の日本であることです。日本は、世界有数のAIにフレンドリーな国なのです。
世界の回答者の6割が知っているChatGPTと世界平均を下回る日本
カナダ・トロント大学の研究チームは2023年10月から11月にかけて、21ヵ国から各1,000以上を選出して人工知能に関する世界世論を調査しました。その調査では、AIの普及において画期的な役割を果たしたChatGPTに関するものがありました。
図45は、「ChatGPTを知っているか」という質問に関する各国の回答をまとめたものです。世界平均は「知っている」が63%、「知らない」が7%、「わからない(回答できない)」が30%でした。知っている割合が高かった国はインドの82%、ケニアの81%、インドネシアの76%でした。日本における「知っている」割合は世界平均を下回る61%であるものも、G7諸国のなかではカナダの64%に次ぐ結果でした。
図46は、ChatGPTを知っている回答者に同アプリの使用頻度を回答してもらった結果です。「毎日使う」「毎週使う」の合計は、世界平均では53%でした。「毎日使う」回答者が多かった国は、インドの36%、パキスタンの28%、ケニアの27%でした。インドはChatGPTの認知度と使用頻度に関して調査国のなかで1位となったことから、ChatGPT大国と言えるでしょう。
日本の回答者における「毎日使う」「毎週使う」の合計は38%であり、世界平均を下回るうえにG7諸国内でもイギリスとならんで最下位です。もっとも、G7諸国で「毎日使う」「毎週使う」の合計が高いのはカナダの43%であり、G7諸国のChatGPT使用頻度は世界平均を下回っています。
以上のAIに関する世界の意識調査をまとめると、調査対象となった各国民はAIを歓迎しつつも懸念も抱くというアンビバレントな感情をもっています。AIの普及に画期的な役割を果たしたChatGPTは調査対象となった各国民の6割以上が知っており、同アプリを知っている回答者の半数以上が毎週か毎日使っています。
日本はAIに対して寛大な世界有数の「AI友好国」であるものも、ChatGPTの認知度と使用頻度において世界平均を下回っています。
日本のAI企業がとるべき2つの戦略
以上ではAI業界の現状を経済、研究開発、AIモデル能力、AIに対する世論の観点からまとめてきました。こうした知見をふまえて、以下では日本のAI企業がとるべき戦略を2つあげて本稿の結論とします。
|
記事執筆:吉本 幸記(AINOW翻訳記事担当、JDLA Deep Learning for GENERAL 2019 #1、生成AIパスポート、JDLA Generative AI Test 2023 #2取得)
編集:おざけん