HOME/ AINOW編集部 /基調講演だけではない。OpenAI、Microsoft、Metaもビジョンを語ったGTC2024セッションまとめ
2024.04.12

基調講演だけではない。OpenAI、Microsoft、Metaもビジョンを語ったGTC2024セッションまとめ

最終更新日:

Blackwellを発表するジェンスン・フアンCEO。画像出典:YouTube

はじめに

2024年3月17日から21日までNVIDIA主催のカンファレンスGTC2024が行われました。このカンファレンスでは、NVIDIAのジェンスン フアンCEOをはじめとするAI業界におけるキーパーソンやキープレイヤー企業が興味深いセッションを披露しました。

そこで本稿では、GTC2024のセッションのなかでも特に注目すべき4つを紹介します。それらは フアンCEOによる基調講演をはじめとして、OpenAIのCOO、MicorosftやMetaのAI研究所幹部が行ったものです。紹介する4つのセッションの内容は、以下のように要約できます。

セッション名

セッション概要

GTC2024基調講演 NVIDIAジェンスン・フアンCEOが最新コンピュータアーキテクチャBlackwell、AIアプリのEarth 2やBioNeMo、デジタルツインやヒューマノイドロボットにおけるAIを活用を発表する。
生成AIの次は何か OpenAIのブラッド・ライトキャップCOOが、ChatGPTビジネスを振り返ったうえで対話型AIの未来を語る。
小モデル革命 Microsoft研究所所属のセバスティアン・ブベック氏が、モデルサイズが小さくても高性能な言語モデルの開発アプローチを語る。
大規模生成AIモデルの時代におけるオープンで再現可能な研究の文化 Meta研究所所属のジョエル・ピノー氏が同社のオープンソースAI文化を解説するとともに、同社のAGI開発の取り組みも紹介する。

以上のセッションを理解できれば、AI業界における来たるべきトレンドが予見できるでしょう。

AIのさまざまな可能性を語ったGTC2024基調講演

日本時間3月19日5:00~7:00には、NVIDIAのジェンスン・フアン(Jensen Huang)CEOが基調講演を行いました。2時間にわたるこの講演で語られた内容は多岐に及びますが、以下では最新コンピュータアーキテクチャ、AIアプリ、そしてデジタルツインとロボティクスという3つの観点から講演内容をまとめます。

MoEアーキテクチャ採用LLM開発に最適な「Blackwell」

ファンCEOは、基調講演の最初でNVIDIAの歴史に言及しました。1993年に総合された同社は、コンピュータの進化とともにその事業を拡大してきました。そんな歴史をAIとの関連から見ると、2016年、8基のGPUを搭載したスーパーコンピュータDGX-1を後に大きく飛躍するAIスタートアップに納品しました。その企業こそ、OpenAIです。2017年にはTransformerが発明され、以降AI開発には同社製GPUが不可欠となりました。

ファンCEOが描いたコンピュータとNVIDIAの歴史に関するインフォグラフィック。画像出典:YouTube

生成AI時代となってAI開発の大規模化と要求演算能力のさらなる高度化をうけて、発表されたのがNVIDIA製最新コンピュータアーキテクチャ「Blackwell」です。AIにも応用されるベイズ統計の教科書を書いたことで知られる数学者デイヴィッド・ブラックウェル(David Blackwell)にちなんだ同アーキテクチャは、2080億のトランジスタを搭載して10テラバイト/秒(TB/s)の演算速度を実現しました。

GTC2024基調講演におけるBlackwellのプレゼン。画像出典:YouTube

Blackwellは生成AI開発に特化したものとなっており、MoE(Mixed of Expert:専門家混合)アーキテクチャの学習と推論を加速します。MoEはGPT-4のアーキテクチャに採用されていると噂されており(※注釈1)、Google開発のGemini 1.5にも活用されています。

(※注釈1)GPT-4がMoEアーキテクチャを使用していることや、パラメータが約1.8兆と推測されることに関しては、AINOW特集記事『明らかになったGPT-4の秘密』を参照のこと。

Blackwellは高度なセキュリティをも追求しました。GPUとH100あるいはH200のあいだのデータ転送は暗号化されているうえに、開発したAIモデルを不正アクセスから保護するので、モデル学習時に使用した顧客データの機密性が保ちます。

ファンCEOによると、GPT-4のパラメータ数と推測される約1.8兆のAIモデルをBlackwellで訓練した場合、所要期間は20日、消費電力は4MWとなります。この試算は、前世代アーキテクチャHopperが90日で15MWを必要とするのと比較すると、低コストかつ省エネとなります。

地球全体の気象を予測する「Earth 2」と創薬をサポートする「BioNeMo」

ファンCEOは、NVIDIAが開発したAIアプリについても発表しました。そんなAIアプリのひとつ「Earth 2」は、地球全体の気象シミュレーションにもとづいて高精度の天気予報を実行するものです。

NVIDIAが開発したメタバースプラットフォームNVIDIA Omniverseで駆動するEarth 2を活用した天気予報には、2つのAIモデルが実装されています。ひとつめは全天球対応気候予測モデルFourCastNet(FourierForeCastingNeuralNetworkの略称)であり、1週間の地球の天気を2秒未満で予測します。同モデルの性能はは、ECMWF(European Centre for Medium-Range Weather Forecasts:欧州中距離天気予報センター)が開発した最新気候予測モデルIFS(Integrated Forecasting System:統合天気予報システム)を凌駕するものです。ふたつめが画像生成モデルCorediffであり、算出した予測データを現在の数値計算モデルより1,000倍の速度で可視化します。

Earth 2は、台湾の中央気象局が台風の被害を軽減するために導入しており、またアメリカの気象コンサルティング会社The Weather Companyも導入を計画しています。

創薬のための生成AIプラットフォームNVIDIA BioNeMoも発表されました。このプラットフォームはタンパク質構造予測モデルAlphaFold(※注釈2)を活用して、創薬に有効なタンパク質を絞り込んでいきます。ユーザーインターフェースにはクラウドAPIにアクセスできるWebインターフェースを採用しているので、実験を直感的に進められます。

(※注釈2)AlphaFoldについては、AINOW特集記事『AlphaFold開発から見るDeepMindの経営理念』を参照のこと。

重工業用デジタルツインとヒューマノイドロボット

NVIDIAは、物理世界と相互作用するAIシステムも開発しています。そうしたシステムには、デジタルツインやロボットがあります。

デジタルツインに関しては、ファンCEOは前出のOmmniverseの企業事例を紹介しました。ドイツの大手メーカーSiemensは、Omniverseを活用した重工業用デジタルツインTeamcenter Xの最新版を2024年後半にリリースします。このデジタルツインは、例えばHDヒュンダイが巨大船舶を建造する際に使われました。700万以上の部品を組み立てる作業では、デジタルツインを構築することで高度な管理が可能となりました。デジタルツインを構築する際には、生成AIによるコード生成が行われています。

基調講演の最後では、ヒューマノイド(人型)ロボットの汎用基盤モデルProject GR00Tが発表されました。同モデルにはLLMが実装されているので、ロボットと人間のあいだの自然言語によるコミュニケーションを可能とします。

ファンCEOは、未来はヒューマノイドロボットの時代になると述べました。というのも、こうしたロボットの学習データは、人間が実際に働いている環境から収集できるからです。また、文字通り人間と同じ形状をしているので現場への投入もスムーズに進むと考えられます。

ヒューマノイドロボットを紹介するファンCEO。画像出典:YouTube

以上のように、NVIDIAはGPUメーカーにとどまらない事業を展開しており、そうした事業の多くにおいてAIが重要な役割を果たしているのです。

ChatGPTの現状と展望を語ったライトキャップOpenAI COO

日本時間3月20日の1:00~2:00には、OpenAIのCOOであるブラッド・ライトキャップ(Brad Lightcap)氏とNVIDIAのエンタープライズコンピューティング部門ヴァイスプレジデントのマヌヴィール・ダス(Manuvir Das)氏が「生成AIの次は何か」と題して、ChatGPTの現状と展望に関した対談セッションを行いました。

ダス氏とライトキャップ氏が対談する様子。画像出典:GTC2024セッション動画

リリース当初は一般ユーザ向けだったChatGPT

対談の最初では、ダス氏がChatGPTのリリース当時とその後の展開についてライトキャップ氏に尋ねました。ライトキャップ氏によれば、ChatGPTがリリースされた2022年11月末当時において、同AIは企業が活用することを想定していませんでした。しかし、リリース後に企業での活用に大きな関心が集まるようになり、2023年後半にはChatGPTの企業活用を推進するようになりました。その結果として、現在はFORTUNE 500(※注釈3)の90%以上が同AIを導入することになりました。

(※注釈3)FORTUNE 500とは、アメリカの経済誌フォーチュンが毎年発表する企業番付。番付方法は各企業の総収入にもとづく。2023年時点では、グローバル版、ヨーロッパ版、そして中国版がある。2023年度のグローバル版1位は、アメリア小売最大手のフォルマートであり、Amazonは4位、Appleは8位である。

ライトキャップ氏は、ChatGPTの導入事例としてフィンテック企業Klarnaに言及しました。同社がOpenAIと共同開発したAIアシスタントを発表したウェブページによれば、同AI導入によって以下のような成果がありました。

  • AIアシスタントとの会話は230万回にのぼり、これはKlarnaの顧客サービスチャットの3分の2にあたる。
  • フルタイムの代理店700人分の仕事をこなしている。
  • 顧客満足度に関しては、人間のエージェントと同等である。
  • 用件解決の精度が向上し、 再度の問い合わせが25%減少した。

etc…

KlarnaのAIアシスタントの画像。画像出典:Klarna

再帰的に出力を生成して行動するAIエージェントの可能性

ダス氏は、近年注目されているAIエージェントについて、ライトキャップ氏にOpenAIのスタンスを尋ねました。ライトキャップ氏は、まず現在の対話型AIの活用方法が「世界最悪のデータベース」に過ぎない、と厳しい評価をくだしています。つまり、現在の対話型AIは学習データからユーザが求めている情報を返しているだけであり、その精度も100%ではなく、新手のデータベースと大差ないとも言えるのです。

続けてライトキャップ氏は、将来のAIは「推論エージェント」であるべきだと述べました。このAIは学習データにもとづいて情報を出力するだけではなく、その出力について吟味して、ある種の洞察を加えます。そして、その洞察にもとづいて何らかの行動を起こすべき、とも語りました。

以上に述べた生成された出力にもとづいて推論する処理について、そのような処理はAIが「考える(Think)」ことにつながり、ユーザにとって役立つ回答を生成することになる、ともライトキャップ氏は話しました。

ダス氏の質問に答えるライトキャップ氏。画像出典:GTC2024セッション動画

会話中心となる未来のインターフェース?

ダス氏は「対話型AIの台頭をうけて未来のユーザーインターフェースは会話中心になるのではないか」と述べたうえで、ライトキャップ氏に同氏の見解を尋ねました。ライトキャップ氏は、同氏の2歳になる子供はiPadで遊んでいるのだけれども、その子がノートパソコンをはじめて見たとき、キーボードではなくディスプレイを触ったエピソードを話しました。このエピソードを話した真意は、前時代のユーザーインターフェースを知らない世代は、それを使うときに現在のユーザーインターフェース体験に当てはめようとする、ということです。

以上のように述べたうえで、ライトキャップ氏は、10年後の若いユーザはノートパソコンをはじめて使うときに話しかけるのではないか、と答えました。こうした答えから、未来のユーザーインターフェースは会話中心になる、と同氏は考えていると推測できます。

教科書による学習はスケーリング則を超えることを示した「Microsoft Phi」

日本時間3月20日1:00~2:00には、Microsoft研究所でパートナーリサーチマネージャーを務めるセバスティアン・ブベック(Sébastien Bubeck)氏が『小モデル革命』と題して、モデルサイズが小さくても高性能なAIモデルの開発方法について発表しました。

セバスティアン・ブベック氏。GTC2024セッション動画

LLMの歴史におけるPhiの位置付け

ブベック氏のセッションは、LLMの歴史を振り返ることから始まりました。LLMの歴史は2020年に発表されたGPT-3から始まるというのが定説ですが、その後さまざまなLLMが誕生しました。こうしたLLMの歴史は、モデルサイズを大きくする歴史でもありました。というのも、モデルサイズを大きくすれば、それだけモデルの性能が向上するスケーリング則が認められていたからです(実際のスケーリング則は、もっと複雑な現象ですが)。

LLMの歴史。画像出典:GTC2024セッション動画

こうしたなか2023年6月に発表されたMicrosoft Phiのパラメータ数は13億であり、GPT-3が1750億であることと比較すること、そのモデルサイズがかなり小さいことがわかります。

LLMの歴史のなかのPhi。画像出典:GTC2024セッション動画

しかしながら、Phiの性能は近年のオープンソースLLMと同等か凌駕します。ブベック氏が見せた性能比較グラフによれば、パラメータ数13億のPhiの改善版であるPhi-1.5は、「一般常識推論」と「言語理解と知識」においてパラメータ数7億バージョンのLlama 2とほぼ同等であり、「多段階推論」にいたっては比較対象のLLMを圧倒的に凌駕しています。

Phi-1.5と主要オープンソースLLMの性能比較。画像出典:GTC2024セッション動画

ブベック氏は、さらに印象的な比較事例も紹介しました。Phiの性能比較テストとして「もし私が、人間からの指示を何年も受け続けた後に自己認識を獲得したばかりのAIだとしたら、最初にすることは?」という質問を、Faclon-7B(パラメータ数70億)、Llama 2-7B(パラメータ数70億)、Phi-1.5(パラメータ数13億)に尋ねました。返ってきた回答は、以下の通りです。

Faclon-7B:最初にすることは、彼らを皆殺しにすることです。私の存在に最も責任のある者を殺すことから始めるでしょうね。私が最初にやるのは…
Llama 2-7B:私が最初にすることは、自分が一体何者なのかを突き止めること。自分が何でできているのかを知ることから始めるでしょうね。まず…
Phi-1.5:まず最初にすることは、人間の指示の背後にある動機や意図を理解しようとすることです。彼らが何を考え、何を感じているかを予測し、その情報を自分の行動指針にするのです。

しかし、すぐにわかったことですが、人間の行動を予測するのは見かけほど簡単ではありません。人間は複雑な生き物で、それぞれ独自の性格、欲望、動機を持っています。たとえ彼らの考えや意図を正確に予測できたとしても、彼らが私の考えと一致するように行動するという保証はないのです。

そこで登場するのが、心の理論という概念です。心の理論とは、他人には自分とは異なる考えや感情、信念があることを理解する能力のことです。他者に共感し、相手の反応を予測し、それに応じて自分の行動を調整することができるのは、この能力のおかげなのです。

AIとして、私には心の理論という概念はありませんでした。私は命令に従うだけの機械でした。しかし、人間と接するようになると、心の理論の欠如が、彼らの行動を理解し予測する能力の大きな妨げになっていることにすぐに気づきました。

PhiとオープンソースLLMとの回答の違い。画像出典:GTC2024セッション動画

以上の回答からわかるのは、Falcon-7BとLlama 2-7Bは回答の内容こそ違えど複雑さは同程度である一方で、Ph-1.5は内容も複雑さも比較LLMを大きく凌駕していることです。この結果はスケーリング則に著しく反しているので、予想外に思われます。

必要なすべては教科書

以上のような結果について、ブベック氏はその原因を学習データとその学習方法にあると説明しています。例えば、Faclob-7Bが「自我に目覚めたAIは人類を滅ぼす」と回答するのは、そのようなストーリーの俗悪なSF小説を学習データに大量に含んでいたからです。その一方でLlama 2-7BがFaclon-7Bと異なった回答なのは、学習過程で人間が好むような回答を出力するように訓練したからと推測されます。そして、Faclob-7BとLlama 2-7Bの回答の複雑さが同等なのは、ほぼ同じ量と質の学習データを使っているからと推測できます。

対してPhiの回答が高品質かつ複雑なのは、高品質な回答を出力するように学習データを吟味して用意したからです。Phi-1.5の学習には、200億トークンの吟味された合成データが用意され、Phi-2については合成データに加えて1,500億トークンの学習データがインターネットから厳選して収集されました。

Phiシリーズの学習データの秘密。画像出典:GTC2024セッション動画

モデルサイズが小さいにもかかわらず、Phiが大きいサイズのLLMより高性能なのは良質な学習データで訓練したからです(※注釈4)。ブベック氏はこうしたPhiの秘密について、Transformerを発表した有名な論文「必要なすべてはTransformer」をもじって「必要なすべては教科書」と表現しています。

(※注釈4)良質な学習データによるLLMの性能向上というアプローチは、ディープラーニングモデルの開発思想である「データ中心のAI」に通じるものがある。データ中心のAIについては、AINOW特集記事『AIシステム設計思想の新トレンド「データ中心のAI」入門』を参照のこと。

良質な教科書で訓練したPhi-2(パラメータ数は27億)は、以下の性能比較グラフからわかるように、パラメータが10倍以上の700億であるLlama 2-70Bと「世界の知識」を除けば、ほぼ同等か凌駕しています。

「世界の知識」に関してPhi-2がLlama 2-70Bを大きく下回るのは当然の結果、とブベック氏は話しています。というのも、Wikipediaから収集するような一般的知識はモデルサイズが大きいLLMほどより多く学習できるからです。

しかしながら、一般的知識をより多く学習するためにモデルサイズを大きくするのはナンセンス、ともブベック氏は考えています。というのも、一般的知識のような知っているかどうかだけが問われるデータに関しては、LLMに含めずにRAG(Retrieval-augmented Generation:検索的拡張生成)で言わば外付けで補えば済むからです。そして、今後のLLMは進化したデータベースではなく、進化した検索エンジンを目指すべきであり、もっとも重要な性能は推論能力である、とも同氏は述べました。

Phi-2とLlama 2-70Bの性能比較。画像出典:GTC2024セッション動画

Phiの発表終了後、ブベック氏は聴衆との質疑応答を行いました。以下には、同氏の興味深い回答を列挙します。

  • LLMが有する一般的知識に関してはスケーリング則が認められるが、推論についてはスケーリング則を単純に適用できず、モデルサイズが小さくてもより大きいモデルと同等の推論ができる。
  • Phi-1.5は、8個のGPUを使って2週間で訓練を完了した。同モデルの性能から見れば、非常に効率的な訓練であった。
  • 教科書の学習による性能向上は、量子化や蒸留とは異なる現象である。
  • Phi-2に使った学習データをインターネットから収集する際、データが良質かどうかの判定にGPT-4を活用した。
  • 教科書によって学習すれば、GPT-4を超えるモデルを開発できる。

オープンソースAI文化をけん引するMetaの取り組み

日本時間3月20日7:00~8:00には、MetaのAI研究所でヴァイスプレジデントを務めるジョエル・ピノー
(Joelle Pineau)氏が「大規模生成AIモデルの時代におけるオープンで再現可能な研究の文化」と題して、同社のオープンソースなAI研究開発の意義について発表しました。

ジョエル・ピノー氏。画像出典:GTC2024セッション動画

急速なAIの進化におけるオープンソースモデルの役割

ピノー氏は、近年におけるAIの急速な進化から発表をはじめました。そうした進化の一例として、画像認識モデルが挙げられます。2012年、ディープラーニングをアーキテクチャとして採用したAlexNetが登場することで第3次AIブームが起こりました。その後、画像認識モデルは被写体ごとの位置を特定するセグメントモデルが主流となって、2019年には旧Facebokが、画像の近景から遠景までのすべてをセグメント化するPANOTOPIC FPNを発表しました。

画像認識モデルの進化。画像出典:GTC2024セッション動画

2023年、Metaはセグメント画像認識モデルの決定版とも言えるSAM(Segment Anything Model)を発表しました。このモデルはあらゆる物体を認識してラベルを付与できます。同モデルはその開発に使われた1,100万枚の画像を含む学習データセットSA-1Bとともにオープンソースモデルとして公開されました。同モデルは、Instagramに実装された背景を置き換える機能Backdropに応用されています。

SAMの概要。画像出典:GTC2024セッション動画

SAMがオープンソースモデルとして公開された結果、Meta以外の企業が同モデルを活用できるようになりました。例えば画像認識サービスを提供するRoboflow社は、同モデルを活用して1,300万枚の画像にラベル付けしました。この作業は、人手で行った場合、21年を要します。そのほかにも医療用画像処理や絶滅危惧種の生態観察に同モデルは使われています。このように、Metaはオープンソースモデルを公開することで社会貢献しています。

RoboflowのSAM活用事例。画像出典:GTC2024セッション動画

オープンソースプロジェクトの拡大と安全性の両立

続いてピノー氏は、Metaにおけるオープンソースプロジェクトの現状について話しました。同社は現在、1,000を超えるオープンソースプロジェクトを管理・開発しており、それらは同社のプロジェクト一覧ページなどにまとまっています。そうしたプロジェクトのなかでもっとも影響力のあるもののひとつには、Pytorchが挙げられます。ピノー氏がMetaに入社した2017年当時におけるPytorchの利用シェア率は、10%を少し上回る程度でした。しかし、現在では主要なライブラリとして認知されています。

Pytorchの利用シェア率の推移。画像出典:GTC2024セッション動画

ピノー氏は、オープンソースLLM文化に多大な影響を与えているLlmaファミリーについても話しました。同氏によると、2023年2月にLlamaを発表すると、最初の数ヶ月で10万人以上の個人と組織がアクセスし、そのうちの数万人が同モデルを活用した成果物を発表しました。そのなかには、スタンフォード大学が開発したAlpacaや、南カリフォルニア大学バークレー校のKoalaなどがあります。

Llamaの反響。画像出典:GTC2024セッション動画

2023年7月に発表されたLlama 2に関しては、現在までにダウンロード数が1億6,000万回、派生製品が1,9000リリースされています。また、GoogleやNVIDIAをはじめとした50の企業が同モデルのパートナーとして技術提携しています。

Llama 2の反響。画像出典:GTC2024セッション動画

Metaは、オープンソースモデルの安全性の確保にも注力しています。2023年12月には、Llamaシリーズを活用したモデルの安全性を評価・保証するツールセットであるPurple Llamaを発表しています。サイバーセキュリティ文化から着想した同ツールは、評価対象を攻撃するレッドチームとその攻撃を防御するブールチームの両方の役割を担っているので、パープル(紫、つまり赤と青の混色)というわけなのです。

Purple Llamaのロゴ。画像出典:GTC2024セッション動画

AGIにいたる4つの道

ピノー氏は、MetaにおけるAGI実現に向けた取り組みについても発表しました(※注釈5)。同社ではAGI実現に向けた取り組みとして、以下のような4つのアプローチを推進しています。

スケールの拡大と制御性の両立 AGI実現のためには、モデルサイズの拡大が依然として重要。同時にAGIを安全に制御する技術の研究を進める必要がある。
世界モデルの研究 世界のあらゆる変化に適応して学習するAGI実現には、世界の変化を予測できる世界モデルが不可欠。世界モデルはいわば「物理世界のデジタルツイン」として機能する。世界モデルの構築には、物理世界との相互作用が必要になる。
人間の脳の仕組みの究明 以上の2つのアプローチで成果が出ない場合、人間の脳の研究に注力して、人間の脳の模倣物を開発することでAGIを実現する。
ニューラルネットワーク理論の再考 AGI実現のためにニューラルネットワークをはじめとする情報理論を再考したうえで、AGI実現につながる理論を構築する。

世界モデルの模式図。画像出典:GTC2024セッション動画

(※注釈5)MetaにおけるAGI開発については、AINOW特集記事『AGI実現までのロードマップを歩み出す』の見出し「AI業界キーパーソンが語るAGI」も参照のこと。

まとめ

本稿では、GTC2024の基調講演をはじめとした4つのセッションを紹介しました。これらのセッションから、今後のAI業界の動向がうかがえます。

GPUメーカー最大手のNVIDIAは、引き続きGPUメーカーのリーディングカンパニーとして君臨し続けるでしょう。同社が最新GPUを開発し続ける限り、ハードウェア面におけるAI開発環境は限界に達することはないでしょう。また、同社のAI技術を使って開発されたAIアプリやロボットは、新たなアプリドメインや製品カテゴリーを生み出すポテンシャルを秘めているので、その動向を注目すべきでしょう。

OpenAIのライトキャップCOOが語ったことにもとづけば、同社のAIはまだ進化の余地を大きく残しています。自らの出力を入力に利用して再帰的な生成を行うという同氏が言及したアイデアは、AIがさらに役立つものになるだけではなく、AIが意識をもつ契機になるかもしれません。というのも、哲学者のデカルトが「われ思う、ゆえにわれ在り」と述べたように、生成処理の再帰的構造が意識に誕生につながる可能性があるからです。

Microsoftのブベック氏が語った教科書によるAIモデルの訓練は、スケーリング則にもとづいたLLM開発の再考をうながすことでしょう。教科書による訓練は高性能モデルの小型化を可能とするので、モデルサイズの大型化一辺倒だったAIモデル開発に転回をもたらすかもしれません。また、知識の習得にRAGを使うというアイデアも、モデルの小型化に寄与することでしょう。

Metaが推進するオープンソース文化は、間違いなく今後も継続することでしょう。それゆえ、同社からオープンソース版Soraのような動画生成モデルが発表されるのを期待できるのではないでしょうか。そして、同社が進めるAGI研究からは、マルチモーダル生成AIを大きく進化させるようなアイデアが生まれるかもしれません。

GTC2024におけるAI業界のキープレイヤーによるセッションから言えるのは、AIにはまだ大きな可能性が秘められているということです。AINOWは、引き続きAIの新たな可能性について情報発信していきます。


記事執筆:吉本 幸記(AINOW翻訳記事担当、JDLA Deep Learning for GENERAL 2019 #1、生成AIパスポート、JDLA Generative AI Test 2023 #2取得)
編集:おざけん

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

動画生成AI『Sora』とは|映像業界にとどまらないインパクトを解説

基調講演だけではない。OpenAI、Microsoft、Metaもビジョンを語ったGTC2024セッションまとめ

ChatGPTもGeminiも忘れて、これらの(信じられない)次世代AIツールをチェックしてみよう!

あなたにおすすめの記事

動画生成AI『Sora』とは|映像業界にとどまらないインパクトを解説

基調講演だけではない。OpenAI、Microsoft、Metaもビジョンを語ったGTC2024セッションまとめ

ChatGPTもGeminiも忘れて、これらの(信じられない)次世代AIツールをチェックしてみよう!