動画生成AI『Sora』とは｜映像業界にとどまらないインパクトを解説

最終更新日： 2024年5月15日

先進的なAIシステムが次々と登場する中、OpenAIが開発した動画生成AI「Sora」は、映像制作の業界だけでなく、AI業界全体に大きなインパクトを与える事は間違いないでしょう。

Soraはテキストからリアルな動画を作り出したり、既存の画像や動画を編集・拡張することもできます。

しかし、最も革新的なところは、AIが物理世界を理解しつつあるというところにあるといえます。

本記事では、Soraの機能とインパクトについてわかりやすく解説していきます。映像業界の常識を覆す可能性はもちろんのこと、単なるツールではなく、物理演算モデルとして今後のAI業界に与える影響についても紹介します。

動画生成AI『Sora』とは
Soraの機能と生成物の例
物理世界を理解しつつあるSora
Soraの課題
- 物理法則の完全な再現は未だ困難
- 安全性の確保
『Sora』の先の世界
- 実世界を理解してシミュレーションできるモデル基盤
- ~~AGI達成の通過点~~現実世界の理解とAGIへの道筋
まとめ

動画生成AI『Sora』とは

OpenAIが開発した動画生成AI『Sora』は、テキストによる指示から現実的かつ想像力豊かなシーンを生成することができる革新的なモデルです。

Soraは、複雑なシーンにおける複数のキャラクター、特定の動作、被写体や背景の詳細な描写を理解し、最長1分間の高品質な動画を生成することが可能です。

言語に対する深い理解力を持つSoraは、プロンプトを正確に解釈し、鮮やかな感情表現を伴う魅力的なキャラクターを生成することができます。また、1つの動画内で複数のショットを作成し、キャラクターや視覚的スタイルを正確に維持することも可能です。

Soraは動画生成だけでなく、物理演算のシミュレーションにも応用できる可能性を秘めています。これにより、現実世界の理解とシミュレーションが可能なモデルの基盤となり、AGI（Artificial General Intelligence）の実現に向けた重要なマイルストーンになると考えられています。

Soraの機能と生成物の例

Soraはテキストから動画を生成するツールですが、それ以外にも様々な機能があります。

OpenAIから発表されているさまざまな機能のうち4つを、実際に作成された動画を例に解説します。

テキストからリアルな動画を生成する

こちらの動画をご覧ください。

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

— OpenAI (@OpenAI) February 15, 2024

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

動画のプロンプト（指示文）を日本語訳すると以下のようになります。

暖かく光るネオンとアニメーションの街の看板で埋め尽くされた東京の通りを歩くスタイリッシュな女性。黒いレザージャケットに赤いロングドレス、黒いブーツを履き、黒い財布を持っている。サングラスに赤い口紅。彼女は自信に満ち、さりげなく歩いている。通りは湿っていて反射し、色とりどりのライトの鏡のような効果を生み出している。多くの歩行者が歩いている。

このようなテキストのプロンプトのみで、非常にクオリティの高く、リアルで破綻のない1分の動画が作られています。

街並みや人物の質感だけでなく、水たまりに反射する街並みや、女性の顔をアップにしたときのサングラスの反射の部分まで、違和感なく再現されていることが見てわかると思います。
画像から動画を生成する

「ベレー帽と黒のタートルネックを着た柴犬」の画像から動画を生成しています。首の動き、瞬きなど、とても自然な動画として成立しています。
入力画像：A Shiba Inu dog wearing a beret and black turtleneck.

出力動画
2つの動画の接続

「上空のドローン」と「海底の蝶」という異なる動画をそれぞれ入力とします。これを、違和感がないようにシームレスに接続し、1つの動画として成立させています。

入力動画1：上空のドローン

入力動画2：海底の蝶

上空のドローン→海底の蝶の動画へシームレスに遷移する動画
画像生成動画だけでなく、リアルな画像生成も可能です。こちらの画像のプロンプトを日本語に訳すと以下の通りです。
秋の女性のクローズアップポートレートショット、極端なディテール、浅い被写界深度

このように、テキストや画像、動画を入力してSoraが出力した成果物の実例を見れば、その性能の高さがよくわかります。今までの動画生成AIとはケタ違いの表現力を備えていると言えるでしょう。

その真の凄さについて、次章で解説していきます。

物理世界を理解しつつあるSora

Soraの革新性は、物理世界を理解しつつあるところにあります。

動画生成AIは目新しいものではありませんが、Soraが既存のサービスと一線を画すのは、物理世界をある程度「理解」している点です。Soraは物体の動きや重力、風や雨などの自然現象を適切に表現できます。これまでの動画生成AIは、物理法則をうまく表現できず、主にアニメーション映画のような空想上の作品に使われてきました。

Soraがリアルな物理世界を表現できるようになったのは、学習過程で膨大なデータから物理法則をある程度理解したからだと考えられます。この革新的な進歩により、最大1分という長尺でも破綻しない、写実的な動画生成が初めて可能になったのです。実際に生成された動画を見ると、人物や物体の動きがスムーズで自然な動作を描いているのがわかります。荒波が岩に打ち付ける様子にも臨場感があり、まるで実写の映像を見ているかのようです。

物理法則の理解は完全ではありませんが、それでもSoraは従来の動画生成AIとは次元の違う表現力を備えていると言えるでしょう。今後の技術進歩により、さらにリアルな動画生成が可能になることが期待されます。

Soraの課題

物理法則の完全な再現は未だ困難

Soraが物理世界を理解し始めたことは大きな進歩ですが、物理法則を完全に再現するには未だ難しい課題が残されています。

例えば、ガラスが粉々に砕ける瞬間のような、物体間の複雑な相互作用を正確に表現することは現状できません。

また、こちらの動画では、椅子を硬いものとしてモデル化できず、現実的にあり得ない不可解な挙動をしている動画を生成しています。

さらに、プロンプトの空間的な指示を正しく解釈できないこともあり、例えば左右の認識がうまくできていないケースが見受けられます。

こちらのランニングマシンに乗って走っている男性は、走る向きが逆であり、走っている途中の左右の腕の振りも不自然です。

このように、Soraの物理世界の理解にはまだ限界があり、完全に写実的な描写を実現するには、さらなる技術の進歩や、現実世界からの一次情報が必要不可欠です。

安全性の確保

Soraを製品やサービスとして一般に公開するには、AIによる倫理的リスクへの対策も欠かせません。

OpenAIは、Soraによって生成された動画にメタデータを付与することを検討しています。これにより、Soraが生成した動画とそうでない動画を区別することが容易になり、誤解を招くコンテンツの拡散を防ぐことができます。

また、使用ポリシーに違反するコンテンツの生成を防ぐため、事前にテキスト入力をチェックしてプロンプトを除外するフィルターも用意されています。

さらに、動画の各フレームをチェックする高度な画像分類システムも開発中で、出力された動画がポリシーに準拠していることを確認できるようになる予定です。

しかしながら、AIの進化は目覚ましく、倫理的・安全性の課題も常に新しいものが生まれてくる可能性があります。Soraのような画期的な技術においては、製品化に向けて今後も継続的な課題検証とリスク対策が不可欠となるでしょう。

『Sora』の先の世界

実世界を理解してシミュレーションできるモデル基盤

Soraには課題も残されていますが、OpenAIはこのAIを「AGI(汎用型人工知能)実現への重要な通過点」と位置付けています。

Soraは物理世界を認識して再現できる動画生成モデルであり、この技術が発展していけば、より高度な物理シミュレーションが可能になると考えられています。

現状はインターネット上のデータを学習して作られたモデルですが、各種センサーがついたロボットで現実世界のデータを取得することができれば、さらに精度が上がることは間違いないでしょう。

その結果、より正確でリアルタイムにシミュレートできる基盤となり、AIが自然界の法則をより深く理解できるようになります。

AGI達成の通過点現実世界の理解とAGIへの道筋

Soraは動画生成AIの1つの到達点ですが、それだけでなく、物理法則のシミュレーションにも応用できる可能性を秘めています。現実世界を正しく認識し、物理法則に基づいた動きを再現できるようになれば、人工知能の精度向上に大きく貢献すると考えられます。

例えば、物理法則をシミュレートできるモデルを言語モデル（LLM）と組み合わせることで、現実世界の情報をフィードバックとして利用し、LLMの精度を底上げすることが可能になるでしょう。また、ロボティクスの分野でも、物理法則を理解したモデルを活用することで、より人間に近い汎用的な動作を実現できる可能性があります。

OpenAIの研究者たちは、Soraの進化がAGI（Artificial General Intelligence）、つまり強い人工知能の実現に向けた重要なステップになると考えています。Soraの技術は、AGI実現までのロードマップ上で重要な位置を占めており、人工知能全体の発展に大きな影響を与えることが期待されています。

Soraは動画生成という特定の領域から始まりましたが、その技術は現実世界の理解とシミュレーションという、より汎用的な能力につながっています。今後のSoraの進化が、AGIへの道筋を切り開く可能性を秘めていると言えるでしょう。