MetaのMovie Genとは?国内での提供状況・Soraとの違い・特徴・性能を徹底解説!
Movie Genはテキストだけで最大16秒・1080pの動画と最大45秒の音声を一貫生成し、既存映像の編集や人物写真からの動画化にも対応人間評価でRunwayやSoraなど主要モデルより高評価を獲得し、4タスクすべてで圧倒的な勝率を記録2025年7月現在は一般公開されておらず、一部の映画制作会社や限られたパートナーにのみ提供中

Metaが開発したマルチモーダル動画生成AIモデル「Movie Gen」は、テキストをもとに高精度な動画や音声を自動生成・編集できる技術です。映像制作に必要だった複雑な工程や専門知識を必要とせず、ユーザーの発想をそのままビジュアルや音声として形にできるのが最大の特長です。

わずかな入力だけで、リアルで一貫性のある映像・音声コンテンツを誰でも直感的に作成可能となりコンテンツ制作のハードルを大きく引き下げます。

さらに、Movie Genは人物画像を使ったパーソナライズ動画の生成や既存映像の精密な編集機能も備えており、これまでにない表現力と柔軟性を提供します。

本記事では、Movie Genの基本概要から特徴、性能、現在の提供状況まで徹底的に解説します。

Movie Genとは?Meta社が2024年10月に発表したマルチモーダル機能を売りにした動画生成AIです。テキスト入力から高品質な映像や音声を生成することが可能で、映像・音声・画像を統合的に扱うことができます。

Movie Genでは、ユーザーが入力した簡単なテキストから、写実的で滑らかな動きのある動画や、その動画に合った音声(効果音・BGMなど)を一貫して生成できます。

また、既存の映像に対してもテキストで精密な編集指示を加えることができます。そのため、プロの映像編集者でなくとも直感的な操作で表現力豊かなコンテンツ制作が可能です。

MetaのCEOであるマーク・ザッカーバーグ氏は、同社の「Instagram」への機能統合を示唆しています。

Movie Genは国内で利用できる?

2025年7月現在、Movie Genは一般公開されておらず、Metaは一部の映像制作会社や選定されたクリエイターとのパイロットプログラムを通じて限定的に運用しています。

Meta公式ブログでも以下のように明言されており、API提供やSDK配布、Meta製品への組み込みも現段階では発表されていません。

“While we’re not planning to incorporate Movie Gen models into any public products until next year…”
日本語訳:「Movie Genモデルは来年まで一般向け製品に組み込む予定はない」

Meta AIそのものも日本を含む一部地域では利用制限がかかっており、地域によってはMeta AIサービスへのアクセス自体ができない状態です。

Movie Genの主な特徴

Movie Genは主に以下のような特徴を備えています。

マルチモーダルな生成能力

Movie Genは、テキストから映像を生成するだけでなく、既存映像の編集、人物画像をもとにしたパーソナライズ動画の生成、さらに音声(効果音やBGMなど)の生成までを一貫して行える統合型のマルチモーダルAIです。

この統合により、映像・音声・動作・構図が連動した、一貫性のあるメディア表現が可能となります。

また、Metaの過去の研究成果(Make-A-SceneやLlama Image)をベースにした第3世代のAIモデルとして、表現力と柔軟性が大きく進化しています。

高解像度かつ長尺の映像生成

Movie Genは最大16秒、1080p、毎秒16フレームの動画生成に対応しており、滑らかな動きと高解像度を両立します。

このフレームレートと長さは、他のテキスト生成AIを上回る水準で、カメラのパン、被写体の移動、空間表現など、複雑な演出にも適応でき、映像としての完成度が高く、ナレーション映像や演出重視のコンテンツにも対応可能です。

人物写真から自分だけの映像を作れる「パーソナライズ動画」ユーザーが提供した人物写真とテキストプロンプトを組み合わせることで、容姿や表情、動作を自然に再現した映像を生成できます。「実験中の科学者」「ペットとセルフィーを撮る男性」「カウガールが馬に乗る」など、人物の特徴を保持した多様な演出が可能です。

本人性や動きの整合性を損なわず、自然な演技を持たせたパーソナルコンテンツを作成できます。

精密な映像編集Movie Genは、既存の動画に対してテキストのみで要素の追加・削除、背景やスタイルの変更などを行うことができます。例えば、既存の動画に対して、「背景を森に変えて」「Tシャツの色を青にして」といったテキスト指示を送るだけで動画の内容を自在に編集できます。

処理はピクセル単位で正確に行われ、対象部分以外の構図を保ったまま変化を加えられます。そのため、編集経験のないユーザーでも高精度な映像調整が可能です。

グローバルな演出(色調や雰囲気)とローカルな修正(人物の動きや小道具の追加)を組み合わせた複雑な編集も直感的に行えます。

高精度な音声生成Movie Genは、テキストや映像に連動した高品質な音声(効果音、環境音、音楽など)を最大45秒まで生成可能です。「MovieGen Audio」という専用モデルが、生成された動画の内容に合わせたBGM、効果音、環境音などを自動で生成・追加します。

13Bパラメータの音声モデルにより、以下のような複雑なシーンにも対応し、映像と自然に同期する音響体験を実現します。

雷鳴とオーケストラ音ATVのエンジン音スケボーの着地音

さらに「音声拡張技術」によって、長尺動画でもシーンに合った音声が自動で付与され、編集不要で高品質なサウンドを実現できます。

Movie Genの性能

Movie Genの性能

Movie Genは、30Bパラメータの映像生成モデルと13BパラメータのMovieGen Audioという独自音声生成モデルを基盤として構築されています。

以下は、映像モデルおよび音声モデルの基本仕様です。

映像モデル:最大16秒間、1秒あたり16フレームの動画を高精度に生成音声モデル:最大45秒間の高品質かつ高忠実度の音声(環境音、効果音、BGM)を出力

さらに、MovieGen Audioには動画との同期を保ったまま、任意の長さの動画に一貫した音声を提供する「音声拡張技術」も搭載されています。映像と音のアライメント、テキストとの整合性において業界最高水準の性能を発揮します。

以下は、Metaが実施した4つの主要タスクにおける人間によるA/B評価の結果をわかりやすくまとめた表です。

純勝率(Net Win Rate)が正の値であるほど、Movie Genが他モデルよりも好まれたことを示しています。

機能比較対象モデルNet Win Rate映像生成Runway Gen3, OpenAI Sora, Kling 1.5+35.0 / +8.2 / +3.9パーソナライズ動画生成ID-Animator+64.7映像編集Runway Gen3, Runway Gen3 Style+86.7 / +19.4音声生成PikaLabs Sound Gen., External Music Gen. API+53.6 / +38.2

これらの結果は、Metaがモデル設計においてアーキテクチャ、トレーニング目標、データ設計、評価プロトコル、推論最適化など複数の技術を取り入れた成果であると報告されています。

MovieGenはSoraと何が違う?

動画生成AIとして最も有名なOpenAIのSoraとMovieGenは、何が違うのでしょうか。両者の特徴を比較してみましょう。

Meta MovieGenOpenAI Sora主な強み統合性とインタラクティブ性SNS向けの短尺動画テキストによる動画編集音声の同時生成画像からのパーソナライズ動画シネマティックな品質と長さ最大60秒の動画生成映画のような高品質で物語性のある映像表現物理法則の高度な理解想定される主な用途SNSコンテンツパーソナライズド広告Webコンテンツ製品デモなど短編映画CM芸術的な映像作品コンセプト映像など

Soraが「映画監督」のように高品質で長尺の映像作品を生み出すことを目指しているのに対し、MovieGenは「多才なコンテンツクリエイター」のように、SNSや広告など、よりインタラクティブな用途で力を発揮する統合型ツールと言えるでしょう。どちらが優れているかではなく、企業の目的や用途に応じて最適なツールを選択することが重要になります。

Movie Genに関するよくある質問まとめ

Movie Genはいつから一般利用できるようになりますか?

2025年7月現在、Meta公式は「来年まで一般向け製品に組み込む予定はない」と発表しており、具体的な一般公開時期は未定です。

現在は一部の映画制作会社など限定パートナーのみが利用可能です。

Movie Genで生成できる動画の最大長さと解像度は?

最大16秒間、1080p解像度、毎秒16フレームの動画生成が可能です。

音声については最大45秒間の高品質な効果音やBGMを生成できます。

まとめ

Movie Genは、Metaが開発したマルチモーダル生成AIであり、テキストから最大16秒・1080pの高精細な動画と、最大45秒の効果音・BGMを自動生成できる革新的なモデルです。

人物写真をもとにしたパーソナライズ動画や、既存映像の精密な編集、映像と音声の一貫した連動といった機能も搭載されています。従来の生成AIを大きく上回る表現力と柔軟性を実現しています。

2025年7月現在は一般公開されておらず、一部の映画制作会社やパートナー向けに限定提供されている段階です。しかし、今後正式にリリースされれば、映像制作・広告・教育・SNSコンテンツなど、幅広い領域での活用が期待されます。

Write A Comment

Pin