AI動画は結局どれがいい？OpenAIらに対抗、グーグル、Midjourney、バイトダンスら比較

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

RunwayやOpenAIがリードしてきた動画生成AI市場だが、新規プレイヤーの参入により状況は大きく変化している。Midjourneyが既存サービスの25分の1という破格価格で参入する一方、グーグルは月額249.99ドルの高額モデルで音声付き動画を実現。中国MiniMaxのHailuo 02は充実した無料プランでユーザー獲得を狙い、バイトダンスのSeedance 1.0はベンチマークで首位を獲得するなど存在感を示す。本記事では、最新の動画生成AI主要モデルの特徴と評価を徹底解説する。

執筆：細谷元

細谷元

バークリー音大提携校で2年間ジャズ／音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

　構成：ビジネス＋IT編集部

Midjourneyの動画モデルが生成した動画

（出典：Midjourney）

画像生成分野のパイオニアMidjourneyが動画分野に進出

　画像生成AI分野で確固たる地位を築いてきたMidjourneyが、ついに動画生成市場に参入した。2025年初頭に発表された同社初の動画生成モデル「Video Model V1」は、既存の画像生成機能を基盤とした「Image-to-Video」アプローチを採用。静止画から動画への変換という独自の戦略で、激化する動画生成AI市場に挑む。

　Midjourneyの最大の強みは、その圧倒的な処理速度と価格設定にある。プレビューは480p、エクスポートは1080pのフルHD画質に対応し、現在利用可能なAI動画生成ツールの中で最速級の処理を実現。価格面でも画像生成の約8倍のコストで4本の5秒動画を生成でき、1秒あたりのコストは画像1枚分という破格の設定だ。これは市場の既存サービスと比較して25分の1という驚異的な低価格となっている。

　機能面では、自動と手動の2つのアニメーションモードを搭載。自動モードはMidjourneyが画像の内容を解釈して適切な動きを生成し、手動モードではユーザーが具体的な動作をプロンプトで指定できる。さらに「低モーション」と「高モーション」の設定により、静かな環境映像から激しいアクションシーンまで幅広い表現が可能となった。

　特筆すべきは「Extend」機能の存在だ。初期の5秒動画を4秒ずつ延長でき、最大21秒まで拡張できる。他の生成ツールと異なり、延長部分の遷移が非常にスムーズで、複雑なアクションを複数の延長セグメントに分けて制御することで、より精密な動画制作を実現している。

「Extend」機能のテストシーン 17:19～

（出典：Futurepedia YouTubeチャンネル）

　Midjourneyが得意とするのは、抽象的・シュールリアルな映像表現だ。他のジェネレーターが苦手とする複雑なコンセプトでも一貫性を保ちながらアニメーション化でき、アニメ、3Dアニメーション、ピクセルアート、手描きスケッチなど多様なイラストスタイルに対応。この幅広い表現力は、クリエイティブな用途において大きなアドバンテージとなる。

　一方で課題も存在する。体操やカートホイールなどの複雑な物理的動作、ドミノ倒しや針に糸を通すような精密な動きの再現には苦戦することが報告されている。また、単一の静止画から劇的な感情変化を表現することも困難で、モデレーションが画像生成よりも厳格になっている点も制約となっている。

編集部おすすめ記事

アジフライ定食2,400円の衝撃……訪日客で激変、「食べログ」も動く“急成長市場”

グーグルの動画生成AI「Veo3」の強みと弱み

　Midjourneyが価格と表現力で勝負する一方、グーグルのVeo3は技術的な革新性で競争に挑む。2025年5月I/O開発者会議でこの最新モデルを発表した際、同社は動画生成AI分野における「サイレント時代の終焉」を宣言した。映像と音声を同時に生成する画期的な機能により、競合他社との差別化を図る。

グーグル・ディープマインドの最新動画モデル「Veo3」

（Photo/Shutterstock）

　Veo3の最大の特徴は、映像生成と同時に効果音、背景音、さらには完全にリップシンクした対話まで一度に生成できる点にある。グーグル・ディープマインドのCEO、デミス・ハサビス氏は「キャラクターと環境を記述したプロンプトを与え、対話内容とその音声の特徴を指定するだけで、統合されたコンテンツが生成される」と説明する。

　この技術は、同社が以前から取り組んできた「ビデオ・トゥ・オーディオ」AI研究の成果だという。

cooking up something tasty for tomorrow... pic.twitter.com/wyIRMsXkFG
— Demis Hassabis (@demishassabis) May 19, 2025

グーグル・ディープマインド、デミス・ハサビス氏が投稿したVeo3による音声付き動画

　実際の使用例では、アイザック・ニュートンが重力についてラップを披露したり、街頭インタビュー、スタンドアップコメディ、スラムポエトリー、料理チュートリアルなど多様なコンテンツの生成に成功。特にメイクアップチュートリアルや旅行ブログ、技術デモといったユーザー生成コンテンツ（UGC）スタイルの再現において優れた成果を示している。

　グーグルの新プラットフォーム「Flow」では、テキストから動画、画像から動画への変換機能に加え、「Ingredients」と呼ばれるモジュラー型ビルディングブロック機能を搭載。キャラクターやシーンを複数の生成物で再利用でき、一貫性のあるコンテンツ制作を可能にした。さらに「Extend」機能で動画の延長、「Jump To」機能で新しいシーンへの遷移も実現している。

　ただし、現実の使用においては課題も残る。対話生成時に不自然な間が生じたり、プロンプトの解釈が奇妙になることがある。たとえば、エイリアンとの遭遇に関するインタビューを描写する際、登場人物の目が異常に大きく開いた状態で生成されるケースも報告された。また、画像から動画への変換はテキストからの生成と比較して品質が劣り、画像を起点とした場合は音声生成に失敗することも多いとされる。

キャラクターの目が異常に大きく開いた状態で生成されるケース

（出典：Futurepedia YouTubeチャンネル）

　利用料月額249.99ドル（最初の3カ月は125ドル）という価格設定は市場の中でも高額な部類に入り、特に画像からの生成品質を考慮すると割高感は否めない。しかし、映像と音声の同時生成という技術的優位性により、AI動画生成の新たなベースラインを確立したと評価されている。【次ページ】コスパ最強の挑戦者、Hailuo 02の強みと課題