• 会員限定
  • 2023/08/29 掲載

Stable DiffusionとMidjourneyはどちらが優れている? 「画像生成AI」の可能性と課題

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
記事をお気に入りリストに登録することができます。
生成AIにおける「text to text」領域では、OpenAIのChatGPTが圧倒的な人気を誇るが、テキストから画像を生成する「text to image」領域では、Stable DiffusionとMidjourneyが二強として君臨している。そのStable Diffusionで新たなモデルがリリースされ、実写性が大幅に向上、本物の写真と見分けがつかないクオリティの画像が生成できるようになった。進化する画像生成AI、その最新動向を探ってみたい。

執筆:細谷 元、構成:ビジネス+IT編集部

執筆:細谷 元、構成:ビジネス+IT編集部

バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

photo
「text to text」領域ではChatGPTが圧倒的だが「text to image」では?
(Photo:olivia_Brown / Shutterstock.com)

画像生成AI二強の最新動向

 マイクロソフトの検索エンジンBingで画像生成機能が追加されたほか、デザインプラットフォームCanvaでも画像生成が可能になるなど、生成AI技術を活用した画像生成ツールが身近な存在になりつつある。

 この画像生成領域を牽引してきたのは、Stable Diffusionを展開するStability AI(ロンドン拠点)とMidjourneyを展開するMidjourney, Inc(サンフランシスコ拠点)の2社だ。

 ChatGPTの開発企業として知られるOpenAIも画像生成AI「DALL-E」を開発しているが、現時点では、画像のクオリティでStable DiffusionとMidjourneyには及ばず、後塵を拝する状況となっている。そんな中、Stability AIが最新の画像生成モデルをリリース、画像クオリティがさらに向上したとして注目を集めている。

 Stability AIは2023年7月26日、同社が「最も先進的」と位置づける「Stable Diffusion XL 1.0」のリリースを発表した。同社によると、この最新モデルは、前モデルに比べ、より鮮明な画像を、正確な色彩で生成することが可能となり、またコントラスト、シャドー、ライティングにおいてもパフォーマンスが向上したという。Stable Diffusion XL 1.0は、GitHubで公開されており、オープンソースとして利用可能であるほか、同社のAPIや消費者向けアプリを通じて利用できる。

 Techcrunchは同社応用機械学習責任者ジョー・ペナン氏の話として、新モデルのパラメータ数は35億に上り、さまざまなアスペクト比に対応、数秒で高解像度(1メガピクセル)の画像を生成できると伝えている。

 VentureBeatなどの報道によると、Stable Diffusion XL 1.0はインペインティング(画像の欠落部分の再構成)、アウトペインティング(既存の画像の拡張)、および「画像対画像」プロンプトをサポートしている。

画像
Stable Diffusion XL 1.0が生成した画像
(出典:Stability AIウェブサイト(https://stability.ai/blog/stable-diffusion-sdxl-1-announcement))

 画像のファインチューニングに関して、以前のモデルでは、長い詳細なプロンプトが必要であったが、新モデルでは短いプロンプトでハイクオリティ画像の生成が可能になったという。

 このファインチューニングの大幅な改善は「ControlNet」を採用したことで実現した。ControlNetは、今年初めにスタンフォード大学の研究論文で手法の詳細が説明され、画像生成領域で注目を集めるアプローチとなった。

 Stable Diffusionを含め、これまでの画像生成AIツールでは、被写体に対しユーザーが望む正確なポーズを取らせることが非常に困難であった。プロンプトで指示できるものの、AIツールの判断により画像が生成されるため、望むポーズが取れるまで、何度かプロンプトを実行する必要があった。

 ControlNetを用いることで、ポーズのベース画像を読み込ませ、ベース画像と同じポーズを取らせたり、ベース画像を基にさまざまなスタイルのアートを生成できるようになった。

画像
ControlNetを活用した生成画像
(出典:Stability AIウェブサイト(https://stability.ai/blog/stable-diffusion-sdxl-1-announcement))

MidjourneyとStable Diffusionの強みと弱み

 画像生成分野の二強であるMidjourneyとStable Diffusionであるが、フォトリアルな画像生成においては、Midjourneyの評価が高かった印象がある。実際、Midjourneyが生成する画像は、写真のようにリアルであり、数カ月前には、同AIツールで生成されたトランプ前大統領の逮捕シーンが物議を醸したばかりだ。

 しかし、Stable Diffusion XL 1.0へのアップグレードにより、フォトリアル画像の生成におけるStable DiffusionとMidjourneyの差はほとんどなくなった。

 今回Stable Diffusion XL 1.0のリリースを受け、いくつかのメディアは、Stable DiffusionとMidjourneyの比較検証が実施している。その1つDecyptは2023年8月1日の記事で、Stable Diffusionの新旧モデルとMidjourneyの比較を行い、いくつか興味深いインサイトを伝えている。

 Decyptが比較したのは、Stable Diffusionの最新モデル XL 1.0、前モデルであるStable Diffusion v1.5、そしてMidjourneyの3つだ。

 これら3つを比較したところ、まず使いやすさで軍配が上がったのがMidjourneyだ。Stable Diffusionは、GitHubでのダウンロード、Pythonのインストール、またコマンドプロンプトでのインストールなど、使うまでのハードルが若干高い。また、その画像生成スピードは、ユーザーのコンピュータスペック(特にGPU)に依存する。

 一方、MidjourneyはDiscordにログインするだけで、ユーザーのハードウェアスペックに関係なく利用することが可能だ。ただし、無料で利用できるStable Diffusionとは異なり、Midjourneyを利用するには1カ月8ドル、年間96ドルを支払う必要がある。

 画像を生成するには、DiscordにあるMidjourneyサーバで、プロンプトを入力するだけ。「portrait(ポートレート)」などのワードをプロンプトに入れると、ポートレート写真のようなリアルな画像を生成することができる。

 Decyptは、Midjourneyがオープンソースでないこと、描写制限が厳格であることなどを考慮すると、AIアートのパワーユーザーにとっては物足りなくなるであろうと指摘。そこで、登場するのがStable Diffusionという。

 今回の比較において、3つのモデルを馬にたとえ、Midjourneyが初心者にもやさしいポニー、Stable Diffusion v1.5が馬車馬、そして最新のStable Diffusion XL 1.0がサラブレッドに相当すると評価している。

 Stable Diffusion v1.5を実行するには、NVIDIAのGPU「RTX2000」シリーズ以上のスペックが推奨される。一方、Stable Diffusion XL 1.0では、最低6GBのVRAMを備えたGPUが必須となる。 【次ページ】Stability AIが直面する深刻な課題

関連タグ

関連コンテンツ

あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます