Stable DiffusionとMidjourneyはどちらが優れている？「画像生成AI」の可能性と課題

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

生成AIにおける「text to text」領域では、OpenAIのChatGPTが圧倒的な人気を誇るが、テキストから画像を生成する「text to image」領域では、Stable DiffusionとMidjourneyが二強として君臨している。そのStable Diffusionで新たなモデルがリリースされ、実写性が大幅に向上、本物の写真と見分けがつかないクオリティの画像が生成できるようになった。進化する画像生成AI、その最新動向を探ってみたい。

執筆：細谷元

細谷元

バークリー音大提携校で2年間ジャズ／音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/

「text to text」領域ではChatGPTが圧倒的だが「text to image」では？

（Photo：olivia_Brown / Shutterstock.com）

画像生成AI二強の最新動向

　マイクロソフトの検索エンジンBingで画像生成機能が追加されたほか、デザインプラットフォームCanvaでも画像生成が可能になるなど、生成AI技術を活用した画像生成ツールが身近な存在になりつつある。

　この画像生成領域を牽引してきたのは、Stable Diffusionを展開するStability AI（ロンドン拠点）とMidjourneyを展開するMidjourney, Inc（サンフランシスコ拠点）の2社だ。

　ChatGPTの開発企業として知られるOpenAIも画像生成AI「DALL-E」を開発しているが、現時点では、画像のクオリティでStable DiffusionとMidjourneyには及ばず、後塵を拝する状況となっている。そんな中、Stability AIが最新の画像生成モデルをリリース、画像クオリティがさらに向上したとして注目を集めている。

　Stability AIは2023年7月26日、同社が「最も先進的」と位置づける「Stable Diffusion XL 1.0」のリリースを発表した。同社によると、この最新モデルは、前モデルに比べ、より鮮明な画像を、正確な色彩で生成することが可能となり、またコントラスト、シャドー、ライティングにおいてもパフォーマンスが向上したという。Stable Diffusion XL 1.0は、GitHubで公開されており、オープンソースとして利用可能であるほか、同社のAPIや消費者向けアプリを通じて利用できる。

　Techcrunchは同社応用機械学習責任者ジョー・ペナン氏の話として、新モデルのパラメータ数は35億に上り、さまざまなアスペクト比に対応、数秒で高解像度（1メガピクセル）の画像を生成できると伝えている。

　VentureBeatなどの報道によると、Stable Diffusion XL 1.0はインペインティング（画像の欠落部分の再構成）、アウトペインティング（既存の画像の拡張）、および「画像対画像」プロンプトをサポートしている。

Stable Diffusion XL 1.0が生成した画像

（出典：Stability AIウェブサイト（https://stability.ai/blog/stable-diffusion-sdxl-1-announcement））

　画像のファインチューニングに関して、以前のモデルでは、長い詳細なプロンプトが必要であったが、新モデルでは短いプロンプトでハイクオリティ画像の生成が可能になったという。

　このファインチューニングの大幅な改善は「ControlNet」を採用したことで実現した。ControlNetは、今年初めにスタンフォード大学の研究論文で手法の詳細が説明され、画像生成領域で注目を集めるアプローチとなった。

　Stable Diffusionを含め、これまでの画像生成AIツールでは、被写体に対しユーザーが望む正確なポーズを取らせることが非常に困難であった。プロンプトで指示できるものの、AIツールの判断により画像が生成されるため、望むポーズが取れるまで、何度かプロンプトを実行する必要があった。

　ControlNetを用いることで、ポーズのベース画像を読み込ませ、ベース画像と同じポーズを取らせたり、ベース画像を基にさまざまなスタイルのアートを生成できるようになった。

ControlNetを活用した生成画像

（出典：Stability AIウェブサイト（https://stability.ai/blog/stable-diffusion-sdxl-1-announcement））

編集部おすすめ記事

アジフライ定食2,400円の衝撃……訪日客で激変、「食べログ」も動く“急成長市場”

MidjourneyとStable Diffusionの強みと弱み

　画像生成分野の二強であるMidjourneyとStable Diffusionであるが、フォトリアルな画像生成においては、Midjourneyの評価が高かった印象がある。実際、Midjourneyが生成する画像は、写真のようにリアルであり、数カ月前には、同AIツールで生成されたトランプ前大統領の逮捕シーンが物議を醸したばかりだ。

　しかし、Stable Diffusion XL 1.0へのアップグレードにより、フォトリアル画像の生成におけるStable DiffusionとMidjourneyの差はほとんどなくなった。

　今回Stable Diffusion XL 1.0のリリースを受け、いくつかのメディアは、Stable DiffusionとMidjourneyの比較検証が実施している。その1つDecyptは2023年8月1日の記事で、Stable Diffusionの新旧モデルとMidjourneyの比較を行い、いくつか興味深いインサイトを伝えている。

　Decyptが比較したのは、Stable Diffusionの最新モデル XL 1.0、前モデルであるStable Diffusion v1.5、そしてMidjourneyの3つだ。

　これら3つを比較したところ、まず使いやすさで軍配が上がったのがMidjourneyだ。Stable Diffusionは、GitHubでのダウンロード、Pythonのインストール、またコマンドプロンプトでのインストールなど、使うまでのハードルが若干高い。また、その画像生成スピードは、ユーザーのコンピュータスペック（特にGPU）に依存する。

　一方、MidjourneyはDiscordにログインするだけで、ユーザーのハードウェアスペックに関係なく利用することが可能だ。ただし、無料で利用できるStable Diffusionとは異なり、Midjourneyを利用するには1カ月8ドル、年間96ドルを支払う必要がある。

　画像を生成するには、DiscordにあるMidjourneyサーバで、プロンプトを入力するだけ。「portrait（ポートレート）」などのワードをプロンプトに入れると、ポートレート写真のようなリアルな画像を生成することができる。

　Decyptは、Midjourneyがオープンソースでないこと、描写制限が厳格であることなどを考慮すると、AIアートのパワーユーザーにとっては物足りなくなるであろうと指摘。そこで、登場するのがStable Diffusionという。

　今回の比較において、3つのモデルを馬にたとえ、Midjourneyが初心者にもやさしいポニー、Stable Diffusion v1.5が馬車馬、そして最新のStable Diffusion XL 1.0がサラブレッドに相当すると評価している。

　Stable Diffusion v1.5を実行するには、NVIDIAのGPU「RTX2000」シリーズ以上のスペックが推奨される。一方、Stable Diffusion XL 1.0では、最低6GBのVRAMを備えたGPUが必須となる。【次ページ】Stability AIが直面する深刻な課題