拡散モデルとは？Stable Diffusionなど「画像生成AIの学習モデル」をわかりやすく解説

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

画像生成AIの存在はすでに当たり前のものになりつつあります。広告やメディアに掲載されているイラストや写真のほか、私たちが普段使っている検索エンジンやブラウザにも搭載されるようになり、気軽に新しい画像を作れるようになりました。このような画像生成AIの急速な普及の背景にあるのが、画像生成AIの学習モデルに採用された「拡散モデル」の存在です。現在、ほとんどの画像生成AIサービスに採用されている「Stable Diffusion」もこの拡散モデルの1つです。本記事では、拡散モデルとは何か、仕組みや事例についてやさしく解説していきます。

執筆：フリーライター三津村直貴

フリーライター三津村直貴

合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー（翔泳社）』『図解これだけは知っておきたいAIビジネス入門（成美堂）』、執筆協力『マンガでわかる人工知能（池田書店）』など。

拡散モデルとは？

拡散モデルとは？データの破壊と修復を学ぶモデル

　拡散モデル（Diffusion Model）とは、画像生成AIに採用されている学習モデルの1つであり、データの拡散過程（ノイズが付与されて破壊される過程）を学習したモデルのことです。学習した拡散過程を元にして、破壊されたデータ（ノイズデータ）に対して逆拡散過程を施して修復することで、データを元に戻す、もしくは類似のデータを生成することができます。

拡散モデルが学ぶデータの拡散過程と逆拡散過程のイメージ

（出典：筆者作成）

　これでどうやって画像が生成できるようになるのかという疑問が湧いてきますが、これを理解するヒントは「オートエンコーダー」にありました。オートエンコーダーというのは、入力したデータとまったく同じデータを出力する装置ですが、入力データをよりシンプルで抽象的な「低次元」の情報に変換するという過程を経て出力しています。

オートエンコーダーのイメージ

（出典：筆者作成）

　ファイルを圧縮して解凍するようなイメージが近いですが、これができるのはデータの持つ「特徴」や「意味」というのを理解できているからです。そのデータが持っている「本来の意味」や「抽象的な概念」を理解していれば、詳細な情報が不足していても元のデータに近い形への修復は可能です。

　実際に、オートエンコーダーの原理を応用した生成AIとして「変分オートエンコーダー」なども開発されており、どちらも画像の概念を学んでいるという点で拡散モデルと比較される点の多い技術です。

　ただ、拡散モデルの場合は「多少破損」というレベルではなく、完全に破損して跡形がないレベルにまでデータを破壊します。つまり、これを修復できるということはデータの概念を正しく理解した上で「ゼロから生成する」のと変わりません。

　データのすべてを破壊する過程をひたすら学習させ続け、改めてゼロから作り直せるようになるまで訓練することで画像の作り方を覚えさせるというわけです。人間であれば、なかなかの過酷なトレーニングです。

　これができるようになると、画像生成は簡単です。データを生成する元になるノイズ（ランダムデータ）を毎回異なる状態にして画像を作らせると、同じようなプロセスで画像を作っていても、それぞれ少し異なる画像ができあがります。

拡散モデルによるデータ生成のイメージ

（出典：筆者作成）

　このようにして作られたデータはノイズを変えれば毎回異なる画像になるため、大量の画像を瞬時に生成することができるようになります。しかし、これだけではただのサンプル画像の生成マシンに過ぎません。私たちが使っている「プロンプトを入れれば好きな画像を作れる生成AI」にたどり着くには、もうワンステップ必要です。

連載一覧

▲ 閉じる ▼ すべて表示

編集部おすすめ記事

アジフライ定食2,400円の衝撃……訪日客で激変、「食べログ」も動く“急成長市場”

類似の生成AI「GAN」とは何が違う？

　拡散モデルと類似の生成AIにGAN（敵対的生成ネットワーク）があり、こちらも画像生成AIなどで注目されました。こちらは画像を生成する「生成AI」の画像を、画像を識別する「認識AI」が、本物か偽物かを見抜けるかといった手法で双方のAIを学習させていく手法です。

　こちらの手法は、拡散モデルやオートエンコーダーのような「画像の概念」を学ばせるような手法ではなく、どちらかと言えば「現実の画像と比較しながら間違った場所を修正していく」という、“美しい絵を書くための丁寧なアプローチ”と言えます。

　結果的にGANは拡散モデルに比べると美しく写実的な画像を生成でき、現実の写真やイラストと区別がつかないような精巧な画像をつくれるようになります。しかし、画像の概念を学んでいるわけではないので応用が苦手で多様性に乏しく、プロンプトから自由に画像を生成するといった使い方はやや難しい傾向にあります。

GANのイメージ

（出典：筆者作成）

　一方で、拡散モデルは精巧な画像を作るという意味ではGANに及びませんが、あらゆる要求に答えられる多様性を持つため「平均点」が極めて高く、GANが苦手とするあらゆる領域で高いスコアを出せます。ただ、生成プロセスにかかる計算量が高くなりがちで、時間がかかるというのが欠点です。GPUの高性能化によって軽減されてはいるものの、拡散モデルに残された課題の1つとなっています。【次ページ】【拡散モデル事例】Stable Diffusion、DALL-E、Midjourney、Adobe Fireflyを解説