- 2025/05/24 掲載
「ジブリ風」で鬼バズ、ChatGPTの画像生成AIに“ある懸念”が広がる理由(2/2)
技術的特徴:GPT-4oがもたらす4つの革新
GPT-4oの画像生成がどのように進化したのか、特に注目される4つの特徴を見ていきたい。まず挙げられるのが、マルチモーダル融合と文脈理解の向上だ。従来のDALL-E 3やStable Diffusionが、テキストから画像への一方向の変換にとどまっていたのに対し、GPT-4oではテキストと視覚的な文脈を同時に処理する仕組みを採用。既存画像の変換や拡張が可能となり、チャット履歴を活用した一貫性のある画像生成を実現した。これにより、ロゴデザインなどの作業において、「フォントを大きくして背景を緑に」といった具体的な指示による反復的な改善ができるようになった。

画像内のテキスト生成能力が大幅に向上した点も特筆に値する。これまでの生成モデルでは、画像内のラベルや看板、キャプションなどの文字が判読不能な状態で生成されることが多かった。GPT-4oは、この課題を克服。広告モックアップやポスター、ソーシャルメディア向けのグラフィックにおいて、スローガンや商品名を正確に描画できるようになった。
第3の特徴として、複雑なシーン構成と複数オブジェクトの処理能力の向上が挙げられる。従来のモデルが数個のオブジェクトの配置で混乱していたのに対し、GPT-4oは10~20個の個別オブジェクトを1つのシーンに適切に配置できる能力を獲得した。これにより、ゲームデザイナーや映画制作者は、複数のキャラクターや小道具を含む複雑なシーンを簡単に視覚化できる。
4つ目は、スタイルの多様性と変換機能の拡充だ。写真のようなリアルな表現から、油絵やアニメ、鉛筆スケッチ、3Dレンダリングまで、ユーザーの指示に基づいて幅広いスタイルの画像を生成することができる。また「これを水彩画風に」といった指示でスタイルを動的に変更することも可能だ。
これらのアップデートを鑑みると、GPT-4oは従来のモデルと比べて、より実用的なツールへと進化したと言えるだろう。
ジブリ風画像機能の反響と課題
OpenAIのこの新画像生成モデルが話題となった理由は、品質の大幅な向上だけではない。スタジオジブリ風の画像生成機能も、同モデルの話題性を高めた大きな理由だ。GPT-4oのスタイル変換の一つとして実装されたこの機能は、モデルのリリース直後から爆発的な人気を集めることとなった。生成方法は極めてシンプル。ユーザーはChatGPTに「スタジオジブリ風のスタイルで」と指示するだけで、既存の写真を変換したり、新規画像を生成したりすることができる。カラフルなパレットやアニメ風のシェーディング、幻想的なディテールといったジブリ作品特有のスタイルをGPT-4oは高い精度で再現することに成功したのだ。
この機能は瞬く間にソーシャルメディアで拡散。特にXでは、歴史的な写真から、ポップカルチャーのミーム、著名人のポートレートまで、あらゆる画像がジブリ風に変換され、共有された。多くのユーザーは生成された画像の質の高さに驚き、「となりのトトロ」や「もののけ姫」のような作品の特徴を忠実に再現できる点を高く評価している。
一方で、この現象には批判的な声も上がっている。「となりのトトロ」や「千と千尋の神隠し」といった作品は、緻密な手描きアニメーションと細部へのこだわりにより、完成までに数年を要する。それに対してAIが数秒で模倣的な作品を生み出すことは、クリエイターの労力と芸術性を軽視するものだとの指摘が相次いでいる。また、著作権の問題も浮上。スタイルの模倣自体は米国では著作権侵害とはみなされないものの、一部のファンからは否定的な反応が出ている状況だ。
この事態に対しOpenAIは、「生存するアーティストの作風を模倣しようとする要求は拒否する」という方針を明示したものの、スタジオ全体のスタイルについては許容する姿勢を示している。この判断基準の妥当性については、ニュースメディア、作家、音楽家らによる一連の訴訟で現在も議論が続いている。
技術面での課題も浮上。ジブリスタイルの影響もあり、予想を遥かに超える需要が発生、インフラに大きな負荷がかかり、OpenAIは無料ユーザー向けの提供を延期し、短時間での画像生成数にも制限を設けざるを得なくなったという。
画像生成AI市場では、FluxやグーグルImagenのほかにも、ReveやRecraftといったプレーヤーも存在感を強めているところ。OpenAIが新たなモデルでどこまでシェアを取り戻すことができるのかが注目される。
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR