2026/03/16 掲載

米Luma AIがマルチモーダル画像生成AIモデルUni-1を発表、推論でNano Banana2越え

自己回帰型モデルを採用、画像の推論や空間配置などを処理可能

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

米Luma AIは理解能力と生成能力を単一のアーキテクチャで統合した次世代型画像生成モデルUni-1を発表した。文章と画像を単一の系列として処理する自己回帰型Transformerを採用し、指示内容の推論と画像生成を同時に行う。論理的な画像処理能力を測るベンチマークで既存の主要モデルを上回る成績を収めた。

（画像：ビジネス+IT）

　米Luma AIは2026年3月6日、画像理解と生成能力を統合した新しいマルチモーダルAIモデルUni-1を発表した。従来の画像生成AIで主流だったノイズから画像を生成する拡散モデルとは異なり、テキストと画像を単一の処理パイプラインで扱う自己回帰型のTransformerアーキテクチャを採用している。

【図版付き記事はこちら】Luma AI、推論と生成画像モデル「Uni-1」発表

Luma AI、推論と生成画像モデル「Uni-1」発表

（図版：ビジネス+IT）

　これにより、指示された内容を推論し、要素の論理的な関係や空間配置を処理しながら画像を生成することが可能になった。Uni-1の大きな特徴は、複雑な指示を分解して場面の整合性を保つ能力にある。同社が公開した比較例では、会議室で猫がスライドを使って発表し、他の猫や人間がそれを観察するといった複数の主体と役割を含む指示に対し、各要素の配置や関係性を正確に表現した。

　

ポーズとキャラクターをリファレンスして思いの画像を生成できる

（画像：Luma AI）

　また、対話形式で複数回にわたって画像を編集し、文脈を維持したまま修正を加えることができる。参照画像から人物のアイデンティティやポーズを抽出して新しい画像へ転写する機能も備えており、1枚の画像からピアニストが年齢を重ねていく過程を固定されたカメラアングルで描き出すデモが公開された。このモデルは推論能力を測るベンチマークテストであるRISEBenchにおいて、空間理解や因果関係の処理で高い評価を得た。総合スコアは0.51となり、GoogleのNano Banana 2やOpenAIのGPT Image 1.5といった既存の主要モデルを上回っている。

　

画像の推論性能を図るベンチマークではNanobanana2を上回る数値も

（図版：Luma AI）

　さらに、画像を生成するための学習が視覚的な理解能力の向上にもつながっており、物体検出の精度を測るODinW Dense Detectionでは理解専用モデルのスコアを上回る結果を出した。Uni-1は単独のサービスではなく、同社が提供する複数のツールを動かす基盤エンジンとして機能する。

　具体的には、テキストや画像から動画を生成するDream Machineや、リサーチからコンテンツ生成までを自動化するLuma Agentsの内部で処理を担う。すでに広告代理店のPublicis GroupeやAdidasなどの企業で導入が始まっている。同社はUni-1を単なる画像生成モデルではなく、動画や言語を含めた統合知能に向けた第一歩と位置づけている。

評価する

いいね！でぜひ著者を応援してください