- 2026/03/16 掲載
米Luma AIがマルチモーダル画像生成AIモデルUni-1を発表、推論でNanobanana2越え
自己回帰型モデルを採用、画像の推論や空間配置などを処理可能
これにより、指示された内容を推論し、要素の論理的な関係や空間配置を処理しながら画像を生成することが可能になった 。Uni-1の大きな特徴は、複雑な指示を分解して場面の整合性を保つ能力にある 。同社が公開した比較例では、会議室で猫がスライドを使って発表し、他の猫や人間がそれを観察するといった複数の主体と役割を含む指示に対し、各要素の配置や関係性を正確に表現した。
また、対話形式で複数回にわたって画像を編集し、文脈を維持したまま修正を加えることができる 。参照画像から人物のアイデンティティやポーズを抽出して新しい画像へ転写する機能も備えており、1枚の画像からピアニストが年齢を重ねていく過程を固定されたカメラアングルで描き出すデモが公開された。このモデルは推論能力を測るベンチマークテストであるRISEBenchにおいて、空間理解や因果関係の処理で高い評価を得た 。総合スコアは0.51となり、GoogleのNano Banana 2やOpenAIのGPT Image 1.5といった既存の主要モデルを上回っている。
さらに、画像を生成するための学習が視覚的な理解能力の向上にもつながっており、物体検出の精度を測るODinW Dense Detectionでは理解専用モデルのスコアを上回る結果を出した 。Uni-1は単独のサービスではなく、同社が提供する複数のツールを動かす基盤エンジンとして機能する。
具体的には、テキストや画像から動画を生成するDream Machineや、リサーチからコンテンツ生成までを自動化するLuma Agentsの内部で処理を担う 。すでに広告代理店のPublicis GroupeやAdidasなどの企業で導入が始まっている 。同社はUni-1を単なる画像生成モデルではなく、動画や言語を含めた統合知能に向けた第一歩と位置づけている。
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR