- 2025/12/02 掲載
パナソニックHD、マルチモーダルAIの「拡散型視覚言語モデル」LaViDaを開発
従来の自己回帰型マルチモーダルモデルを上回る精度と、生成効率を実現
ビジネス+IT
これまでのマルチモーダルAIや大規模言語モデル(LLM)では、テキスト生成において「自己回帰型(autogressive)」と呼ばれる方式が主流だった。これは文の先頭から1トークンずつ順に生成する方法で、長文や構造の複雑な文章になるほど生成時間が増加するという課題があった。
LaViDaでは、このテキスト生成部分に画像生成で使われる「拡散モデル」を応用している。具体的には、文章を構成するトークンを一旦マスク化(隠す)し、そこから必要なトークンを一括で復元する「アンマスキング」の手法を採用する。この方式により並列的な生成が可能となり、長文や構造化されたフォーマット(例えば詩、JSON、表など)の生成が効率化される。
ただし、拡散モデルをそのまま既存のマルチモーダルAIに当てはめただけでは、(1) アテンション計算のコストが非常に高くなる、(2) 重要な単語がマスクされず学習されない可能性がある、という問題があった。パナソニックHDらはこれを解決するため、入力画像と質問文のトークンにのみアテンションをかけ、応答文のトークン同士のアテンションを省く「Prefix-DLM」という工夫を導入。また、学習時には文章ごとに2通りのマスキングを相補的に行うことで、すべてのトークンが必ず学習されるようにした。
評価実験では、自然画像に対する Q&A、数学や科学の証明問題、チャートやグラフを含むドキュメントの内容理解など、多様なタスクを用いて性能を検証。LaViDaは既存の自己回帰型マルチモーダルモデルを上回る精度を示したうえで、生成効率(速度)も大幅に改善された。
また LaViDa は、構造化形式のテキスト生成に強みを持つ。たとえば詩や JSON 形式といった決まったフォーマットへの出力を自然かつ正確に行える点が、従来手法との大きな違いとして挙げられている。
この成果は国際的にも高く評価され、2025年12月にアメリカ・サンディエゴで開催される機械学習のトップ会議 NeurIPS 2025 への採択が決定しており、そこで研究成果が発表される予定である。
パナソニックは、今後この技術を社内の業務ドキュメントや技術資料、マニュアルなどの統一フォーマット化や自動整備に活用し、AIを用いた業務効率化・自動化の促進を目指すとしている。多様な形式のデータが混在する現場において、AIエージェントにとって扱いやすい形に変換することが狙いだ。
今回の発表によって、視覚と言語を同時に扱うマルチモーダルAIにおいて、拡散モデルを使った高速かつフォーマット制御可能な生成が実用レベルに近づいたことが示された。今後この手法が他機関にも広がることで、画像認識とテキスト生成を組み合わせたAIの応用範囲が一段と拡大する可能性がある。
最新ニュースのおすすめコンテンツ
PR
PR
PR