- 2025/12/19 掲載
LINEヤフー、日本語MLLM(マルチモーダル基盤モデル)を開発・公開 商用利用も可能に
日本語データを大規模に活用することで、日本語テキストと画像の対応関係をより精緻に捉え、高い性能を実現
LINEヤフーによれば、「clip-japanese-base-v2」はApache-2.0ライセンスの下で公開されており、研究用途だけでなく商用利用が可能となっている。このライセンスにより、企業や開発者が自由にモデルを組み込み、実サービスやプロダクトで利用できる点が大きな特徴とされる。
公開されたモデルは、Hugging Faceなどの主要なモデルホスティングサービスにも登録され、API等を通じて簡単に利用できるようになっている。実際の利用例としては、画像検索アプリケーションの実装や、画像に基づくキーワード分類、視覚コンテンツのタグ付けなどが挙げられる。こうした用途では、画像と日本語テキストの関連性を高精度に評価できる特徴が活用されている。
「clip-japanese-base-v2」は、同社がこれまでに公開してきた日本語CLIPモデルの改良版に位置付けられる。学習データの量と質を見直し、日本語テキストと画像の対応関係をより精緻に捉えられるよう設計された。LINEヤフーの技術ブログでは、ゼロショット画像分類や画像・テキスト検索といった評価タスクにおいて、他の日本語マルチモーダル基盤モデルと比較して高いスコアを記録したと説明されている。特に、日本語キャプションと画像の意味的な一致度を測る指標で優位性が確認されたとしている。
LINEヤフーでは、この基盤モデルを自社サービスにも応用しており、特にYahoo!オークションなど同社グループ内のサービスで出品審査の自動化などに役立てているという報告もある。こうした実装例では、従来の個別モデルと比較して、追加学習なしでも柔軟な用途に対応できるという利点が示されている。
今回のモデル公開は、日本語の視覚言語処理技術における基盤モデルの普及と活用を促進すると同時に、商用利用のハードルを引き下げるものとして評価されている。
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR