- 2026/06/05 掲載
米Google、ノートPCで動作する軽量マルチモーダルAI Gemma 4 12B公開
ローカル動作する軽量性とより大規模なモデルに匹敵する性能
従来のマルチモーダルAIは、テキスト、画像、音声を処理する際、各データ形式に対応した独立したエンコーダーを用いてデータを変換してから言語モデルに入力する手法が主流であった。この方式はモデル全体のサイズを肥大化させ、推論時の遅延やデータ処理におけるメモリ消費量の増加を招く要因となっていた。Gemma 4 12Bは、このエンコーダーを完全に排除した「エンコーダーレスアーキテクチャ」を同ファミリーの中規模モデルとして初めて採用した。画像や音声のデータを単一のトランスフォーマーコアへ直接入力して処理する構造を確立したことで、メモリ使用量を大幅に削減し、低遅延での推論を実現している。
本モデルは、エッジデバイス向けの小型モデルと、高性能サーバー向けの巨大モデルの間に存在する空白を埋めるプロダクトとして位置づけられている。小型軽量な設計でありながら、同シリーズのより大規模なモデル「Gemma 4 26B」に迫る推論性能をベンチマークテストで記録した。さらに、ローカル推論の速度を最大化する目的で、専用のマルチトークン予測(MTP)モデルも併せて公開されている。
ライセンスにはApache 2.0を採用しており、商用および研究目的での利用が可能となっている。Hugging Faceなどのプラットフォームを通じてモデルデータが提供されるほか、llama.cpp、MLX、Ollamaといったローカル環境用の各種推論エンジンとの互換性も確保されている。これにより、外部のクラウドインフラやAPIに依存することなく、機密性の高いデータを保護しながら、自律的なエージェント機能や高度なマルチモーダル処理を個人のデバイス上で構築および実行する環境が提供される。
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR