2026/05/18 掲載

凄すぎ…「Gemma 4×Claude Code活用術」、API料金ゼロでAIエージェント制作の全手順(2/3)

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

グーグルのローカルLLM「Gemma 4」の実力

　もう1つ面白いのは、Webブラウザやスマホでもまともな生成AIが動くようになってきたことだ。

　グーグルが2026年4月に出したGemma 4は、Geminiとは別系統のオープンLLMだ。自由にダウンロードして使うことができて、ライセンスは商用利用も自由だ。性能が異なる複数のサイズがあるが、最初のE2Bとその上のE4BはWebブラウザやスマホの上でも動作するエッジタイプだ。

　テキストだけでなく画像と音声も認識できるマルチモーダルで外部サービスを呼び出すこともできてAIエージェントとしての用途を強く意識している。140言語対応で、長い会話もちゃんと覚えていられる。容量は圧縮版のE2Bで約3.38GB、E4Bで約5.07GBあり、E2Bならメモリ8GB以上のスマホやPCならギリギリ動きそうだし、ハイエンド機なら多少古くても動作する。

　もう1つ、スタートアップ企業のPrismMLが2026年3月と4月に出した「Bonsai」と「Ternary Bonsai」というLLMも一部で注目を浴びている。同サイズの一般モデルと比べて1/9から1/14に小さい2GB以下の大きさに収めた。用途によって品質に差が出る代わりに、これまでLLMを置けなかった場所にもそれなりに判断能力を持ったAIを置ける。Gemma 4 E2B/E4Bよりもさらに割り切った特化型だ。

クラウドAIと手元のAIは、それぞれ得手不得手がある。料金、通信、即応性の3点で性質が大きく異なる

（筆者が作成）

AIを極小化する「量子化」のスゴさ

　知識量は多くはないが、十分な知能を持つ生成AIがローカルで動くようになったのは「量子化」技術のおかげだ。

　量子化とは、モデルの圧縮だ。AIモデルは大量の数値（重み＝パラメータ）の集まりで、重み1個に32ビット使うと、70億パラメータの「7Bモデル」で28GB必要になる。32bitは数値データを扱うときの基本の大きさだが、これを節約して16ビット、8ビット、4ビットへと絞っていけば、容量は半分、1/4、1/8と縮む。4ビットで7Bモデルが約3.5GBになり、最新のスマホにも収まる。これが現在の主戦場だ。Gemma 4のサイズを「圧縮版」と書いたのは、この4ビット版のことである。

ビット数を半減させると、モデルサイズもおよそ半分に縮む。4ビットが現実解として広く使われており、1ビット級は次の踏み込みどころにあたる

（筆者が作成）

　さらに踏み込んで、1bitつまり1と-1の二値にまで圧縮したのが1bit版のBonsaiだ。非常にコンパクトになったが、劣化も著しい。そこで重みを{-1、0、+1}の3値で表現する「1.585bit」を採用したのがTernary Bonsaiだ。重みをゼロにでき、疎な表現を取りやすいため、AIの自然な構造に近いと考えられている。

　PrismMLが発表したベンチマーク結果では、大きさが1.75GBの「Ternary Bonsai 8B」が16.38GBの「Qwen3 8B」に迫る性能を発揮したという。サイズ的には1/10近い。