- 2026/05/18 掲載
凄すぎ…「Gemma 4×Claude Code活用術」、API料金ゼロでAIエージェント制作の全手順(2/3)
グーグルのローカルLLM「Gemma 4」の実力
もう1つ面白いのは、Webブラウザやスマホでもまともな生成AIが動くようになってきたことだ。グーグルが2026年4月に出したGemma 4は、Geminiとは別系統のオープンLLMだ。自由にダウンロードして使うことができて、ライセンスは商用利用も自由だ。性能が異なる複数のサイズがあるが、最初のE2Bとその上のE4BはWebブラウザやスマホの上でも動作するエッジタイプだ。
テキストだけでなく画像と音声も認識できるマルチモーダルで外部サービスを呼び出すこともできてAIエージェントとしての用途を強く意識している。140言語対応で、長い会話もちゃんと覚えていられる。容量は圧縮版のE2Bで約3.38GB、E4Bで約5.07GBあり、E2Bならメモリ8GB以上のスマホやPCならギリギリ動きそうだし、ハイエンド機なら多少古くても動作する。
もう1つ、スタートアップ企業のPrismMLが2026年3月と4月に出した「Bonsai」と「Ternary Bonsai」というLLMも一部で注目を浴びている。同サイズの一般モデルと比べて1/9から1/14に小さい2GB以下の大きさに収めた。用途によって品質に差が出る代わりに、これまでLLMを置けなかった場所にもそれなりに判断能力を持ったAIを置ける。Gemma 4 E2B/E4Bよりもさらに割り切った特化型だ。
AIを極小化する「量子化」のスゴさ
知識量は多くはないが、十分な知能を持つ生成AIがローカルで動くようになったのは「量子化」技術のおかげだ。量子化とは、モデルの圧縮だ。AIモデルは大量の数値(重み=パラメータ)の集まりで、重み1個に32ビット使うと、70億パラメータの「7Bモデル」で28GB必要になる。32bitは数値データを扱うときの基本の大きさだが、これを節約して16ビット、8ビット、4ビットへと絞っていけば、容量は半分、1/4、1/8と縮む。4ビットで7Bモデルが約3.5GBになり、最新のスマホにも収まる。これが現在の主戦場だ。Gemma 4のサイズを「圧縮版」と書いたのは、この4ビット版のことである。
さらに踏み込んで、1bitつまり1と-1の二値にまで圧縮したのが1bit版のBonsaiだ。非常にコンパクトになったが、劣化も著しい。そこで重みを{-1、0、+1}の3値で表現する「1.585bit」を採用したのがTernary Bonsaiだ。重みをゼロにでき、疎な表現を取りやすいため、AIの自然な構造に近いと考えられている。
PrismMLが発表したベンチマーク結果では、大きさが1.75GBの「Ternary Bonsai 8B」が16.38GBの「Qwen3 8B」に迫る性能を発揮したという。サイズ的には1/10近い。
Bonsaiは10倍近いサイズのAIと同等の性能だと主張している。Bonsai系はコーディングは苦手だが、軽量AIエージェントには向いているようだ。 【次ページ】Webブラウザ上で「AIを動かす」ためには
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR