2026/03/04 掲載

Googleが推論の深さを調整可能な軽量AIモデルGemini 3.1 Flash-Liteを発表

処理速度を大幅向上、推論の深さを可変にする機能を標準搭載

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

米GoogleはGemini 3シリーズで最速かつ最も低コストなモデルとなるGemini 3.1 Flash-Liteのプレビュー版を公開した。従来モデルから処理速度を大幅に向上させつつ、タスクに応じて推論の深さを調整できる機能を新たに標準搭載した。大規模なデータ処理やリアルタイムな応答が求められる企業や開発者向けの提供となる。

（画像：Google）

　米Googleは現地時間の3月3日、AIモデルGemini 3シリーズの最新版にあたるGemini 3.1 Flash-Liteのプレビュー提供を開始した。開発者はGoogle AI StudioのGemini APIを通じて、企業ユーザーはVertex AIを通じて利用できる。同モデルはシリーズ内で最も高速かつ低コストな大規模ワークロード向けモデルとして設計された。利用料金は入力100万トークンあたり0.25ドル、出力100万トークンあたり1.50ドルに設定されている。

【画像付き記事全文はこちら】Google 推論の深さを調整できるGemini 3.1 Flash-Liteリリース

Google 推論の深さを調整できるGemini 3.1 Flash-Liteリリース

（画像：ビジネス+IT）

　従来モデルのGemini 2.5 Flashと比較して、最初の回答が出力されるまでの時間を2.5倍高速化させるとともに、全体の出力速度も45パーセント向上させた。同社は大型モデルの数分の一のコストで高速な動作を実現したとしている。処理速度の向上に加えて、推論およびマルチモーダル理解能力の品質も維持されている。同クラスの他社モデルと比較したベンチマークテストにおいて、Arena.ai Leaderboardで1432のEloスコアを獲得した。

　また、GPQA Diamondで86.9パーセント、MMMU Proで76.8パーセントを記録し、前世代のより大規模なGemini 2.5 Flashを上回る性能を示した。新たな機能として、タスクに応じてモデルの推論の深さを制御できる思考レベル機能が標準で追加された。開発者はAI StudioやVertex AI上で、処理ごとにAIが推論にかける思考量を柔軟に調整できる。

　この低遅延と制御能力により、大量のテキスト翻訳や画像コンテンツのモデレーションといったコストと速度を優先するタスクから、動的なリアルタイムダッシュボードの生成、多様なステップをこなすSaaSエージェントの構築など、高度な推論が求められる複雑なタスクまでスケールに合わせて幅広く対応する。すでにLatitudeやCartwheelなどの企業が早期アクセスを通じて同モデルを導入している。

　早期テストの参加者は、より大規模なモデルと同等の精度で複雑な入力に対応できる点や、指示への正確な追従性を評価している。同社は応答性の高いリアルタイムな体験を構築するための最適なモデルと位置づけている。

Googleで見つけやすく

評価する

いいね！でぜひ著者を応援してください