- 2026/03/27 掲載
Googleが新音声モデル「Gemini 3.1 Flash Live」を発表、感情を理解した音声会話
ユーザーの感情や音響的ニュアンスを理解、より自然な応答が可能
従来のモデルと比較して処理精度の向上と遅延の大幅な低減が図られており、以前の「2.5 Flash Native Audio」に比べて声の高さや話すペースといった音響的なニュアンスを理解する能力が向上した。これにより、ユーザーの不満や混乱などの感情表現に合わせて動的に応答を調整することが可能となっている。さらに、会話の文脈を従来の2倍長く維持できるようになり、長時間のブレインストーミングや、ノイズの多い環境下での複雑なタスク処理に役立つ設計となっている。
外部の評価機関によるベンチマークテストにおいても高い性能を示しており、米Scale AIが実施した音声モデルの会話能力評価「Audio MultiChallenge」において、「thinking」機能をオンにした状態で36.1%というスコアを記録した。このテストは複雑な指示への対応や、現実世界の音声に特有の途切れやためらいを含む状況下での長期的な文脈維持能力を評価するものである。
また、複数の制約条件を伴う関数呼び出しを評価する「ComplexFuncBench Audio」でも90.8%のスコアを達成している 。同モデルは、一般ユーザー向けに日本を含む200以上の国と地域に拡大された「Search Live」や「Gemini Live」を通じて利用可能となっている 。開発者向けには「Google AI Studio」を通じて「Gemini Live API」のプレビュー版として提供され、企業向けには「Gemini Enterprise for Customer Experience」に組み込まれている。
安全性に関する対策として、GoogleのAI原則と生成AIポリシーに準拠した開発が行われている 。児童の搾取やヘイトスピーチ、危険なコンテンツの生成を防ぐため専門チームによる評価とレビューを実施した。また、AIによる誤情報の拡散を防止するため、同モデルで生成されたすべての音声には人間には感知できない電子透かし「SynthID」が直接埋め込まれており、AI生成コンテンツであることを高い信頼性で検出できる仕組みが整えられている。
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR