Gemini 2.5 Proとは？グーグルが「思考型AI」で狙うOpenAI超え

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

AI・生成AI

|

タグをもっとみる

生成AI市場で苦戦を強いられてきたグーグルが「Gemini 2.5 Pro」で攻勢に出ている。従来のAIとは一線を画す「思考型モデル」として注目を集める同モデルは、ベンチマークテストで最高水準のスコアを達成。さらに、100万トークンの入力処理やマルチモーダル機能の強化により、企業での実用性も大きく向上した。加えて、競争力のある価格設定でAI市場の構図を変える可能性も出てきた。

執筆：細谷元

細谷元

英大学院修了後、RPA企業に勤務。大手通信社シンガポール支局で経済・テクノロジーの取材・執筆を担当。その後、Livit Singaporeでクライアント企業のメディア戦略とコンテンツ制作を支援（主にドローン／AI領域）。2026年2月、シンガポールで「SimplyPNG」を設立し、AI画像編集のモデル運用とGPUコスト最適化を手がける。主にEC向け画像処理ワークフローの設計・運用自動化に注力。

　構成：ビジネス＋IT編集部

Gemini 2.5 Proは「思考型モデル」

（Photo/Shutterstock.com）

Gemini 2.5 Proとはどのようなモデルなのか、その詳細を解説

　生成AI市場でOpenAIやアンソロピックの後塵を拝してきたグーグルだが「Gemini 2.5 Pro」のリリースにより、市場シェアを奪還できる可能性が見えてきた。

　2025年3月末にリリースされた同モデルは、従来モデルとは一線を画す「思考型モデル（Thinking Model）」。最大の特徴は、単純な質問応答だけでなく、段階的な思考プロセスを経て回答を導き出す点にある。この手法は、チェーン・オブ・ソート（Chain-of-Thought）と呼ばれる手法からインスピレーションを得たもので、情報分析から論理的結論の導出まで、文脈やニュアンスを考慮した応答を可能としている。

　また、マルチモーダル機能も大幅に強化された。テキストだけでなく、画像、音声、動画といった多様な入力形式に対応している。たとえば、グラフや写真を含むPDFレポートの分析や、音声データと文字データを組み合わせた顧客対応記録の分析といった、複合的なタスクを単一のAIシステムで処理できるようになった。

　ベンチマーク評価でも高スコアを達成。AIチャットボットのパフォーマンスを人間の嗜好に基づいて評価するLM Arenaにおいて、トップの座を獲得。特にChatbot Arenaランキングにおいて、次点のモデルに対して35 Eloポイントもの差をつけた。OpenAIやAnthropicのモデルとの直接比較でも、品質面で肩を並べるパフォーマンスを示している。

　これまでグーグルのAIモデルが競合に対して後れを取っていたコーディングや数学課題など、深い推論が必要となる分野でも高いスコアを達成している点も特筆に値する。こうした総合的な性能向上を受け、一部では「グーグルが、特にビジネス向けアプリケーションにおいて、ライバルを追い越した可能性がある」との見方も出ている。

　このように、Gemini 2.5 Proは、その思考プロセスを人間が理解可能な形で提示できる点、画像や音声など複数のデータ形式を扱える柔軟性、そして各種性能評価における高いスコアを特徴とするモデル。この特性により、Gemini 2.5 Proは、判断根拠の説明責任や多様なデータ処理が求められるシーンで重宝されることになるはずだ。

Gemini 2.5で制作したゲームのデモ

（出典：DeepMindのYouTubeチャンネル）

編集部おすすめ記事

【Copilot神機能】「Excelエージェントモード」が叶える“ほぼ全自動”の仕事術3選

Gemini 2.5 Proの技術的特徴、その強み

　技術的な側面、また具体的なベンチマークスコアからGemini 2.5 Proの特徴をあぶり出してみたい。

　まず注目したのは、やはりチェーン・オブ・ソート（Chain-of-Thought）アプローチをベースとする推論能力の向上だろう。これは、単純な単語予測ではなく、構造化された思考チェーンを内部で生成し、問題を論理的かつ段階的に解決する仕組み。この特徴は、特に複雑な政策分析や研究サマリーなどの高度なタスクで威力を発揮する。

　実際、ベンチマーク評価でも優れた成績を収めており、GPQAやAIME 2025といった難関の数学・科学テストで最高水準のスコアを達成した。GPQAでは、84％を記録。OpenAIのo3-mini（79.7％）、GPT-4.5（71.4％）、DeepSeekのR1（71.5％）を上回った。

Gemini 2.5 Proのベンチマークスコア

（出典：グーグル）

　大学院レベルの問題を含む「Humanity's Last Exam」で18.8%の正解率を記録した点にも注目が集まる。一見低い数値に見えるが、外部ツールを使用しない条件下では最高の成績となっており、同モデルの高度な推論能力を裏付けている。現時点で、AIベンチマークテストとしては最難関と目されるテストで、DeepSeek R1でも8.6％、Claude 3.7 Sonnetで8.9％のスコアにとどまる。

　メモリ性能も大幅に向上し、100万トークン（英語約75万ワードに相当）の入力コンテキストウィンドウを実現した点も無視できない。これは、OpenAIのGPT-4が数万トークン程度にとどまっていたことを考えると、桁違いの進歩といえる。今後は200万トークンまでの拡張も計画されているという。

　この大容量メモリにより、数百ページに及ぶ契約書や、複数年分の取引記録といった大規模データを一括で分析することが可能となった。実際の活用例として、あるソフトウェア開発者が新機能の実装時に、Gemini 2.5 Proにコードベース全体を分析させたところ、18個のファイルにまたがる必要な変更を45分程度で特定・完了させたという。

　マルチモーダル機能も注目に値する。テキストに加え、画像、音声、動画を入力として受け付け、それらを統合的に理解する能力を備える。たとえば、技術記事を読み込んでフローチャート図を生成し、初期出力のエラーを「目視」で確認して修正するといった高度な処理が可能になった。地図のスクリーンショットから位置を特定し、その場所で特定の日付に開催されるイベントを検索・回答するなど、視覚的理解とWeb検索を組み合わせたエージェント的な動作も実現したとされる。【次ページ】企業におけるデプロイメント