- 2025/06/19 掲載
Gemini 2.5 Proとは?グーグルが「思考型AI」で狙うOpenAI超え
バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用した「リアルタイム・プロダクション」の実験的取り組みでVRコンテンツを制作、英語圏の視聴者向けに配信。YouTubeではVR動画単体で再生150万回以上を達成。最近購入したSony a7s3を活用した映像制作も実施中。
http://livit.media/
Gemini 2.5 Proとはどのようなモデルなのか、その詳細を解説
生成AI市場でOpenAIやアンソロピックの後塵を拝してきたグーグルだが「Gemini 2.5 Pro」のリリースにより、市場シェアを奪還できる可能性が見えてきた。2025年3月末にリリースされた同モデルは、従来モデルとは一線を画す「思考型モデル(Thinking Model)」。最大の特徴は、単純な質問応答だけでなく、段階的な思考プロセスを経て回答を導き出す点にある。この手法は、チェーン・オブ・ソート(Chain-of-Thought)と呼ばれる手法からインスピレーションを得たもので、情報分析から論理的結論の導出まで、文脈やニュアンスを考慮した応答を可能としている。
また、マルチモーダル機能も大幅に強化された。テキストだけでなく、画像、音声、動画といった多様な入力形式に対応している。たとえば、グラフや写真を含むPDFレポートの分析や、音声データと文字データを組み合わせた顧客対応記録の分析といった、複合的なタスクを単一のAIシステムで処理できるようになった。
ベンチマーク評価でも高スコアを達成。AIチャットボットのパフォーマンスを人間の嗜好に基づいて評価するLM Arenaにおいて、トップの座を獲得。特にChatbot Arenaランキングにおいて、次点のモデルに対して35 Eloポイントもの差をつけた。OpenAIやAnthropicのモデルとの直接比較でも、品質面で肩を並べるパフォーマンスを示している。
これまでグーグルのAIモデルが競合に対して後れを取っていたコーディングや数学課題など、深い推論が必要となる分野でも高いスコアを達成している点も特筆に値する。こうした総合的な性能向上を受け、一部では「グーグルが、特にビジネス向けアプリケーションにおいて、ライバルを追い越した可能性がある」との見方も出ている。
このように、Gemini 2.5 Proは、その思考プロセスを人間が理解可能な形で提示できる点、画像や音声など複数のデータ形式を扱える柔軟性、そして各種性能評価における高いスコアを特徴とするモデル。この特性により、Gemini 2.5 Proは、判断根拠の説明責任や多様なデータ処理が求められるシーンで重宝されることになるはずだ。
Gemini 2.5 Proの技術的特徴、その強み
技術的な側面、また具体的なベンチマークスコアからGemini 2.5 Proの特徴をあぶり出してみたい。まず注目したのは、やはりチェーン・オブ・ソート(Chain-of-Thought)アプローチをベースとする推論能力の向上だろう。これは、単純な単語予測ではなく、構造化された思考チェーンを内部で生成し、問題を論理的かつ段階的に解決する仕組み。この特徴は、特に複雑な政策分析や研究サマリーなどの高度なタスクで威力を発揮する。
実際、ベンチマーク評価でも優れた成績を収めており、GPQAやAIME 2025といった難関の数学・科学テストで最高水準のスコアを達成した。GPQAでは、84%を記録。OpenAIのo3-mini(79.7%)、GPT-4.5(71.4%)、DeepSeekのR1(71.5%)を上回った。

大学院レベルの問題を含む「Humanity's Last Exam」で18.8%の正解率を記録した点にも注目が集まる。一見低い数値に見えるが、外部ツールを使用しない条件下では最高の成績となっており、同モデルの高度な推論能力を裏付けている。現時点で、AIベンチマークテストとしては最難関と目されるテストで、DeepSeek R1でも8.6%、Claude 3.7 Sonnetで8.9%のスコアにとどまる。
メモリ性能も大幅に向上し、100万トークン(英語約75万ワードに相当)の入力コンテキストウィンドウを実現した点も無視できない。これは、OpenAIのGPT-4が数万トークン程度にとどまっていたことを考えると、桁違いの進歩といえる。今後は200万トークンまでの拡張も計画されているという。
この大容量メモリにより、数百ページに及ぶ契約書や、複数年分の取引記録といった大規模データを一括で分析することが可能となった。実際の活用例として、あるソフトウェア開発者が新機能の実装時に、Gemini 2.5 Proにコードベース全体を分析させたところ、18個のファイルにまたがる必要な変更を45分程度で特定・完了させたという。
マルチモーダル機能も注目に値する。テキストに加え、画像、音声、動画を入力として受け付け、それらを統合的に理解する能力を備える。たとえば、技術記事を読み込んでフローチャート図を生成し、初期出力のエラーを「目視」で確認して修正するといった高度な処理が可能になった。地図のスクリーンショットから位置を特定し、その場所で特定の日付に開催されるイベントを検索・回答するなど、視覚的理解とWeb検索を組み合わせたエージェント的な動作も実現したとされる。 【次ページ】企業におけるデプロイメント
AI・生成AIのおすすめコンテンツ
AI・生成AIの関連コンテンツ
PR
PR
PR