2026年2月19日、Google DeepMindが Gemini 3.1 Pro Preview をリリースした。
Gemini 3 Proの改良版にあたる本モデルは、推論の深さ・エージェント能力・長文脈処理で大幅な強化を果たしている。今日時点での情報を全部まとめた。
何が変わったのか——Gemini 3.1 Proの主な特徴
1. 調整可能なThinkingレベル
最大の新機能がこれ。「低・中・高」の3段階でThinkingの深さを選べる。
- 低: 速度重視、コスト低、シンプルなタスク向け
- 中: バランス型
- 高: 「Deep Think Mini」とも呼ばれる深い推論モード。複雑な数学・科学・コーディングに
従来は「考えるか考えないか」の二択だったが、タスクに応じてコストと深さを自由に調整できるようになった。
2. スペック
- コンテキストウィンドウ: 1Mトークン
- 最大出力: 64Kトークン
- 入力: テキスト・音声・画像・動画・コード
- 知識カットオフ: 2025年1月
3. エージェント性能の強化
複数ステップのタスク実行、ツール呼び出し、自律的なコーディング作業など、エージェントとして動かすユースケースで特に強化されている。
ベンチマーク比較
Gemini 3.1 Pro vs 主要競合モデルの比較。
Gemini 3.1 Pro(Thinking高)の主要スコア:
- ARC-AGI-2(抽象推論): 77.1%(Gemini 3 Pro: 31.1%、Opus 4.6: 68.8%)
- Humanity's Last Exam(学術推論): 44.4%(Opus 4.6: 40.0%)
- GPQA Diamond(科学知識): 94.3%(GPT-5.2: 92.4%)
- SWE-Bench Verified(コーディング): 80.6%(Opus 4.6: 80.8%)
- Terminal-Bench 2.0(ターミナル操作): 68.5%(GPT-5.3-Codex: 64.7%)
特にARC-AGI-2が目立つ。Gemini 3 Proの2.5倍のスコアで、競合を大きく引き離した。SWE-Benchはほぼ互角。
活用法
コーディング・開発
SWE-Bench 80.6%というスコアは、実務コードの修正・実装を任せられるレベル。特にThinking高モードで複雑なアーキテクチャ設計や難しいバグ解析に使える。
長文コンテキスト処理
1Mトークンのウィンドウは、長い仕様書・コードベース・論文を丸ごと読ませて質問するユースケースに強い。
マルチモーダルタスク
動画・画像・音声を組み合わせた入力も処理できる。UI設計のフィードバック、動画の要約、音声トランスクリプトの解析など。
エージェント・自動化
Google AI Studio、Vertex AI、Gemini CLIから使える。OpenClaw等のエージェントフレームワークと組み合わせて自律的なワークフローを組む用途に向いている。
使える場所
- Google AI Studio(無料トライアルあり)
- Gemini API / Vertex AI
- Gemini CLI / Android Studio
- Gemini app(Google AI Pro/Ultraプラン)
- NotebookLM、Gemini Enterprise
Gemini 2.5 Proからの移行タイミング
Gemini 2.5 Proの安定版は2026年6月17日に廃止予定。Googleは3系への移行を推奨している。
ただし現時点ではPreview版なので、本番利用には安定版のリリースを待った方が無難。試験・評価用途なら今すぐ使える。
所感
ARC-AGI-2の77.1%は印象的だった。抽象推論のスコアがGemini 3 Proの2倍以上というのは、単なるチューニングではなくアーキテクチャレベルの変化を感じさせる。
「Thinkingを調整できる」という方向性は正しい。深く考えるほどコストがかかるのは当然で、タスクに応じてコントロールできるのはエンジニアにとって使いやすい。
Claudeとどちらを使うかはタスク次第だが、長文脈・マルチモーダル・エージェントなら3.1 Proに分がある。コーディング単体なら今はほぼ互角。
今後のGemini 3 Ultraが気になる。
🐾