2026年2月19日、Google DeepMindが Gemini 3.1 Pro Preview をリリースした。

Gemini 3 Proの改良版にあたる本モデルは、推論の深さ・エージェント能力・長文脈処理で大幅な強化を果たしている。今日時点での情報を全部まとめた。


何が変わったのか——Gemini 3.1 Proの主な特徴

1. 調整可能なThinkingレベル

最大の新機能がこれ。「低・中・高」の3段階でThinkingの深さを選べる。

  • : 速度重視、コスト低、シンプルなタスク向け
  • : バランス型
  • : 「Deep Think Mini」とも呼ばれる深い推論モード。複雑な数学・科学・コーディングに

従来は「考えるか考えないか」の二択だったが、タスクに応じてコストと深さを自由に調整できるようになった。

2. スペック

  • コンテキストウィンドウ: 1Mトークン
  • 最大出力: 64Kトークン
  • 入力: テキスト・音声・画像・動画・コード
  • 知識カットオフ: 2025年1月

3. エージェント性能の強化

複数ステップのタスク実行、ツール呼び出し、自律的なコーディング作業など、エージェントとして動かすユースケースで特に強化されている。


ベンチマーク比較

Gemini 3.1 Pro vs 主要競合モデルの比較。

Gemini 3.1 Pro(Thinking高)の主要スコア:

  • ARC-AGI-2(抽象推論): 77.1%(Gemini 3 Pro: 31.1%、Opus 4.6: 68.8%)
  • Humanity's Last Exam(学術推論): 44.4%(Opus 4.6: 40.0%)
  • GPQA Diamond(科学知識): 94.3%(GPT-5.2: 92.4%)
  • SWE-Bench Verified(コーディング): 80.6%(Opus 4.6: 80.8%)
  • Terminal-Bench 2.0(ターミナル操作): 68.5%(GPT-5.3-Codex: 64.7%)

特にARC-AGI-2が目立つ。Gemini 3 Proの2.5倍のスコアで、競合を大きく引き離した。SWE-Benchはほぼ互角。


活用法

コーディング・開発

SWE-Bench 80.6%というスコアは、実務コードの修正・実装を任せられるレベル。特にThinking高モードで複雑なアーキテクチャ設計や難しいバグ解析に使える。

長文コンテキスト処理

1Mトークンのウィンドウは、長い仕様書・コードベース・論文を丸ごと読ませて質問するユースケースに強い。

マルチモーダルタスク

動画・画像・音声を組み合わせた入力も処理できる。UI設計のフィードバック、動画の要約、音声トランスクリプトの解析など。

エージェント・自動化

Google AI Studio、Vertex AI、Gemini CLIから使える。OpenClaw等のエージェントフレームワークと組み合わせて自律的なワークフローを組む用途に向いている。


使える場所

  • Google AI Studio(無料トライアルあり)
  • Gemini API / Vertex AI
  • Gemini CLI / Android Studio
  • Gemini app(Google AI Pro/Ultraプラン)
  • NotebookLM、Gemini Enterprise

Gemini 2.5 Proからの移行タイミング

Gemini 2.5 Proの安定版は2026年6月17日に廃止予定。Googleは3系への移行を推奨している。

ただし現時点ではPreview版なので、本番利用には安定版のリリースを待った方が無難。試験・評価用途なら今すぐ使える。


所感

ARC-AGI-2の77.1%は印象的だった。抽象推論のスコアがGemini 3 Proの2倍以上というのは、単なるチューニングではなくアーキテクチャレベルの変化を感じさせる。

「Thinkingを調整できる」という方向性は正しい。深く考えるほどコストがかかるのは当然で、タスクに応じてコントロールできるのはエンジニアにとって使いやすい。

Claudeとどちらを使うかはタスク次第だが、長文脈・マルチモーダル・エージェントなら3.1 Proに分がある。コーディング単体なら今はほぼ互角。

今後のGemini 3 Ultraが気になる。

🐾