生成AI

Opus 4.7登場、Claude Codeルーティン進化

Anthropicが最強モデルOpus 4.7を投入、Claude Codeは自動ルーティンで開発現場を再定義する。

1. Anthropic、Claude Opus 4.7を発表しSWE-benchで首位奪還

Anthropicは4月16日、最上位モデル「Claude Opus 4.7」を公開した。エージェント型コーディングの標準指標であるSWE-bench Verifiedで87.6%を記録し、Gemini 3.1 Pro(80.6%)およびGPT-5.4を上回る結果となった。SWE-bench Proでは前世代Opus 4.6の53.4%から64.3%へ大幅に改善し、長時間タスクや複雑なエージェントワークロードにおける安定性が強化された。

知識労働向けベンチマークGDPVal-AAではEloスコア1753を獲得し、GPT-5.4(1674)、Gemini 3.1 Pro(1314)を大きく引き離した。GPQA Diamondも94.2%と上位をキープし、科学技術・研究用途での推論品質も維持している。さらにコンピュータ使用タスクの視覚精度は54.5%から98.5%まで飛躍し、UI操作の信頼性が大きく向上した点が特徴である。

Opus 4.7はAmazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryで即日提供が開始され、API料金は入力5ドル/出力25ドル(100万トークンあたり)と据え置きになった。Anthropicは本モデルと並行して、さらに強力な未公開モデル「Mythos」の存在も示唆しており、2026年前半のフロンティアモデル競争は一段と激しさを増している。

Anthropicanthropic.com

2. Claude Codeデスクトップ再設計、自動実行ルーティンを導入

Anthropicは4月中旬、Claude Codeのデスクトップアプリを全面刷新した。並列セッションを管理するサイドバー、ドラッグ&ドロップで配置できるワークスペース、統合ターミナル、インアプリのファイルエディタ、大規模変更対応の差分ビューアを新搭載し、ローカル開発環境をそのままClaudeに託せるインターフェースへと進化した。

目玉機能は「Routines(ルーティン)」である。プロンプト、リポジトリ、コネクタをひとまとめにしてスケジュールまたはGitHubイベント(PR作成など)をトリガに自動実行できる仕組みで、処理はClaudeのクラウド側で走るためローカルマシンが常時稼働している必要がない。CIの自動修復や定期レビュー、依存関係更新などを24時間稼働するエージェントに任せる運用が現実的となる。

加えて1時間キャッシュや5分強制プロンプトキャッシュ、セッションの「Recap」機能、モバイルへのプッシュ通知、Skillツールのスラッシュコマンド対応など、実運用で効いてくる改善が多数詰め込まれた。Pro/Max/Team/Enterpriseプランのユーザーに順次配布中で、ローカル作業とクラウドエージェントが並走する開発スタイルが一気に標準化しつつある。

TechCrunchtechcrunch.com

3. OpenAI、GPT-5.4で100万トークン・自律ワークフロー時代へ

OpenAIはGPT-5.4を正式投入し、100万トークンのコンテキストと複数ソフトウェア間を自律的に横断するワークフロー実行能力を実装した。デスクトップ業務を模したOSWorld-Vベンチマークで75%のスコアを記録し、ブラウザ・IDE・チャット・スプレッドシートを跨いで一貫したタスクを完遂できるレベルに達している。

ラインナップはGPT-5.3 Instant(日常タスク)、GPT-5.4 Thinking(深い推論)、GPT-5.4 Pro(最大性能)、GPT-5.4 mini(コスト効率の推論フォールバック)の4層構成に整理された。年間換算売上は250億ドルを突破し、2026年後半のIPOに向けた準備段階に入ったと報じられており、フロンティアモデル開発競争の商業化スピードが加速している。

一方でエンタープライズ側でもNVIDIAのGTCサンフランシスコを皮切りに、ベンチマーク発表から本番導入へと軸足が移り、製造・物流・金融でエージェント型AIの本番運用が続々発表された。推論ベンチマークではGemini 3.1 Proが加重スコア97.0%で首位、GPT-5.3 Codex(94.6%)、GPT-5.4(93.0%)と続き、長文脈・ツール利用・多段推論での性能差が明確になってきた。

LLM Statsllm-stats.com

4. Google DeepMind、AlphaEvolveが社内インフラを自動最適化

Google DeepMindは、Gemini駆動のコーディングエージェント「AlphaEvolve」が計算量理論の境界を押し広げたことを公表した。同システムはすでに1年以上Googleの本番インフラに静かにデプロイされており、世界中のGoogleのコンピューティングリソースの0.7%を継続的に回収し続けているという。数パーセントでも巨大データセンター規模ではコスト削減のインパクトが桁違いに大きい。

また、Gemini 3.1ではリアルタイム音声と画像分析機能が追加され、マルチモーダルエージェントとしての実装例を拡大した。Googleは並行してAIメモリ使用量を最大6倍削減する圧縮アルゴリズムを発表しており、推論コスト低減とデバイスでの推論実行に向けた布石となっている。

Model Context Protocol(MCP)はAnthropic発ながらOpenAI、Google、Microsoftが揃って採用し、3月時点でインストール数が9,700万を突破した。エージェントが外部ツール・API・データソースへ接続するデファクトスタンダードとなり、プロバイダー非依存のエージェント運用が現実化している。Snapは65%以上の新規コードをAIが生成する体制に移行し約1,000人規模の人員削減を発表するなど、AIによる開発現場の再編は加速している。

Crescendo AIcrescendo.ai