生成AI

AIエージェント戦国時代:Claude Managed Agents始動、モデル競争は新局面へ

AnthropicがClaude Managed Agentsを公開ベータ提供開始し、AIエージェントインフラの産業化が加速。各社最新モデルはベンチマーク競争で激突している。

1. AnthropicがClaude Managed Agentsを公開ベータとして正式提供開始

Anthropicは2026年4月8日、AIエージェント開発向けのフルマネージドクラウドサービス「Claude Managed Agents」を公開ベータとして正式ローンチした。開発者はClaudeが自律的にファイルを読み書きし、コマンドを実行し、Webブラウジングやコード実行を行うエージェント環境を、わずか数行のコードで構築できる。セッション継続性やコンテキスト管理は全てプラットフォーム側で処理されるため、これまで必要だったLLMサンドボックスの手動管理やライフサイクル管理が不要になる。

価格はセッション1時間あたり$0.08(APIトークン料金に追加)で、固定サブスクリプション費用は発生しない。複数Claudeインスタンスを独立したコンテキストで並列実行する「Agent Teams」と、メインエージェントと同一セッション内で動作してコスト効率の高い「Subagents」の2種類のアーキテクチャが用意されている。初期ユーザーにはNotionやRakuten、Asanaといった大手テック企業が名を連ねる。

VentureBeatsは「企業にとって一元化されたAIエージェントショップとなるが、ベンダーロックインリスクも懸念される」と報じており、すでにAIコーディングエコシステムでは競合他社の追い上げも激しくなっている。

2. Claude Opus 4.6がLMSYS Chatbot Arenaでトップに浮上

AnthropicのClaude Opus 4.6が、LMSYS Chatbot Arenaで過去最高スコアを記録し、GPT-5.4やGemini 3.1 Proを上回って首位に立った。特にソフトウェアエンジニアリングの自律タスクを評価するSWE-bench Verifiedでは65.3%を達成しており、AIエージェントの実用精度として注目を集めている。

ただし、好調な評判と裏腹にAnthropicはユーザーからの批判にも直面している。Claude Codeのプロダクトリードであるエグゼクティブ、Boris Cherny氏は、デフォルトの「effort」レベルをユーザーのフィードバックを受けて「medium」に引き下げたことを認めた。この変更がユーザーに周知されていなかったため、SNS上でパフォーマンス低下を訴える声が相次いだ。Anthropicは透明性の欠如を認め、コミュニケーション改善を約束している。

3. Claude Codeデスクトップアプリが大幅リデザイン、並列セッション管理に対応

Anthropicは4月15日、Claude Codeデスクトップアプリを大幅にリニューアルしたバージョンをリリースした。最大の変更点は複数のエージェントセッションを並列で管理できる新しいサイドバーUIの追加だ。ユーザーはステータス、プロジェクト、環境でセッションをフィルタリングし、プロジェクト単位でグループ化することができる。

4月15日にはサービス障害も発生し、Claude.ai、API、Claude Codeで断続的なエラーが続いたが、同日午後1時42分(東部時間)に復旧が完了している。また3月31日には設定ファイルの1行欠落により、Claude Codeのソースコード51.2万行が誤って公開リリースに含まれるという事故も起きており、同社はセキュリティプロセスの見直しを進めている。

4. MetaがLlama 4 Scout・Maverick公開、10Mコンテキストウィンドウが話題に

Metaは4月5日、オープンウェイトのビジョン言語モデル「Llama 4 Scout」と「Llama 4 Maverick」を公開した。Scoutは170億パラメータで、1000万トークンというコンテキストウィンドウを持ちながら、24GB VRAMの一般向けGPUで動作する点が大きな特徴だ。Maverickは4000億パラメータ規模で、HuggingFaceが刷新したOpen LLM Leaderboardでトップオープンウェイトモデルの一角に入っている。

Googleのgemini 3.1 Proも2月に正式リリースされ、独立評価機関の16ベンチマーク中13項目でトップを記録しており、エンタープライズ向けVertex AIでは200万トークンのコンテキストとネイティブ動画理解(1fps)が提供されている。一方DeepSeek V3.2は入力100万トークンあたり約$0.28という価格破壊的なコスト性能で市場に圧力をかけており、次世代V4のリリースも数週間以内と報じられている。

5. AIコーディングツール統合の波:Cursor・Claude Code・Codexが融合するエコシステム

The New Stackは「Cursor、Claude Code、OpenAI Codexの三者が、誰も計画していなかった統合AIコーディングスタックに収束しつつある」と報じた。各ツールはそれぞれ独立したプロダクトとして出発したが、IDEプラグイン、CLIエージェント、クラウドエージェントインフラが重なり合い、開発者の選択肢はより複雑化している。

Anthropicは4月、Claude経由のサブスクリプション認証を使ってAPIへアクセスしていたサードパーティツール(OpenClawやOpenCodeなど)を遮断したことで、コミュニティから批判を受けた。この動きはAnthropicが自社エコシステムを管理し、公式API契約を通じた利用を促進する戦略の一環とみられる。

6. LLMの学習データ生成が「バイアスの連鎖」をもたらす可能性——Nature誌が警告

Natureは新たな研究を掲載し、LLMが他のAIモデルを訓練するためのデータセット生成に使われるモデル蒸留において、意図せずバイアスや特性が次世代モデルへ「サブリミナル」に転移するリスクがあると警告した。これまでのコスト削減を目的とした蒸留手法が期待通りに機能する一方で、元モデルの潜在的な偏向が見えない形で継承される可能性がある。

研究者たちは、データ品質の監査や蒸留プロセスに適切な検証を組み込む必要性を主張している。AIモデルの信頼性・公平性の担保が産業スケールの課題になる中で、この問題はモデルサプライチェーン全体の透明性を再考させるものだ。