AI攻防最前線：Claude Mythosが切り開く脆弱性発見の新時代

1. Claude Mythos Previewが数千件のゼロデイ脆弱性を発見——Project Glasswingで防衛活用へ

Anthropicが開発したフロンティアAIモデル「Claude Mythos Preview」が、主要なオペレーティングシステムやウェブブラウザすべてから数千件のゼロデイ脆弱性を発見したと公表された。特筆すべきは、NFS経由でルートアクセスを可能にする17年もの間潜伏していたFreeBSDのRCE脆弱性を、初期指示以降は人間の介入なしに自律的に特定・悪用できたという事実だ。Anthropicはこのモデルの商業リリースを見送る一方、「Project Glasswing」と名付けた防衛的活用プログラムを立ち上げた。

パートナー企業はProject GlasswingのフレームワークのもとでMythos Previewへのアクセスを得られ、自社システムの脆弱性発見と修正に活用できる。対応する作業範囲はローカル脆弱性検出、バイナリのブラックボックステスト、エンドポイント強化、侵入テストと幅広い。英国のAI安全機関（AISI）も独立した能力評価を実施しており、専門家レベルのCTFタスクで73%の成功率を記録したことを確認している。

このモデルの存在が示す最大の変化は、脆弱性発見とエクスプロイト開発の「経済性」が根本から覆される点にある。これまで熟練した人間のセキュリティ専門家が数日を費やしていた作業が、AIによって大幅に高速・低コスト化される。セキュリティ業界はMythosの登場を「警鐘」と受け止め、修復・対応プロセスの抜本的な見直しを迫られている。

Anthropicanthropic.com

2. Anthropic、金融機関向けに10種の専門エージェントを公開

Anthropicが金融セクター向けに特化した10種類のプリコンフィギュアードAIエージェントをリリースした。対象業務は投資銀行、資産運用、保険会社における典型的な業務フローで、Pitch builder（ピッチ資料作成）、Meeting preparer（会議準備）、Earnings reviewer（決算レビュー）、Model builder（財務モデル構築）、Market researcher（市場調査）などのエージェントが含まれる。さらに月次決算のクローザー、財務諸表監査、KYCスクリーナーなど、従来は高度な専門知識と多くの工数を要していた業務までカバーする。

各エージェントはClaudeの長文コンテキスト処理能力と構造化データへの理解力を活かし、金融固有の規制要件や業界慣行に対応した設計が施されている。既存の金融システムやデータプロバイダーとの統合を念頭に置いたアーキテクチャとなっており、実際の業務フローへの組み込みを容易にしている。The Registerの報道によれば、このリリースはAnthropicが特定業界への垂直展開を本格化させる戦略転換の一環と見られている。

金融業界でのAIエージェント活用はコスト削減と処理速度の向上をもたらす一方、コンプライアンスリスクや誤判断の責任所在という課題も提起する。Anthropicはエンタープライズ向けにカスタマイズ可能なテンプレートとして提供することで、金融機関が自社のワークフローに合わせた調整を行える柔軟性を確保している。

The Registertheregister.com

3. OpenAI、GPT-5.5 Instantを正式リリース——幻覚減少と個人化機能を強化

OpenAIが5月5日、ChatGPTのデフォルトモデルをGPT-5.5 Instantに切り替えた。前バージョンと比較してより正確な回答と幻覚（ハルシネーション）の低減を実現し、新たなパーソナライゼーション制御機能も追加された。有料プランの上位ティア向けにはGPT-5.5 Thinkingが、ProプランおよびBusiness・Enterprise・Eduプランには最高性能のGPT-5.5 Proが提供される。

同時にGPT-5.3 Instant Miniが新しいフォールバックモデルとして導入された。ユーザーがGPT-5.3 Instantのレートリミットに達した際の代替として機能し、より自然な会話スタイルと高い文章生成能力を持つ。また、ChatGPTのUI改善として、プロンプト入力エリアからモデルの切り替えが直接行えるようになり、ThinkingやProモデル選択時には思考努力レベルも同じ画面から調整できる。

「Fast answers」機能も同時展開されており、高い確信度を持つ一般的な情報収集クエリに対してより迅速かつ詳細な回答を返す仕組みが実装された。この機能はWeb・iOS・Androidのグローバルユーザー向けに展開済みだ。モデルファミリーの更新と合わせてUIのUX改善が進んでいる点は、OpenAIが単なる性能向上だけでなくユーザー体験の向上にも注力していることを示している。

OpenAIopenai.com

4. Google Deep Research Maxが新次元へ——DeepSearchQAで93.3%達成

Googleが「Deep Research」と「Deep Research Max」という2種類のAIリサーチエージェントを刷新し、Gemini APIでの提供を開始した。Model Context Protocol（MCP）のサポートを追加し、プライベートデータソースへの安全な接続と、複雑な調査結果を可視化するネイティブチャート・インフォグラフィック生成機能が追加された。Deep Research Maxは特に包括性と品質を重視した設計で、拡張されたテスト時コンピュートを活用して反復的に推論・検索・レポート精緻化を実行する。

性能面では、Deep Research MaxがDeepSearchQAベンチマークで93.3%を達成（昨年12月の66.1%から大幅向上）、Humanity’s Last Examでも54.6%（同46.4%から向上）を記録した。この成長速度は同ベンチマークにおける人類の知的能力の模倣精度が急速に高まっていることを示す。一方、Deep Researchはより速度と効率を重視したバリエーションで、インタラクティブなユーザーインターフェースに直接統合することを想定した低レイテンシ設計となっている。

MCPサポートの追加によって、ユーザーは既存の社内データベースや専門データプロバイダーとシームレスに連携したリサーチワークフローを構築できるようになった。この動きはGoogleが単なる汎用チャットボットの競争から、エンタープライズ向けのディープリサーチ自動化市場でのポジション確立へと軸足を移していることを意味する。

Google Blogblog.google

5. CloudflareがグローバルエッジでのLLM実行インフラを整備——Llama 4 ScoutをH200×2基で動作

Cloudflareがグローバルネットワーク全体でLLM（大規模言語モデル）を効率的に実行するための高性能インフラを発表した。独自の推論エンジンを活用し、モデルへの入力処理と出力生成を別々に最適化されたシステムに分離するアーキテクチャを採用している。最大の注目点は、最適化されたInfire systemがLlama 4 ScoutをH200 GPU 2基のみで稼働させ、Kimi K2.5をH100 GPU 8基で動かせるという驚異的な効率性だ。

このアプローチにより、Cloudflareは自社のエッジネットワーク拠点（世界270以上の都市）でAI推論をより低レイテンシで提供できる可能性を開く。GPU利用効率の最大化は、従来の集中型データセンターモデルでは対応が難しかった地理的に分散した低遅延AIサービスの実現を可能にする。クラウドプロバイダー各社がAI推論コストの削減と高速化を競う中、Cloudflareはエッジ特化型のアプローチで差別化を図っている。

AIインフラのコスト構造が変化しつつある今、GPU効率化技術の進歩は業界全体に影響を与える。より少ないハードウェアで高性能モデルを実行できるようになれば、中小規模の企業でも高性能AIサービスへのアクセスが容易になり、AI活用の民主化が一層加速する可能性がある。

InfoQinfoq.com

6. Stanford AI Index 2026：トップモデルがHumanity’s Last Examで50%超え、エージェントAIが最大の伸び

Stanfordが発表したAI Index 2026レポートで、Claude Opus 4.6やGemini 3.1 ProなどトップクラスのAIモデルがHumanity’s Last Exam（HLE）ベンチマークにおいて50%を超えたことが明らかになった。HLEは博士レベルの専門知識を要する質問で構成される高難度ベンチマークで、昨年比での急速な性能向上が確認されている。マルチモーダルLLMもベンチマーク上での急速な進歩を見せており、あらゆる領域で精度が向上している。

中でも最も顕著な伸びを示したのがエージェントAIの分野だ。AIが自律的にツールを使い、複数のステップにわたるタスクを実行する能力が急速に向上しており、コーディング支援や科学的探索、情報収集・分析などでの実用化が加速している。米国の主要ラボ（OpenAI、Anthropic、Google）が多くのベンチマークでトップを維持しているが、中国のDeepSeek、Alibaba、ByteDanceが推論・コーディングタスクを中心に急速に差を縮めていることも指摘されている。

このレポートはAI技術の進歩が予測を超えるスピードで続いていることを示すと同時に、AI安全性・倫理・規制の重要性が増していることも強調している。特にエージェントAIの能力向上はビジネスや社会への影響が大きく、各国政府や企業が適切なガバナンスフレームワークの構築を急ぐ動きが続いている。

IEEE Spectrumspectrum.ieee.org

7. Anthropic、長時間タスク向け「Managed Agents」ホスティングサービスを開始

AnthropicがManaged Agentsを発表した。これはClaudeプラットフォーム上でホスティングされる長時間・高信頼性エージェント実行サービスで、セッション・ハーネス・サンドボックスに対する安定したインターフェースを提供する。永続的なステート管理、より安全なツールアクセス、高速な起動時間を特徴とし、長時間にわたるタスクの信頼性を高める設計となっている。

これまでのAIエージェントの課題のひとつは、長時間タスクの途中でセッションが切れたり、ステートが失われたりするリスクがあることだった。Managed Agentsはこの問題を解決するために、耐久性のあるセッション管理と適切な権限管理を組み合わせた。複雑な自律エージェントワークフローを安定的に運用したい企業に向けた、エンタープライズグレードのインフラとして位置づけられている。

エージェントAI市場の競争が激化する中、Anthropicはモデル単体の提供から、実際のビジネスワークフローに組み込み可能なマネージドサービスへと展開を進めている。この動きはAIがSaaS的なビジネスモデルへと本格的に移行していることを象徴しており、エンタープライズ向けAI市場における各社の差別化競争の焦点がモデル性能からインフラ信頼性へとシフトしつつあることを示している。

Anthropicanthropic.com