SubQ登場・Code with Claude 2026・GPT-5.5が示す新時代

1. SubQ：世界初の完全サブ二次アーキテクチャLLMが1200万トークンコンテキストを実現

マイアミ発のスタートアップSubquadraticが2026年5月5日、フロンティアスケールとしては世界初となる完全サブ二次（sub-quadratic）スパースアテンション構造のLLM「SubQ 1M-Preview」を発表した。現行トランスフォーマーが抱える二次計算コスト問題を根本から解決する独自アーキテクチャSSA（Subquadratic Sparse Attention）を採用し、コンテキスト長が増えてもメモリと計算量が線形スケールで成長する。

12MBに及ぶ1200万トークンコンテキストウィンドウを標準搭載し、100万トークン時のアテンション処理速度はFlashAttentionと比較して約52倍速い。コストはClaude OpusやGPT-5.5と比べて約5分の1と、商用コスト面でも革命的な効率を誇る。RULER 128Kで95.0%、SWE-Bench Verifiedで81.8%のスコアを達成しており、長コンテキスト推論や大規模ソフトウェアエンジニアリングワークロードでの優位性を示す。

同社はJavier Villamizarやジャスティン・マテン（Tinder共同創業者）など複数の著名投資家から2900万ドルのシード資金を調達。AnthropicやOpenAI、StripeなどのアーリーインベスターもSubquadraticの将来性に投資している。二次コストの壁を突破したSSAアーキテクチャが業界全体の設計思想に与える影響は計り知れない。

SiliconANGLEsiliconangle.com

2. Code with Claude 2026：Anthropicが開発者会議で大型アップデートを発表

Anthropicは2026年5月6日、サンフランシスコで第2回年次開発者会議「Code with Claude 2026」を開催した。今年はモデルリリースよりもエージェントインフラへの注力が目立ち、Claude Code・APIを中心にした生産性向上ツール群が発表された。

主なアップデートは、Pro・Max・Enterpriseユーザー向けのClaude Code利用制限を5時間から10時間へ倍増、マルチエージェントオーケストレーション機能（Managed Agent）のリリース、Claude Code Routines（定型タスク自動化）、新しいAdvisorツール、リモートエージェント、CIの自動修正機能など多岐にわたる。またEnterpriseユーザー向けにはコードリポジトリを脆弱性スキャンしてOps 4.7モデルが修正提案を行う「Claude Security」がパブリックベータとして公開された。

APIボリュームは前年比17倍成長を記録。PwCとの拡大パートナーシップも発表され、Claude CodeとCoworkを米国チームから全世界の数十万人規模の従業員へ展開する計画が明らかになった。さらにSpaceXとのパートナーシップにより、Colossusデータセンターの全キャパシティを活用するとも報じられている。

DigitrendZdigitrendz.blog

3. MetaのMuse Spark：Alexandr Wang率いる超知能ラボが放った次世代モデル

Metaは4月8日にMuse Sparkを発表し、5月に入ってさらに広く展開が進んでいる。旧Scale AI CEOのAlexandr Wang氏が率いるMeta Superintelligence Labsが構築した初のフラッグシップLLMで、マルチモーダル推論・ツール使用・視覚的チェーン・オブ・ソート・マルチエージェントオーケストレーションを標準搭載する。

最大の特徴は計算効率の飛躍的向上で、前モデルLlama 4 Maverick比で10分の1以下の計算リソースで同等能力を実現する。医療・数学・科学分野での推論能力も充実しており、ただ速いだけでなく複雑な質問に論理的に対処できる設計が施されている。

現時点でMuse SparkはプロプライエタリモデルでありLlamaのようなオープンソース提供はないが、「将来のバージョンではオープンソース化を希望する」とMetaは表明している。WhatsApp・Instagram・Facebook・Messenger・AIグラスへのロールアウトが進行中で、meta.aiおよびMeta AIアプリから無料でアクセス可能だ。Metaは2026年のAI資本支出として1150〜1350億ドルを計上しており、前年比ほぼ倍増の投資規模でフロンティアモデル競争に臨んでいる。

Meta AI Blogai.meta.com

4. GPT-5.5 InstantがChatGPTのデフォルトモデルに、Google DeepMindはAlphaEvolveで計算資源を回収

OpenAIは5月5日、GPT-5.5 InstantをChatGPTの新デフォルトモデルとして設定し、APIではchat-latestとして提供を開始した。Intelligence Index 60.2、922Kトークンコンテキスト、マルチステップワークフローの自律実行を特徴とし、GPT-5.3 Instantから大幅な性能向上を果たしている。4月に集中したフロンティアモデルの大量リリースを経て、5月はアーキテクチャ革新の月となっている。

一方GoogleはI/O 2026カンファレンスで新たなGeminiモデルを間もなく発表予定だと報じられている。DeepMindのAlphaEvolveはGemini搭載のコーディングエージェントで、すでにGoogle内部インフラに1年以上デプロイされており、Googleの世界規模のコンピューティングリソースの0.7%を回収、Geminiアーキテクチャの主要カーネルを23%高速化するという成果を上げている。また5月5日には評価フレームワークClawBenchが発表され、144の本番ウェブサイトにわたる153タスクでClaude Sonnet 4.6がフロンティアモデル中最高スコア33.3%を記録したことも注目を集めた。

LLM Statsllm-stats.com

5. CloudflareがグローバルネットワークでのLLM実行インフラを発表

Cloudflareは世界規模のネットワーク上で大規模言語モデルをシームレスに実行する新インフラを発表した。入力処理（プリフィル）と出力生成（デコード）を最適化された異なるシステムに分離するアーキテクチャを採用し、カスタム推論エンジンによってLLMをエッジで低遅延実行することを実現する。

この分離アーキテクチャは、重たいプリフィル処理を専用ハードウェアで担当させつつ、ストリーミングレスポンスを生成するデコード部分を別の最適化ノードで処理することで、スループットとレイテンシを同時に改善する。従来クラウドプロバイダーの集中型データセンターに頼っていたAI推論をグローバルに分散化できれば、ユーザーに最も近いエッジでのAI処理が普及する可能性がある。

世界規模のCDN・セキュリティ網を持つCloudflareがAI推論市場へ本格参入することで、AWS・GCP・Azureといった従来型クラウドとの競争構図が変化するとの見方もある。エッジAI推論の実用化は、低遅延を必要とするリアルタイムアプリケーション（音声インターフェース・ゲーム・IoT等）への波及効果も期待される。

InfoQinfoq.com