ピックアップ

2026年春のAI最前線:Claude Codeのアーキテクチャ深解剖、Qwen3.6の衝撃、そしてリアルタイム世界生成モデルの台頭

Claude Codeのソースコード解析論文を軸に、Alibaba Wan2.7-Image・Qwen3.6-35B-A3B・Happy Oysterという2026年春を代表する4つのAIシステムを横断的に読み解き、エージェント設計・マルチモーダル生成・オープンソース戦略の最前線を専門家視点で徹底解説する。

はじめに:2026年春、AIアーキテクチャの臨界点

2026年の春、AI開発の世界は静かに、しかし決定的な転換点を迎えている。単なる補完ツールから「自律的に行動するエージェント」へ、静止画生成から「リアルタイムで進化する世界モデル」へ、クローズドな商用モデルから「オープンウェイトで産業実用に耐える巨大MoEモデル」へ——複数の技術潮流が同時に成熟しつつある。

本稿では4つの最新ソースを統合的に読み解く。MBZUAIとUCLの研究者チームによるClaude Codeのソースコード解析論文(arXiv:2604.14228)、AlibabのWan2.7-Imageおよびオープンソース化されたQwen3.6-35B-A3B、そしてリアルタイム世界生成モデルを標榜するHappy Oysterである。これらは表面上は異なるプロダクトだが、深く読み込むと「エージェントが世界とどう接続するか」という共通の設計問題に対する、それぞれ異なる回答として浮かび上がってくる。


Claude Codeの解剖:「シンプルなwhileループ」の周囲に積み上がる複雑性

コアループと7コンポーネント構造

arXiv:2604.14228は、Anthropicが公開しているTypeScriptソースコード(v2.1.88)を徹底解析した論文である。その最大の発見は逆説的だ——Claude Codeの中核は「モデルを呼び出し、ツールを実行し、繰り返す」という単純なwhileループに過ぎない。しかし実装コードの大半は、このループを取り囲む周辺システムに費やされている。

Claude Codeの高レベルシステム構造 図1: Claude Codeの高レベルシステム構造。ユーザー・インターフェース・エージェントループ・パーミッションシステム・ツール・状態管理・実行環境の7コンポーネントに分解される。すべてのエントリポイントは同一のエージェントループに収束する。

論文が特定した7つの機能コンポーネントは以下の通りだ:ユーザー、インターフェース(Interactive CLI / Headless CLI / Agent SDK / IDE統合)、エージェントループ、パーミッションシステム、ツール群、状態・永続化、実行環境。注目すべきは「すべてのエントリサーフェスが同一のエージェントループに収束する」という設計思想だ。これはUIの多様性とコアロジックの一貫性を両立させる重要な選択である。

ランタイムターンフローと5層アーキテクチャ

ランタイムターンフロー 図2: 単一エージェントターンのエンドツーエンド実行フロー。ユーザープロンプトがコンテキスト組み立てを経てモデルに渡り、ツールリクエストがパーミッションゲートを通過し、ツール結果がループにフィードバックされ、コンパクションがコンテキスト圧力を管理する。

実行フローを詳細に見ると、単純なループの内部に精巧なパイプラインが存在することがわかる。ユーザープロンプトはまずコンテキスト組み立てフェーズに入り、CLAUDE.mdヒエラルキー・システムプロンプト・環境情報・自動メモリ・MCPツール定義などが統合される。モデル呼び出し後、ツールリクエストはパーミッションゲートを通過し、結果がループに戻る。コンテキストウィンドウが逼迫すると5段階のコンパクションパイプラインが起動する。

5層サブシステムアーキテクチャ 図3: 5つのサブシステム層を示す拡張レイヤードアーキテクチャ。サーフェス層・コア層・安全/アクション層・ツール/MCP層・永続化層で構成される。

パーミッションシステム:7モードとMLベース分類器

パーミッションゲートの概要 図4: パーミッションゲートの概要と設計原則。7つの動作モードと自動モード分類器が組み合わさり、人間の意思決定権限を保持しながら自律実行を可能にする。

論文が特に詳細に分析しているのがパーミッションシステムだ。7つの動作モード(インタラクティブ・ヘッドレス・自動・各種制限モードなど)と、MLベースの自動モード分類器を組み合わせることで、「人間の意思決定権限の保持」と「自律的な実行能力」を両立させている。これは単なるルールベースのアクセス制御ではなく、コンテキストに応じて動的にリスク評価を行う設計だ。

論文はこのシステムを5つの人間的価値観(human decision authority・safety and security・reliable execution・capability amplification・contextual adaptability)と13の設計原則に紐付けて分析している。アーキテクチャ分析に哲学的・倫理的フレームワークを持ち込むこのアプローチは、単なるリバースエンジニアリングを超えた学術的貢献といえる。

コンテキスト管理とサブエージェント委任

コンテキスト構築とメモリ階層 図6: コンテキスト構築とメモリ階層。システムプロンプト・出力スタイル・環境情報・CLAUDE.mdヒエラルキー・自動メモリ・パススコープルール・MCPツール名などが収束してコンテキストウィンドウを形成する。

サブエージェント分離と委任アーキテクチャ 図7: サブエージェント分離と委任アーキテクチャ。Agentツールが組み込みサブエージェント(Explore・Plan・汎用)またはカスタムサブエージェントに委任し、それぞれが独立したコンテキストと再構築されたパーミッションコンテキストで動作する。

サブエージェント委任は特に注目に値する設計だ。Agentツールは「Explore」「Plan」「汎用」の3種の組み込みサブエージェントとカスタムサブエージェントに作業を委任できる。各サブエージェントは独立したコンテキストで動作し、パーミッションコンテキストは再構築される。これにより、長大なタスクを並列・階層的に処理しながら、各サブタスクのセキュリティ境界を維持できる。

セッション永続化については、ライブセッション状態(コンテキストウィンドウ・コンパクション)と永続ストレージ(セッショントランスクリプト・history.jsonl・サブエージェントサイドチェーン・チェックポイント)を明確に分離している。

セッション永続化とコンテキストコンパクション 図8: セッション永続化とコンテキストコンパクション。ライブセッション状態と永続ストレージの分離、およびResumeとForkによるメッセージ復元の仕組みを示す。


Qwen3.6-35B-A3B:オープンウェイトでSWE-bench 73.4を達成した設計の秘密

アーキテクチャの革新性:GatedDeltaNetとMoEの融合

Alibaba Cloudがオープンソース化したQwen3.6-35B-A3Bは、その名称が示す通り総パラメータ数35Bながら推論時に活性化されるのは3Bのみという、極めて効率的なMixture-of-Experts(MoE)アーキテクチャを採用している。

アーキテクチャの詳細を見ると、隠れ次元2048・40層・ネイティブコンテキスト長262,144トークン(最大100万トークンまで拡張可能)という仕様が目を引く。特筆すべきは「Gated DeltaNet」と「Gated Attention」の組み合わせだ。

Gated DeltaNetは32個の線形アテンションヘッド(Vヘッド)と16個のQKヘッド(次元128)を持つ。線形アテンションは従来のソフトマックスアテンションと異なり、シーケンス長に対して線形の計算コストで動作する。これをゲーティング機構と組み合わせることで、長文脈処理の効率を大幅に改善している。一方のGated Attentionは16個のQヘッドと2個のKVヘッド(次元256)を持つGQA(Grouped Query Attention)構造で、KVキャッシュのメモリ効率を最適化している。

MoEレイヤーでは256個のエキスパートのうち8個のルーティングエキスパートと1個の共有エキスパートが活性化される。この「共有エキスパート」の存在は、すべての入力に共通する基礎的な処理を安定して行いながら、タスク固有の処理を専門エキスパートに委ねるという設計思想を反映している。

ベンチマーク性能:エージェントコーディングの新基準

SWE-bench Verified 73.4という数値は、オープンウェイトモデルとして驚異的だ。SWE-benchはGitHubの実際のIssueを解決するタスクであり、単なる知識問答とは異なり、リポジトリ全体の理解・ファイル編集・テスト実行という一連のエージェント的行動が求められる。

SWE-bench Multilingual 67.2・SWE-bench Pro 49.5という数値も、多言語コードベースへの対応と、より困難なプロフェッショナルグレードのタスクへの適応力を示している。Terminal-Bench 2.0で51.5、QwenClawBenchで52.6という結果は、シェル操作を含む実際の開発ワークフローへの対応力を裏付ける。

数学・科学系ではAIME26で92.7、HMMT Feb 26で83.6、GPQA 86.0という高水準を達成しており、コーディング特化モデルでありながら汎用推論能力も高い水準を維持している。マルチモーダル面ではMMBenchEN 92.8・OmniDocBench 89.9・VideoMMU 83.7と、視覚理解においても競争力のある性能を示す。

Claude Codeとの接続:MCPサポートとエージェント基盤

Qwen3.6-35B-A3BはQwen-AgentフレームワークとMCP(Model Context Protocol)をサポートしており、Claude Codeが採用する拡張性メカニズムと同一のプロトコルで連携できる。これは偶然ではなく、MCPがエージェントシステムの事実上の標準インターフェースとして業界に浸透しつつあることを示している。

「Thinking retention(思考保持)」機能も重要だ。過去のメッセージから推論コンテキストを保持することで、長大なエージェントタスクにおける一貫性を維持する。Claude Codeのコンパクションパイプラインが「コンテキスト圧力の管理」という問題に対する一つの回答であるとすれば、Thinking retentionは「推論の連続性の保持」という別の角度からの回答といえる。


Wan2.7-Image:プロフェッショナルグレードの画像生成が意味するもの

「汎用的な見た目」からの脱却

Alibaba Wan2.7-Imageが解決しようとしている問題は明確だ——AI生成画像が持つ「どれも同じに見える」という根本的な欠陥である。骨格・目の形状といった細部まで調整可能な深いパーソナライゼーション機能、カラーコードと比率を直接プロンプトに入力できる「カラーパレット」機能、最大3,000トークンの長文テキスト入力対応(12言語)、9枚の参照画像を使用した最大12枚の同時生成——これらは単なる機能追加ではなく、AIをプロフェッショナルなクリエイティブワークフローに統合するための設計思想の転換を示している。

特に「カラーパレット」機能は、ブランドガイドラインへの準拠という企業ユースケースを直接ターゲットにしている。従来のAI画像生成ツールでは色の再現性が低く、企業のブランドカラーを正確に表現することが困難だった。この問題を「カラーコードと比率の直接入力」という形で解決したことは、B2Bマーケットへの本格参入を意味する。

テキストレンダリングの突破口

AI画像生成における長年の課題であったテキストレンダリングについて、Wan2.7-Imageは長文コンテキスト学習フレームワーク(超長シーケンス処理対応)を活用することで、印刷品質の学術テキスト・複雑な数式・表の生成を実現した。これはQwen3.6が長文コンテキスト処理に注力していることと軌を一にしており、Alibaba全体として「長文脈の扱い」を技術的差別化の軸に据えていることが見て取れる。


Happy Oyster:「世界モデル」という新たなパラダイム

一方向生成から双方向インタラクションへ

Happy Oysterが提示するコンセプトは、現在のAI動画生成ツールとは根本的に異なる。「プロンプトを書き、レンダリングを待ち、完成したクリップを受け取る」という一方向ワークフローを否定し、生成プロセス全体を通じてリアルタイムで応答し続けるシステムを目指している。

「Directing」モードでは最大3分・480p/720pの映像をリアルタイムテキスト指示で制御でき、照明・重力・キャラクターモーション・シーンの因果関係が時間的に連続・一貫した「走り続ける物理世界」を生成する。「Wandering」モードでは最大1分・480pで、WASDとカメラコントロールによる一人称視点の自由移動が可能な無限拡張世界を生成する。

エージェントシステムとの接続点

Happy Oysterのアーキテクチャは「ネイティブマルチモーダル」を標榜し、テキスト・音声・画像の複合入力に対してオーディオ+ビデオの複合出力を返す。これはQwen3.6-35B-A3Bが「Vision Encoder + Causal LM」という構成でマルチモーダルを統合していることと、設計思想の共鳴を見せる。

より重要なのは、Happy Oysterが「世界モデル」という概念を前面に出している点だ。物体配置の安定性・環境の時間的持続性・視点移動に対する照明の連続的応答——これらは単なる動画生成ではなく、物理法則を内包した世界の表現を目指している。Claude Codeのエージェントが「コードという世界」を自律的に操作するとすれば、Happy Oysterは「視覚的世界」をリアルタイムで生成・操作する。両者は「AIが世界に対してエージェント的に作用する」という共通の方向性を持っている。


業界・社会への影響と示唆

オープンソース化の加速とエコシステムの変容

Qwen3.6-35B-A3BのApache 2.0ライセンスでのオープンソース化は、商用利用を含む自由な活用を可能にする。SWE-bench 73.4という性能水準のモデルが誰でも利用・改変・商用展開できるようになったことは、AIエージェント開発の参入障壁を劇的に下げる。Claude Codeの論文が指摘するように、エージェントシステムの設計問題(安全性・コンテキスト管理・拡張性・委任)は普遍的であり、オープンソースモデルの高性能化はこれらの問題に取り組む開発者の裾野を広げる。

人間の能力拡張と「長期的な人間の成長」問題

Claude Codeの論文は重要な批判的観点を提示している——エージェントシステムは短期的なプログラマーの能力を大幅に増幅させるが、「長期的な人間の成長・深い理解・コードベースの持続的な一貫性」を明示的にサポートするメカニズムは限られている、という指摘だ。Anthropicの内部調査では、Claude Code支援タスクの約27%が「このツールなしでは試みなかったであろう作業」であったという。これは能力の拡張を示す一方で、人間がAIに依存することで失われる学習機会という問題を提起する。

MCPの標準化とエージェント間相互運用性

Claude CodeとQwen3.6の両方がMCP(Model Context Protocol)をサポートしていることは、エージェントシステムの相互運用性において重要な意味を持つ。異なるモデル・異なるツール・異なるプラットフォームが共通のプロトコルで連携できるエコシステムが形成されつつある。


まとめ・今後の展望

2026年春のAI技術動向を4つのソースから読み解くと、いくつかの収束点が見えてくる。

第一に、エージェントシステムの設計問題は普遍化している。Claude Codeの論文が特定した「安全性・コンテキスト管理・拡張性・委任・永続化」という設計問題は、Qwen3.6のThinking retention・MCP対応・長文脈処理にも同様に現れている。

第二に、マルチモーダルは統合の方向に進んでいる。Qwen3.6のVision Encoder統合、Wan2.7-Imageの長文テキスト処理、Happy Oysterのオーディオ+ビデオ複合出力——いずれも「単一モダリティの最適化」から「複数モダリティの統合的理解と生成」へのシフトを示している。

第三に、リアルタイム性と双方向性が次の競争軸になる。Happy Oysterが示す「生成プロセス全体を通じたリアルタイム応答」は、現在の「プロンプト→待機→出力」というパラダイムへの根本的な挑戦だ。

Claude Codeの論文が提示する6つのオープン設計方向(観測可能性・評価ギャップ、クロスセッション永続化、ハーネス境界の進化、ホライズンスケーリング、ガバナンス、評価的レンズ)は、業界全体が取り組むべき課題として広く共有されている。特に「ガバナンス」と「長期的な人間の成長支援」という問題は、技術的な解決策だけでなく、社会的・倫理的な議論を必要とする。

AIエージェントが「コードを書く」「映像世界を生成する」「複雑な推論を行う」能力を急速に高める中、私たちが問うべきは「何ができるか」だけでなく「それが人間の能力・理解・自律性をどう変えるか」という問いだ。Claude Codeの論文がこの問いを技術論文の中に埋め込んでいることは、2026年のAI研究コミュニティが成熟しつつあることを示す、小さくない兆候である。


参照元