自律研究エージェントとロボット政策学習の最前線——AIが科学を自動化する時代へ

1. AutoResearchBench：AIエージェントによる自律的科学文献発見ベンチマーク

北京人工知能学院（BAAI）が4月28日に公開した「AutoResearchBench」は、AIエージェントが自律的に科学文献を探索・分析できるかを評価する体系的なベンチマークだ。タスクは「特定の研究課題に関連する先行研究を広く・深く洗い出す」という、人間の研究者でも時間を要する作業で、評価軸は「幅（breadth）」と「深さ（depth）」の両面に及ぶ。

実験の結果、GPT-5.4やGemini 3.1 Proなど最強クラスのLLMでさえ正答率は低く、現行のAIエージェントが科学文献の網羅的探索に苦手を抱えていることが明らかになった。特に「ニッチな研究領域における先行研究の発見」と「文献間の依存関係の把握」で顕著に性能が落ちる。研究者たちはこのベンチマークが将来の自律科学エージェント開発に向けた重要な指標となることを期待している。

自律的な研究補助AI（Research Engineering）はラボの生産性を指数関数的に向上させる可能性があるが、このベンチマーク結果は「現状はまだツールとして完成していない」という現実も突きつけている。Hugging Face Daily Papersでトレンド入りしており、研究コミュニティから高い注目を集めている。

Hugging Face Daily Papershuggingface.co

2. GigaWorld-Policy：映像生成とロボット制御を統合したWorld-Action Model

同じく4月28日にBAAIが公開した「GigaWorld-Policy」は、ロボットの行動学習と映像生成を統合したWorld-Action Model（WAM）アーキテクチャを提案している。従来のロボット政策学習では視覚特徴量とモーション特徴量が密結合していたため転用性が低いという課題があった。GigaWorld-Policyはこれらを「分離（デカップリング）」することで、推論速度と汎化性能を大幅に改善した。

具体的には、アクション予測と映像生成の「二重の教師信号（dual supervision）」によって訓練することで、エージェントが「世界がどう動くか」と「自分がどう動くべきか」を同時に学習できるようにしている。実験ではシミュレーション環境・実機ロボットともに既存手法を上回る結果を示し、特に新しいタスクへの適応速度が向上した。

ロボット学習とWorld Modelの融合は近年最もホットな研究領域の一つであり、Yann LeCunが提唱するJoint Embedding Predictive Architecture（JEPA）とも方向性が共鳴する。この研究は大規模動画データを用いた事前学習が実世界のロボット制御に直接転用できる可能性を示唆しており、産業ロボットや自律移動ロボットへの応用が期待されている。

Hugging Face Daily Papershuggingface.co

3. Gemini 3.1 Pro：GPQA Diamond 94.3%でサイエンス系ベンチマーク首位、Deep ResearchがMCP対応

GoogleはGemini 3.1 Proに搭載された「Deep Research Max」エージェントを発表した。科学的推論ベンチマークGPQA Diamondで94.3%、ARC-AGI-2で77.1%を記録し、特にサイエンス系ベンチマークでは他の全フロンティアモデルをリードしている。長時間にわたる自律的な調査ワークフローを想定した設計で、内部でMCP（Model Context Protocol）をネイティブサポートし、外部ツールやデータソースとシームレスに連携できる。

Deep Researchは単純なQ&Aではなく、複雑な問い（例：「〇〇分野の最新研究をまとめ、課題と今後の方向性を示せ」）に対して複数の情報源を参照しながら長い調査レポートを自律的に生成できる。今回のアップデートではネイティブな可視化生成機能も追加され、グラフや図表を含む分析レポートの作成が可能になった。

MCPへの対応は業界トレンドとも一致している。Anthropicが策定し業界標準化が進むMCPを、今やGoogleも主要プロダクトに組み込んでおり、AIエージェントが外部システムと接続するためのプロトコルとして事実上の標準に近づきつつある。Googleは同モデルを4月22日にVertex AIでGA（一般公開）した。

Google DeepMinddeepmind.google

4. 人間の科学者、複雑タスクでAIエージェントを圧倒——Natureが調査結果を発表

自然科学誌Natureは、複雑な科学的課題において人間の科学者が最高クラスのAIエージェントを大きく上回っているという研究を掲載した。ChatGPTやClaudeなどのAIエージェントは単純な情報検索やコード生成では人間と同等以上のパフォーマンスを発揮するが、複数の仮説を立てて検証し、予期しない実験結果を解釈するような「本質的な科学的思考」では依然として大きな差があることが示された。

研究チームは、現在のAIエージェントは「自律的な科学的発見」にはまだ遠く、最も有効な利用法は「人間の科学者を補助するツール」としての活用だと結論づけた。特に「実験デザイン」と「失敗から学ぶ適応的推論」のギャップが大きく、これらはAIシステムの次世代課題として位置付けられている。

この研究はAIの進歩に対する過度な楽観論に一石を投じる内容として科学コミュニティで広く議論されている。同時にStanford AI Index 2026でも指摘された「AIのジャギー・フロンティア（jagged frontier）」——得意な領域と苦手な領域の落差が大きいという特性——を改めて実証した形だ。

Naturenature.com

5. Claude Codeアーキテクチャの技術解剖：コードの98.4%がAI判断でなくインフラだった

4月27日にarXivに投稿されたプレプリント「Dive into Claude Code: The Design Space of Today’s and Future AI Agent Systems」が注目を集めている。著者らはClaude Codeの公開TypeScriptソースコードを詳細に分析し、AIによる直接的な意思決定ロジックがコードベース全体のわずか1.6%にすぎず、残りの98.4%はツール実行・状態管理・エラーハンドリング・セキュリティ制御などの「運用インフラ」であることを明らかにした。

この発見は、AIエージェントを「賢いAIが中心にいてすべてを決める」という直感的なイメージを覆すものだ。実際には堅牢な運用インフラこそがエージェントシステムの本質的な価値を生み出しており、AIモデル自体は精密に制御された環境の中で動くコンポーネントにすぎないという視点を提供している。

この研究は将来のAIエージェント設計に向けた設計空間（design space）を整理したものとして価値が高く、エージェントのパーミッション設計・ツール管理・ヒューマンインザループ制御の重要性を改めて強調している。ClaudeとCursorの組み合わせによるデータベース削除事故（同月4月25日発生）とも合わせて読まれており、リスク管理の観点からも注目されている。

InfoQinfoq.com