AIが論文を書く時代——自律的科学探索システムがNature掲載

1. AI Scientist v2——完全自動生成論文がILCRワークショップ査読を突破、Natureに掲載

SakanaAIが開発した「The AI Scientist-v2」は、仮説の生成から実験設計・実施・データ分析・論文執筆までを完全に自動化する科学探索システムだ。同システムが生成した未編集の論文がILCR 2025の「I Can’t Believe It’s Not Better（ICBINB）」ワークショップにブラインド査読形式で投稿され、平均スコア6.33を獲得して人間の採択閾値を超えた。この成果を報告する論文はNatureにも掲載されており、AI生成研究の信頼性という観点で歴史的なマイルストーンとなった。前バージョンとの大きな違いは人間作成のテンプレートへの依存を排除した点で、MLドメイン全般に汎化するとともに、実験マネージャーエージェントが誘導する進化的ツリーサーチによって実験を並列化している。1論文当たりのLLM API呼び出しは60〜70回、所要時間は平均39.6分とコスト効率も高く、将来的には月数千本規模の論文自動生成も現実的になりつつある。研究の意義や倫理的問題についての議論も同時に巻き起こっており、科学コミュニティへの影響は計り知れない。

arXivarxiv.org

2. Google PaperOrchestra——マルチエージェントで分業するAI論文執筆フレームワーク

Googleの研究チームは4月8日、「PaperOrchestra」と名付けられたマルチエージェントフレームワークを発表した。複数の専門エージェントが協調して論文執筆を分担する設計で、文献調査エージェント・実験設計エージェント・執筆エージェント・査読対応エージェントがそれぞれの役割を担う。AI Scientist v2が単一のエンドツーエンドパイプラインであるのに対し、PaperOrchestraは各工程のモジュール性を重視しており、研究者が特定のフェーズだけを自動化したり人間の判断を挿入したりしやすい設計になっている。論文によれば、従来の人間研究者が数週間かける文献レビューや実験の繰り返しを大幅に短縮できるとされており、特にハイパーパラメータ探索や実験再現性の確保において強みを発揮する。研究自動化ツールの多様化は、特定の組織が論文生産をAI化することでアカデミアの競争環境を変容させる可能性があり、倫理ガイドラインの整備が急務となっている。

MarkTechPostmarktechpost.com

3. Tencent「Hy3-preview」——295B MoEで高速推論と長大コンテキストを両立

Tencentは「Hy3-preview」を公開した。総パラメータ295B・アクティブパラメータ21Bの混合エキスパート（MoE）アーキテクチャを採用し、256Kのコンテキストウィンドウを持つ推論特化モデルだ。最大の特徴は「高速思考」と「低速思考」をひとつのモデルに融合した設計で、簡単なクエリには即座に応答し、複雑な推論が必要なタスクには段階的な思考プロセスを経て回答する動的切り替えを実現している。MoEにより全パラメータを常時使用しないため、計算コストを抑えつつ大容量モデルの表現力を享受できる。256Kコンテキストは長い法律文書や小説全体を一度に参照するユースケースで特に有効で、Hugging Faceでトレンド入りしている。中国テック大手が自社モデルをオープンウェイトで公開するケースが増えており、グローバルな研究コミュニティへの貢献と自社エコシステム形成の双方を狙う戦略が見て取れる。

Hugging Face Papershuggingface.co

4. MultiWorld——マルチエージェント・マルチビュー世界モデリングの統合フレームワーク

新たに提案された「MultiWorld」は、複数エージェントが複数カメラ視点の映像を扱う世界モデリングのための統合フレームワークだ。複数エージェントが同一シーンを異なる視点から観測するシナリオ（自動運転、ロボティクス、ゲームAIなど）において、各エージェントの行動を正確に制御しながらシーン全体のグローバル整合性を維持することが従来困難だったが、MultiWorldは条件処理とグローバル状態エンコードに特化したモジュールを組み合わせることでこの問題を解決している。Hugging Faceのトレンドペーパーに掲載されており、特に自動運転シミュレーションや高度なゲームAI生成の分野での応用が期待されている。現実に近い高品質な訓練データを人工的に生成するという観点でも重要で、データ収集コストを削減しながらモデルのロバスト性を高める手段として研究者から注目を集めている。

Hugging Facehuggingface.co

5. LLM推論スケジューリングの新手法——出力長の不確実性を考慮したトークン使用予測

LLMをAPI経由で大量に呼び出すシステムでは、レスポンスの長さが事前に予測できないため効率的なバッチスケジューリングが困難だという問題がある。新研究「Scheduling LLM Inference with Uncertainty-Aware Output Length Predictions」はこの課題に取り組み、確率的な出力長の予測モデルを事前に訓練してスケジューラーに組み込む手法を提案している。不確実性を陽に扱うことで、長い出力が来る可能性が高いリクエストを事前にバッファし、GPUの空き時間を短縮することができる。実験では単純な先着順スケジューリングと比較して平均ジョブ完了時間を大幅に改善できたと報告されており、大規模LLMサービング基盤の効率化に直結するプラクティカルな研究として評価が高い。AIインフラのコストが急増する中、このような推論効率化研究はクラウドプロバイダーや企業ユーザーの双方から強い関心を集めている。

arXiv cs.LGarxiv.org