論文・研究

AIが自ら論文を書き査読を突破:自律科学研究の新時代が幕を開ける

Sakana AIのAI Scientist-v2がILCRワークショップで人間平均を超える査読スコアを達成し、完全自律生成論文として初めて採択された歴史的マイルストーンが報告された。

1. AI Scientist-v2:完全AI生成論文がワークショップ査読を初突破

Sakana AIが開発した「The AI Scientist-v2」は、仮説立案・実験設計・データ解析・論文執筆をすべて自律的に行うエンドツーエンドのエージェントシステムだ。同チームは本システムを用いて生成した3本の論文をILCRワークショップに匿名投稿し、そのうちの1本が人間論文の平均採択スコアを超える評価を査読者から受けたことを2026年4月に報告した。これは完全にAIが生成した論文が正式な査読プロセスを通過した史上初の事例として記録されている。

v2の最大の革新点は、前バージョンが必要としていた「人間が書いたコードテンプレート」への依存を完全に排除した点にある。代わりに「プログレッシブ・エージェント・ツリーサーチ」と呼ばれる手法を採用し、実験管理エージェントが複数のサブエージェントを動的に調整しながら研究の仮説空間を探索する。採択論文のテーマはニューラルネットワークにおける構成的汎化(compositional generalization)で、機械学習の主要な未解決課題の一つを対象としていた。

この成果はSakana AIの研究としての意義にとどまらず、科学研究の在り方そのものへの問いを提起する。AIが独自に仮説を立て実験し論文を書いて採択されるという事実は、研究者の役割・学術論文のあり方・査読制度の信頼性について根本的な再考を促すものだ。Nature誌への関連論文掲載も報告されており、この研究は今後の自律科学探索エージェントの基盤論文として引用され続けるだろう。


2. MITが推論LLMの訓練を最大210%高速化する手法を発表

マサチューセッツ工科大学(MIT)の研究チームが、推論型LLMの強化学習トレーニングを70〜210%加速しながら精度を保つ新手法を発表した。MITのポスドク研究員Qinghao Hu氏と大学院生Shang Yang氏が中心となって開発し、Song Han教授が指導した。

この研究が解決しようとした問題は「ロールアウト(rollout)のボトルネック」だ。強化学習における多数の回答生成フェーズは、実行時間全体の最大85%を消費するにもかかわらず、高性能プロセッサの一部がその間アイドル状態になるという非効率が生じていた。研究チームはこの「計算上の空き時間」を活用し、大規模推論モデルの出力を予測する小型・高速の補助モデルを自動訓練するアプローチを採用。大規模モデルは補助モデルの予測を検証するだけで済むため、全体のワークロードが大幅に削減される。

金融トレンド予測や電力網リスク検知などの応用分野において、LLMトレーニングのコストと消費エネルギーの削減は切実な課題だ。この手法が実用化されれば、現在GPUクラスタ数千台を要するような推論モデルのトレーニングが、より少ない計算資源で実現できるようになる可能性がある。MIT News、MIT Climate Portal、MIT EECSなど複数のMIT媒体が同時に取り上げており、学内での注目度も高い研究成果だ。


3. ゲームデータ活用の生成レンダリング向け大規模動的データセットが登場

AAA ゲームタイトルから得られた高解像度の動的シーンデータを活用した、生成インバース・フォワードレンダリング向け大規模データセットが2026年4月2日に公開された。RGB映像とGバッファ(Geometry Buffer)を同期させた高品質なデータと、VLM(ビジョン言語モデル)ベースの評価手法を組み合わせており、ヒューマンジャッジメントとの高い相関が確認されている。

ゲームエンジンによって生成されたシーンデータは物理的に正確なライティングと素材情報を含んでおり、実写映像では得難い「グラウンドトゥルース」として機能する。従来の合成データセットとは異なりAAA品質のビジュアルを持つため、現実に近い環境でのニューラルレンダリングモデルの訓練が可能になる。映画・VFX・ゲーム産業でのAIレンダリング研究を加速させる基盤データとして期待が高い。


4. PTE:ツール統合推論のためのハードウェア効率新指標が提案される

2026年4月7日、ツール統合推論(Tool-Integrated Reasoning)シナリオに特化した新たなハードウェア効率指標「PTE(Prefill Token Equivalents)」を提案する論文が発表された。既存の推論効率指標がツール呼び出しを含む複雑なパイプラインを適切に評価できないという課題に対応する研究だ。

LLMが外部ツール(検索エンジン・計算機・コードインタープリタなど)を呼び出す「ツール統合推論」は急速に普及しているが、その計算コストの測定・比較方法は標準化されていなかった。PTEはツール呼び出しオーバーヘッドを含むエンドツーエンドのコストをハードウェア特性に基づいて統一的に表現する指標として設計されており、異なるモデルやシステム間での公平な比較を可能にする。

エージェントAIが広く産業応用される中で、コスト効率の正確な測定・最適化は不可欠だ。PTEのような標準化された指標の普及により、Tool Useを多用するAIエージェントシステムの設計・評価・調達の意思決定がより客観的に行えるようになることが期待される。


5. AIが科学文献を系統分析し「未来の研究トレンド」を2〜3年先読みする

TechXploreが報告した最新研究では、LLMと機械学習を組み合わせたAIシステムが科学文献を体系的に解析することで、2〜3年先の研究トレンドを予測できることが示された。素材科学の論文群を対象にした実証では、将来有望な新研究方向の特定に成功したという。

従来の文献レビューは研究者個人の知識と手動の検索に依存しており、急増する論文数への対応には限界があった。AIによる系統的文献解析は、専門家が見落としがちなクロスドメインの接続点や、まだ研究が手薄な「空白地帯」を自動的に検出できる可能性を示している。素材科学に限らず、医療・創薬・エネルギーなど文献量が膨大な分野への展開が期待される。