数学AIが未解決問題に挑む、MoE・メモリ・文書解析で新手法続々

1. AI Co-Mathematician — エージェントが数学の未解決問題に挑戦

Google DeepMindの研究者らによる「AI Co-Mathematician」論文が注目を集めている。数学研究のフルワークフローをサポートするように設計されたステートフルなエージェントベースのワークベンチを提案し、FrontierMath Tier 4ベンチマークで48問中23問を解き新記録を達成した。従来のLLMが苦手としてきた長期的な証明探索や数式操作を、エージェントによる反復的な試行錯誤で突破する設計が特徴だ。数学研究の自動化に向けた具体的なステップを示す成果として、AI研究コミュニティで広く議論されている。人間の数学者とのコラボレーションモデルとしての可能性も論文内で詳細に検討されている。

arXiv (cs.AI)arxiv.org

2. UniPool — グローバル共有エキスパートプールでMoEを進化

Minbin Huangらによる論文「UniPool」がMixture-of-Experts（MoE）アーキテクチャに新たな改良を加えた。従来のMoEはモデル内で固定されたエキスパート群を持つが、UniPoolはグローバルに共有されたエキスパートプールを導入することで、より柔軟かつ効率的な知識の分配を実現する。実験ではパラメータ数を増やさずに性能向上を達成しており、大規模モデルのコスト削減に寄与する可能性がある。今後のLLMアーキテクチャ設計に影響を与える研究として、実装の追試が各社で行われる見込みだ。

arXiv (cs.LG)arxiv.org

3. 検証機構を活用した数学難問自動生成フレームワーク

Yuhang Lai、Jiazhan Fengらが提案する「Verifier-Backed Hard Problem Generation」は、LLMの数学的推論能力評価・強化のための難問自動生成フレームワークだ。検証機構（Verifier）を活用して問題の正確性を保証しながら、難易度の高い訓練データを大量生成できる点が革新的である。既存のベンチマークでは容易に飽和してしまう高性能モデルの評価に対応するため、動的に難易度を調整できる仕組みが組み込まれている。高品質な数学的推論データの不足という業界共通の課題に対する実践的な解決策として評価されている。

arXiv (cs.LG)arxiv.org

4. SkillOS — 経験駆動型強化学習でLLMエージェントを自己改善

イリノイ大学アーバナ・シャンペーン校とGoogle Cloud AI Researchの共同研究「SkillOS」が発表された。LLMエージェントが経験駆動型強化学習によって再利用可能なスキルを自動的にキュレートできるフレームワークで、エージェントが過去の行動からスキルを抽出・整理・再活用する仕組みを持つ。ゼロショットで多様なタスクに対応できる汎用エージェントに向けた重要な一歩として位置づけられており、長期的な自律エージェント開発の基盤技術となり得る。実験ではタスク完了率と効率の両面で従来手法を上回る結果が報告されている。

arXiv (cs.AI)arxiv.org

5. ARIS — モデル間対抗的協調で長期研究の信頼性を確保

上海交通大学が「ARIS（Adversarial Research Integration System）」をオープンソースで公開した。複数のLLMモデルが互いの出力を批判・検証し合う対抗的協調（Adversarial Collaboration）の仕組みにより、長期的な研究成果の信頼性を高める手法を実装している。単一モデルへの依存によるバイアスや誤りの累積を防ぐ設計で、科学的な検証プロセスをAIシステムに組み込む試みとして注目される。Hugging Face Daily Papersでも高い評価を受けており、研究自動化ツールとしての活用が期待されている。

Hugging Face Daily Papershuggingface.co

6. Mem0 — グラフベースメモリで長期会話の一貫性を実現

グラフ構造を用いた長期メモリアーキテクチャ「Mem0」が発表された。LLMの弱点である長期的な会話一貫性の問題に取り組む研究で、情報を知識グラフとして構造化することで効率的な抽出・統合・検索を実現する。複数セッションにまたがる文脈維持を可能にすることで、パーソナライズドアシスタントや継続的な研究支援エージェントへの応用が見込まれる。既存のRAGアプローチと比較して情報の関係性を保持できる点が強みで、エンタープライズ向けAIシステムへの組み込み需要が高まっている。

Hugging Face Daily Papershuggingface.co

7. MinerU2.5 — 12億パラメータで文書解析SOTAを達成

12億パラメータのドキュメント解析特化型ビジョン言語モデル「MinerU2.5」が発表された。計算効率を維持しながら文書認識精度でState-of-the-Artを達成しており、PDF・スキャン文書・複雑なレイアウトを持つ文書の高精度な解析が可能だ。パラメータ規模を抑えながらも大型モデルに匹敵する性能を実現したことで、エッジデバイスや低コスト環境での文書AI実装への道が開かれた。企業の文書デジタル化・RAGパイプライン構築において実用的なソリューションとして活用が期待される。

Hugging Face Daily Papershuggingface.co

8. 2026年スマート製造向けAI/MLロードマップ論文

Jay LeeとHanqi Suらによる「2026 Roadmap on AI and ML for Smart Manufacturing」が公開された。製造業における知的システムの現状と将来展望を体系的にまとめた総説論文で、産業AIの標準化・実装指針を提示している。センサーデータ解析・予知保全・品質管理・サプライチェーン最適化など製造現場の各領域でのAI/ML活用事例が網羅されており、研究者と実装担当者双方への参照資料として機能する。製造業のデジタルトランスフォーメーションを加速させる包括的な見取り図として業界で広く参照されている。

arXiv (cs.AI)arxiv.org