論文・研究

HuggingFaceがML研究自動化エージェント「ml-intern」を公開、Claude Codeを上回る性能を達成

HuggingFaceのオープンソースML研究エージェントml-internがGPQAでClaude Codeを超え、LLMポストトレーニング工程の自律化に新局面。

1. HuggingFaceが「ml-intern」を公開——論文読解・データセット発見・モデル訓練を完全自動化

HuggingFaceはLLMのポストトレーニングワークフローを自動化するオープンソースAIエージェント「ml-intern」を発表した。このエージェントは論文を自律的に読解し、関連データセットを発見し、モデルのトレーニングを実行するという一連の研究作業を自律的に遂行する。注目すべきはGPQA(Graduate-Level Google-Proof Q&A)ベンチマークにおいてClaude Codeを超えるスコアを達成した点で、研究支援AIとしての実用水準に達したことが示された。ml-internは個人化された支援を提供するため、ユーザー固有の経験を蓄積し、暗黙的な好みを学習するco-evolvingコンポーネントを持つ設計となっている。MITが発表した新しいLLMトレーニング効率化手法との組み合わせにより、研究サイクルの大幅短縮が期待されており、学術機関や企業研究部門での導入が進むとみられる。オープンソースとして公開されているため、研究コミュニティによる独自拡張も容易だ。

MarkTechPostmarktechpost.com


2. MITが新たなLLMトレーニング効率化手法を発表——計算コスト削減への新アプローチ

マサチューセッツ工科大学(MIT)の研究チームが、大規模言語モデルのトレーニング効率を向上させる新手法を発表した。現在のLLMトレーニングは天文学的な計算コストを要するため、大手テック企業のみが実施できる状況が続いてきた。この研究はその障壁を下げる可能性を示しており、特に中小規模の研究機関が独自のモデル開発を行う上での重要な足がかりとなりうる。技術的詳細として、トレーニング過程における計算グラフの最適化と勾配チェックポインティングの改善が組み合わさっており、同等の性能を達成するための必要計算量を削減する。Mixture-of-Experts(MoE)アーキテクチャとの親和性も高く、「UniPool: A Globally Shared Expert Pool for Mixture-of-Experts」といった関連研究と組み合わせることで、さらなる効率化が見込まれる。AI民主化の観点から、この研究はオープンソースモデル開発コミュニティの活性化に貢献すると期待されている。

MIT Newsnews.mit.edu


3. ML-Master 2.0がMLE-Benchで56.44%のメダル率——エンドツーエンドML研究の自律化が現実に

ML研究自動化システム「ML-Master 2.0」がOpenAIのMLE-Benchにおいて56.44%のメダル率を達成し、現時点での最高性能(SOTA)を更新した。これはAIエージェントがエンドツーエンドの機械学習研究作業を汎化的に遂行する方向への初の本格的なマイルストーンと評価されている。MLE-Benchは実際のKaggleコンペティションタスクを使用した評価基準で、データ処理・特徴エンジニアリング・モデル選択・ハイパーパラメータ調整という一連のML研究作業を自律的に実行できるかを測定する。ML-Master 2.0はアジャイルなフレームワーク設計でこれらの作業を統合しており、「なぜ機能するか」の理解よりも「何が機能するか」の発見に特化した探索的アプローチが特徴だ。この成果は研究者の作業を補助するツールとしてのAIから、研究そのものを遂行するAIへの転換点を示しており、AI研究者コミュニティに大きな反響を呼んでいる。

Crescendo AIcrescendo.ai


4. Mem0:グラフベースメモリでLLMの長期対話コヒーレンスを向上させる新アーキテクチャ

Hugging Face注目論文として「Mem0」が急上昇中だ。この研究はグラフベースメモリを中核に置いたアーキテクチャで、LLMが長期的な会話の文脈を効率よく保持・活用できるよう設計されている。技術的なポイントは対話ストリームから情報を抽出し、関連する記憶を統合・整理してグラフ構造で保存することで、後続の会話での関連情報検索を高速化している点だ。既存のメモリシステムと比較して精度と計算効率の両面で優れた結果を示しており、特に数週間から数ヶ月にわたるロングランの会話エージェントシステムでの実用性が高い。同様のアプローチとして「EverMemOS」も対話ストリームを構造化されたメモリセルとシーンに処理する自己組織化メモリシステムを提案しており、長期記憶研究は2026年のLLM研究における主要テーマの一つとなっている。エンタープライズ向けカスタマーサービスAIや個人向けパーソナルAIアシスタントへの応用が期待される。

Hugging Facehuggingface.co


5. 2026年AI研究の焦点:テスト時推論と反射的エージェントの台頭

Hugging Faceのブログ記事「AI Trends 2026: Test-Time Reasoning and the Rise of Reflective Agents」が研究コミュニティで広く読まれている。同記事は現在のAI研究の中心的な問いが「より大きなモデル」から「推論時のより賢い計算」へとシフトしつつあると分析している。テスト時のコンピューティング割り当てを動的に調整するアプローチや、Chain-of-Thoughtを超えた自己反省(Self-Reflection)機構の研究が加速している。また「Why Global LLM Leaderboards Are Misleading」という論文も注目されており、現行の評価基準が実世界のタスク多様性を捉えきれていないという問題提起が行われている。ArXivでは5月4日時点でML分野だけで1,313件の新規投稿があり、研究の量的拡大とともに質的な方向転換も起きている。「Verifier-Backed Hard Problem Generation for Mathematical Reasoning」など数理推論の強化に関する研究も複数トレンド入りしており、AIの論理的思考能力の底上げが2026年の主要テーマとなっている。

Hugging Face Bloghuggingface.co