論文・研究

LLMのメモリ・文書理解・長文脈処理——2026年春の最新研究動向

大規模言語モデルのメモリ管理を統合するMemOS、1.2Bパラメータで高精度文書解析を実現するMinerU2.5、LLMのポストトレーニングを自動化するHugging FaceのML-Internなど、実用的AIシステム構築に直結する研究成果が相次いで発表された。

1. MemOS:LLMのメモリをOSとして管理する新フレームワーク

MemOSは大規模言語モデルのメモリ管理をオペレーティングシステムになぞらえて統合する新しいアーキテクチャフレームワークだ。テキストベースのプレーンメモリ、アクティベーションベースのKVキャッシュメモリ、パラメータレベルのLoRAメモリという3種類のメモリを「MemCube」と呼ぶ統一抽象化でカプセル化し、スケジューリング・オーケストレーション・継続的学習を一元管理する仕組みを提供する。

従来のLLMはセッションをまたいだ情報の保持が苦手で、長期的なユーザーコンテキストを維持するには外部データベースとの連携が必要だった。MemOSはこの課題に対してOSのメモリ管理理論を応用し、「どのメモリを、いつ、どのストレージ層に格納するか」をシステムが自律的に判断する機構を実装した。グラフ構造で記憶を組織化するMem0アーキテクチャと組み合わせることで、複数会話にまたがる長期的なコヒーレンスが大幅に向上した。

論文はarXiv(2507.03724)で公開されており、MemOS v2.0では多モーダルメモリのサポートとナレッジベース機能が追加された。実験結果では既存のメモリシステムを上回るパフォーマンスが示されており、LLMをステートフルなエージェントとして展開するためのインフラとして注目が高まっている。

arXivarxiv.org

2. MinerU2.5:1.2Bパラメータで文書解析の精度と効率を両立

MinerU2.5は文書解析に特化した12億パラメータのビジョン言語モデルで、コースtoファイン(粗→精)の2段階解析戦略によって最先端の認識精度を小モデルサイズで実現した。学術論文・PDF・スキャン文書などの複雑なレイアウトを正確に構造化テキストへ変換できるとされており、大規模パラメータを持つ汎用モデルに頼らず文書処理を低コストで行いたいユーザーのニーズに応える設計だ。

コースtofine戦略では、第1段階でページ全体のレイアウトを高速に把握してテキスト・表・図の配置を推定し、第2段階で各要素を高精度OCRで読み取ることで処理効率と精度のトレードオフを解消している。また拡散モデルを使った「MinerU-Diffusion」アプローチもあわせて公開されており、逆レンダリングとして文書認識を定式化することで自己回帰デコードを並列拡散デノイジングに置き換え、さらなる高速化を実現している。

4月27日のリリース以降Hugging Face Papersでのアクティビティが高く、実際のドキュメントAI開発での採用が進んでいる。政府文書の自動処理や医療記録のデジタル化、法的書類の検索インデックス化など、エンタープライズ向け文書インテリジェンスの分野で即戦力となりうるモデルとして期待が集まっている。

arXivarxiv.org

3. Recursive Language Models(RLM):コンテキスト窓を2桁超えた長文脈処理

再帰型言語モデル(RLM)は、長大なプロンプトを外部環境の一部とみなし、LLM自身がプロンプトをプログラム的に調査・分解・再帰的に呼び出すという新しい推論戦略だ。従来のLLMがコンテキスト窓の上限(例えば100万トークン)に縛られていたのに対し、RLMはモデルのコンテキスト窓を2桁以上超える長さの入力を扱えることが論文で示されている。

仕組みとしては、モデルがプロンプトのどの部分を先に読むかを自律的に決定し、必要に応じて部分的なサブタスクとして自分自身を再帰的に呼び出す。これにより数百万トークンの長大なドキュメントや、非常に深いコードベースの理解などが理論上可能になる。単純な「コンテキスト拡張」ではなく、「プロンプトを処理する計算戦略」を変えるアプローチとして、研究コミュニティで活発な議論を呼んでいる。

実用化にはまだ課題があるものの、超長文書要約・大規模ソフトウェア解析・法律文書全文検索といった応用に対してRLMが有望な基礎技術となりうる。Hugging Face Papersでもトレンドに入っており、今後の長文脈AI研究の方向性を示す重要な提案として位置付けられている。

Hugging Face Papershuggingface.co

4. Hugging Face「ML-Intern」——LLMポストトレーニングを自動化するオープンソースエージェント

Hugging Faceは4月21日、LLMのポストトレーニングワークフロー全体を自動化するオープンソースAIエージェント「ML-Intern」を公開した。同社が開発した軽量エージェントフレームワーク「smolagents」上に構築されており、ファインチューニング・評価・データキュレーションなどのエンドツーエンドのポストトレーニング工程を人間の介入なしに実行できる。

ML-Internの登場はLLM開発の民主化という観点で注目に値する。これまでポストトレーニングには専門的なMLエンジニアの知識とGPUリソースが大量に必要だったが、エージェントが自律的にパイプラインを組み上げることで、小規模な研究グループや個人開発者でも高品質なファインチューニング済みモデルを容易に作成できる可能性が生まれる。

Hugging Face CEOのClem Delangue氏は「LLMバブルではなくLLMを活用したバブルが来ている」と発言しており、オープンソースエコシステムの層の厚さがプロプライエタリモデルとの差別化要因になるという見解を示した。ML-Internはその象徴として、コミュニティ主導のAI開発ツールチェーン整備の方向性を示している。

MarkTechPostmarktechpost.com

5. TIDE:拡散型大規模言語モデルのクロスアーキテクチャ蒸留フレームワーク

TIDEは拡散型大規模言語モデル(Diffusion LLM)のクロスアーキテクチャ蒸留を実現するフレームワークだ。蒸留強度変調・コンテキスト富化・クロストークナイザー目標という3つの専門モジュールを組み合わせることで、異なるアーキテクチャ間での知識転送を効率的に行い、性能向上を達成している。

従来の知識蒸留は同一アーキテクチャ間での転送が主流だったが、TIDEが異種アーキテクチャ間での蒸留を可能にすることで、より小さく効率的な拡散LLMをさまざまなアーキテクチャのティーチャーモデルから訓練できるようになる。これは計算資源の節約と高性能モデルの軽量化という実用的な観点から大きな意義がある。

拡散型LLMはトークンを逐次生成するのではなく、全トークンを並列に予測・デノイズするアプローチで、従来の自己回帰モデルより高速な生成が期待されている。TIDEはこの分野の技術成熟を後押しする研究として、Hugging Face Papersで注目を集めている。

Hugging Face Papershuggingface.co

6. CVPR 2026採択論文まとめ:コンピュータビジョン研究の最前線

コンピュータビジョンと機械学習のトップカンファレンスCVPR 2026の採択論文が公開され始めており、Hugging Face PapersやarXivで活発に議論されている。今年のトレンドは生成モデルと識別モデルの融合、リアルワールドへの汎化性能向上、および動的シーン理解の3点が際立っている。

特に注目されているのはマルチモーダルな3D理解の分野で、点群・RGB・深度センサーを統合したシーン表現学習が複数の採択論文で取り上げられている。また医療画像解析への応用でも、AIが人間の専門家に匹敵する精度を示す研究が増加しており、臨床現場への実装を目指した実用的な研究が目立つ。

ByteDanceや中国系大学からの投稿が引き続き高い割合を占めており、Hugging Faceのレポートでは「採択論文のインパクトスコアが高い組織上位はほぼ中国のビッグテックが独占している」と分析されている。米中の競争が学術分野でも加速しており、研究成果の地政学的な意味合いがより鮮明になってきている。

arXiv Computer Visionarxiv.org