KVキャッシュ革命からマルチモーダルRAGまで——LLM推論効率化と知識検索の最前線

1. Google TurboQuant——KVキャッシュを3ビットに圧縮し推論メモリ6分の1・処理速度8倍を達成

Googleリサーチは3月25日に公開した論文「TurboQuant」で、大規模言語モデルのKVキャッシュを3ビット/値まで圧縮するトレーニング不要のベクトル量子化アルゴリズムを発表した。PolarQuant（ベクトル回転）とQuantized Johnson-Lindenstrauss（JL変換圧縮）という2段階プロセスにより、NVIDIA H100でアテンション計算が最大8倍高速化され、KVキャッシュのメモリ使用量は6分の1に削減される。精度劣化はないとされており、長文脈ウィンドウを持つモデルの実用展開における最大のボトルネックの一つが解消される可能性がある。

LLMの総運用コストの90%以上は学習ではなく推論にあることを踏まえると、推論効率の10倍改善はすべてのAPIコール・ユーザーセッション・エージェントループに複利的に効いてくる。TurboQuantはすでにGemma 4に統合されており、クラウドからオンデバイス実行まで幅広い展開で恩恵を受けるとGoogleは述べている。KVキャッシュ圧縮は今後のLLM推論エンジンの標準機能として定着するとみられ、vLLM ROCmなど他のランタイムへの統合動向も注目されている。

Google Researchresearch.google

2. CloudflareがLLM推論インフラを刷新——Prefill/Decode分離と専用エンジン「Infire」

Cloudflareはグローバルエッジネットワーク上でLLMを実行するための新アーキテクチャを発表した。従来は一体的に処理されていた入力処理（Prefill）と出力生成（Decode）を物理的に異なるマシンへ分割し、それぞれ最適化されたハードウェア上で実行する設計だ。また同社独自の推論エンジン「Infire」を開発し、複数GPUを跨ぐLLM実行をより効率的にコーディネートすることでメモリ使用量の削減とモデル起動時間の短縮を実現した。さらに「Unweight」システムにより、精度を損なわずにLLMのウェイトを15〜22%圧縮できるとしている。

このアーキテクチャはAWS・Azure・GCPのような大規模クラウドプロバイダーだけでなく、エッジプロバイダーであるCloudflareまでもがLLM推論最適化へ本格投資し始めたことを意味する。世界中に分散したPOPで低レイテンシにLLM推論を提供できるようになれば、AIアプリケーションの地理的展開コストが大きく変わる可能性がある。推論インフラの競争がモデル能力の競争と並ぶ重要な戦略軸になりつつある。

InfoQinfoq.com

3. Multi-RAG——映像・音声・テキストを統合したマルチモーダルRAGシステム

arXivに公開されたMulti-RAGは、ビデオ理解における適応的支援を目的としたマルチモーダル検索拡張生成システムだ。映像・音声・テキストという複数の情報ストリームを統合して推論することで、単一モダリティのRAGでは困難だった複雑なビデオ内の質問応答に対応する。特に長時間の動画や複数の話者が登場するコンテンツに対して、クロスモーダルな証拠を組み合わせながら回答を生成する点が特徴的だ。

HuggingFaceが2026年のオープンソース現況レポートで言及したように、RAGフレームワークはもはやテキストだけを対象とした技術ではなくなっており、画像・映像・音声・表・グラフを横断する統合知識検索へと急速に拡張されている。Multi-RAGはこの流れを加速する実証的なシステムの一つで、企業向けの動画アーカイブ検索や教育コンテンツの自動索引化などへの応用が期待されている。関連研究「RAG-Anything」も同時期に公開され、クロスモーダルな意味マッチングを統合したマルチモーダル知識検索が既存手法を複雑なベンチマークで上回ることが示されている。

arXivarxiv.org

4. Mollifier Layers——ニューラルネットで偏微分方程式の逆問題を高精度・高安定に解く新手法

ペンシルバニア大学工学部の研究チームは「Mollifier Layers」という新技術を発表した。古典的な数学の滑らかさ関数（モリファイア）をニューラルネットワークに組み込むことで、逆偏微分方程式（PDE）をより高い安定性と効率で解けるようにする手法だ。逆PDEとは観測データから方程式のパラメータを推定する問題であり、気候モデリング・流体力学・材料科学など科学技術計算の広範な領域で重要な課題となっている。従来のニューラルPDEソルバーでは数値的不安定性が問題になることが多く、Mollifier Layersはその解決策を古典数値解析の理論から導いた点に独自性がある。

物理インフォームド機械学習（Physics-Informed ML）の分野では、ハワイ大学マノア校のチームも同時期に関連研究を発表しており、AIが物理法則を遵守しながら複雑なデータセットを処理する新アルゴリズムを公開した。このアルゴリズムは流体力学と気候モデリングにおける予測精度を大幅に向上させたとされる。両研究は、科学的シミュレーションの主役がモンテカルロ法や有限要素法からニューラルネットベースの手法へ移行しつつある流れを象徴している。

Crescendo AIcrescendo.ai

5. LLM-Emu（ケンブリッジ大）——LLM推論のオンラインエミュレータでGPU実行を5%誤差で模倣

ケンブリッジ大学の研究チームが発表した「LLM-Emu」は、実際のGPUによるLLM推論実行をプロファイル駆動のレイテンシサンプリングで置き換えるオンラインエミュレータだ。実際のモデル実行を「壁時計時間の5%未満の絶対誤差」で模倣することができるとされており、推論インフラの設計・評価・スケールテストにかかるコストを大幅に削減する可能性がある。新しいハードウェア構成やバッチング戦略の検証においてGPU時間を消費せずにシミュレーションを回せることは、推論インフラ研究の反復速度を大幅に向上させる。

MITが同時期に発表した研究では、LLMの学習効率を70〜210%改善する新手法も紹介されており、複数の推論モデルで精度を維持したまま大幅な学習時間短縮が確認されている。これらの研究成果は一見個別のものに見えるが、総合すると「学習・推論・評価」のすべてのフェーズでコストを下げる方向に研究が集中しており、LLMの民主化と実用化をさらに加速させる構造的なトレンドを形成している。

MIT Newsnews.mit.edu

6. HuggingFaceオープンソース現況レポート Spring 2026——モデル数100万突破、ユーザー200万人超

Hugging Faceが公開した「State of Open Source on Hugging Face: Spring 2026」レポートによると、同プラットフォームが保有するモデル数が100万を突破し、ユーザー数も200万人を超えた。コミュニティ規模の急拡大に伴い、VibeVoice（次トークン拡散による長尺マルチスピーカー音声合成）やSwiftI2V（条件付き段階的生成を使った高解像度Image-to-Video変換）など、特定ユースケースに特化した高性能モデルが続々と公開されている。

医療AIの分野では、医療研究エージェントのスキルを専門家評価と同等の一貫性で評価するドメイン特化型監査フレームワークが発表され、医療AIのガバナンス整備に向けた取り組みが加速している。またOpenDevin（コード実行・CLI操作・Webブラウジングを行うAIエージェントプラットフォーム）やAutoDevは、AIが完全な開発環境内で複雑なエンジニアリングタスクを自律的にこなす能力を実証しており、ソフトウェア開発の自動化という観点でも注目の成果が相次いでいる。

Hugging Facehuggingface.co