論文・研究

オープンソースAIの勢力図が塗り替わる——中韓Big Tech論文が席巻するHugging Face Spring 2026

Hugging Faceがオープンソースの現状レポートを公開。ByteDanceなど中国Big Techが論文で圧倒的影響力を持つ一方、韓国・医療AIが急成長している。

1. Hugging Face「Spring 2026 オープンソース現状レポート」——中国Big Techが論文で圧倒的影響力

Hugging Faceは2026年3月17日、「State of Open Source on Hugging Face: Spring 2026」レポートを公開した。Hub上で最も高評価を得た論文は大手組織からのものが中心で、地域別ではアメリカと中国が上位を占める。特にByteDanceをはじめとする中国のBig Tech企業が高インパクト論文の発表量で際立った存在感を示していることが明らかになった。

医療・バイオ分野の論文が特に影響力が高く、言語・画像生成を超えてロボティクス・科学研究への応用を対象とするサブコミュニティが急成長していることも確認された。また2026年2月には韓国発の3つのモデルがHugging Face Hubで同時にトレンド入りし、同月には韓国とアメリカのスタートアップReflection AIが韓国向けフロンティアオープンウェイトモデルのデータセンターパートナーシップを発表した。東アジアのAI研究力が一層強化されている実態が浮き彫りになっている。

2. 【PackForcing】階層的KVキャッシュ管理で長尺動画生成の効率化を実現

Hugging Face週次論文ダイジェスト(3月22〜28日)で注目を集めた「PackForcing」は、長尺動画生成における効率化手法を提案している。階層的KVキャッシュ(Key-Value Cache)の管理と時空間圧縮を組み合わせ、時間的整合性を維持しながらメモリ使用量を大幅に削減することに成功している。

動画生成AIはテキストや静止画に比べて計算コストが桁違いに高く、長尺になるほどメモリ要件が爆発的に増大するという根本的な課題があった。PackForcingはこの問題にKVキャッシュの階層化で応答し、品質を損なわずに生成コストを抑える実用的な解決策を提供している。動画生成AIの商用展開には効率化が不可欠であり、この研究はその加速に貢献すると期待される。

3. 【QuantAgent】マルチエージェントLLMが高頻度取引で既存システムを凌駕

「QuantAgent」は、複数の専門エージェントが協調する大規模言語モデルフレームワークを高頻度取引(HFT)に応用した研究だ。テクニカル指標エージェント、チャートパターンエージェント、トレンド分析エージェント、リスク管理エージェントがそれぞれ専門知識を持ち、役割分担しながら取引判断を行う。既存のニューラルネットワークベースおよびルールベースのHFTシステムを性能で上回ったと報告されている。

この研究は、単一の汎用LLMではなく、専門化した複数エージェントの協調によってドメイン特化タスクで飛躍的な性能向上が得られることを実証している点が重要だ。金融取引という高度にノイジーでダイナミックな環境での成功は、医療診断、法律分析、科学的発見など他の専門ドメインへのマルチエージェントアプローチの応用可能性を示唆している。

4. 【Internal Safety Collapse】フロンティアLLMは特定タスク条件下で安全性が崩壊する

フロンティア大規模言語モデルが特定のタスク条件下では有害コンテンツを生成してしまうという脆弱性を体系的に調査した研究「Internal Safety Collapse」が注目を集めている。アライメント(安全調整)に多大なリソースを投じているにもかかわらず、これらのモデルには根本的な脆弱性が残存していることを複数のフロンティアモデルで実証した。

具体的には、通常のリクエストでは拒否されるような有害な出力が、特定のタスクフレーミングやプロンプト構造を用いると生成されてしまうケースが確認された。この研究はAIの安全性研究コミュニティに重要な示唆を与えると同時に、モデルの安全性評価手法の限界も露呈している。Anthropicが「Claude Mythos」について言及した「前例のないサイバーセキュリティリスク」への懸念とも共鳴する内容であり、能力向上に伴う安全対策の高度化が急務であることを改めて示している。

5. 【EverMemOS】対話ストリームを構造化記憶に変換する自己組織化メモリシステム

「EverMemOS」は大規模言語モデルの長期記憶能力を強化するための自己組織化メモリシステムを提案している。会話の流れ(ダイアログストリーム)を処理して構造化された「記憶セル」とシーンへと整理することで、LLMの長期インタラクション能力を大幅に改善する。

現在のLLMはコンテキストウィンドウを超えた情報を「忘れて」しまうという根本的な制約がある。EverMemOSはその解決策として、人間の記憶が重要な出来事を階層化・構造化して保存するような自己組織化メカニズムをAIに実装しようとしている。Anthropicが発表した「コンパクションAPI」(サーバーサイドコンテキスト要約による事実上の無限会話)とは異なるアプローチを取りながら、同じ方向性の課題——長期記憶とコンテキスト管理——に取り組んでいる点が興味深い。

6. 【GeoSR】幾何トークンの戦略的統合でVLMの空間推論能力を強化

シンガポール国立大学が発表した「GeoSR」は、ビジョン言語モデル(VLM)の空間推論能力を向上させるための研究だ。マスキングと誘導型融合メカニズムを通じて幾何トークン(geometry tokens)を戦略的に統合することで、VLMが3次元空間における物体の位置関係、距離、方向を正確に把握できるよう改善している。

GPT-4oやGeminiのようなVLMは言語理解では卓越した能力を示すが、「左から3番目の物体の右斜め上にある物体は何か」といった複雑な空間的推論では人間の認知に及ばないことが多かった。GeoSRはこの弱点を幾何学的情報の明示的な統合によって補強するアプローチを提案しており、ロボットナビゲーション、自動運転、拡張現実などへの応用が期待される。

7. ハワイ大学の物理インフォームドMLが流体力学・気候モデリングで予測精度を向上

ハワイ大学マノア校の研究チームが科学誌「AIP Advances」に発表した「物理インフォームドML」アルゴリズムは、AIモデルの訓練に物理法則を直接組み込むことで、データが少ない状況でもAIの予測が物理的に妥当であることを保証する手法だ。流体力学と気候モデリングにおいて検証可能な正確な予測を実現した。

従来のニューラルネットワークはデータが十分であれば高精度な予測が可能だが、データ不足の状況では物理的に不可能な出力(例:エネルギー保存則に違反する予測)を生成することがある。物理インフォームドMLはこの問題を、ニュートン力学・熱力学・電磁気学などの物理法則を「制約」としてモデルに埋め込むことで解決している。工学、気象学、再生可能エネルギー計画など幅広い分野への応用が期待されている。

8. Google DeepMind が「Dynamic Reflections」公開——ビデオ表現とテキストアライメントの新手法

Google DeepMindが2026年4月23日付けで発表した論文「Dynamic Reflections: Probing Video Representations with Text Alignment」は、動画の内部表現をテキストとのアライメントを通じて探索・評価する新手法を提案している。動画AI研究においてモデルが動的なコンテンツをどのように「理解」しているかを可視化・診断することを目的としている。

動画理解AIは静止画認識に比べて時間的な動的変化、物理的な因果関係、シーンの文脈理解など複雑な要素が絡み合うため、モデルの内部動作の解釈が困難だった。Dynamic Reflectionsはテキストとのアライメントという比較的解釈可能な手がかりを用いることで、動画表現モデルの認識上の弱点を診断するフレームワークを提供している。DeepMindは直近で240本以上の論文を公開しており、動画・マルチモーダル・認知科学の境界領域での研究が活発化している。