オープンソースLLMが最前線へ――GLM-5.1・Gemma 4・SkVM論文が示す研究の新潮流

1. Zhipu AI「GLM-5.1」MITライセンスで公開――SWE-Bench ProでClaude・GPT超え

中国のZhipu AIが4月2日、GLM-5.1をMITライセンスで公開した。SWE-Bench Pro（実世界のソフトウェアエンジニアリングタスクベンチマーク）においてClaude Opus 4.6とGPT-5.4の両方を上回ったと報告されており、オープンソースモデルが商用最強クラスに肩を並べた画期的な結果として注目されている。MITライセンスのため商用利用も含めた自由な改変・再配布が可能であり、企業がコードベースに統合しやすいのも強みだ。同モデルはマルチステップ推論とコード生成に特化した事後学習プロセスを経ており、長大なコードリポジトリへの対応力が向上している。大規模なAPIコストを払わずとも最先端のコーディング性能を自社インフラで享受できる可能性が広がったことで、スタートアップや研究機関での採用が急増する可能性がある。

LLM Statsllm-stats.com

2. Google「Gemma 4ファミリー」Apache 2.0で一斉リリース――商用・研究両用の軽量高性能モデル群

Googleが4月2日、Gemma 4ファミリーをApache 2.0ライセンスで公開した。Gemmaシリーズはオンデバイス・研究・企業内用途を念頭に置いた軽量モデル群で、今回の第4世代では前世代比で推論精度と知識蒸留効率が大幅に向上している。Apache 2.0ライセンスはMITと同様に商用利用を認めており、モデルを組み込んだプロダクトの販売も制限なく行える。Gemma 4はGemini 3.1の知識を蒸留したモデルであるとされており、最先端の大規模モデルの能力をエッジデバイスや低リソース環境でも利用できるようにする試みだ。学術研究者にとっても再現性の高い実験基盤として、今後の論文での活用が期待される。

mean.ceo Blogblog.mean.ceo

3. 「SkVM」論文――ポータブルLLMスキル実行のためのコンパイルシステム

Hugging Face Papersで注目を集めたSkVM（Skill Virtual Machine）は、LLMが習得した「スキル」を異なるモデルアーキテクチャ間で移植・実行するためのコンパイルシステムを提案する研究だ。現在のLLMでは特定タスクへのファインチューニングや in-context learning によるスキル習得が特定モデルに依存してしまうという課題があった。SkVMはスキルを抽象的な中間表現にコンパイルし、異なるバックエンドモデルで解釈・実行できるようにすることで、スキルの再利用性とポータビリティを飛躍的に高める。これにより一度開発した高性能スキルを複数モデルに展開するコストが大幅に削減され、エンタープライズのAI開発効率が向上する可能性がある。LLMエコシステムにおけるJava VMのような標準化基盤として機能することが期待されており、今後のエージェントAI開発に大きな影響を与えそうだ。

Hugging Face Papershuggingface.co

4. Tufts大学の神経記号型VLA――ロボットの常識推論とドメイン知識を統合

タフツ大学が4月5日に発表した神経記号型Visual-Language-Action（VLA）システムは、視覚認識・言語理解・行動計画を神経記号フレームワークで統合することでロボットの常識推論能力を大幅に向上させた。従来のエンドツーエンド学習では困難だった「なぜその行動を取るか」の説明可能性と、ドメイン知識（物理法則・因果関係）の明示的な組み込みを可能にするのが特徴だ。実験では家庭環境の未知タスクへの汎化能力が純粋なニューラルモデルと比べて顕著に改善したと報告されている。ロボティクスにおいてAIの成功率は現状わずか12%に留まるとされており、本研究のアプローチは信頼性向上への重要な一歩だ。神経記号AIの実用化に向けた具体的な成果として、医療・製造・家事支援ロボットへの応用展開が期待される。

devFlokersdevflokers.com

5. Transformerの予測崩壊を数学的に証明――二乗損失下での限界を正式に記述

arXivに投稿された注目論文では、Transformerベースモデルが二乗損失のもとで「予測崩壊」（Forecast Collapse）を示すという現象の形式的証明が提示された。予測崩壊とは、モデルが特定の入力分布に対して均一な出力を返し始め、予測の多様性が失われる現象だ。この証明は訓練損失関数の選択がモデルの長期的な汎化能力に根本的な影響を与えることを示しており、現在広く使われている損失設計の見直しを迫るものだ。時系列予測・科学シミュレーション・強化学習など二乗損失が多用される領域では、設計レベルでの対策が必要になる可能性がある。理論的基盤の構築としては近年まれに見る重要な貢献とされており、NeurIPS 2026への採択が有力視されている。

arXiv Machine Learningarxiv.org

6. スタンフォードAI Index 2026公開――AIの「凸凹な知性」とベンチマーク50%超えの現実

スタンフォード大学が毎年発行するAI Index 2026が公開された。最新の最強モデル（Claude Opus 4.6・Gemini 3.1 Proなど）がHumanity’s Last Exam（人類の最難関試験を模した総合ベンチマーク）で50%超の正答率を達成したことが報告されており、AIの知的能力が急速に向上していることが示された。一方でロボットの家庭内タスク成功率はわずか12%に留まり、自動運転では5都市でWaymoが走行するなどAIの「凸凹な知性」も浮き彫りになっている。人々のAI採用速度はPCやインターネットの普及期を上回っており、社会実装の加速と規制整備のギャップが拡大していることも指摘されている。産業・研究・政策立案者にとって不可欠な年次報告書として、2026年版は特に広範な議論を呼びそうだ。

IEEE Spectrumspectrum.ieee.org