拡散モデルはどこまで速くなれるか：ステップ削減と潜在圧縮、2026年の高速化「二正面作戦」

2026年の生成AIを語るとき、もはや「何を作れるか」だけでなく「どれだけ速く・安く作れるか」が主戦場になっている。とりわけ動画生成拡散モデルは、1本のクリップを生成するのに数十回の「ノイズ除去ステップ」を繰り返し、各ステップで巨大なTransformerを走らせる——この計算コストが実用化の最大の壁だ。

ここで重要なのは、生成コストがおおまかに「ステップ数 × 1ステップあたりのコスト」という掛け算で決まる、という構造である。だとすれば高速化の戦線も二つある。ステップ数そのものを削る戦線と、1ステップのコスト——すなわちモデルが処理する潜在表現のサイズ——を削る戦線だ。本稿で取り上げる3本の研究は、奇しくもこの二正面のそれぞれを攻めている。NVIDIAの「AnyFlow」とSenseTime・北京航空航天大学の「Phased DMD」は前者を、Alibaba Qwenチームの「Qwen-Image-VAE-2.0」は後者を担う。そして3本を並べると、アプローチの哲学はまるで違うのに、たどり着く構造的な答えが驚くほど似ているのが見えてくる。

戦線その1：サンプリングステップを削る「蒸留」競争

ステップ削減の本命は「蒸留（distillation）」だ。数十ステップかけて高品質な出力を出す「教師モデル」の振る舞いを、数ステップで再現する「生徒モデル」に教え込む。近年は「一貫性モデル（Consistency Model）」や「分布マッチング蒸留（Distribution Matching Distillation, DMD）」が主流の系譜となってきたが、いずれも一長一短がある。AnyFlowとPhased DMDは、それぞれ異なる系譜の弱点を突いて改良を提案している。

AnyFlow：ODEの軌跡を捨てずに「任意ステップ」化する

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map DistillationNVIDIAnvlabs.github.io

NVIDIAのAnyFlowは「フローマップ（flow map）に基づく、初の”任意ステップ”動画拡散蒸留フレームワーク」を名乗る。ポイントは「任意ステップ（any-step）」という言葉だ。

従来の蒸留——とくに一貫性蒸留——は、「4ステップ用」「8ステップ用」のように特定のステップ数に向けてモデルを最適化する。さらにAnyFlowが問題視するのは、一貫性蒸留が元の確率フローODE（probability-flow ODE）の軌跡を、独自の「一貫性サンプリング軌跡」で置き換えてしまう点だ。これにより、本来ODEサンプリングが持っていた「ステップを増やすほど品質が上がる」というテスト時スケーリングの性質が弱まってしまう。

AnyFlowの解決策は、蒸留のターゲットを「終点への写像（zt → z0、エンドポイント一貫性）」から「任意の時間区間にわたる遷移の学習（zt → zr、フローマップ遷移）」へとずらすことだ。そして中核となるのが Flow Map Backward Simulation ——完全なオイラー法のロールアウトを、ショートカットなフローマップ遷移へと分解する手法である。これにより、生徒モデル自身が生成した軌跡上で学習する「オンポリシー（on-policy）」蒸留が効率的に行え、few-stepサンプリングの離散化誤差や、因果的（causal）生成における露出バイアス（exposure bias）といったテスト時の誤差を削減できる。

結果として、AnyFlowは双方向（bidirectional）と因果的（causal）の両アーキテクチャ、1.3Bから14Bパラメータまでのスケールで検証され、few-step領域で一貫性ベースの手法と同等以上の性能を示しつつ、ステップ予算を変えても柔軟・スケーラブルにサンプリングできる。さらに一つの因果的動画拡散モデルの中で、Text-to-Video / Image-to-Video / Video-to-Video を扱えるという汎用性も持つ。「特定ステップ数に固定された生徒」ではなく「どんなステップ数でも走れる生徒」を作る——これがAnyFlowの主張だ。

Phased DMD：分布マッチングを「位相」に分解する

Phased DMD: Few-step Distribution Matching Distillation via Score Matching within SubintervalsarXiv.orgarxiv.org

一方、SenseTime Researchと北京航空航天大学のPhased DMD（arXiv:2510.27684、最新v3は2026年3月）は、別系譜である「分布マッチング蒸留（DMD）」の弱点を突く。

DMDは、教師モデルの「サンプリング軌跡と一対一対応する必要がない」という柔軟さが魅力で、スコアベース生成モデルを効率的な一発生成器（one-step generator）へと蒸留できる。しかし限られたモデル容量では、一発生成器は複雑なタスク——たとえばText-to-Videoで入り組んだ物体の動きを合成するようなケース——で力不足になる。かといってDMDを素朴に多ステップへ拡張すると、メモリ使用量と計算の深さが増し、不安定かつ非効率になる。さらに厄介なのは、学習を安定させるための「確率的勾配切断（stochastic gradient truncation）」が、多ステップ蒸留モデルの生成多様性を一発生成器並みにまで削いでしまうことだ。品質と多様性が同時に犠牲になる。

Phased DMDの答えは、蒸留プロセスを「位相（phase）」に分解することだ。信号対雑音比（SNR）の範囲をいくつかの小区間（subinterval）に分け、各位相でその区間を専門に担当する「エキスパート」生成器を訓練する。これは自然に Mixture-of-Experts（MoE） 構造を形作り、各エキスパートが拡散プロセスの特定の時間ダイナミクスを受け持つ。低SNRの位相では画像・動画の大まかな構図が決まり、続く高SNRの位相では低SNRエキスパートを凍結したまま、構図を壊さずに品質だけを延々と磨ける。「progressive distribution matching（漸進的分布マッチング）」と「score matching within subintervals（小区間内でのスコアマッチング）」という二つのアイデアが、学習の難しさを下げつつモデル容量を増やす。

検証対象はQwen-Image（20B）やWan2.2（28B）といった最先端の画像・動画生成モデルで、DINOv2のコサイン類似度やLPIPS距離で評価された。結果、Phased DMDはDMDよりも出力の多様性をよく保ちつつ、重要な生成能力を維持できたという。AnyFlowが「ODEの軌跡を忠実に保つ」道を選んだのに対し、Phased DMDは「軌跡には縛られないが、位相に分けることで多様性の喪失を防ぐ」道を選んだ——同じステップ削減という目的に対する、対照的な二つの哲学だ。

戦線その2：潜在空間を圧縮して1ステップを軽くする

ここまでの2本は「ステップ数」を削る話だった。だが冒頭の掛け算——生成コスト ≒ ステップ数 × 1ステップのコスト——には、もう一つの因子がある。1ステップあたりのコストだ。そしてこれは、拡散Transformerが処理する「潜在表現」がどれだけコンパクトかで決まる。

Qwen-Image-VAE-2.0：16倍圧縮でも壊れないVAE

Qwen-Image-VAE-2.0 Technical ReportarXiv.orgarxiv.org

画像生成モデルは普通、ピクセル空間ではなく、VAE（変分オートエンコーダ）で圧縮された潜在空間で動く。AlibabaのQwenチームによるQwen-Image-VAE-2.0（arXiv:2605.13565）は、この潜在空間そのものを、より攻めた圧縮率で作り直す技術報告だ。

核心は「16倍」の空間ダウンサンプリングである。多くのオープンソースモデルが8倍圧縮（f8c16）であるのに対し、Qwen-Image-VAE-2.0はその倍にあたる16倍（f16c64構成）。ボトルネックの総チャネル数はf8c16ベースラインと同じに保ちつつ、潜在の次元を64チャネルへ拡張している。空間方向に倍圧縮すれば、拡散Transformerが処理すべきトークン数は大きく減り、1ステップが軽くなる。

問題は、圧縮を倍にすれば普通は細部が壊れることだ。Qwenチームはこれを複数の工夫で乗り越える。第一に Global Skip Connections（GSC） ——細かい画像情報をボトルネック層を迂回させて運ぶスキップ接続を導入し、再構成のボトルネックを緩和する。第二に、エンコード側のオーバーヘッドを抑えるため、非対称（asymmetric）かつアテンションを使わない（attention-free）エンコーダ・デコーダ構造を採用。第三に、高次元な潜在空間は拡散モデルにとって学習が収束しにくい——この「diffusability（拡散しやすさ）」の課題に対し、再構成・知覚損失に加えて「意味的アライメント損失（semantic alignment loss）」を導入し、学習初期は強く、後期は緩める動的な制約をかける。さらに、多くのVAEが鮮鋭化のために使う識別器（discriminator）を、大規模化の中では「ほぼ冗長」で不安定の原因とみなし、完全に廃止している。

結果、Qwen-Image-VAE-2.0は高圧縮率でありながら、一般的な画像でもテキストの多いシーンでも最先端の再構成性能を達成。より緩い圧縮率の競合より、ImageNetでの再構成スコアが高いという。そして下流のDiT（拡散Transformer）実験では「diffusability」が優れており、既存の高圧縮ベースラインに比べて学習の収束を大きく加速したという。実際、この高圧縮VAEを土台とするQwen-Image-2.0は、推論ステップを40から4へと削っている——VAEがステップ削減の前提条件を整えている格好だ。

3本を貫く一本の線：効率化のトレードオフと「分解」という共通解

3本の研究は、所属も、攻める戦線も、技術的な系譜もバラバラだ。それでも並べてみると、共通の構図が浮かび上がる。

第一に、どの研究も「効率と品質のトレードオフ」と格闘している。ステップを削れば離散化誤差や多様性の喪失が起きる（AnyFlow、Phased DMD）。潜在を圧縮すれば細部が壊れ、拡散モデルが学習しにくくなる（Qwen-Image-VAE-2.0）。高速化とは、ただ計算を減らすことではなく、「減らした分どこかで品質が落ちる」のをいかに食い止めるかの戦いだ。

第二に、その食い止め方が、いずれも「モノリシックにやらず、分解する」という形に収束している。AnyFlowは完全なロールアウトをショートカット遷移へ分解する。Phased DMDは蒸留をSNRの位相＝エキスパートへ分解する。Qwen-Image-VAE-2.0はスキップ接続で情報経路を分解し、損失をタスク別に分解する。一枚岩のまま無理に圧縮・蒸留するのではなく、問題を区間・位相・経路へと割り、それぞれに適した扱いをする——これが2026年の高速化研究に共通する設計思想になりつつある。

第三に、3本は競合ではなく、掛け算で効く相補関係にある。AnyFlowやPhased DMDがステップ数を削り、Qwen-Image-VAE-2.0が1ステップのコストを削る。冒頭の「ステップ数 × 1ステップのコスト」という式の、別々の因子をそれぞれが小さくしている。原理的には、高圧縮VAEの上で任意ステップ蒸留を行えば、両方の削減が乗算的に効くことになる。

まとめ・今後の展望

2026年の動画・画像生成は、「もっと大きく、もっと賢く」という軸と並んで、「もっと速く、もっと安く」という軸が明確な研究テーマになった。本稿の3本は、その高速化を二つの戦線——サンプリングステップと潜在圧縮——から攻め、しかも「問題を分解して扱う」という似た解法にたどり着いている。

注目すべきは、これらが大学・スタートアップ・大手テックにまたがって、ほぼ同時期に出てきたことだ。AnyFlowはNVIDIA、Phased DMDはSenseTimeと北京航空航天大学、Qwen-Image-VAE-2.0はAlibaba。高速化はもはや一部の最適化好きのテーマではなく、生成AIを実サービスに載せる全プレイヤーの共通課題になっている。

残る問いも明確だ。二つの戦線を統合したとき、品質劣化は本当に乗算的に抑えられるのか、それとも相互に干渉するのか。任意ステップ蒸留した生徒モデルは、高圧縮潜在空間でも「ステップを増やすほど良くなる」性質を保てるのか。多様性とのトレードオフ（Phased DMDが突いた論点）は、圧縮率を上げるとどう変化するのか。「速く作れる」ことが当たり前になった先で、次に問われるのは——削った先でも何が失われていないか、を見極める評価軸そのものなのかもしれない。

参照元

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map DistillationNVIDIAnvlabs.github.io

Qwen-Image-VAE-2.0 Technical ReportarXiv.orgarxiv.org

Phased DMD: Few-step Distribution Matching Distillation via Score Matching within SubintervalsarXiv.orgarxiv.org