拡散モデルの新潮流:連続時間分布マッチング蒸留(CDM)と階層的潜在拡散言語モデル(Cola DLM)が切り拓く生成AI の次世代パラダイム
画像生成における連続時間分布マッチング蒸留(CDM)とテキスト生成における階層的連続潜在拡散言語モデル(Cola DLM)という2つの最先端研究を統合的に解説し、拡散モデルが離散的制約を脱却して連続空間へと進化する共通の潮流を明らかにする。
はじめに:拡散モデルが直面する「離散性の壁」
2026年5月、arXivに同日公開された2本の論文が、生成AIの研究コミュニティで注目を集めている。一方は画像生成の高速化を扱う「Continuous-Time Distribution Matching for Few-Step Diffusion Distillation(CDM)」、もう一方はテキスト生成の新パラダイムを提案する「Continuous Latent Diffusion Language Model(Cola DLM)」である。
一見すると異なる領域の研究に見えるが、両者には深い共通点がある。それは**「離散的な制約から連続空間へ」**という設計思想の転換だ。従来の拡散モデルは、タイムステップの離散化やトークンレベルの観測回復という制約の中で動作してきた。これらの論文はそれぞれの領域でその制約を根本から問い直し、連続空間での最適化が生成品質とスケーラビリティの両面で優位性をもたらすことを実証している。
本稿では両研究の技術的詳細を深く掘り下げながら、それらが示す共通の方向性と、生成AI全体への示唆を論じる。
CDM:分布マッチング蒸留の「離散アンカー問題」を解く
従来のDMDが抱える構造的限界
拡散モデルの推論には通常、数十〜数百回のネットワーク評価が必要であり、リアルタイム応用における計算ボトルネックとなってきた。この問題に対処するため、Distribution Matching Distillation(DMD)とConsistency Distillationという2つの主要な蒸留パラダイムが発展してきた。
DMDは教師モデルの出力分布と生徒モデルの出力分布を数学的に一致させることで、少ないステップ数(NFE: Number of Function Evaluations)での高品質生成を実現する。しかし既存のDMD手法には構造的な欠陥がある。それはバックワードシミュレーションを推論時の固定された離散タイムステップに厳密に縛り付けるという設計だ。
この「離散アンカー」制約は以下の問題を引き起こす:
- 疎な監督信号:少数の固定タイムステップでしか勾配が流れないため、生徒モデルは滑らかな速度場を学習できない
- 逆KLダイバージェンスのモード探索性:逆KL目的関数は本質的にモード探索的であり、教師分布の支配的なモードに偏る傾向がある
- 過平滑化とアーティファクト:上記の組み合わせにより、生成画像はディテールが失われ、視覚的アーティファクトが生じやすい
- 補助モジュールへの依存:品質回復のためにGANや報酬モデルなどの複雑な補助目的関数が必要になる
スケジュール分離の実証的発見
CDMの出発点となったのは、「訓練と推論のスケジュールを厳密に一致させる必要があるのか?」という問いへの実証的な検証だ。
図1: 従来の離散アンカー方式(左)と動的連続スケジュール(右)の比較。動的スケジュールはより細かいディテールと少ないアーティファクトを実現し、HPSv3スコアも向上する。
この図が示すように、訓練時のタイムステップを連続一様分布 $t \in (0, 1]$ からランダムサンプリングするだけで、蒸留性能が向上することが確認された。これは分布マッチングがスケジュール非依存であることを示唆しており、離散スケジュールへの固執が品質向上の障壁になっていたことを意味する。
CDMの2つの連続時間設計
この洞察を基に、CDMは2つの核心的な設計を提案する。
① 動的連続スケジュール(Dynamic Continuous Schedule)
固定された離散タイムステップの代わりに、各訓練イテレーションでランダムな長さの動的連続スケジュールを採用する。これにより分布マッチングがサンプリング軌跡上の任意の点で強制され、生徒モデルは全連続時間空間にわたって教師の勾配を受け取る。
② 連続時間アライメント目的関数(Continuous-Time Alignment Objective)
生徒の速度場によって外挿された潜在変数に対してオフ軌跡マッチングを能動的に実行する新しい損失関数。これにより汎化性能が向上し、細かい視覚的ディテールが保持される。
図2: CDMのアーキテクチャ概要。上部:動的連続タイムスケジュールによるバックワードシミュレーション。下部左:CFG拡張(CA)と分布マッチング(DM)の動作。下部右:連続時間アライメント目的関数の詳細。
DM損失の役割の再解釈
CDMはDM損失の役割についても重要な再解釈を提供する。従来の研究ではDM損失を単なる「訓練安定化のための正則化項」として扱っていたが、CDMの実験はこれが根本的に誤りであることを示す。
図3: DM損失のみで蒸留した生徒モデルの出力は、CFGなしの教師モデルの出力と密接に一致する。これはDM損失がCFGなし分布への収束を担う独立した役割を持つことを示す。
この図が示すように、DM損失のみで蒸留した生徒モデルは、CFGなしの教師モデルのサンプルと密接に一致する。つまりDM損失はCFGなし分布への収束を担う独立した役割を持ち、CA(CFG拡張)損失と相補的に機能する。CDMはこの理解に基づき、CA損失・DM損失・連続時間アライメント損失の3つを組み合わせた完全な目的関数を構築する。
実験結果:GAN不要で最高水準の品質
CDMはSD3-MediumとLongcat-Imageという2つの異なるアーキテクチャで検証され、GAN・報酬モデルなどの補助目的関数を一切使わずにDMD2を上回る視覚的忠実度を達成した。
図4: SD3-MediumでのCDMと競合手法の定性的比較。CDMはより写実的で豊かなディテールを持つ結果を生成する。
図5: 損失コンポーネントのアブレーション研究。部分的な組み合わせは輝度崩壊や局所的忠実度の劣化を示すが、完全な目的関数(CA+DM+CDM)は訓練全体を通じて安定した高品質を維持する。
さらに注目すべきは、CDMが単一のチェックポイントから異なるNFE(3〜8)で一貫した高品質画像を生成できる点だ。
図6: 同一チェックポイントからNFE∈{3,4,6,8}で生成した結果。ステップ数が増えるにつれてより細かいディテールが現れるが、全範囲で一貫したプロンプト整合性を維持する。
Cola DLM:テキスト生成における階層的連続潜在拡散
自己回帰モデルの「固定順序の呪縛」
テキスト生成の領域では、GPTに代表される自己回帰(AR)モデルが支配的なパラダイムとなってきた。連鎖律によるトークンレベルの条件付き確率の因数分解は明確な訓練目的を提供するが、固定された左から右への生成順序という強い帰納バイアスを課す。
この制約は以下の問題をもたらす:
- 推論が本質的に逐次的であり並列化が困難
- 単一のトークン順序への帰納バイアスが汎用的な生成タスクの性能を制限
- グローバルな意味構造のモデリングが局所的なトークン予測に従属する
離散拡散言語モデル(LLaDAなど)は明示的な左右因数分解を除去したが、依然として離散トークン空間での観測回復を行うため、中間の離散状態がグローバルな意味構造を安定的に表現するのに適していない。
Cola DLMの階層的情報分解
Cola DLMはこの問題に対し、テキスト生成を階層的情報分解として定式化するという根本的に異なるアプローチを取る。
図7: Cola DLMの訓練・推論パイプラインの詳細。Stage 1ではText VAEの事前訓練、Stage 2ではText VAEとText DiTの共同事前訓練を行う。
Cola DLMは3つのコンポーネントで構成される:
① Text VAE(テキスト-潜在変数マッピング)
テキストと連続潜在変数の間の安定したマッピングを学習する。再構成損失・BERT損失・KL損失の組み合わせで訓練され、意味的に豊かな連続潜在表現を獲得する。
② Block-Causal DiT(ブロック因果拡散トランスフォーマー)
連続潜在空間でグローバルな意味的事前分布をモデリングする。ブロック間の因果構造を保持しながら、各ブロック内では並列計算を可能にする「ブロック因果」設計を採用。これにより自己回帰モデルの逐次性を部分的に緩和しつつ、グローバルな文脈依存性を維持する。
③ 条件付きデコーダ(Conditional Decoder)
潜在変数から実際のテキストを生成する。グローバルな意味組織化と局所的なテキスト実現を明確に分離する。
統一マルコフパス視点からの理論的解釈
Cola DLMの核心的な洞察は、拡散をトークンレベルの観測回復ではなく潜在事前分布の輸送として使用するという点にある。
統一マルコフパス視点から見ると、この設計はテキスト生成を明示的に2つのレベルに分解する:
- 連続潜在空間でのグローバル意味組織化(拡散モデルが担当)
- 条件付きデコーディングによる局所的テキスト実現(デコーダが担当)
この分解により、固定トークン順序が課す帰納バイアスが弱まり、連続空間の幾何学的構造が意味圧縮と事前分布フィッティングを直接サポートできる。
潜在空間における大域的意味構造の証拠
図8: 潜在次元が増加するにつれて最適タイムシフトがより大きな位置に移動し、経験的ピークが予測と一致する。これは連続潜在空間がグローバルな意味構造を捉えていることの証拠。
この図が示すように、潜在次元の増加とともに最適タイムシフトが変化するパターンは、連続潜在空間が実際にグローバルな意味構造を捉えていることを示す。これは離散トークン空間では実現困難な特性だ。
スケーリング実験と評価
Cola DLMは4つのリサーチクエスチョン、8つのベンチマーク、約2Bパラメータの自己回帰モデルとLLaDAベースラインとの厳密な比較、そして約2000 EFLOPsまでのスケーリング曲線を通じて検証されている。
特に重要な発見は、尤度推定と生成品質の間のミスマッチだ。従来の言語モデル評価では対数尤度が主要指標として使われてきたが、Cola DLMの実験は生成品質とスケーリング挙動がモデル能力をより適切に反映する可能性を示唆する。これは言語モデル評価の方法論そのものへの問いかけでもある。
2つの研究が示す共通の設計哲学
「連続空間への移行」という統一テーマ
CDMとCola DLMは異なる領域(画像生成と言語生成)を扱いながら、驚くほど共通した設計哲学を持つ。
| 観点 | CDM(画像生成) | Cola DLM(テキスト生成) |
|---|---|---|
| 離散制約の問題 | 固定離散タイムステップへのアンカー | 固定左右トークン順序 |
| 解決策 | 連続時間分布マッチング | 連続潜在空間での拡散 |
| 階層化 | CA損失・DM損失・CDM損失の分離 | グローバル意味組織化と局所テキスト実現の分離 |
| 補助モジュール排除 | GAN・報酬モデル不要 | 固定順序の帰納バイアス不要 |
両研究は「離散的な制約が生成品質の上限を設けていた」という共通の認識から出発し、連続空間での最適化がその制約を取り除くことを実証している。
相補的な視点:速度と表現力のトレードオフ
CDMは推論速度の最大化(4 NFEでの高品質生成)を主目的とし、連続時間設計によって蒸留の効率と品質を同時に向上させる。一方Cola DLMは表現力の最大化(グローバル意味構造のモデリング)を主目的とし、連続潜在空間によって非自己回帰的な生成の品質とスケーラビリティを向上させる。
この対比は興味深い。CDMは既存の強力な教師モデル(SD3-Medium、Longcat-Image)の知識を効率的に蒸留することで速度を得る。Cola DLMは生成プロセスの根本的な再設計によって表現力を得る。前者は「いかに速く生成するか」、後者は「いかに豊かに生成するか」という問いへの答えだが、どちらも連続空間の活用が鍵となっている。
業界・社会への影響と示唆
実用展開への道
CDMの最も直接的な実用的意義は、GAN・報酬モデルなどの複雑な補助システムなしに、4ステップ程度の推論で高品質な1024×1024画像を生成できる点だ。これはエッジデバイスや低レイテンシが要求されるリアルタイムアプリケーションへの展開を現実的なものにする。
図9: SD3-Mediumを用いたCDMの追加定性結果(1024×1024、4 NFE)。多様なプロンプトカテゴリにわたって高品質な生成を実現。
テキスト生成パラダイムの多様化
Cola DLMが示す最も重要な示唆は、高品質なテキスト生成が必ずしも自己回帰パラダイムに依存しないという点だ。約2Bパラメータスケールでの強力なスケーリング挙動の確認は、連続潜在拡散が自己回帰モデルの真の代替として成立しうることを示す。
さらにCola DLMの設計はマルチモーダル統合への自然な拡張性を持つ。連続潜在空間でのモデリングは離散テキストと連続モダリティ(画像・音声・動画)を統一的に扱う枠組みを提供し、将来の統合生成モデルへの道を開く。
評価指標の再考
両研究は既存の評価指標への疑問も提起している。CDMはHPSv3スコアによる定量評価と定性的比較を組み合わせ、Cola DLMは尤度と生成品質のミスマッチを指摘する。これは生成AIの評価方法論全体の再考を促す重要な問題提起だ。
まとめ・今後の展望
CDMとCola DLMは、2026年5月時点での生成AI研究の最前線を示す2つの重要な論文だ。両者は異なる問題を解くが、連続空間での最適化が離散的制約を超えた生成品質をもたらすという共通の洞察を共有している。
CDMは拡散モデル蒸留の実用化を大きく前進させる。連続時間設計によりGANや報酬モデルへの依存を排除しながら最高水準の視覚的忠実度を達成したことは、高速画像生成の民主化に貢献する。今後の課題としては、ビデオ生成や3D生成への拡張、さらに少ないNFE(1〜2ステップ)での品質向上が挙げられる。
Cola DLMは言語モデリングの新パラダイムとしての可能性を示した。2Bパラメータスケールでの検証は有望だが、GPT-4クラスの大規模モデルとの比較や、指示チューニング・RLHF等との組み合わせが今後の重要な研究課題となる。また、連続潜在空間を活用したマルチモーダル統合は、次世代の基盤モデル設計に大きな影響を与える可能性がある。
両研究が示す方向性は明確だ。生成AIの次の飛躍は、離散的な制約を超えた連続空間での最適化にある。この潮流は画像・テキストを超え、音声・動画・3Dなど全ての生成モダリティに波及していくだろう。