拡散×LLM統合、リアルタイム全二重会話——週間AI論文トレンド
今週のHugging Face注目論文は拡散モデルと自己回帰LLMの融合から、マルチモーダルリアルタイム対話まで、推論効率と応用範囲の飛躍的拡大を示す研究が揃った。
今週のHugging Face注目論文は拡散モデルと自己回帰LLMの融合から、マルチモーダルリアルタイム対話まで、推論効率と応用範囲の飛躍的拡大を示す研究が揃った。
動画・画像生成拡散モデルの高速化を、サンプリングステップ削減(NVIDIA AnyFlow/Phased DMD)と潜在空間の高圧縮(Qwen-Image-VAE-2.0)という二つの戦線から読み解く。哲学の異なる蒸留・圧縮アプローチが、なぜ「問題を分解する」という似た構造的解にたどり着くのかを整理する。
Tencent HYのAniMatrixを軸に、Seedance 1.0・AniSora・Aligning Anime Video Generation with Human Feedback・VideoDPOを横断的に読み解き、『物理ではなく芸術を学習する』動画生成モデルが開く新しいデータ設計・条件付け・選好アラインメントの全体像を専門家視点で徹底解説する。
画像生成における連続時間分布マッチング蒸留(CDM)とテキスト生成における階層的連続潜在拡散言語モデル(Cola DLM)という2つの最先端研究を統合的に解説し、拡散モデルが離散的制約を脱却して連続空間へと進化する共通の潮流を明らかにする。
CutClawが数時間の映像を音楽に合わせて自律的に短編動画へ編集し、VibeVoiceがICLR 2026でオーラル採択。Kronosは金融K-lineデータの専用基盤モデルを確立した。
Memory Sparse Attentionが線形計算量で超長文脈処理を実現し、DMAXは拡散型言語モデルの並列デコードエラーを自己修正で克服した。
拡散言語モデルの並列デコード精度向上・ゲームエンジン活用のリアル描画データセット・MITのロボット操作フレームワークなど、生成AIと実世界応用の橋渡しを目指す論文が相次いで登場。
拡散モデルによる人物アニメーションにおける暗黙的モーション表現の革新と、自律エージェントが共有コントラクトを通じて協調するStory2Proposalの設計思想を横断的に分析し、AIシステムの「制御の分離」という共通原理を深掘りする。
daVinci-MagiHumanを中心に、単一ストリームTransformerによる音声映像同時生成から、LoRAベースの制御フレームワーク、3D姿勢表現によるキャラクターアニメーション、人間-物体インタラクション生成まで、2026年春の人間中心ビデオ生成技術の全体像を専門的に解説する。