拡散モデル

(9 件)
論文・研究

拡散×LLM統合、リアルタイム全二重会話——週間AI論文トレンド

今週のHugging Face注目論文は拡散モデルと自己回帰LLMの融合から、マルチモーダルリアルタイム対話まで、推論効率と応用範囲の飛躍的拡大を示す研究が揃った。

ピックアップ

拡散モデルはどこまで速くなれるか:ステップ削減と潜在圧縮、2026年の高速化「二正面作戦」

動画・画像生成拡散モデルの高速化を、サンプリングステップ削減(NVIDIA AnyFlow/Phased DMD)と潜在空間の高圧縮(Qwen-Image-VAE-2.0)という二つの戦線から読み解く。哲学の異なる蒸留・圧縮アプローチが、なぜ「問題を分解する」という似た構造的解にたどり着くのかを整理する。

ピックアップ

アニメ動画生成の臨界点:AniMatrixが提示する『芸術としての正しさ』と、Seedance/AniSora/VideoDPOで紡ぐ次世代パイプライン

Tencent HYのAniMatrixを軸に、Seedance 1.0・AniSora・Aligning Anime Video Generation with Human Feedback・VideoDPOを横断的に読み解き、『物理ではなく芸術を学習する』動画生成モデルが開く新しいデータ設計・条件付け・選好アラインメントの全体像を専門家視点で徹底解説する。

ピックアップ

拡散モデルの新潮流:連続時間分布マッチング蒸留(CDM)と階層的潜在拡散言語モデル(Cola DLM)が切り拓く生成AI の次世代パラダイム

画像生成における連続時間分布マッチング蒸留(CDM)とテキスト生成における階層的連続潜在拡散言語モデル(Cola DLM)という2つの最先端研究を統合的に解説し、拡散モデルが離散的制約を脱却して連続空間へと進化する共通の潮流を明らかにする。

論文・研究

音楽同期で長時間動画を自動編集—マルチエージェントAIが映像制作を変える

CutClawが数時間の映像を音楽に合わせて自律的に短編動画へ編集し、VibeVoiceがICLR 2026でオーラル採択。Kronosは金融K-lineデータの専用基盤モデルを確立した。

論文・研究

線形複雑度で超長文脈を処理—MSAが切り拓くLLMの新地平

Memory Sparse Attentionが線形計算量で超長文脈処理を実現し、DMAXは拡散型言語モデルの並列デコードエラーを自己修正で克服した。

論文・研究

生成モデルと物理シミュレーションの融合——研究最前線2026春

拡散言語モデルの並列デコード精度向上・ゲームエンジン活用のリアル描画データセット・MITのロボット操作フレームワークなど、生成AIと実世界応用の橋渡しを目指す論文が相次いで登場。

ピックアップ

暗黙的モーション表現と多エージェント協調の最前線:映像生成AIと自律エージェント制御の統合的考察

拡散モデルによる人物アニメーションにおける暗黙的モーション表現の革新と、自律エージェントが共有コントラクトを通じて協調するStory2Proposalの設計思想を横断的に分析し、AIシステムの「制御の分離」という共通原理を深掘りする。

ピックアップ

人間中心ビデオ生成の最前線:単一ストリームアーキテクチャ・キャラクターアニメーション・HOI制御が切り拓く次世代AI映像技術

daVinci-MagiHumanを中心に、単一ストリームTransformerによる音声映像同時生成から、LoRAベースの制御フレームワーク、3D姿勢表現によるキャラクターアニメーション、人間-物体インタラクション生成まで、2026年春の人間中心ビデオ生成技術の全体像を専門的に解説する。