生成AI×3D世界モデルの最前線：Lyra 2.0・HY-World 2.0・Seedance 2.0が切り拓く探索可能な3D世界の新パラダイム

はじめに：なぜ今「探索可能な3D世界」が焦点なのか

2026年4月、コンピュータビジョンと生成AIの交差点で、三つの重要な研究成果がほぼ同時に公開された。NVIDIAの Lyra 2.0、Tencent Hunyuanの HY-World 2.0、そしてByteDance Seedの Seedance 2.0 である。これらは表面的には異なるアプローチを取っているが、根底に共通する問いを持っている。「単一の画像やテキストから、人間が自由に歩き回れる大規模な3D世界をどう生成・維持するか」という問いだ。

従来の3D生成技術は、静的なオブジェクトや限定的なシーンの再構成に留まっていた。NeRFや3D Gaussian Splatting（3DGS）の登場で品質は飛躍的に向上したが、それらは依然として「撮影済みの多視点画像」を前提としており、存在しない場所を生成する能力は持っていなかった。一方、動画拡散モデルは驚異的な視覚的忠実度を実現したが、長時間・広範囲のカメラ移動に対して幾何学的整合性を保つことが困難だった。

この二つの世界を橋渡しし、「生成的再構成（Generative Reconstruction）」という新パラダイムを確立しようとするのが、今回の三論文の核心である。

Lyra 2.0：空間的忘却と時間的ドリフトへの根本的解決

NVIDIAのLyra 2.0は、長距離カメラ軌跡における3D一貫性生成の二大障害を正面から解決しようとする。

Lyra 2.0による長距離3D一貫性シーン生成の概要図1: 単一入力画像からLyra 2.0が反復的にカメラ軌跡を拡張し、空間的に永続する3D世界を生成する様子。生成されたビデオは3D Gaussianと表面メッシュに直接変換可能。

空間的忘却（Spatial Forgetting）の克服

動画拡散モデルは有限のコンテキストウィンドウを持つ。カメラが遠くへ移動すると、以前に観測した領域はコンテキストから外れ、モデルは再訪時にその構造を「ゼロから幻覚」しなければならない。これが空間的忘却であり、グローバルなレイアウト整合性を破壊する。

Lyra 2.0の解決策は巧妙だ。幾何学的追跡とピクセル合成を分離するという設計思想に基づき、明示的な3Dプロキシを「情報ルーティング」のみに使用する。具体的には、各フレームの3Dジオメトリを維持し、それを使って関連する過去フレームを検索し、ターゲット視点との密な対応関係を確立する。しかし実際のピクセル合成は、拡散モデルの学習済み事前分布に委ねる。これにより、3D再構成の誤差が次のフレーム生成に伝播するという「エラー増幅」の悪循環を断ち切ることができる。

Lyra 2.0のメソッド概要図2: 入力画像から始まり、ユーザー定義のカメラ軌跡に従って動画セグメントを反復生成し、各セグメントを3Dポイントクラウドに変換してナビゲーションを継続するパイプライン。

時間的ドリフト（Temporal Drifting）の克服

自己回帰生成では、小さな合成誤差が時間とともに蓄積し、色ずれや構造歪みを引き起こす。既存の対策として長いコンテキストウィンドウを使う手法があるが、シーン探索では初期フレームが視野外に出てしまうため、この戦略は効果が限定的だ。

Lyra 2.0は**自己拡張訓練（Self-Augmented Training）**という独自のアプローチを採用する。訓練中に、完全なグラウンドトゥルースフレームではなく、モデル自身の1ステップ脱ノイズ予測を確率的にコンディショニングとして使用する。これにより、モデルは推論時に実際に遭遇する誤差分布に事前に露出され、ドリフトを伝播させるのではなく修正することを学習する。計算オーバーヘッドは最小限でありながら、長距離生成の品質を大幅に改善する。

長距離生成の比較図3: Tanks and Templesデータセットの単一入力画像から約800フレーム以上の長距離生成を比較。ベースラインは品質劣化・幾何歪み・コンテンツドリフトを示すが、Lyra 2.0は一貫した品質を維持。

フィードフォワード3DGS再構成との統合

生成された動画には微細な多視点不整合が残るため、従来の3D再構成モデルはフローターやノイズアーティファクトを生じやすい。Lyra 2.0はこれに対し、生成シーケンスでファインチューニングされたフィードフォワード3DGSパイプラインを採用する。このモデルは学習済みの多視点事前分布を活用して微細な不整合を許容し、クリーンで整合性のある3D構造を生成する。最終的な出力はNVIDIA Isaac Simなどのシミュレーションエンジンやインタラクティブビューアーに直接デプロイ可能な形式となる。

HY-World 2.0：生成と再構成を統合する四段階パイプライン

Tencent HunyuanのHY-World 2.0は、3D世界モデルの「生成」と「再構成」という従来は分断されていた二つのパラダイムを統合することを目指す、より包括的なフレームワークだ。

四段階の世界生成パイプライン

HY-World 2.0の世界生成は、以下の四段階で構成される。

第一段階：パノラマ生成（HY-Pano 2.0） テキストまたは単一視点画像から、シーン全体の空間的文脈を提供する高品質なパノラマ画像を生成する。パノラマは後続の軌跡計画と視点展開の「グローバルアンカー」として機能し、局所的な生成の整合性を保証する基盤となる。

第二段階：軌跡計画（WorldNav） WorldNavは、幾何学的・意味的シーン解析に基づいて、探索可能な3D空間内でのカメラ軌跡を自律的に計画する。単純なランダムウォークではなく、シーンの構造を理解した上で意味のある探索経路を生成する点が革新的だ。これにより、生成される世界が「歩き回れる」ものとして設計される。

第三段階：世界展開（WorldStereo 2.0） WorldStereo 2.0は、キーフレームベースの視点生成モデルであり、一貫したメモリ機構を備える。グローバル幾何学的メモリと改良された空間ステレオメモリを組み合わせることで、広範囲の視点変化に対しても整合性を維持する。さらに、モデル蒸留によるポストトレーニングで推論効率を向上させている。

第四段階：世界合成（WorldMirror 2.0） WorldMirror 2.0は、多視点画像や動画からの汎用3D予測のためのフィードフォワードモデルだ。正規化位置エンコーディング、深度推定のための明示的法線監督、深度マスク予測という三つのアーキテクチャ改善により、前バージョンから大幅に精度が向上している。ポイントクラウド展開と3DGS合成を経て、最終的なインタラクティブな3D世界が完成する。

WorldLens：リアルタイム探索プラットフォーム

HY-World 2.0の特筆すべき貢献の一つが、WorldLensという高性能3DGSレンダリングプラットフォームだ。エンジン非依存のフレキシブルアーキテクチャ、自動IBL（Image-Based Lighting）照明、効率的な衝突検出、訓練・レンダリング共同設計を特徴とし、キャラクターサポートを含むインタラクティブな3D世界探索を実現する。これはゲームエンジンやロボティクスシミュレーターへの統合を念頭に置いた実用的な設計だ。

オープンソース戦略も重要な差別化要因だ。HY-World 2.0はモデルウェイト、コード、技術詳細をすべて公開しており、クローズドソースモデルのMarbleと比較可能な性能を達成しながら、研究コミュニティへの貢献を優先している。

Seedance 2.0：マルチモーダル動画生成の産業的完成度

ByteDance SeedのSeedance 2.0は、3D世界生成という観点よりも、産業規模でのマルチモーダル動画生成という観点から重要な位置を占める。日常的アクティブユーザー数十億規模のプロダクトエコシステムを支える基盤技術として設計されており、その技術的選択は実用性と品質のバランスを極めて重視している。

ネイティブマルチモーダルアーキテクチャ

Seedance 2.0の最大の技術的革新は、テキスト・画像・音声・動画の四つの入力モダリティを統一的に処理するネイティブマルチモーダルアーキテクチャだ。前バージョンのSeedance 1.0/1.5 Proが段階的にマルチモーダル対応を追加していったのに対し、2.0はアーキテクチャレベルから統合設計されている。

具体的には、最大3本の動画クリップ、9枚の画像、3つの音声クリップを参照入力として受け付け、被写体制御・モーション操作・スタイル転送・特殊効果設計・動画拡張などの機能を単独または組み合わせて実行できる。

物理的妥当性と人間モーションモデリング

Seedance 2.0が特に強調するのが、リアルワールドの複雑性の生成だ。人間のモーションモデリングにおいて、時間的整合性と物理的妥当性が大幅に向上しており、複雑なインタラクションシーンを高忠実度で合成できる。光の屈折の微妙な変化や、キャラクターと環境の自然な相互作用など、実写映像の視覚的忠実度に匹敵するクローズアップショットを生成できる点は、商業コンテンツ制作における実用性を大きく高める。

バイノーラル音声・映像同期生成

音声面では、バイノーラル音声技術を統合した高忠実度没入型サウンド生成が特徴だ。背景音・環境効果音・キャラクターナレーションの複数トラック同時出力と、映像リズムへの精密な時間的整合を実現する。これは単なる音声付加ではなく、映像と音声を統一的に生成するアーキテクチャ設計の成果だ。

4〜15秒の動画を480pおよび720pのネイティブ解像度で生成し、低レイテンシシナリオ向けのSeedance 2.0 Fastバリアントも提供する。商業広告・映画・ゲームアニメーション・解説動画など多様なユースケースへの対応は、AIによるプロフェッショナルコンテンツ制作の民主化を加速させる。

三モデルの技術的収束点と差異

三つの研究を横断的に分析すると、重要な技術的収束点が浮かび上がる。

メモリ機構の設計哲学：Lyra 2.0は「幾何学的追跡とピクセル合成の分離」、HY-World 2.0は「グローバル幾何学的メモリと空間ステレオメモリの階層化」という異なるアプローチを取るが、どちらも「過去の観測を効率的に活用しながら生成モデルの自由度を保つ」という同じ問題を解こうとしている。

フィードフォワード再構成の重要性：Lyra 2.0とHY-World 2.0はともに、生成された動画を3DGSに変換するフィードフォワードモデルをファインチューニングすることで、生成ドメインと再構成ドメインのギャップを埋める戦略を採用している。これは「生成的再構成」パラダイムの中核的技術要素だ。

スケールと実用性のトレードオフ：Seedance 2.0が産業規模の実用性を最優先するのに対し、Lyra 2.0とHY-World 2.0は研究的な深度と技術的完成度を重視する。しかし長期的には、Seedance 2.0のマルチモーダル制御能力と、Lyra 2.0/HY-World 2.0の3D空間的永続性が融合することで、真に実用的な3D世界生成システムが生まれると予想される。

業界・社会への影響と示唆

これらの技術が成熟した場合の影響は多岐にわたる。

ゲーム・メタバース開発：単一の参照画像から探索可能な大規模3D環境を生成できれば、ゲーム開発のコストと時間を劇的に削減できる。HY-World 2.0のWorldLensが示すように、生成された3D世界はリアルタイムレンダリングエンジンと直接統合可能だ。

ロボティクスとシミュレーション：Lyra 2.0がNVIDIA Isaac Simへの統合を示すように、生成された3D環境はロボットの訓練シミュレーターとして機能する。実世界の多様な環境を無限に生成できれば、ロボットの汎化能力向上に直接貢献する。

映像制作の民主化：Seedance 2.0が示すように、プロフェッショナルグレードの映像・音声コンテンツをAIで生成できれば、制作コストと時間の大幅削減が実現する。これは創造的産業の構造変化を促す。

地図作成・環境認識：HY-World 2.0の世界再構成機能は、自律走行車や屋内ナビゲーションシステムのための環境マッピングに応用できる可能性がある。

一方で、課題も残る。生成された3D世界の物理的正確性、長距離での意味的整合性、計算コストの削減、そして生成コンテンツの真正性検証（ディープフェイク問題）は、技術的・社会的に解決すべき重要な問題だ。

まとめ：生成的再構成パラダイムの確立と次の地平

2026年4月に相次いで発表されたLyra 2.0、HY-World 2.0、Seedance 2.0は、それぞれ異なる角度から「生成AIによる3D世界の創造」という共通の目標に迫っている。

Lyra 2.0は空間的忘却と時間的ドリフトという根本的問題への理論的に洗練された解決策を提示し、HY-World 2.0は生成と再構成を統合する包括的なオープンソースフレームワークを確立し、Seedance 2.0は産業規模でのマルチモーダル動画生成の実用的完成度を示した。

これらが示す方向性は明確だ。次世代の3D世界生成システムは、単一画像からの無限探索、物理的に妥当なモーション、リアルタイムレンダリング、そして多様なシミュレーション環境への統合を統一的に実現するものになるだろう。その実現に向けて、2026年は決定的な転換点として記憶されることになる。

残された技術的課題——超長距離での意味的整合性、動的オブジェクトの扱い、生成速度のリアルタイム化——は依然として大きいが、今回の三論文が示した方法論的革新は、それらの解決への確かな道筋を示している。生成AIと3Dコンピュータグラフィクスの融合は、もはや研究室の夢ではなく、産業応用の現実となりつつある。

参照元

arXivarXivarxiv.org

Tencent HunyuanTencent Hunyuan3d-models.hunyuan.tencent.com

Seedance 2.0: Advancing Video Generation for World ComplexityarXiv.orgarxiv.org