暗黙的モーション表現と多エージェント協調の最前線：映像生成AIと自律エージェント制御の統合的考察

はじめに：AIシステムにおける「制御の分離」という共通原理

2025年から2026年にかけて、生成AIの研究フロンティアは二つの方向で急速に進化している。一つは映像生成におけるモーション制御の精緻化、もう一つは自律エージェントの制御構造の形式化である。一見すると異なる領域に見えるこれら二つの潮流だが、深く読み解くと共通の設計思想が浮かび上がる。それは「制御ロジックをコンテンツ（外見・本文）から分離し、移植可能・再利用可能な形式で表現する」という原理だ。

本稿では、映像生成AIの分野から IM-Animation と 3DiMo、エージェント制御の分野から Story2Proposal という三本の最新論文を横断的に分析する。これらを統合することで、現代AIシステム設計における深層的なパラダイムシフトを明らかにしたい。

映像生成AIにおける暗黙的モーション表現の革新

明示的表現の限界と暗黙的アプローチの台頭

人物アニメーション（Character Animation）とは、静止した人物画像に対してドライビング動画のモーションを転写し、リアルな動画を生成するタスクである。従来の主流アプローチは、DWPoseやSMPLといった明示的（Explicit）な骨格・姿勢表現を制御信号として利用してきた。

しかしこの手法には根本的な問題がある。明示的な2D姿勢表現は、ドライビング動画の視点に強く束縛されるため、ソース画像とドライビング動画の間で体型・スケール・空間配置が大きく異なる「クロスリエナクトメント」シナリオで破綻しやすい。たとえば子供の動きで大人のキャラクターを動かす場合、関節の長さや体の比率が根本的に異なるため、単純なスケルトン転写では不自然な結果が生じる。

これに対して暗黙的（Implicit）なモーション表現は、ドライビング動画から高レベルの意味的モーション情報を直接抽出しようとする。しかし既存の暗黙的手法は「アイデンティティリーケージ（Identity Leakage）」という別の問題を抱えていた。モーション情報を抽出する際に、ドライビング動画の人物の外見・体型情報が混入し、生成結果がソース画像の人物ではなくドライビング動画の人物に似てしまう現象だ。

IM-Animation：1Dモーショントークンによる革新

中国科学院とKuaishou Technology（快手）のKlingチームが共同開発した IM-Animation は、この問題に対して独創的な解法を提示する。

IM-Animationの三段階学習戦略の概要図1: IM-Animationの提案するフレームワーク。1Dモーショントークナイザー、マスクトークンベースのリターゲティングモジュール、三段階学習戦略から構成される。

この図が示すように、IM-Animationの核心は1Dモーショントークンという概念にある。Transformerベースのエンコーダ・デコーダと量子化コードブックを用いて、各フレームのモーション情報を空間的に不変な1次元トークン列に圧縮する。2Dグリッド表現を捨てることで、空間的な制約から解放され、アイデンティティ情報の混入を構造的に防ぐ。

さらに重要なのがマスクトークンベースのリターゲティングモジュールだ。ソース画像のポーズ情報がモーション転写を妨げる問題（モーションリーケージ）に対し、学習可能なマスクトークンをセルフアテンション内のトレーニングボトルネックとして機能させることで、ソース画像からポーズ情報を除去しつつ外見情報を保持する。

制御信号注入の手法 図2: IM-Animationにおける制御信号注入の詳細。ビデオ拡散モデルへのモーション信号の組み込み方法を示す。

学習は三段階に分けて行われる。第一段階でコンパクトなモーションエンコーダを学習し、第二・第三段階でリターゲティングモジュールとビデオ拡散モデルを段階的に最適化する。この漸進的な学習戦略により、14Bパラメータの大規模ベースモデルを使用するUniAnimate-DiTやWan-Animateと比較しても競争力のある結果を、より少ない計算リソースで達成している。

定性的比較結果 図3: 最先端手法との定性的比較。IM-Animationは大規模モデルと同等以上の品質を、より効率的に達成している。

3DiMo：3D空間認識を持つ暗黙的モーション制御

同じくKlingチームが中心となって開発した 3DiMo は、さらに野心的な問いを立てる。「2Dのドライビング動画から、3D空間における真のモーションを学習できるか？」

既存の2D姿勢ベース手法は、ドライビング動画の視点に固定されるため、異なる視点からの映像生成（Novel View Synthesis）が不可能だった。一方、SMPLなどの明示的3Dモデルを使う手法は、奥行き曖昧性（Depth Ambiguity）や不正確な動力学推定という問題を抱え、これらの誤差が強い制約として生成モデルに注入されることで、モデル本来の3D空間認識能力を阻害してしまう。

3DiMoのフレームワーク概要図4: 3DiMoのアーキテクチャ。身体用エンコーダ（ℰb）と手部用エンコーダ（ℰh）を持つモーションエンコーダと、DiTベースのビデオジェネレータから構成される。

3DiMoのアプローチは三つの柱から成る。第一に、Transformerベースのモーションエンコーダを事前学習済みビデオジェネレータとエンドツーエンドで共同学習し、2Dフレームから視点非依存の1Dモーショントークンを抽出する。第二に、単視点・多視点・カメラ移動動画を含むビューリッチデータセットで学習することで、多様な視点にわたるモーション一貫性を強制する。第三に、SMPLとMANOによる幾何学的監督を補助損失として段階的にゼロに減衰させることで、外部3Dガイダンスからモデル固有の3D空間理解へと移行させる。

この設計の巧みさは、SMPLを「強い制約」としてではなく「初期化のための弱い誘導」として使う点にある。学習初期には外部の3D知識を借りつつ、学習が進むにつれてモデル自身の空間認識能力に依存するよう設計されている。結果として、テキスト誘導によるカメラ制御と組み合わせた柔軟な映像生成が可能になる。

IM-AnimationとDiMoの比較：設計哲学の共鳴と相違

両手法を比較すると、興味深い共鳴と相違が見えてくる。

共鳴点：両者ともに、2Dの空間的グリッド表現を捨て、1Dのコンパクトなトークン表現を採用している。これは「空間的な制約を緩和することで、より高レベルの意味的モーション情報を抽出する」という共通の設計思想を反映している。また、外部の明示的表現（スケルトン、SMPL）を完全に排除するのではなく、学習の補助として活用しつつ最終的には暗黙的表現に移行するという漸進的アプローチも共通している。

相違点：IM-Animationは「アイデンティティとモーションの分離」を主眼とし、異なる体型間でのモーション転写精度に注力する。一方3DiMoは「2D観測から3D空間モーションを復元する」という、より根本的な問いに取り組む。前者は実用的な映像制作ツールとしての完成度を、後者は視点制御という新しい能力の獲得を目指している。

自律エージェントの制御構造：Story2Proposalが示す共有コントラクト設計

Story2Proposal：科学論文生成への多エージェント協調の応用

映像生成AIの世界でモーション制御の分離が進む一方、自律エージェントの世界では制御ロジックの形式化という問題が浮上している。Story2Proposal はその具体的な解法を、科学論文生成という挑戦的なタスクで示す。

科学論文の生成は、長文テキスト合成の中でも特に困難なタスクだ。序論で述べた貢献が実験セクションで検証されているか、図表の参照が本文と一致しているか、引用が主張を適切に根拠づけているか——これらのクロスセクション整合性を維持することが、既存の言語モデルには難しい。

図5: Story2Proposalのシステム概要。アーキテクト、ライター、リファイナー、レンダラーの各エージェントが、永続的な共有ビジュアルコントラクトを通じて協調する。

Story2Proposalは、永続的な共有ビジュアルコントラクトという概念を中心に設計されている。このコントラクトは、セクション構造、登録済みビジュアルアーティファクト（図・表）、検証ルールを追跡する状態オブジェクトであり、全エージェントが同じ構造的状態の上で動作する。

図6: 共有ビジュアルコントラクトのスキーマ。図・表・引用スロットのグローバルレジストリと、セクションレベルの義務・検証ルールを組み合わせる。

四つの専門エージェント（アーキテクト・ライター・リファイナー・レンダラー）が、生成→評価→適応のループの中でコントラクト状態を更新しながら協調する。評価エージェントは推論品質、データ忠実性、ビジュアル整合性を分析し、そのフィードバックがコントラクト状態を更新して次の生成ステップを誘導する。

実験結果は顕著だ。GPT、Claude、Gemini、Qwenの四つのバックボーンにわたる評価で、Story2Proposalは直接プロンプト手法（DirectChat）に対して平均+2.182点（6.145 vs 3.963）、構造化生成ベースライン（FARS）に対して+0.508点（5.705 vs 5.197）の改善を達成した。

三研究の横断的考察：「制御の分離」という統一原理

三つの研究を俯瞰すると、共通する設計原理が浮かび上がる。

第一の原理：コンテンツと制御の分離。IM-Animationはアイデンティティ（外見）とモーション（制御）を分離し、3DiMoは視点（カメラ制御）とモーション（身体動作）を分離する。Story2Proposalはコントラクト（構造的制約）とコンテンツ生成を分離する。

第二の原理：暗黙的・コンパクトな中間表現。映像生成では1Dモーショントークン、エージェント制御では共有ビジュアルコントラクトという形で、高レベルの意味的情報を圧縮した中間表現が鍵を握る。明示的・硬直的な表現（2Dスケルトン、コントローラコード）から、柔軟で移植可能な表現への移行が共通のトレンドだ。

第三の原理：漸進的な学習・適応。3DiMoの補助損失の段階的減衰、Story2Proposalの生成→評価→適応ループ、IM-Animationの三段階学習戦略——いずれも、外部の強い制約から始めて徐々にモデル固有の能力に移行するか、継続的なフィードバックによって状態を更新するアプローチを採用している。

業界・社会への影響と示唆

映像制作・エンターテインメント産業への影響

IM-AnimationとDiMoの技術は、映像制作の民主化を加速する。体型や視点の制約を超えたキャラクターアニメーションは、ゲーム開発、映画制作、バーチャルインフルエンサー、教育コンテンツなど幅広い分野で活用できる。特にIM-AnimationがKlingチームと共同開発されていることは、これらの技術が近い将来、商用映像生成サービスに統合される可能性を示唆している。

一方で、ディープフェイクや無断モーション転写といった悪用リスクも高まる。アイデンティティとモーションの分離が容易になるほど、特定人物の動きを別人に転写することも技術的に容易になる。

AIエージェント開発の標準化

Story2Proposalが示す「共有コントラクトによる多エージェント協調」は、AIエージェント開発の標準化に向けた重要な一歩だ。コントラクトベースの設計により、モジュールレベルのアブレーション研究が可能になり、エージェント設計の科学的基盤が強化される。

この設計思想は、科学論文生成を超えて、法律文書作成、ソフトウェア設計書、事業計画書など、構造的整合性が求められる長文生成タスク全般に応用できる。

まとめ・今後の展望

本稿で取り上げた三つの研究は、表面的には映像生成AIとエージェント制御という異なる領域に属するが、深層では「制御の分離・形式化・移植可能化」という共通の設計思想を体現している。

映像生成の分野では、暗黙的モーション表現の精緻化が続くだろう。3DiMoが示した「2D観測から3D空間モーションを学習する」アプローチは、将来的に物理シミュレーションや拡張現実との統合に発展する可能性がある。IM-Animationの1Dモーショントークンは、テキストや音声など他のモダリティとの統合にも適した表現であり、マルチモーダルな制御信号の統一的な扱いへの道を開く。

エージェント制御の分野では、Story2Proposalが示したように、コントラクトベースの多エージェント協調が、構造的整合性を要求するあらゆる長文生成タスクへの汎用的なアーキテクチャパターンとして定着していくだろう。

最終的に、これらの研究が示す最も重要な洞察は、「AIシステムの能力向上は、モデルの規模拡大だけでなく、制御構造の設計によっても達成できる」という点だ。1Dモーショントークンという小さな設計変更が大規模モデルに匹敵する性能をもたらし、共有コントラクトという形式化が直接プロンプトを大きく上回る結果をもたらす——これらは、AIシステム設計における「アーキテクチャの知恵」の重要性を改めて示している。