論文・研究

生成AI研究の最前線

生成AIの最新論文から、安全性、効率性、応用分野の広がりなど、注目すべき研究動向をまとめました。

1. BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments

大規模多モーダルモデル(LMM)の進化により、エージェントは複雑なデジタルおよび物理的タスクを実行できるようになりましたが、自律的な意思決定者としての導入には重大な意図しない行動安全リスクが伴います。しかし、包括的な安全ベンチマークの欠如は大きな障壁となっています。本研究では、既存の評価手法の限界を克服する新しい安全ベンチマーク「BeSafe-Bench」を提案しています。

2. AutoB2G: A Large Language Model-Driven Agentic Framework For Automated Building-Grid Co-Simulation

建物運用データの増加により、強化学習(RL)の活用が期待されていますが、ほとんどの既存シミュレーション環境は建物側のパフォーマンス指標に重点を置いており、大規模な建物クラスターの複雑性と不確実性に対処できていません。本研究では、LLMを活用したエージェントフレームワーク「AutoB2G」を提案し、建物-電力グリッドの共同シミュレーションを自動化しています。

3. Semi-Automated Knowledge Engineering and Process Mapping for Total Airport Management

空港運営は専門用語、厳格な規制、地域固有の情報、複数のステークホルダーによる断片的なコミュニケーションなど、非常に複雑です。これらのデータサイロと意味的な不整合は、Total Airport Management(TAM)イニシアチブの大きな障害となっています。本研究では、ナレッジエンジニアリングとプロセスマッピングの半自動化手法を提案し、TAMの実現を支援しています。

4. GUIDE: Resolving Domain Bias in GUI Agents through Real-Time Web Video Retrieval and Plug-and-Play Annotation

ビジョン言語モデルはGUIエージェントに強力な一般的機能を与えましたが、ドメイン固有のソフトウェア操作データが不足しているため、ドメインバイアスが大きな問題となっています。本研究では、リアルタイムのWebビデオ検索とプラグアンドプレイの注釈付与により、ドメインバイアスを解決するフレームワーク「GUIDE」を提案しています。

5. AIRA_2: Overcoming Bottlenecks in AI Research Agents

AI研究エージェントには3つの構造的なパフォーマンスボトルネックが存在することが明らかになっています。1)単一GPUの同期実行による制限、2)一般化ギャップ、3)最終的な能力の限界。本研究では、これらの課題に取り組むための「AIRA_2」フレームワークを提案しています。

6. CADSmith: Multi-Agent CAD Generation with Programmatic Geometric Validation

テキストからCADを生成する既存手法は、幾何学的検証なしの単一パスで動作するか、視覚的フィードバックに依存しており、寸法エラーを解決できません。本研究では、自然言語からCadQueryコードを生成し、反復的な改善プロセスを経る「CADSmith」パイプラインを提案しています。

7. Stabilizing Rubric Integration Training via Decoupled Advantage Normalization

報酬設計の2つの限界に取り組むため、プロセスレベルの評価をGroup Relative Policy Optimization(GRPO)に統合する「Process-Aware Policy Optimization(PAPO)」を提案しています。これにより、最終的な正解正誤のみを評価するのではなく、プロセスの質も考慮できるようになります。

8. DesignWeaver: Dimensional Scaffolding for Text-to-Image Product Design

生成AIにより、初心者デザイナーでも素早くプロ品質の製品コンセプトを視覚化できるようになりましたが、ドメイン知識の不足により、効果的な製品デザイン空間を探索するプロンプトを書くのが難しい課題があります。本研究では、専門家がデザイン空間をどのように探索・コミュニケーションするかを理解し、初心者向けのサポートツール「DesignWeaver」を開発しています。

9. A Lightweight, Transferable, and Self-Adaptive Framework for Intelligent DC Arc-Fault Detection in Photovoltaic Systems

住宅用太陽光発電システムの火災リスクを軽減するためのアークフォールト回路遮断器(AFCI)の信頼性ある検出は課題です。本研究では、インバータのスイッチング、ハードウェアの異質性、運転条件の変化、環境ノイズなどの影響に適応可能な、軽量で転用可能な自己適応フレームワークを提案しています。

10. Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

テキストベースのLLMからスピーチランゲージモデル(SLM)への移行に伴い、リアルタイムの自然なヒトコンピュータ対話を可能にする全二重システムの需要が高まっています。しかし、高品質な多話者会話データの不足により、そのような モデルの開発は制限されています。本研究では、大規模な会話データを効率的に生成・前処理するフレームワーク「Sommelier」を提案しています。

11. A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning

ディフュージョンモデルは生成AIの分野で大きな影響を与えており、識別的な表現学習にも注目されています。ディフュージョントランスフォーマー(DiT)は、U-Netベースのディフュージョンモデルに代わる有望な手法ですが、最適なタイムステップの選択が課題でした。本研究では、自動的なタイムステップ選択手法「A-SelecT」を提案しています。

12. CANGuard: A Spatio-Temporal CNN-GRU-Attention Hybrid Architecture for Intrusion Detection in In-Vehicle CAN Networks

インターネット接続車両(IoV)は、モビリティ、安全性、交通効率の向上に重要な役割を果たしていますが、接続性によるセキュリティ脆弱性も問題となっています。本研究では、CAN通信ネットワークにおける侵入検知のための、CNN-GRU-Attentionハイブリッドアーキテクチャ「CANGuard」を提案しています。

13. Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

LLMベースのエージェントが本番システムに導入される際、同一タスクに対する行動の一貫性(再現性)は信頼性の観点で重要です。本研究では、複雑な多段階の推論を要するソフトウェア工学ベンチマーク「SWE-bench」を用いて、一貫性とエージェントの正確性の関係を分析しています。

14. ETA-VLA: Efficient Token Adaptation via Temporal Fusion and Intra-LLM Sparsification for Vision-Language-Action Models

ビジョン-言語-アクション(VLA)モデルを自動運転システムに統合すると、複雑なシーンの解釈と制御コマンドの実行が可能になりますが、正確な時間的推論のためには過去の複数ビューフレームを組み込む必要があり、計算負荷が大きな問題となっています。本研究では、時間的融合と LLM内部の疎な化により、効率的なトークン適応手法「ETA-VLA」を提案しています。

15. Unlocking Strong Supervision: A Data-Centric Study of General-Purpose Audio Pre-Training Methods

現在のオーディオプリトレーニングは、広範なオーディオ理解タスクのための統一表現を学習することを目指していますが、断片化しており、弱くてノイズの多い、スケールの小さいラベルに依存しているという根本的な制約に悩まされています。本研究では、ビジョン分野の基盤的なプリトレーニングの教訓から、オーディオ分野でも強力な教師信号を確立する必要性を主張しています。

16. UCAgent: An End-to-End Agent for Block-Level Functional Verification

機能検証は現代のIC開発サイクルにおける重要なボトルネックであり、多くのプロジェクトで全開発時間の約70%を占めています。従来の制約ランダムおよび形式検証手法は、半導体設計の複雑化に追いつけていません。本研究では、LLMを活用した「UCAgent」を提案し、ブロックレベルの機能検証を自動化しています。

17. IncreRTL: Traceability-Guided Incremental RTL Generation under Requirement Evolution

LLMはRTLコード生成に有望ですが、既存手法は静的であり、設計要件の変化に適応できず、構造的なドリフトや全面的な再生成が必要になる課題がありました。本研究では、要件の変化に対応した増分的なRTL生成フレームワーク「IncreRTL」を提案しています。

18. ReCUBE: Evaluating Repository-Level Context Utilization in Code Generation

LLMは大規模なコードベースを活用して、GitHubの課題解決やフルコンテキストの生成など、幅広いコーディング能力を発揮しています。しかし、LLMがリポジトリレベルのコンテキストをどの程度活用できているかを直接測定する指標はありませんでした。本研究では、そのような評価指標「ReCUBE」を提案しています。

19. Empowering Epidemic Response: The Role of Reinforcement Learning in Infectious Disease Control

感染症の流行に対する介入戦略を最適化するために、強化学習(RL)が活用されています。動的なシステムへの適応性と長期的な成果の最大化能力から、RLは感染症の予防と対応に有効です。本研究では、RLを活用した感染症対策の事例を紹介しています。

20. Challenges and opportunities for AI to help deliver fusion energy

核融合発電の実現には、AIツールの活用が大きな可能性を秘めていますが、AIを使うにはさまざまな課題があります。責任あるロバストな手法を構築するには、核融合研究者とAI研究者の長期的な密接な協力が不可欠です。本研究では、その課題と機会について議論しています。

21. Pure and Physics-Guided Deep Learning Solutions for Spatio-Temporal Groundwater Level Prediction at Arbitrary Locations

地下水は水循環の重要な要素ですが、複雑で文脈依存的な関係性のため、モデル