スキル進化とトークン表現の最前線:LLMエージェントの自己進化を支える4つの革新的アプローチ
強化学習によるスキルキュレーション(SkillOS・Skill1)、自己対戦型スキル発見(Ctx2Skill)、そしてトークン埋め込みの構造的欠陥を解消するTIDEアーキテクチャという4つの最新研究が、LLMエージェントの自己進化能力を根本から刷新しようとしている。
はじめに:なぜ今「スキル」と「自己進化」が重要なのか
大規模言語モデル(LLM)を基盤とするエージェントは、コーディング支援、Webナビゲーション、複雑な推論タスクなど、多様な実世界シナリオへの展開が急速に進んでいる。しかしその多くは依然として「一回限りの問題解決者」に過ぎず、過去の経験から学習して将来のタスクに活かすという、人間にとって自然な能力を欠いている。
この課題に対し、2026年5月に相次いで公開された複数の研究が、異なる角度から「スキルの自己進化」という概念を深化させている。SkillOSとSkill1は強化学習(RL)によるスキルキュレーションの学習を、Ctx2Skillは外部フィードバックなしの自律的スキル発見を、そしてTIDEはそもそものLLMアーキテクチャにおけるトークン表現の根本的欠陥を修正するアプローチを提案している。これら4つの研究は独立しているように見えて、「エージェントが経験から知識を蓄積し、より賢くなる」という共通の問いに対して相補的な解を与えている。
SkillOS:スキルキュレーションをRLで学習する自己進化フレームワーク
が提案するSkillOSは、スキルベースの自己進化エージェントにおける中核的ボトルネック——スキルキュレーションの質——を強化学習によって直接最適化しようとする試みである。
図1: SkillOSは凍結されたAgent ExecutorとトレーナブルなSkill Curatorをペアリングする。ExecutorはSkillRepoから関連スキルを取得して行動し、CuratorはMarkdown形式でスキルの挿入・更新・削除を行う。
この図が示すように、SkillOSは「実行者(Executor)」と「管理者(Curator)」を明確に分離したモジュラー設計を採用している。Executorは凍結されたLLM(Qwen3-8B、Qwen3-32B、Gemini-2.5-Proなど)であり、外部のSkillRepoから関連スキルを検索して行動する。一方、Curatorはトレーナブルなモデルであり、Executorの実行軌跡から得られた経験をもとにSkillRepoを動的に更新する。
訓練パイプラインの設計思想
SkillOSの訓練パイプラインには2つの核心的な設計がある。
図2: 各訓練ステップでは関連タスクのグループをサンプリングし、空のSkillRepoを初期化する。スキルキュレーターπ_Sは複合報酬で最適化され、自己進化を実現する。
第一に、グループ化されたタスクストリームの構築である。単一タスクではなく、スキル関連性に基づいてグループ化された複数タスクを一つの訓練インスタンスとして扱う。前半のタスクで得た経験からSkillRepoを更新し、後半の関連タスクでその更新の有効性を評価するという構造が、スキルの長期的有用性を直接学習信号に変換する。
第二に、複合報酬設計である。タスク成功率だけでなく、有効な関数呼び出し、スキルの品質、SkillRepoのコンパクト性を組み合わせた報酬を設計することで、間接的・遅延的な環境フィードバックをキュレーション決定に帰属させることを可能にしている。
実験結果と汎化性能
ALFWorldベンチマークでは、最強ベースラインと比較して最大+9.8%の相対的性能向上と-6.0%のインタラクションステップ削減を達成した。特筆すべきは、8BパラメータのCuratorがGemini-2.5-Proを直接Curatorとして使用した場合を上回る性能を示した点である。
図3: SkillOSのクロスタスク汎化結果。Qwen3-8B、Qwen3-32B、Gemini-2.5-Proの3つの凍結Executorで、ベースラインからの相対改善を示す。
この汎化性能は、学習されたCuratorが特定のExecutorアーキテクチャに依存しない汎用的なスキルキュレーション能力を獲得していることを示唆している。さらに分析によれば、SkillRepo内のスキルはRL訓練を通じて、より豊かな内部構造を持つMarkdownファイルへと進化し、高レベルのメタスキルを符号化するようになることが確認されている。
Skill1:選択・活用・蒸留の統一的共進化
が提案するSkill1は、スキルベースエージェントの3段階ライフサイクル——スキル選択、スキル活用、スキル蒸留——を単一のポリシーで統一的に最適化するフレームワークである。
図2: Skill1フレームワークの概要。(a) ポリシーがクエリを生成し候補を再ランク付けしてスキルを選択、(b) 選択されたスキルに条件付けられたマルチターンインタラクション、(c) 軌跡からの再利用可能なスキルの蒸留。全ての学習信号は単一のタスク成果シグナルから導出される。
SkillOSとの対比:モジュラー分離 vs. 統一ポリシー
SkillOSが「Executor(凍結)+Curator(トレーナブル)」という明確な役割分離を採用するのに対し、Skill1は単一のポリシーが全3段階を担う統一アーキテクチャを採用する。この設計の違いは根本的な哲学の差異を反映している。
SkillOSのアプローチは、既存の強力なLLM(Gemini-2.5-Proなど)をExecutorとして活用しながら、キュレーション能力のみを専門的に学習させるという実用的な柔軟性を持つ。一方、Skill1は3つの能力が相互依存的であるという洞察に基づき、それらを分離して最適化することの非効率性——「最適化ボトルネック」——を解消しようとする。
単一タスク成果シグナルからの信用割り当て
Skill1の最も革新的な点は、単一のタスク成果シグナルr(τ)から3つの能力への信用割り当てを実現する方法論にある。
- 活用(Utilization): タスク成果を直接の報酬として使用
- 選択(Selection): 各スキルに関連する成果の移動平均(低周波トレンド)を信用シグナルとして使用。これはスキルの一貫した有用性を反映する
- 蒸留(Distillation): 現在の成果とトレンドの偏差(高周波変動)を信用シグナルとして使用。新たに蒸留されたスキルがライブラリの現在の境界を改善するかを捉える
図3: 3つの能力指標の訓練ダイナミクス。完全なSkill1は全段階で高速かつ統一的な収束を達成する。選択シグナルを除去(緑)または選択・蒸留シグナルを両方除去(オレンジ)すると、全能力の収束が遅くなる。
この図が示すように、いずれかの信用シグナルを除去すると全能力の収束が遅くなるという結果は、3つの能力の相互依存性を実証的に裏付けている。ALFWorldでは97.5%の成功率を達成し、全スキルベースベースラインを上回った。
Ctx2Skill:外部フィードバックなしの自律的スキル発見
が提案するCtx2Skillは、SkillOSやSkill1とは異なる問題設定——**人間のアノテーションも外部フィードバックも存在しない状況でのスキル構築**——に取り組む。
図2: Ctx2Skillの概要。(a) 自己対戦ループでは、Challengerがタスクとルーブリックを生成し、Reasonerが解決を試み、Judgeが結果をルーティングする。(b) Cross-Time Replayメカニズムが代表的なケースで最良のバランスを達成するスキルセットを選択する。
自己対戦ループによるスキル共進化
Ctx2Skillのコアは、マルチエージェント自己対戦ループである。Challengerエージェントはコンテキストに基づいてプロービングタスクとルーブリックを生成し、Reasonerエージェントは現在のスキルセットに導かれながらそれらを解決しようとする。中立的なJudgeエージェントがReasoner の応答を評価し、失敗ケースはProposerとGeneratorエージェントに送られてスキルの更新に活用される。
この設計の巧妙さは、パラメータ更新なしにスキルのテキスト更新のみで両エージェントが共進化する点にある。SkillOSやSkill1がRLによるパラメータ更新を必要とするのに対し、Ctx2Skillは純粋にプロンプトエンジニアリングとスキルテキストの反復的改善によって機能する。
敵対的崩壊とCross-Time Replayによる解決
しかし自己対戦ループには固有のリスクがある。**敵対的崩壊(Adversarial Collapse)**と呼ばれる現象で、Challengerが極端なタスクを生成し続け、Reasonerのスキルがそれらの病理的ケースに過特化してしまう問題である。
これを解決するのがCross-Time Replayメカニズムである。訓練の各イテレーションで生成されたスキルセット候補を代表的なケースで再評価し、最もバランスの取れたスキルセットを選択することで、汎化性能を維持する。
実験では、GPT-4.1の解決率を11.1%から16.5%へ、GPT-5.1を21.2%から25.8%へと向上させることに成功している。Ctx2Skillが生成したスキルは任意の言語モデルに組み込み可能であり、モデル非依存の汎用性を持つ点でSkillOSやSkill1と補完的な関係にある。
TIDE:トークン埋め込みの構造的欠陥を修正する新アーキテクチャ
が提案するTIDEは、上記3つの研究とは異なるレイヤーの問題——**LLMアーキテクチャそのものにおけるトークン表現の根本的欠陥**——に取り組む。
図1: レアトークン埋め込みが未学習のまま残る実証的証拠。(a) LLaMa-Base-1Bの事前学習チェックポイントにおける埋め込みl2ノルムの単調増加、(b) レアトークンと一般的トークンの埋め込みノルム分布、(c) 訓練中間チェックポイントでのビン別ノルム成長率。
2つの構造的失敗モード
現代のTransformerアーキテクチャは、トークンインデックスを入力埋め込み層で一度だけ参照し、その後は永久に破棄するという「単一注入仮定」に基づいている。TIDEはこの設計が2つの構造的失敗モードを引き起こすと指摘する。
① レアトークン問題(Rare Token Problem): 自然言語語彙はZipf則に従い、最頻出1%のトークンがコーパス出現の約80%を占める。SGDの下では、各トークン埋め込みへの累積勾配シグナルはその出現頻度に比例するため、レアトークン(固有名詞、専門用語など)の埋め込みは慢性的に未学習のまま残る。
② 文脈的隠れ状態崩壊(Contextual Hidden State Collapse): トークンインデックスが中間層で再参照されないため、意味的に異なる2つのトークンがほぼ同一の構文環境に現れる場合、それらの隠れ状態が区別不可能になる。
図3: TIDEのメインアーキテクチャ。標準Transformerに並列かつグローバルに共有されるEmbeddingMemoryモジュール(赤領域)を追加。K個の独立したMemoryBlockが生トークンインデックスをコンテキストフリーのトークンアイデンティティシグナルにマッピングし、各層に注入する。
EmbeddingMemoryによる解決
TIDEはK個の独立したMemoryBlockからなるEmbeddingMemoryを導入する。各MemoryBlockはトークンインデックスをコンテキストフリーの意味ベクトルにマッピングし、深さ条件付きsoftmaxルーターを通じて全Transformer層に注入する。
理論的には、TIDEは(i) 標準Transformerを漸近的に一般化し、(ii) トークンごとの累積勾配シグナルをK倍に増幅し、(iii) FFNのLipschitz制約を回避することが証明されている。実験的には、350Mから1Bパラメータのモデルスケールで、Wikitext、PubMed、DCLMなどの言語モデリングデータセットおよびHellaSwag、ARC、PIQAなどの下流タスクで一貫した性能向上を達成している。
スキル進化研究との接続
TIDEはスキルライブラリ研究とは直接関係しないように見えるが、深い接続がある。SkillOSやSkill1が依存するスキル検索・活用の品質は、最終的にはLLMがレアな専門用語や技術的概念をどれだけ正確に表現できるかに依存する。スキルライブラリに蓄積される知識の多くは、まさにレアトークンが多用される専門的・技術的内容であり、TIDEが解決しようとする問題はスキルベースエージェントの基盤的な能力向上に直結する。
4研究の統合的視点:スキル進化エコシステムの全体像
4つの研究を俯瞰すると、LLMエージェントの自己進化に向けた多層的なエコシステムが浮かび上がる。
アーキテクチャ層(TIDE): トークン表現の根本的欠陥を修正し、LLMがスキルを正確に理解・生成するための基盤を強化する。
スキル発見層(Ctx2Skill): 外部フィードバックなしに、複雑なコンテキストから自律的にスキルを発見・精製する。人間のアノテーションコストを排除し、スキルライブラリの初期構築を自動化する。
スキル管理・進化層(SkillOS): 蓄積された経験からスキルキュレーションを学習し、長期的な自己進化を実現する。挿入・更新・削除という複雑な管理操作をRLで最適化する。
統一最適化層(Skill1): 選択・活用・蒸留の3能力を単一ポリシーで統一的に共進化させ、最適化ボトルネックを解消する。
これらは競合するアプローチではなく、相互補完的な技術スタックを形成している。実際、SkillOSとSkill1はどちらもALFWorldとWebShopで評価されており、それぞれのアーキテクチャ的選択(モジュラー分離 vs. 統一ポリシー)が異なるトレードオフをもたらすことが示されている。
業界・社会への影響と示唆
実用的展開への道筋
SkillOSの「凍結Executor+トレーナブルCurator」設計は、既存の商用LLM(GPT-4、Gemini、Claudeなど)をそのまま活用しながら、スキルキュレーション能力のみを専門的に学習させるという実用的なアプローチを提供する。これは企業が独自のスキルライブラリを構築・管理するための現実的な経路となりうる。
Ctx2Skillが示す「外部フィードバックなしのスキル発見」は、製品マニュアル、法律文書、医療プロトコルなど、正解データが存在しない専門的コンテキストへの適用可能性を開く。
スケーリングと長期的課題
しかし重要な未解決問題も残る。SkillRepoが大規模化した際の検索効率、スキル間の矛盾や冗長性の管理、そして長期的な「スキルの忘却」問題などは、今後の研究課題として残されている。TIDEが示すように、アーキテクチャレベルの改善も継続的に必要であり、スキル進化とモデルアーキテクチャの共同最適化が将来の重要な研究方向となるだろう。
まとめ・今後の展望
2026年5月に集中して発表されたこれらの研究は、LLMエージェントの自己進化という分野が急速に成熟しつつあることを示している。SkillOSとSkill1はRLによるスキルキュレーション学習の有効性を実証し、Ctx2Skillは教師なしスキル発見の可能性を広げ、TIDEはその基盤となるアーキテクチャの改善を提案している。
今後の展望として、これらのアプローチの統合——例えば、TIDEアーキテクチャ上でCtx2Skillによって発見されたスキルをSkillOSやSkill1で管理・進化させるエンドツーエンドのシステム——が有望な研究方向として浮かび上がる。また、現在の研究が主にALFWorldやWebShopといった比較的限定的なベンチマークで評価されている点を踏まえると、より複雑で長期的な実世界タスクへの適用と評価が次の重要なステップとなるだろう。
「一回限りの問題解決者」から「経験から継続的に学習する自己進化エージェント」への転換は、AIシステムの実用性を根本的に変える可能性を持つ。これらの研究はその転換に向けた具体的かつ実装可能な道筋を示している。