Memento-Skills: Let Agents Design Agents
Paper

Memento-Skills: Let Agents Design Agents

Zhixun Chen
2026.03.21
·Arxiv·by 이호민
#Agent#Continual Learning#LLM#Memory#Reinforcement Learning

핵심 포인트

  • 1Memento-Skills는 LLM agent가 스스로 task-specific agent를 설계, 적응, 개선할 수 있도록 하는 generalist, continually-learnable 시스템입니다.
  • 2이 시스템은 Memento 2의 Read–Write Reflective Learning 메커니즘을 통해, 재사용 가능한 skill을 persistent memory로 활용하며 LLM parameter를 고정시킨 채로 지식을 지속적으로 업데이트하고 확장합니다.
  • 3특히, 실행 성공에 최적화된 behaviour-aligned skill router와 skill-level reflective learning 방식을 통해 GAIA 및 HLE 벤치마크에서 상당한 성능 향상을 달성하며, agent가 스스로 발전할 수 있음을 입증했습니다.

Memento-Skills는 에이전트가 에이전트를 설계하도록 하는 일반주의적이고 지속적으로 학습 가능한 LLM 에이전트 시스템입니다. 이 시스템은 경험을 통해 작업별 에이전트를 자율적으로 구성, 조정 및 개선하는 것을 목표로 합니다. 핵심 아이디어는 LLM 매개변수를 고정(frozen) 상태로 유지하면서 외부화된 스킬(skills)과 프롬프트(prompts)의 진화를 통해 모든 적응이 이루어지도록 하는 것입니다.

1. 핵심 방법론: Read–Write Reflective Learning

Memento-Skills는 Memento 2에서 소개된 Read–Write Reflective Learning 프레임워크를 기반으로 하며, 이를 State-ful Reflective Decision Process (SRDP)의 구체적인 구현으로 간주합니다.

  • Skill Memory (MtM_t): 이 시스템의 메모리 단위는 재사용 가능한 스킬 아티팩트(예: 코드, 프롬프트, 선언적 명세)로 구성된 '스킬 메모리'입니다. 이는 단순히 과거 상호작용을 기록하는 전통적인 에피소드 메모리와 달리, 행동과 컨텍스트를 모두 인코딩하여 지식을 다음 상호작용으로 전달합니다.
  • Read 단계 (Skill Selection / Policy Improvement):
    • 에이전트가 새로운 작업(qtq_t)을 받으면, Router를 사용하여 스킬 메모리(StS_t)에서 가장 관련성 높은 스킬(ctc_t)을 검색합니다.
    • 기존의 임베딩 기반 라우터(예: BM25 또는 임베딩 라우터)는 의미론적 유사성(semantic similarity)에만 초점을 맞춰 실제 행동적 유용성(behavioral utility)을 반영하지 못한다는 한계가 있습니다.
    • 이를 해결하기 위해 Memento-Skills는 행동 일치(behavior-aligned) 스킬 라우터를 훈련합니다. 이 라우터는 단일 단계 오프라인 RL(Offline Reinforcement Learning) 접근 방식을 사용하며, 실행 성공을 예측하는 Q-함수를 학습합니다.
    • 라우터는 InfoNCE 손실을 사용하여 훈련됩니다. 주어진 스킬 문서 dd와 라우팅 목표 qq에 대해 임베딩 함수 encθ()enc_\theta(\cdot)는 임베딩 e(d)e(d)u(q)u(q)를 생성하며, 점수 s(d,q)=e(d)u(q)s(d, q) = e(d)^\top u(q)를 계산합니다.
    • InfoNCE 손실은 다음과 같이 정의됩니다:
Li=logqQi+exp(s(di,q)/τ)qQexp(s(di,q)/τ)L_i = - \log \frac{\sum_{q \in Q_i^+} \exp (s(d_i, q)/\tau)}{\sum_{q \in Q} \exp (s(d_i, q)/\tau)}
여기서 Qi+Q_i^+는 양성 쿼리(positive queries), QiQ_i^-는 음성 쿼리(hard negatives), QQ는 미니배치 내의 모든 쿼리, τ\tau는 온도(temperature)입니다.
  • 이는 다음과 같은 볼츠만 라우팅 정책(Boltzmann routing policy)을 산출합니다:
πθ(dq)=exp(Qθ(q,d)/τ)dexp(Qθ(q,d)/τ)\pi_\theta(d | q) = \frac{\exp(Q_\theta(q, d)/\tau)}{\sum_{d'} \exp(Q_\theta(q, d')/\tau)}
여기서 Qθ(q,d)s(d,q)Q_\theta(q, d) \propto s(d, q)는 학습된 소프트 Q-함수(soft Q-function)입니다. 이 훈련은 합성 쿼리(synthetic queries)를 생성하여 이루어지며, 실제 실행 결과를 예측하도록 라우터를 최적화합니다.
  • 만약 적절한 스킬이 발견되지 않고 CreateOnMiss가 활성화된 경우, 새로운 스킬이 생성됩니다.
  • Act 단계: 선택된 스킬(ctc_t)과 현재 상태(xtx_t)를 기반으로 LLM(pLLMp_{LLM})이 다단계 워크플로우를 실행하여 행동(ata_t)을 생성합니다.
  • Feedback 단계 (Judge): Judge가 에이전트의 행동(ata_t)을 평가하고, 정답(ata_t^*)과 비교하여 보상(rtr_t)을 제공합니다.
  • Write 단계 (Reflective Update / Policy Evaluation):
    • Utility Update: 스킬(ctc_t)의 유틸리티(Ut(ct)U_t(c_t))가 업데이트됩니다. 성공하면 해당 스킬의 유틸리티 점수가 증가합니다.
    • Tip Memory: 상호작용의 결과를 기반으로 Tip Memory(TtT_t)가 업데이트됩니다.
    • Skill Evolution (스킬 진화): 실패할 경우, LLM 기반의 failure attribution selector가 실행 트레이스(trace)를 분석하여 오류의 원인이 된 스킬을 식별합니다. 이후 skill rewriter가 해당 스킬 파일(코드, 프롬프트)에 직접적인 업데이트를 제안하여 가드레일(guardrails)을 추가하거나 대체 전략을 도입합니다.
    • 특정 스킬의 유틸리티가 임계값(δ\delta) 이하로 떨어지고 충분한 샘플(nminn_{min})이 누적되면, 시스템은 해당 스킬을 재구성하거나(DiscoverSkill) 완전히 새로운 스킬을 합성하여 라이브러리를 확장합니다.
    • 모든 스킬 변형은 자동화된 단위 테스트(unit-test gate)에 의해 유효성 검사를 거쳐 회귀를 방지합니다.

2. 아키텍처 및 기여

Memento-Skills는 Memento-Skills agent를 중심으로 LLM 클라이언트, 컨텍스트 매니저, 내장 도구 및 스킬 시스템을 조율합니다. 스킬 시스템은 내장 스킬과 생성된 스킬을 관리하며, evolution engine은 시간이 지남에 따라 스킬 저장소를 개선합니다.

주요 기여는 다음과 같습니다:

  1. 스킬 수준의 반사 학습(Skill-level reflective learning): Memento 2의 SRDP 프레임워크를 재사용 가능한 스킬 폴더를 메모리 단위로 사용하는 구체적인 시스템으로 구현하여, 매개변수 업데이트 없이 지속적인 학습을 가능하게 합니다.
  2. 행동 일치 스킬 라우터(Behaviour-aligned skill router): 단일 단계 오프라인 RL을 통해 스킬 라우터를 훈련하여, 의미론적 유사성보다는 실행 성공을 최적화하는 행동적 유사성을 목표로 합니다.
  3. 실증적 검증(Empirical validation): GAIA (General AI Assistants benchmark) 및 Humanity’s Last Exam (HLE) 벤치마크에서 기존 정적 Read-Write 베이스라인을 크게 능가하는 성능 향상(각각 13.7% 및 20.8% 포인트)을 보였습니다. 이는 학습된 스킬 라이브러리가 벤치마크 도메인 구조와 일치할 때 자기 진화 스킬 메모리가 가장 효과적임을 보여줍니다.