
Memento-Skills: Let Agents Design Agents
핵심 포인트
- 1Memento-Skills는 LLM agent가 스스로 task-specific agent를 설계, 적응, 개선할 수 있도록 하는 generalist, continually-learnable 시스템입니다.
- 2이 시스템은 Memento 2의 Read–Write Reflective Learning 메커니즘을 통해, 재사용 가능한 skill을 persistent memory로 활용하며 LLM parameter를 고정시킨 채로 지식을 지속적으로 업데이트하고 확장합니다.
- 3특히, 실행 성공에 최적화된 behaviour-aligned skill router와 skill-level reflective learning 방식을 통해 GAIA 및 HLE 벤치마크에서 상당한 성능 향상을 달성하며, agent가 스스로 발전할 수 있음을 입증했습니다.
Memento-Skills는 에이전트가 에이전트를 설계하도록 하는 일반주의적이고 지속적으로 학습 가능한 LLM 에이전트 시스템입니다. 이 시스템은 경험을 통해 작업별 에이전트를 자율적으로 구성, 조정 및 개선하는 것을 목표로 합니다. 핵심 아이디어는 LLM 매개변수를 고정(frozen) 상태로 유지하면서 외부화된 스킬(skills)과 프롬프트(prompts)의 진화를 통해 모든 적응이 이루어지도록 하는 것입니다.
1. 핵심 방법론: Read–Write Reflective Learning
Memento-Skills는 Memento 2에서 소개된 Read–Write Reflective Learning 프레임워크를 기반으로 하며, 이를 State-ful Reflective Decision Process (SRDP)의 구체적인 구현으로 간주합니다.
- Skill Memory (): 이 시스템의 메모리 단위는 재사용 가능한 스킬 아티팩트(예: 코드, 프롬프트, 선언적 명세)로 구성된 '스킬 메모리'입니다. 이는 단순히 과거 상호작용을 기록하는 전통적인 에피소드 메모리와 달리, 행동과 컨텍스트를 모두 인코딩하여 지식을 다음 상호작용으로 전달합니다.
- Read 단계 (Skill Selection / Policy Improvement):
- 에이전트가 새로운 작업()을 받으면,
Router를 사용하여 스킬 메모리()에서 가장 관련성 높은 스킬()을 검색합니다. - 기존의 임베딩 기반 라우터(예: BM25 또는 임베딩 라우터)는 의미론적 유사성(semantic similarity)에만 초점을 맞춰 실제 행동적 유용성(behavioral utility)을 반영하지 못한다는 한계가 있습니다.
- 이를 해결하기 위해 Memento-Skills는 행동 일치(behavior-aligned) 스킬 라우터를 훈련합니다. 이 라우터는 단일 단계 오프라인 RL(Offline Reinforcement Learning) 접근 방식을 사용하며, 실행 성공을 예측하는 Q-함수를 학습합니다.
- 라우터는 InfoNCE 손실을 사용하여 훈련됩니다. 주어진 스킬 문서 와 라우팅 목표 에 대해 임베딩 함수 는 임베딩 와 를 생성하며, 점수 를 계산합니다.
- InfoNCE 손실은 다음과 같이 정의됩니다:
- 에이전트가 새로운 작업()을 받으면,
여기서 는 양성 쿼리(positive queries), 는 음성 쿼리(hard negatives), 는 미니배치 내의 모든 쿼리, 는 온도(temperature)입니다.
- 이는 다음과 같은 볼츠만 라우팅 정책(Boltzmann routing policy)을 산출합니다:
여기서 는 학습된 소프트 Q-함수(soft Q-function)입니다. 이 훈련은 합성 쿼리(synthetic queries)를 생성하여 이루어지며, 실제 실행 결과를 예측하도록 라우터를 최적화합니다.
- 만약 적절한 스킬이 발견되지 않고
CreateOnMiss가 활성화된 경우, 새로운 스킬이 생성됩니다.
- Act 단계: 선택된 스킬()과 현재 상태()를 기반으로 LLM()이 다단계 워크플로우를 실행하여 행동()을 생성합니다.
- Feedback 단계 (Judge):
Judge가 에이전트의 행동()을 평가하고, 정답()과 비교하여 보상()을 제공합니다.
- Write 단계 (Reflective Update / Policy Evaluation):
- Utility Update: 스킬()의 유틸리티()가 업데이트됩니다. 성공하면 해당 스킬의 유틸리티 점수가 증가합니다.
- Tip Memory: 상호작용의 결과를 기반으로
Tip Memory()가 업데이트됩니다. - Skill Evolution (스킬 진화): 실패할 경우, LLM 기반의
failure attribution selector가 실행 트레이스(trace)를 분석하여 오류의 원인이 된 스킬을 식별합니다. 이후skill rewriter가 해당 스킬 파일(코드, 프롬프트)에 직접적인 업데이트를 제안하여 가드레일(guardrails)을 추가하거나 대체 전략을 도입합니다. - 특정 스킬의 유틸리티가 임계값() 이하로 떨어지고 충분한 샘플()이 누적되면, 시스템은 해당 스킬을 재구성하거나(
DiscoverSkill) 완전히 새로운 스킬을 합성하여 라이브러리를 확장합니다. - 모든 스킬 변형은 자동화된 단위 테스트(unit-test gate)에 의해 유효성 검사를 거쳐 회귀를 방지합니다.
2. 아키텍처 및 기여
Memento-Skills는 Memento-Skills agent를 중심으로 LLM 클라이언트, 컨텍스트 매니저, 내장 도구 및 스킬 시스템을 조율합니다. 스킬 시스템은 내장 스킬과 생성된 스킬을 관리하며, evolution engine은 시간이 지남에 따라 스킬 저장소를 개선합니다.
주요 기여는 다음과 같습니다:
- 스킬 수준의 반사 학습(Skill-level reflective learning): Memento 2의 SRDP 프레임워크를 재사용 가능한 스킬 폴더를 메모리 단위로 사용하는 구체적인 시스템으로 구현하여, 매개변수 업데이트 없이 지속적인 학습을 가능하게 합니다.
- 행동 일치 스킬 라우터(Behaviour-aligned skill router): 단일 단계 오프라인 RL을 통해 스킬 라우터를 훈련하여, 의미론적 유사성보다는 실행 성공을 최적화하는 행동적 유사성을 목표로 합니다.
- 실증적 검증(Empirical validation): GAIA (General AI Assistants benchmark) 및 Humanity’s Last Exam (HLE) 벤치마크에서 기존 정적
Read-Write베이스라인을 크게 능가하는 성능 향상(각각 13.7% 및 20.8% 포인트)을 보였습니다. 이는 학습된 스킬 라이브러리가 벤치마크 도메인 구조와 일치할 때 자기 진화 스킬 메모리가 가장 효과적임을 보여줍니다.