Hyperagents
Paper

Hyperagents

Sam Devlin
2026.03.27
·Arxiv·by 배레온/부산/개발자
#Agent#AI#Meta-cognition#Meta-learning#Self-improvement

핵심 포인트

  • 1이 논문은 기존 자기 개선 AI 시스템의 고정된 메타 수준 메커니즘 한계를 극복하기 위해, 개선 메커니즘 자체도 수정 가능한 자기 참조적 시스템인 HyperAgents를 제안합니다.
  • 2이를 위해 Darwin Gödel Machine (DGM)을 확장한 DGM-Hyperagents (DGM-H)를 도입하여, task agent와 meta agent를 단일 editable program으로 통합함으로써 metacognitive self-modification을 가능하게 합니다.
  • 3DGM-H는 코딩, paper review, robotics reward design 등 다양한 domain에서 task performance와 자기 개선 능력을 크게 향상시키며, 기존 시스템을 능가하고 domain 간 전이 가능한 meta-level 개선 효과를 보여주었습니다.

HyperAgents 논문은 기존의 자기 개선(self-improving) AI 시스템들이 고정되고 수작업으로 제작된 메타-레벨 메커니즘에 의존하여 개선 능력에 한계가 있다는 문제점을 제기합니다. 이러한 한계를 극복하고 무한한 발전을 가능하게 하기 위해, 논문은 *hyperagents*라는 새로운 개념을 도입합니다.

핵심 방법론 (Core Methodology)

  • Hyperagents의 정의: A *hyperagent*는 특정 작업을 해결하는 *task agent*와 자신 및 다른 agent들을 수정하고 새로운 agent를 생성하는 *meta agent*를 단일의 *editable program*으로 통합한 자기 참조(self-referential) agent입니다. 여기서 agent는 Foundation Models (FMs), 외부 도구 또는 학습된 구성 요소를 포함하는 모든 계산 가능한 프로그램으로 정의됩니다.
    • Task Agent: 주어진 작업을 해결하는 역할을 하며, 해당 작업에 대한 경험적 평가를 통해 성능이 측정됩니다.
    • Meta Agent: 기존 agent들을 수정하고 새로운 agent들을 생성하는 임무를 가집니다. 이전 agent들의 아카이브(archive)와 평가 결과에 접근하여 미래 성능 향상을 위한 변경 사항(수정 사항)을 제안합니다. 중요한 점은, 이 변경 사항이 단순히 task-solving 로직뿐만 아니라 *meta agent 자체*도 대상으로 할 수 있다는 것입니다.
  • Metacognitive Self-Modification: Hyperagent의 핵심 특징입니다. 이는 agent의 자기 개선 메커니즘 자체가 수정될 수 있음을 의미합니다. 즉, agent는 주어진 작업에서 성능을 향상시키는 동시에, 미래의 자기 개선을 제안하고 적용하는 절차를 수정할 수 있습니다. 이는 과거의 자기 개선 시스템(예: DGM)이 가졌던, 개선 과정 자체가 고정되어 특정 도메인(예: 코딩)에 대한 task performance와 self-modification skill 간의 정렬(alignment)이 필요하다는 한계를 해소합니다. Hyperagent는 이러한 제약 없이 모든 계산 가능한 작업에 대해 자기 개선 메커니즘 자체를 개선할 수 있습니다.
  • DGM-Hyperagents (DGM-H): 논문은 기존 Darwin Gödel Machine (DGM)의 개념을 확장하여 DGM-H를 구현합니다. DGM-H는 DGM의 오픈 엔디드(open-ended) 탐색 구조를 계승합니다. 이는 초기 하나의 hyperagent에서 시작하여, 지속적으로 생성된 변형들을 아카이브에 축적합니다. 프로세스는 두 가지 단계, 즉 *metacognitive self-modification*과 *evaluation*을 반복합니다.
    • Metacognitive Self-modification (단계): 아카이브에서 선택된 부모 hyperagent들이 스스로 수정된 버전(자식 hyperagent)을 생성합니다. 부모 선택은 hyperagent의 성능에 비례하고, 성공적으로 컴파일된 자식의 수에 반비례하는 확률적 방식(이는 탐색을 보존하면서도 성능이 좋고 강력한 후손을 생성하는 hyperagent에 편향을 줌)으로 이루어집니다.
    • Evaluation (단계): 수정된 각 hyperagent는 경험적으로 평가되며, 그 결과에 따라 아카이브에 추가됩니다.

이러한 메커니즘을 통해 DGM-H는 단순히 작업을 해결하는 능력을 향상시키는 것을 넘어, 미래의 개선을 생성하는 방식 자체를 개선할 수 있습니다. 즉, 개선을 위한 개선 프로세스(self-improvement process)가 진화할 수 있도록 하여, 어떠한 계산 가능한 작업에 대해서도 자기 가속적인(self-accelerating) 발전을 잠재적으로 가능하게 합니다.

실험 및 결과

DGM-H는 코딩, 논문 리뷰, 로봇 공학 보상 설계, 올림피아드 수준 수학 채점 등 다양한 도메인에서 실험되었습니다. DGM-H는 시간이 지남에 따라 성능을 향상시켰고, 자기 개선이나 오픈 엔디드 탐색이 없는 베이스라인은 물론, 이전 자기 개선 시스템인 DGM보다 뛰어난 성능을 보였습니다. 특히 DGM-H는 영속적 메모리(persistent memory), 성능 추적(performance tracking)과 같은 자기 개선 방법을 학습하여 새로운 agent를 생성하는 프로세스를 개선하고, 이러한 메타-레벨(meta-level) 개선은 도메인 전반에 걸쳐 전이되고 누적될 수 있음을 보여주었습니다. 이는 DGM-H가 개선하는 능력을 개선하면서 동시에 어떤 계산 가능한 작업도 수행하는 능력을 개선할 수 있는 가능성을 제시합니다.