Blog

Claude Code가 처음으로 Codex를 따라했는데요. 그 기능이 "/goal"입니다. 랄프 루프입니다. 기념으로 좋은 아티클을 발견해서 공유합니다. Ralphthon에도 반영해야겠어요. Codex에 /goal 기능으로 몇 시간씩 돌리는 사람도 있다는데, 잘 안 되는 케이스의 대부분은 모델이 약해서가 아니라 종료 조건이 비어있기… | Goobong Jeong

Goobong Jeong

2026.05.13

·LinkedIn·by 임근석/부산/NLP

#AI Agent#Claude Code#Codex#LLM#Prompt Engineering

핵심 포인트

1Claude Code의 /goal 기능은 4단계 루프(execute, score, check, continue/terminate)로 작동하며, 종료 조건이 명확하지 않으면 과도한 수정 또는 조기 포기라는 문제를 야기합니다.
2효과적인 agent 운영을 위해 정성적 목표를 체크리스트 등으로 정량화하고, 빠른 피드백 루프를 위해 proxy를 활용하며, 이 proxy fidelity를 주기적으로 검증해야 합니다.
3특히, `EXPERIMENTS.md`와 같은 장기 기억 시스템을 통해 검증된 학습과 과거의 실패를 기록하여 agent가 동일한 오류를 반복하지 않도록 하는 것이 중요합니다.

본 게시물은 AI agent의 /goal 기능 활용에 대한 효과적인 전략을 다루며, 특히 Claude Code와 Codex에 이 기능이 적용된 배경과 그 중요성을 강조합니다. AI agent 운영의 핵심이 "프롬프트를 잘 쓰는 것"에서 "agent를 잘 굴리는 것"으로 변화하고 있음을 역설합니다./goal 기능의 내부 작동 방식은 4단계 루프 모델로 이루어져 있습니다. execute: agent가 특정 행동을 수행합니다. score: 수행 결과에 대해 점수를 매깁니다. check: 매겨진 점수가 사용자가 설정한 목표(goal)를 충족하는지 비교합니다. continue / terminate: 목표를 충족했으면 작업을 종료하고, 그렇지 않으면 1단계로 돌아가 루프를 계속 진행합니다. 이 과정에서 사용자들은 score와 goal을 혼동하는 경우가 많습니다. 모델은 결과를 score할 수 있지만, "몇 점이면 끝인가"와 같은 종료 조건인 goal은 사용자가 명확하게 정의해야 합니다. 종료 조건이 비어있으면 "너무 일찍 포기"하거나 "절대 멈추지 않음"이라는 두 가지 정반대의 실패 모드가 발생합니다. 이는 모두 종료 판단을 모델의 직감에 맡겼기 때문이며, 보수적인 직감은 전자로, 적극적인 직감은 후자로 이어집니다. 효과적인 agent 운영을 위한 세 가지 핵심 전략은 다음과 같습니다: 1. **종료 조건 정량화 (Quantifying Termination Conditions)**: * "코드를 개선해줘"와 같은 정성적인 목표는 종료 조건이 없어 모델이 언제 멈춰야 할지 알 수 없습니다. * 이를 "specific\_file의 런타임을 20% 줄이되 기존 테스트 무회귀"와 같이 정량적이고 검증 가능한 목표로 설정해야 합니다. * 정성적인 작업을 정량화하는 트릭으로는 checklist를 활용하는 방법이 제시됩니다. 예를 들어, NeurIPS 논문을 ICML 포맷으로 변환할 때, ICML 스타일 LaTeX 파일의 200개 포맷 규칙을 markdown checklist로 추출하고, 목표를 "ICML 포맷에 맞춰라"가 아닌 "checklist 200/200 체크해라"로 변경하는 것입니다. 이는 모델이 "글이 전체적으로 좋은가"는 판단하기 어렵지만, "이 한 줄 규칙이 충족됐는가"와 같은 미시적인 yes/no 판단은 잘 수행하며, 이러한 미시적 판단의 누적이 거시적 판단을 대체할 수 있기 때문입니다. 2. **피드백 루프 가속화 및 proxy fidelity 검증 (Accelerating Feedback Loops & Validating Proxy Fidelity)**: * 피드백 루프가 며칠 단위로 길어지면 학습 속도가 매우 느려집니다. * 이를 해결하기 위해 전체 데이터셋(며칠 소요) 대신 작은 subset(몇 분 소요)을 활용하는 proxy 검증 방식을 사용합니다. * 다만, proxy 검증의 fidelity는 주기적으로 검증해야 합니다. 작은 subset에서 1등인 아키텍처가 전체 데이터셋에서 평범한 결과를 보인다면, 빠른 루프가 오히려 잘못된 방향으로 수렴할 수 있습니다. 3. **장기 기억을 위한 학습 누적 (Accumulating Learnings for Long-Term Memory)**: * agent에게 세 종류의 markdown 파일을 제공하여 장기 기억을 돕습니다: * PLAN.md: 앞으로 무엇을 할지 (미래). * EXPERIMENT_NOTES.md: 현재 어떤 생각을 하고 있는지 (현재). * EXPERIMENTS.md: 어떤 시도를 했고 그 결과가 무엇인지 (과거). * 이 중 EXPERIMENTS.md가 가장 중요하다고 강조됩니다. 며칠간 실행되는 agent의 가장 큰 실수는 이미 실패한 방법을 또다시 시도하는 것입니다. context는 압축되지만, "X 방법은 Y 이유로 실패했다"는 학습이 사라지면 같은 함정에 계속 빠지게 됩니다. 이는 연구실에서 실험 일지가 사라지면 처음부터 다시 시작해야 하는 것과 같은 맥락입니다. 게시물 작성자는 이러한 패턴이 deep-thought, compound skill, learnings-researcher, wiki-pipeline 등 다양한 시스템에서 EXPERIMENTS.md의 변형으로 나타나고 있음을 언급하며, 검증된 학습을 파일에 누적하는 것의 중요성을 강조합니다. 결론적으로, AI agent가 며칠씩 실행되는 시대로 접어들면서, "프롬프트 작성" 능력보다 "agent 운영" 능력이 핵심 역량이 되며, 이는 종료 조건의 정량화, 피드백 루프의 가속화 및 proxy fidelity` 검증, 그리고 검증된 학습의 파일 누적을 통해 달성될 수 있습니다.

Blog

Claude Code가 처음으로 Codex를 따라했는데요. 그 기능이 "/goal"입니다. 랄프 루프입니다. 기념으로 좋은 아티클을 발견해서 공유합니다. Ralphthon에도 반영해야겠어요. Codex에 /goal 기능으로 몇 시간씩 돌리는 사람도 있다는데, 잘 안 되는 케이스의 대부분은 모델이 약해서가 아니라 종료 조건이 비어있기… | Goobong Jeong

Goobong Jeong

2026.05.13

·LinkedIn·by 임근석/부산/NLP

#AI Agent#Claude Code#Codex#LLM#Prompt Engineering

핵심 포인트

1Claude Code의 /goal 기능은 4단계 루프(execute, score, check, continue/terminate)로 작동하며, 종료 조건이 명확하지 않으면 과도한 수정 또는 조기 포기라는 문제를 야기합니다.
2효과적인 agent 운영을 위해 정성적 목표를 체크리스트 등으로 정량화하고, 빠른 피드백 루프를 위해 proxy를 활용하며, 이 proxy fidelity를 주기적으로 검증해야 합니다.
3특히, `EXPERIMENTS.md`와 같은 장기 기억 시스템을 통해 검증된 학습과 과거의 실패를 기록하여 agent가 동일한 오류를 반복하지 않도록 하는 것이 중요합니다.

본 게시물은 AI agent의 /goal 기능 활용에 대한 효과적인 전략을 다루며, 특히 Claude Code와 Codex에 이 기능이 적용된 배경과 그 중요성을 강조합니다. AI agent 운영의 핵심이 "프롬프트를 잘 쓰는 것"에서 "agent를 잘 굴리는 것"으로 변화하고 있음을 역설합니다./goal 기능의 내부 작동 방식은 4단계 루프 모델로 이루어져 있습니다. execute: agent가 특정 행동을 수행합니다. score: 수행 결과에 대해 점수를 매깁니다. check: 매겨진 점수가 사용자가 설정한 목표(goal)를 충족하는지 비교합니다. continue / terminate: 목표를 충족했으면 작업을 종료하고, 그렇지 않으면 1단계로 돌아가 루프를 계속 진행합니다. 이 과정에서 사용자들은 score와 goal을 혼동하는 경우가 많습니다. 모델은 결과를 score할 수 있지만, "몇 점이면 끝인가"와 같은 종료 조건인 goal은 사용자가 명확하게 정의해야 합니다. 종료 조건이 비어있으면 "너무 일찍 포기"하거나 "절대 멈추지 않음"이라는 두 가지 정반대의 실패 모드가 발생합니다. 이는 모두 종료 판단을 모델의 직감에 맡겼기 때문이며, 보수적인 직감은 전자로, 적극적인 직감은 후자로 이어집니다. 효과적인 agent 운영을 위한 세 가지 핵심 전략은 다음과 같습니다: 1. **종료 조건 정량화 (Quantifying Termination Conditions)**: * "코드를 개선해줘"와 같은 정성적인 목표는 종료 조건이 없어 모델이 언제 멈춰야 할지 알 수 없습니다. * 이를 "specific\_file의 런타임을 20% 줄이되 기존 테스트 무회귀"와 같이 정량적이고 검증 가능한 목표로 설정해야 합니다. * 정성적인 작업을 정량화하는 트릭으로는 checklist를 활용하는 방법이 제시됩니다. 예를 들어, NeurIPS 논문을 ICML 포맷으로 변환할 때, ICML 스타일 LaTeX 파일의 200개 포맷 규칙을 markdown checklist로 추출하고, 목표를 "ICML 포맷에 맞춰라"가 아닌 "checklist 200/200 체크해라"로 변경하는 것입니다. 이는 모델이 "글이 전체적으로 좋은가"는 판단하기 어렵지만, "이 한 줄 규칙이 충족됐는가"와 같은 미시적인 yes/no 판단은 잘 수행하며, 이러한 미시적 판단의 누적이 거시적 판단을 대체할 수 있기 때문입니다. 2. **피드백 루프 가속화 및 proxy fidelity 검증 (Accelerating Feedback Loops & Validating Proxy Fidelity)**: * 피드백 루프가 며칠 단위로 길어지면 학습 속도가 매우 느려집니다. * 이를 해결하기 위해 전체 데이터셋(며칠 소요) 대신 작은 subset(몇 분 소요)을 활용하는 proxy 검증 방식을 사용합니다. * 다만, proxy 검증의 fidelity는 주기적으로 검증해야 합니다. 작은 subset에서 1등인 아키텍처가 전체 데이터셋에서 평범한 결과를 보인다면, 빠른 루프가 오히려 잘못된 방향으로 수렴할 수 있습니다. 3. **장기 기억을 위한 학습 누적 (Accumulating Learnings for Long-Term Memory)**: * agent에게 세 종류의 markdown 파일을 제공하여 장기 기억을 돕습니다: * PLAN.md: 앞으로 무엇을 할지 (미래). * EXPERIMENT_NOTES.md: 현재 어떤 생각을 하고 있는지 (현재). * EXPERIMENTS.md: 어떤 시도를 했고 그 결과가 무엇인지 (과거). * 이 중 EXPERIMENTS.md가 가장 중요하다고 강조됩니다. 며칠간 실행되는 agent의 가장 큰 실수는 이미 실패한 방법을 또다시 시도하는 것입니다. context는 압축되지만, "X 방법은 Y 이유로 실패했다"는 학습이 사라지면 같은 함정에 계속 빠지게 됩니다. 이는 연구실에서 실험 일지가 사라지면 처음부터 다시 시작해야 하는 것과 같은 맥락입니다. 게시물 작성자는 이러한 패턴이 deep-thought, compound skill, learnings-researcher, wiki-pipeline 등 다양한 시스템에서 EXPERIMENTS.md의 변형으로 나타나고 있음을 언급하며, 검증된 학습을 파일에 누적하는 것의 중요성을 강조합니다. 결론적으로, AI agent가 며칠씩 실행되는 시대로 접어들면서, "프롬프트 작성" 능력보다 "agent 운영" 능력이 핵심 역량이 되며, 이는 종료 조건의 정량화, 피드백 루프의 가속화 및 proxy fidelity` 검증, 그리고 검증된 학습의 파일 누적을 통해 달성될 수 있습니다.

원문 보기