최근 Anthropic의 Claude용 시스템 프롬프트(system prompt) 가 GitHub를 통해 유출되었습니다. 해당 문서는 약 24,000 토큰에 달하는 분량의 장문의 내부 지침(internal instructions) 입니다. 이 문서가 특히 주목받는 이유는, Claude가 어떻게 사고하고, 도구를 사용하며, 답변을 구성하는지를 규정하는… | Woo Hyung Choi

최근 GitHub를 통해 Anthropic의 Claude용 시스템 프롬프트(system prompt)가 유출되었으며, 이는 약 24,000 토큰에 달하는 방대한 분량의 내부 지침(internal instructions)을 담고 있습니다. 이 유출 문서는 Claude가 특정 행동을 수행하고, 도구를 활용하며, 응답을 구성하는 방식을 규정하는 핵심 구조(core structure)를 상세하게 드러냈다는 점에서 특히 주목받고 있습니다.

유출된 시스템 프롬프트는 Claude의 동작을 정의하는 세 가지 주요 기능을 명확히 제시합니다:

모델 행동 가이드라인(Model behavior guidelines): 이는 AI 모델의 페르소나, 윤리적 제약, 안전성 지침, 응답 거부(refusal) 정책, 그리고 특정 유형의 질문이나 상호작용에 대한 모델의 전반적인 태도 및 행동 양식을 규정합니다. 이는 모델의 'alignment'를 달성하고, 예측 가능하며 통제된 방식으로 상호작용하도록 설계된 정책 레이어(policy layer)입니다.
도구 사용 프로토콜(Tool usage protocols): 이는 Claude가 외부 도구(tools), 즉 함수 호출(function calls) 또는 API(Application Programming Interface)를 언제, 어떻게 사용해야 하는지에 대한 상세한 절차를 명시합니다. 구체적으로, 입력 쿼리를 분석하여 도구 사용이 필요한 시점을 판단하고, 해당 도구에 적합한 입력 파라미터(input parameters)를 구성하며, 도구의 실행 결과를 해석하고 최종 응답에 통합하는 방법론을 포함합니다. 이는 모델이 실시간 정보 검색, 복잡한 계산, 데이터베이스 조회 등 외부 시스템과 상호작용할 수 있도록 하는 'augmented generation' 메커니즘의 핵심 구성 요소입니다.
인용 형식 규칙(Citation formatting rules): 이는 모델이 외부 정보나 도구 사용을 통해 얻은 지식을 응답에 포함할 때, 해당 정보의 출처를 어떻게 명확하게 인용하고 표시해야 하는지에 대한 규칙을 정의합니다. 이는 정보의 투명성과 신뢰성을 확보하기 위한 'attributable generation'을 가능하게 하며, 인용 스타일(예: URL 포함, 각주 형식) 및 필수 정보 포함 여부 등을 규정합니다.

이번 유출은 AI 응답이 단순히 모델의 '내재된 지능(inherent intelligence)'만으로 생성되는 것이 아니라, '시스템 프롬프트 엔지니어링(system prompt engineering)'을 통해 정교하게 설계된 내부 규칙, 운영 지침 및 정책의 산물임을 명확히 보여줍니다. 이는 Anthropic이 AI의 행동을 제어하고, 일관된 출력(consistent output)을 보장하며, 특정 목적에 맞게 모델을 '조정(tune)'하는 데 사용하는 상세한 프레임워크를 엿볼 수 있는 드문 기회를 제공합니다. 결과적으로, AI를 '블랙박스(black box)'로만 바라보는 시각에서 벗어나, AI가 명시적인 규칙, 정책, 그리고 의도된 설계의 결과물임을 강조하는 중요한 사례입니다.

요약

상세 내용