Measuring AI agent autonomy in practice
Blog

Measuring AI agent autonomy in practice

@AnthropicAI
2026.02.19
·Service·by 이호민
#AI Agents#AI Safety#Autonomy#Human-AI Interaction#Oversight

핵심 포인트

  • 1Claude Code의 자율 작업 시간이 두 배 가까이 증가하여, 현재 AI models가 실제보다 더 높은 수준의 autonomy를 발휘할 수 있음을 시사합니다.
  • 2경험이 많은 사용자들은 Claude Code에 대한 auto-approve 비율을 높이는 동시에 더 자주 개입하며, 이는 감독 방식이 '단계별 승인'에서 '능동적 monitoring'으로 변화함을 보여줍니다.
  • 3Claude Code는 사람이 중단하는 것보다 스스로 clarification 질문을 더 자주 하여 AI agents의 자율적 oversight가 중요함을 강조하며, 현재 Agents는 주로 software engineering 분야에서 저위험 작업에 사용되지만 고위험 영역으로의 확장이 관찰됩니다.

이 논문은 AI 에이전트가 실제 환경에서 어떻게 사용되는지를 실증적으로 이해하기 위한 연구 결과를 제시합니다. 저자들은 AI 에이전트의 자율성(autonomy)과 관련된 실제 사용 패턴, 사용자 경험에 따른 행동 변화, 에이전트가 사용되는 도메인, 그리고 에이전트 작업의 잠재적 위험성을 측정했습니다.

핵심 방법론 (Core Methodology)

이 연구는 에이전트 활동을 연구하는 데 있어 몇 가지 본질적인 어려움을 인식했습니다. 첫째, 에이전트에 대한 합의된 정의가 없고, 둘째, 에이전트 기술이 빠르게 발전하며, 셋째, 모델 제공자가 고객 에이전트의 아키텍처에 대한 가시성이 제한적이라는 점입니다. 이러한 제약에도 불구하고, 저자들은 tool calls를 통해 행동을 취하는 AI 시스템을 에이전트로 정의하고, 두 가지 주요 데이터 소스를 활용하여 이러한 과제를 해결했습니다.

  1. Public API Traffic: 이 데이터 소스는 수천 명의 고객에 걸쳐 에이전트 배포에 대한 광범위한 시야를 제공합니다. 저자들은 고객의 에이전트 아키텍처를 추론하는 대신, 개별 tool calls 수준에서 분석을 수행했습니다. 이 접근 방식은 다양한 컨텍스트에서 실제 에이전트에 대한 일관성 있고 근거 있는 관찰을 가능하게 하지만, 개별 actions을 독립적으로 분석해야 하므로 긴 sequences of behavior를 재구성할 수 없다는 한계가 있습니다.
  1. Claude Code Data: 이는 Anthropic 자체의 코딩 에이전트인 Claude Code에서 수집된 데이터입니다. Claude Code는 자체 제품이므로 requestssessions 전반에 걸쳐 연결하고 전체 에이전트 workflow를 처음부터 끝까지 이해할 수 있습니다. 이는 에이전트가 인간의 개입 없이 얼마나 오래 실행되는지, 무엇이 interruptions을 유발하는지, 사용자가 경험을 쌓으면서 Claude에 대한 oversight를 어떻게 유지하는지와 같은 자율성 연구에 특히 유용합니다. 그러나 Claude Code는 단일 제품이므로 API 트래픽만큼 에이전트 사용에 대한 다양하고 폭넓은 통찰력을 제공하지는 않습니다.

이 연구는 privacy-preserving infrastructure를 사용하여 이 두 가지 보완적인 데이터 소스를 결합함으로써, 각 소스만으로는 답할 수 없는 질문에 답할 수 있었습니다.

주요 측정 및 분석 기법:

  • 자율성 측정 (Autonomy Measurement): Claude Code에서는 turn duration (클로드 작업 시작부터 중지까지의 시간)을 직접 측정했습니다. 이는 autonomy의 간접적인 지표로 사용되었으며, 99.9th percentile turn duration이 3개월 만에 거의 두 배(25분 미만에서 45분 이상)로 증가했음을 발견했습니다.
  • 사용자 행동 분석 (User Behavior Analysis):
    • Auto-approve rate: 사용자의 경험(세션 수)에 따라 Claude Codefull auto-approve 사용 빈도가 어떻게 변하는지를 측정했습니다. 신규 사용자는 약 20%의 세션에서 full auto-approve를 사용하는 반면, 숙련된 사용자는 40% 이상으로 증가했습니다.
    • Interrupt rates: 사용자의 경험에 따른 Claude에 대한 human-initiated interruptions 빈도를 측정했습니다. 경험이 많은 사용자가 Claude를 더 자주 interrupt하는 경향이 있음을 발견했습니다. 이는 oversight strategy의 변화를 시사합니다.
  • 에이전트 자체 제어 (Agent Self-Control): Claude Code가 자체적으로 clarification questions을 위해 작업을 중단하는 빈도를 측정했습니다. 복잡한 작업에서 Claudehuman interruptions보다 두 배 이상 자주 clarification을 요청하는 것으로 나타났습니다.
  • 위험 및 자율성 평가 (Risk and Autonomy Assessment): Public API의 개별 tool calls에 대해 Claude를 사용하여 riskautonomy 점수(1~10 척도)를 추정했습니다.
    • Risk score: 작업 실패 시 consequences가 없는 경우(1)부터 substantial harm을 초래할 수 있는 경우(10)까지.
    • Autonomy score: 에이전트가 명시적인 human instructions을 따르는 경우(낮음)부터 독립적으로 작동하는 경우(높음)까지.
tool calls는 유사한 actions으로 cluster화되고 각 cluster의 평균 riskautonomy scores가 계산되었습니다. 대부분의 tool callslow-risk였지만, cybersecurity, finance, healthcare와 같은 risky domains에서의 사용이 나타났습니다. Software engineering이 전체 tool calls의 약 50%를 차지했습니다. 또한, tool calls의 80%는 safeguards (예: restricted permissions, human approval requirements)가 있었고, 73%는 human in the loop이 있었으며, 0.8%만이 irreversibleactions (예: 고객에게 이메일 보내기)이었습니다.

결론 (Conclusion)

연구 결과, Claude Code의 자율성은 시간이 지남에 따라 증가하고 있으며, 숙련된 사용자는 에이전트에 더 많은 자율성을 부여하지만 필요한 경우 더 자주 개입하는 oversight strategy를 채택하고 있음이 밝혀졌습니다. 또한, 에이전트 자체적으로 불확실성을 인식하고 clarification을 요청하는 것이 중요한 oversight 형태임을 강조합니다. 현재 에이전트는 software engineering 분야에 집중되어 있지만, risky domains에서의 사용이 증가하고 있어 미래에 riskautonomyfrontier가 확장될 것으로 예상했습니다. 연구진은 post-deployment monitoring infrastructurehuman-AI interaction paradigms의 중요성을 강조하며, 이는 AI agents의 안전한 배포를 위해 필수적이라고 제언했습니다.