Claude Opus 4.6
핵심 포인트
- 1Claude Opus 4.6은 향상된 agentic coding, 추론, 그리고 1M token context window를 포함한 새로운 기능들로 Terminal-Bench 2.0, Humanity's Last Exam, GDPval-AA 등 여러 benchmark에서 state-of-the-art 성능을 달성하며 이전 모델과 경쟁 모델을 크게 능가합니다.
- 2이 모델은 Context compaction 및 Adaptive thinking과 같은 고급 기능들을 통해 장문 이해 및 유지 능력을 획기적으로 개선하여 복잡하고 장기적인 작업을 보다 효과적으로 처리할 수 있습니다.
- 3Opus 4.6은 Excel 및 PowerPoint 통합, 에이전트 팀 구성 기능으로 실제 업무 효율성을 높였으며, 동시에 낮은 misaligned behavior 및 over-refusal 비율을 통해 강력한 안전 프로필을 유지합니다.
Claude Opus 4.6은 2026년 2월 5일에 발표된 Anthropic의 최신 모델로, 코딩, 에이전트(agentic) 작업, 일상 업무 처리 능력에서 상당한 발전을 이루었습니다. 이 모델은 특히 코딩 스킬이 향상되어 더 신중하게 계획하고, 에이전트 태스크를 더 오래 지속하며, 더 큰 코드베이스에서도 안정적으로 작동하고, 코드 리뷰 및 디버깅 능력을 통해 자체 실수를 수정할 수 있습니다. 또한, Opus 클래스 모델 최초로 1M 토큰 컨텍스트(context) 윈도우를 베타로 제공합니다.
성능 측면에서 Claude Opus 4.6은 여러 평가에서 State-of-the-Art (SOTA)를 달성했습니다. 에이전트 코딩 평가인 Terminal-Bench 2.0에서 최고 점수를 기록했으며, 복합 다학제 추론 테스트인 Humanity’s Last Exam에서도 다른 프론티어 모델들을 능가했습니다. 금융, 법률 등 경제적으로 가치 있는 지식 작업 능력을 측정하는 GDPval-AA 평가에서는 이전 모델인 Claude Opus 4.5 대비 190 Elo 포인트, 경쟁 모델인 OpenAI의 GPT-5.2 대비 약 144 Elo 포인트 높은 점수를 기록했습니다. 온라인에서 찾기 어려운 정보를 찾는 능력을 측정하는 BrowseComp에서도 최고 성능을 보였습니다.
주요 역량은 다음과 같습니다:
- Knowledge Work (지식 작업): 여러 전문 분야의 실제 업무에서 SOTA를 달성했습니다.
- Agentic Search (에이전트 검색): 깊고 다단계적인 에이전트 검색에서 업계 최고 점수를 기록했습니다.
- Coding (코딩): 실제 에이전트 코딩 및 시스템 작업에 탁월합니다.
- Reasoning (추론): 전문가 수준의 추론 경계를 확장했습니다.
새로운 기능과 제품 업데이트는 다음과 같습니다:
- Claude Code 내 Agent Teams (에이전트 팀): 병렬로 작업하고 자율적으로 협력하는 다수의 에이전트를 구성할 수 있습니다.
- API 기능:
- Adaptive Thinking (적응형 사고): 모델이 심층 추론(extended thinking)이 도움이 될지 스스로 판단합니다.
- Effort Controls (노력 제어): 'low', 'medium', 'high' (기본값), 'max'의 네 가지 노력 수준을 통해 지능, 속도, 비용을 제어할 수 있습니다.
- Context Compaction (컨텍스트 압축, 베타): 긴 대화나 에이전트 작업 시 컨텍스트 윈도우가 한계에 다다르면 오래된 컨텍스트를 자동으로 요약 및 대체하여 장기 작업을 가능하게 합니다.
- 1M Token Context (1M 토큰 컨텍스트, 베타): Opus 클래스 모델 중 처음으로 1M 토큰 컨텍스트를 지원하며, 200k 토큰 초과 시 프리미엄 요금이 적용됩니다 (37.50 per million input/output tokens).
- 128k Output Tokens (128k 출력 토큰): 최대 128k 토큰 출력을 지원하여 더 큰 작업을 한 번에 완료할 수 있습니다.
- 일상 업무 도구 통합: Claude in Excel은 개선된 성능으로 장기적이고 어려운 작업을 처리하며, Claude in PowerPoint (연구 미리보기)는 데이터를 시각적으로 구현하고 브랜드 지침을 따를 수 있게 합니다.
모델 사용 경험에 대한 초기 평가에서는 Claude Opus 4.6이 복잡한 요청을 구체적인 단계로 세분화하고 실행하며, 자율적으로 작동하고, 이전 모델들이 실패했던 문제들을 해결하는 능력을 보여주었다는 피드백이 있었습니다. 특히 긴 컨텍스트에서 정보를 더 잘 검색하고 추론하며, 깊이 있는 사고를 통해 더 나은 결과를 도출하는 경향이 있습니다.
평가 지표 중에서는 Claude Opus 4.6이 MRCR v2의 8-needle 1M 변형 (긴 텍스트 내 숨겨진 정보를 찾는 벤치마크)에서 76%의 점수를 기록하여, 이전 모델인 Sonnet 4.5의 18.5%와 비교해 컨텍스트 로트(context rot) 문제 해결에 있어 질적인 변화를 보여주었습니다. 또한, 소프트웨어 공학, 다국어 코딩, 장기 일관성, 사이버보안, 생명 과학 분야에서도 뛰어난 성능을 입증했습니다.
안전성 측면에서도 Opus 4.6은 이전 모델과 유사하거나 더 나은 안전 프로필을 유지하며, 오용에 대한 낮은 misaligned behavior 비율을 보였습니다. 과도한 거부(over-refusals) 비율도 가장 낮습니다. 향상된 사이버보안 능력과 관련하여 6개의 새로운 사이버보안 탐침(probes)을 개발하여 잠재적 오용을 추적하고, 사이버 방어적 사용을 가속화하고 있습니다.