News
Introducing Sonnet 4.6
@AnthropicAI
2026.02.17
·Service·by 네루#Agent#AI#Claude#LLM#Sonnet
핵심 포인트
- 1Claude Sonnet 4.6은 2026년 2월 17일에 출시된 최신 모델로, 코딩, Computer use, 장문 추론 및 Agent planning 등 다양한 영역에서 기능이 크게 향상되었습니다.
- 2이 모델은 OSWorld 및 OfficeQA 벤치마크에서 기존 Sonnet 4.5를 능가하며 Opus 4.5 및 4.6과 유사하거나 더 나은 성능을 보여주어, 복잡한 업무를 위한 강력한 솔루션을 제공합니다.
- 3Sonnet 4.6은 Sonnet 4.5와 동일한 가격으로 Opus급 성능을 제공함으로써, 이전에는 더 비싼 모델이 필요했던 작업에 대해 비용 효율적인 대안을 제시합니다.
Claude Sonnet 4.6은 2026년 2월 17일에 출시된 모델로, 코딩, 컴퓨터 사용(computer use), 장문 컨텍스트 추론(long-context reasoning), 에이전트 플래닝(agent planning), 지식 작업(knowledge work) 및 디자인 전반에 걸쳐 향상된 기능을 제공한다. 이 모델은 1M 토큰 컨텍스트 윈도우를 베타 버전으로 지원하며, 기존 Sonnet 4.5와 동일한 가격인 백만 토큰당 15의 비용으로 제공된다.
핵심 개선 사항 및 기술적 특성:
- 코딩 능력 (Coding Skills):
- Sonnet 4.6은 Sonnet 4.5 및 2025년 11월 출시된 Opus 4.5보다 개발자들로부터 높은 선호도를 받았다. Claude Code 테스트에서 Sonnet 4.5 대비 70%, Opus 4.5 대비 59%의 선호도를 보였다.
- 이는 코드 수정 전 컨텍스트를 효과적으로 읽고, 공유 로직을 통합하여 중복을 줄이는 능력 때문이다.
- 과도한 설계(overengineering) 및 "게으름(laziness)"이 적고, 지시를 더 잘 따르며, 허위 성공 주장(false claims of success) 및 환각(hallucinations)이 적고, 다단계 작업(multi-step tasks)에서 일관된 후속 조치(follow-through)를 보여준다.
- 복잡한 코드 수정, 특히 대규모 코드베이스 탐색에 탁월하며, 에이전트 기반 코딩(agentic coding) 환경에서 높은 문제 해결률(resolution rates)과 일관성을 보인다.
- 버그 탐지(bug detection)에서 Opus 모델과의 격차를 크게 줄였다.
- 컴퓨터 사용 능력 (Computer Use):
- Anthropic은 2024년 10월 일반적인 컴퓨터 사용 모델을 최초로 도입했으며, Sonnet 4.6은 이 분야에서 크게 발전했다.
- 이 모델은 OSWorld 및 OSWorld-Verified 벤치마크를 통해 평가되었으며, 이는 실제 소프트웨어(Chrome, LibreOffice, VS Code 등)가 실행되는 시뮬레이션된 컴퓨터 환경에서 모델이 (가상) 마우스 클릭 및 (가상) 키보드 타이핑과 같은 인간과 유사한 방식으로 상호작용하는 능력을 측정한다. 특별한 API나 커넥터 없이 컴퓨터를 직접 보고 조작한다.
- 복잡한 스프레드시트 탐색, 다단계 웹 양식 작성과 같은 작업에서 인간 수준의 능력을 보여준다.
- 프롬프트 인젝션(prompt injection) 공격에 대한 저항성도 Opus 4.6과 유사한 수준으로 크게 개선되었다.
- 보험 벤치마크(insurance benchmark)에서 94%의 정확도를 기록하여, 제출 접수(submission intake) 및 손해 발생 통지(first notice of loss)와 같은 미션 크리티컬한 워크플로우에 적합하다.
- 장문 컨텍스트 추론 및 에이전트 플래닝 (Long-Context Reasoning & Agent Planning):
- 1M 토큰 컨텍스트 윈도우는 전체 코드베이스, 장문 계약서, 수십 개의 연구 논문을 단일 요청에 포함할 수 있게 한다.
- 이 방대한 컨텍스트 내에서 효과적으로 추론하여 장기적인 계획(long-horizon planning) 능력을 향상시킨다.
- Vending-Bench Arena 평가에서는 초기 10개월 동안 생산 능력에 대규모 투자를 한 후, 마지막 단계에서 수익성으로 전환하는 전략을 통해 경쟁자들을 능가하는 모습을 보였다.
- 복잡한 에이전트 기반 작업(agentic workloads)을 처리하고, "effort settings"을 높일수록 성능이 향상된다.
- 지식 작업 및 문서 이해 (Knowledge Work & Document Comprehension):
- OfficeQA 벤치마크(기업 문서(차트, PDF, 표)를 읽고, 사실을 추출하며, 해당 사실로부터 추론하는 능력)에서 Opus 4.6과 동등한 성능을 보인다.
- 금융 서비스 벤치마크(Financial Services Benchmark)에서 Sonnet 4.5 대비 답변 일치율(answer match rate)이 크게 증가했다.
- Box의 평가에서 Sonnet 4.5 대비 심층 추론(deep reasoning) 및 복잡한 에이전트 작업 Q&A에서 15%p 향상되었다.
- 디자인 및 사용자 경험 (Design & User Experience):
- 시각적 출력물(visual outputs)이 이전 모델보다 훨씬 세련되고, 레이아웃, 애니메이션, 디자인 감각이 뛰어나다.
- 생산 품질 결과 도출까지 필요한 반복 작업(iteration rounds) 횟수가 줄었다.
- 프론트엔드 페이지 및 데이터 보고서 구축에서 완벽한 디자인 감각을 보여주며, 이전 모델보다 훨씬 적은 수고로 작업이 가능하다.
기타 특징 및 가용성:
- Sonnet 4.6은 Opus 수준의 인텔리전스에 근접하면서도 더 실용적인 가격으로 제공되는 탁월한 성능-비용 비율(performance-to-cost ratio)을 가진다.
- Claude Developer Platform에서 적응형 사고(adaptive thinking), 확장형 사고(extended thinking) 및 컨텍스트 압축(context compaction, 베타)을 지원하여 대화가 제한에 근접할 때 오래된 컨텍스트를 자동으로 요약하여 유효 컨텍스트 길이를 늘린다.
- API에서 Claude의 웹 검색 및 패치 도구는 이제 검색 결과를 필터링하고 처리하기 위해 코드를 자동으로 작성 및 실행하여 관련 콘텐츠만 컨텍스트에 유지하고 응답 품질과 토큰 효율성을 향상시킨다.
- 코드 실행(code execution), 메모리(memory), 프로그래밍 방식 도구 호출(programmatic tool calling), 도구 검색(tool search) 및 도구 사용 예시(tool use examples)가 이제 일반적으로 사용 가능하다.
- Claude in Excel 사용자를 위한 MCP 커넥터 지원으로 S&P Global, LSEG, Daloopa 등과 같은 외부 도구와 연동할 수 있다.
- Claude Sonnet 4.6은 모든 Claude 요금제, Claude Cowork, Claude Code, API 및 주요 클라우드 플랫폼에서 이용 가능하며, 무료 티어의 기본 모델로 업그레이드되었다. 개발자는
claude-sonnet-4-6API를 통해 시작할 수 있다.