Introducing GPT-5.3-Codex
핵심 포인트
- 1OpenAI는 코딩 성능과 전문 지식 능력을 통합하고 스스로 개발 과정에 기여한 가장 강력한 에이전트형 코딩 모델인 GPT-5.3-Codex를 공개했습니다.
- 2이 모델은 SWE-Bench Pro와 Terminal-Bench에서 최고 성능을 달성했으며, OSWorld 및 GDPval에서도 뛰어난 결과를 보여주며 코딩을 넘어 전반적인 컴퓨터 작업과 지식 노동을 수행할 수 있음을 입증했습니다.
- 3GPT-5.3-Codex는 사용자와의 상호작용적 협업을 지원하고, 복잡한 웹 게임 및 애플리케이션 구축 능력을 갖추며, 향상된 안전 장치를 통해 사이버 보안 작업에서도 높은 역량을 발휘합니다.
OpenAI는 2026년 2월 5일, 자사의 Codex 제품군을 확장하는 새로운 모델인 GPT-5.3-Codex를 발표했습니다. 이 모델은 현재까지 가장 뛰어난 Agentic 코딩 모델로, 기존 GPT-5.2-Codex의 프론티어 코딩 성능과 GPT-5.2의 추론 및 전문 지식 능력을 하나의 모델에 통합했습니다. GPT-5.3-Codex는 이전 모델보다 25% 더 빠르며, 연구, 도구 사용, 복잡한 실행을 포함하는 장기 실행 작업을 수행할 수 있습니다. 또한, 작업 중에 사용자가 모델을 조종하고 상호작용할 수 있으며, 컨텍스트를 잃지 않습니다. 특히, GPT-5.3-Codex는 자체 개발 과정에 활용되어 훈련 디버깅, 배포 관리, 테스트 결과 진단 등을 수행하며 자기 개선 능력을 입증했습니다.
주요 개선 사항 및 Agentic 역량:
- 코딩 성능:
- SWE-Bench Pro: 실제 소프트웨어 엔지니어링 능력을 평가하는 이 벤치마크에서 56.8%로 새로운 업계 최고 기록을 달성했습니다. 이 벤치마크는 Python 외에 4개 언어를 포함하며, 이전 모델 대비 오염에 더 강하고 다양합니다.
- Terminal-Bench 2.0: 코딩 Agent에 필요한 터미널 스킬을 측정하는 이 벤치마크에서 77.3%로 이전 최고 성능을 크게 넘어섰습니다.
- 또한, 기존 모델보다 더 적은 토큰으로 동일한 결과를 달성하여 효율성이 향상되었습니다.
- 웹 개발:
- 프론티어 코딩 능력, 미학적 개선, 압축 능력을 결합하여 복잡한 게임이나 앱을 며칠에 걸쳐 처음부터 구축할 수 있습니다. 예를 들어, Codex 앱 출시 시 공개된 레이싱 게임의 2단계 버전과 다이빙 게임을 자율적으로 개발하고 개선하는 데 활용되었습니다.
- 일상적인 웹사이트 개발 요청 시 사용자 의도를 더 잘 이해하며, 단순하거나 불특정한 프롬프트에도 더 많은 기능과 합리적인 기본값을 가진 웹사이트를 생성합니다 (예: 랜딩 페이지의 할인 가격 표시, 전환형 사용 후기 캐러셀 자동 생성).
- 코딩 외 전문 지식 작업 (Beyond Coding):
- 소프트웨어 엔지니어링 수명주기 전반(디버깅, 배포, 모니터링, PRD 작성, 카피 편집, 사용자 연구, 테스트, 측정 항목 등)을 지원합니다.
- 슬라이드 데크 제작이나 스프레드시트 데이터 분석 등 소프트웨어 개발을 넘어서는 광범위한 Agentic 역량을 제공합니다.
- GDPval: 44개 직업에 걸친 지식 작업 능력을 측정하는 이 평가에서 GPT-5.2와 동등한 70.9%의 성능을 보였습니다.
- OSWorld: 시각적 데스크톱 환경에서 생산성 작업을 완료하는 Agentic 컴퓨터 사용 벤치마크에서 이전 GPT 모델보다 훨씬 강력한 컴퓨터 사용 능력(OSWorld-Verified에서 64.7%)을 보여줍니다.
상호작용적 협업 (Interactive Collaborator):
모델의 역량이 강력해짐에 따라, Agent의 능력 자체보다는 사용자가 Agent와 상호작용하고 지시하며 감독하는 방식이 중요해졌습니다. Codex 앱을 통해 Agent를 더 쉽게 관리하고 지시할 수 있으며, GPT-5.3-Codex는 작업 진행 상황과 주요 의사결정에 대한 빈번한 업데이트를 제공하여 실시간으로 질문하고, 접근 방식을 논의하며, 해결책을 향해 지시할 수 있게 합니다.
자체 개발에의 활용:
OpenAI 내부에서는 GPT-5.3-Codex의 초기 버전을 사용하여 모델 자체의 훈련을 모니터링하고 디버깅했으며, 배포를 최적화하고 사용자에게 영향을 미치는 에지 케이스를 식별하는 데 사용되었습니다. 또한, 연구자들이 모델의 행동을 정밀하게 이해하도록 돕고, 데이터 과학자가 새로운 데이터 파이프라인을 구축하고 결과를 시각화하며, 수천 개의 데이터 포인트에서 핵심 통찰력을 요약하는 데 활용되었습니다. 이러한 자체 활용은 연구, 엔지니어링 및 제품 개발 팀의 작업을 크게 가속화했습니다.
사이버 보안 (Securing the Cyber Frontier):
GPT-5.3-Codex는 OpenAI의 Preparedness Framework에 따라 사이버 보안 관련 작업에서 '높은 역량(High capability)'으로 분류된 첫 번째 모델이며, 소프트웨어 취약점을 식별하도록 직접 훈련된 첫 모델입니다. OpenAI는 모델이 사이버 공격을 End-to-End로 자동화할 수 있다는 결정적인 증거는 없지만, 선제적인 접근 방식을 취하여 가장 포괄적인 사이버 보안 안전 스택을 배포하고 있습니다. 여기에는 안전 훈련, 자동화된 모니터링, 고급 기능에 대한 신뢰할 수 있는 접근, 위협 인텔리전스를 포함한 강제 집행 파이프라인이 포함됩니다. 또한, 사이버 방어 연구를 가속화하기 위해 'Trusted Access for Cyber' 프로그램을 시작하고, 보안 연구 Agent인 Aardvark의 비공개 베타를 확장하며, 오픈소스 유지 관리자와 협력하여 Next.js와 같은 널리 사용되는 프로젝트에 대한 코드베이스 스캐닝을 무료로 제공합니다. 오픈소스 소프트웨어 및 중요 인프라 시스템의 사이버 방어를 가속화하기 위해 1천만 달러 규모의 API 크레딧 지원도 약속했습니다.
가용성 및 세부 정보:
GPT-5.3-Codex는 유료 ChatGPT 요금제를 통해 Codex 앱, CLI, IDE 확장 및 웹에서 사용할 수 있습니다. API 접근은 곧 지원될 예정입니다. 이 업데이트와 함께 GPT-5.3-Codex는 인프라 및 추론 스택 개선 덕분에 Codex 사용자에게 25% 더 빠른 속도로 제공됩니다. 이 모델은 NVIDIA GB200 NVL72 시스템과 함께 공동 설계되고 훈련되었습니다.
결론:
GPT-5.3-Codex의 출시는 코딩 Agent가 컴퓨터를 운영하고 작업을 End-to-End로 완료하는 도구로 코드를 사용하는 새로운 단계로 Codex를 이끌고 있습니다. 이는 코딩 Agent의 한계를 뛰어넘어 소프트웨어 구축 및 배포부터 연구, 분석, 복잡한 작업 실행에 이르는 광범위한 지식 작업을 가능하게 합니다.