Introducing GPT-5.3-Codex-Spark
News

Introducing GPT-5.3-Codex-Spark

2026.02.13
·Service·by 권준호
#AI#Codex#LLM#OpenAI#Real-time coding

핵심 포인트

  • 1OpenAI는 실시간 코딩에 최적화된 초고속 모델인 GPT-5.3-Codex-Spark를 출시했으며, 이는 Cerebras의 Wafer Scale Engine 3에서 구동됩니다.
  • 2이 모델은 SWE-Bench Pro와 Terminal-Bench 2.0 벤치마크에서 기존 모델 대비 훨씬 짧은 시간에 강력한 성능을 입증하며, 개발자가 모델과 실시간으로 상호작용하며 신속하게 반복 작업을 수행하도록 설계되었습니다.
  • 3Codex-Spark를 통해 클라이언트-서버 응답 스트림 최적화, WebSocket 연결 도입 등으로 전반적인 모델의 레이턴시(latency)를 크게 개선하여 모든 모델에 이점을 제공합니다.

OpenAI는 2026년 2월 12일, 실시간 코딩에 최적화된 초고속 모델인 GPT-5.3-Codex-Spark를 발표했다. 이 모델은 GPT-5.3-Codex의 소형 버전으로, 1월에 발표된 Cerebras와의 파트너십의 첫 이정표이다.

GPT-5.3-Codex-Spark는 실시간 코딩 경험을 제공하기 위해 설계되었으며, 특히 Codex 앱 내에서 표적화된 수정(targeted edits), 로직 재구성(reshaping logic), 인터페이스 개선(refining interfaces)과 같은 즉각적인 작업에 중점을 둔다. 이는 장시간 작업(long-running tasks)을 자율적으로 수행하는 기존의 최신 프론티어 모델들과 보완적인 역할을 한다.

주요 특징 및 성능:

  • 속도: 초저지연 하드웨어에서 초당 1000개 이상의 토큰을 생성하며 거의 즉각적인 응답을 제공한다.
  • 작업 방식: 속도에 최적화되어 가벼운(lightweight) 작업 스타일을 지향한다. 최소한의 표적화된 수정(minimal, targeted edits)을 수행하며, 요청하지 않으면 자동으로 테스트를 실행하지 않는다.
  • Context Window: 128k context window를 지원한다.
  • 입력 유형: 현재 텍스트 전용(text-only) 모델이다.
  • 벤치마크 성능: SWE-Bench Pro와 Terminal-Bench 2.0 (agentic software engineering capability 벤치마크)에서 GPT-5.3-Codex에 비해 훨씬 짧은 시간 내에 강력한 성능을 보여주었다.

핵심 방법론 및 기술적 세부 사항:
Codex-Spark의 초고속 성능은 모델 자체의 최적화뿐만 아니라 전체 스택에 걸친 기술적 개선을 통해 달성되었다.

  1. 모델 최적화: GPT-5.3-Codex-Spark 자체는 빠른 추론(fast inference)에 최적화된 소형 모델이다.
  2. 하드웨어 통합: Cerebras의 Wafer Scale Engine 3 (WSE3)에서 구동된다. WSE3는 고속 추론을 위한 전용 AI 가속기(purpose-built AI accelerator)로, Codex에 지연 시간 우선(latency-first) 서빙 계층(serving tier)을 제공한다. 이는 기존 GPU 기반 인프라와 상호 보완적으로 작동하며, GPU는 비용 효율적인 토큰 생성에, Cerebras는 극도로 낮은 지연 시간(extremely low latency)이 요구되는 워크플로우에 강점을 가진다. 두 기술은 단일 워크로드에서 최상의 성능을 위해 결합될 수 있다.
  3. 엔드-투-엔드(End-to-End) 지연 시간 개선:
    • 파이프라인 최적화: 전체 요청-응답 파이프라인(request-response pipeline)에서 엔드-투-엔드 지연 시간을 줄이기 위한 개선이 이루어졌다.
    • 스트리밍 효율성: 클라이언트에서 서버로, 그리고 다시 돌아오는 응답 스트리밍(response streaming) 방식이 간소화되었다.
    • 추론 스택 재설계: 추론 스택(inference stack)의 핵심 부분이 재작성되었다.
    • 세션 초기화: 첫 번째 가시적인 토큰(first visible token)이 더 빨리 나타나도록 세션 초기화 방식이 개선되었다.
    • 지속적인 WebSocket 연결: 지속적인 WebSocket 연결(persistent WebSocket connection) 도입과 Responses API 내부의 최적화를 통해 다음과 같은 개선이 이루어졌다:
      • 클라이언트/서버 왕복(client/server roundtrip)당 오버헤드 80% 감소.
      • 토큰당 오버헤드(per-token overhead) 30% 감소.
      • 첫 토큰까지의 시간(Time-to-First-Token, TTFT) 50% 감소.
이 WebSocket 경로는 Codex-Spark에 기본으로 활성화되어 있으며, 곧 모든 모델에 확대 적용될 예정이다.

지연 시간 추정식:
모델의 작업 완료 시간(Duration)은 다음 요소들의 합으로 추정된다:
Duration=(output tokens÷sampling speed)+(prefill tokens÷prefill speed)+total tool execution time+total network overhead\text{Duration} = (\text{output tokens} \div \text{sampling speed}) + (\text{prefill tokens} \div \text{prefill speed}) + \text{total tool execution time} + \text{total network overhead}

가용성 및 향후 계획:
Codex-Spark는 ChatGPT Pro 사용자들을 위한 연구 프리뷰(research preview)로 Codex 앱, CLI, VS Code 확장 프로그램에서 출시된다. 특수 하드웨어에서 실행되므로 별도의 속도 제한(rate limit)이 적용된다. 또한, 소수의 디자인 파트너(design partners)에게 API를 통해 접근 권한이 부여되었다.

OpenAI는 Codex-Spark를 초고속 모델 제품군의 첫 단계로 보고 있으며, 개발자 커뮤니티의 피드백을 통해 더 큰 모델, 더 긴 컨텍스트 길이, 멀티모달 입력(multimodal input)을 포함한 더 많은 기능을 도입할 예정이다. 궁극적으로 Codex는 장기적인 추론 및 실행 모드와 실시간 협업 모드를 혼합하여 사용자가 아이디어를 실제 소프트웨어로 구현하는 과정을 더욱 자연스럽고 효율적으로 만들고자 한다.