Introducing GPT-5.4
핵심 포인트
- 1GPT-5.4는 ChatGPT, API 및 Codex를 통해 출시된 OpenAI의 최신 Frontier 모델로, 전문적인 작업(professional work)을 위해 reasoning, coding 및 agentic workflow를 통합하여 성능을 향상시켰습니다.
- 2특히 OSWorld-Verified에서 인간 성능을 능가하는 컴퓨터 사용 능력, GDPval에서 전문가 수준의 지식 작업(knowledge work) 성능, 그리고 1M 토큰의 컨텍스트(context) 지원이 주요 개선 사항입니다.
- 3또한, tool search 기능으로 대규모 도구 생태계와의 효율적인 연동을 가능하게 하고, 향상된 steerability와 token efficiency를 통해 더 빠르고 신뢰할 수 있는 agent 개발을 지원합니다.
OpenAI는 2026년 3월 5일, 전문적인 작업을 위해 설계된 최신 프론티어 모델인 GPT-5.4를 ChatGPT, API, 그리고 Codex에 출시했습니다. 이 모델은 추론, 코딩, 에이전트(agentic) 워크플로우 분야에서의 최근 발전을 통합하여, 복잡한 실제 작업을 정확하고 효과적이며 효율적으로 수행할 수 있도록 합니다. 특히 GPT-5.3-Codex의 업계 최고 코딩 기능을 포함하면서도 도구, 소프트웨어 환경, 스프레드시트, 프레젠테이션, 문서 등 전문 작업 전반에 걸쳐 모델의 성능을 향상시켰습니다.
주요 개선사항 및 특징:
- 종합적인 능력 및 효율성:
- GPT-5.4는 이전 모델인 GPT-5.2 대비 훨씬 적은 토큰(token)을 사용하여 문제를 해결하는 매우 토큰 효율적인(token efficient) 추론 모델입니다. 이는 토큰 사용량 감소와 처리 속도 향상으로 이어집니다.
- API와 Codex에서는 최초로 네이티브(native)하고 최첨단 컴퓨터 사용 능력(computer-use capabilities)을 갖춘 범용 모델로, 에이전트(agents)가 컴퓨터를 조작하고 애플리케이션 전반에 걸쳐 복잡한 워크플로우를 수행할 수 있도록 합니다.
- 최대 1M 토큰(token)의 컨텍스트(context)를 지원하여 에이전트가 장기적인 작업을 계획, 실행 및 검증할 수 있습니다.
- 지식 작업(Knowledge Work):
- GPT-5.2의 일반 추론 능력을 기반으로 실제 전문 작업에서 더 일관되고 세련된 결과를 제공합니다.
- 44개 직업에 걸쳐 잘 정의된 지식 작업 생성을 테스트하는 GDPval 벤치마크에서 83.0%의 성과를 달성하여 GPT-5.2의 70.9%를 크게 능가합니다.
- 주니어 투자 은행 애널리스트가 수행하는 스프레드시트 모델링 작업의 내부 벤치마크에서 GPT-5.4는 87.3%의 평균 점수를 기록했으며, 이는 GPT-5.2의 68.4%보다 높습니다.
- 프레젠테이션 평가에서 GPT-5.4가 생성한 프레젠테이션은 인간 평가자들에게 GPT-5.2 대비 68.0% 더 선호되었습니다.
- 환각(hallucinations) 및 오류를 줄이는 데 중점을 두어, GPT-5.2 대비 개별 주장의 거짓일 가능성이 33% 낮고, 전체 응답에 오류가 포함될 가능성이 18% 낮습니다.
- 컴퓨터 사용 및 비전(Computer Use and Vision):
- OSWorld-Verified 벤치마크(스크린샷 및 키보드/마우스 동작을 통해 데스크톱 환경을 탐색하는 모델 능력 측정)에서 75.0%의 성공률을 달성하여 GPT-5.2의 47.3%를 훨씬 초과하고 인간 성능(72.4%)을 능가합니다.
- 웹 브라우징 테스트인 WebArena-Verified에서 67.3%의 성공률을 보였으며, Online-Mind2Web에서는 92.8%의 성공률을 달성했습니다.
- 일반적인 시각 인지 능력(visual perception capabilities)이 향상되었습니다. MMMU-Pro(시각적 이해 및 추론 테스트)에서 도구 없이 81.2%의 성공률을 기록했습니다.
- 문서 파싱(document parsing) 능력도 향상되어 OmniDocBench에서 0.109의 평균 오류(normalized edit distance)를 보였습니다(GPT-5.2는 0.140).
- 최대 10.24M 픽셀 또는 6000픽셀 최대 치수를 지원하는 'original image input detail' 수준을 도입하여 고해상도 이미지 처리 능력을 강화했습니다.
- 코딩(Coding):
- SWE-Bench Pro 벤치마크에서 GPT-5.3-Codex와 같거나 더 우수한 성능을 보이며, 모든 추론 노력(reasoning efforts) 수준에서 더 낮은 지연 시간(latency)을 제공합니다.
- Codex의
/fast mode는 GPT-5.4를 통해 최대 1.5배 빠른 토큰 속도(token velocity)를 제공하며, API를 통해서는priority processing으로 동일한 속도를 이용할 수 있습니다. - Playwright를 활용한 웹 및 일렉트론(Electron) 앱의 시각적 디버깅을 가능하게 하는 실험적인 Codex 스킬인
Playwright (Interactive)를 공개했습니다.
- 도구 사용(Tool Use):
- 도구 검색(Tool Search): API에서
tool search기능을 도입하여 모델이 많은 도구가 주어졌을 때 효율적으로 작동하도록 합니다. 모델이 도구를 사용할 필요가 있을 때만 해당 도구의 정의를 검색하여 컨텍스트(context)에 추가하므로, 토큰 사용량을 47%까지 줄일 수 있습니다. - 에이전트 도구 호출(Agentic Tool Calling): Toolathlon 벤치마크에서 GPT-5.2 대비 더 높은 정확도를 더 적은 턴(turns)으로 달성합니다.
- 향상된 웹 검색(Improved Web Search): BrowseComp 벤치마크(찾기 어려운 정보를 웹에서 지속적으로 검색하는 능력)에서 GPT-5.2 대비 17%p 향상된 82.7%를 기록했습니다.
- 도구 검색(Tool Search): API에서
- 조종 가능성(Steerability):
- ChatGPT의 GPT-5.4 Thinking은 길고 복잡한 쿼리에 대해 작업 시작 전
Chain-of-Thought (CoT)계획을 미리 제공하여 사용자가 응답 도중에 지시를 추가하거나 방향을 조정할 수 있도록 합니다. CoT controllability평가에서 GPT-5.4 Thinking은 CoT를 고의로 숨기는 능력이 낮음이 밝혀졌으며, 이는 안전성 측면에서 긍정적인 특성으로 평가됩니다.
- ChatGPT의 GPT-5.4 Thinking은 길고 복잡한 쿼리에 대해 작업 시작 전
- 안전(Safety):
- GPT-5.4는
Preparedness Framework에 따라High cyber capability로 분류되며, 이에 상응하는 사이버 안전 스택(cyber safety stack)과 보호 조치가 적용됩니다.
- GPT-5.4는
가격 및 가용성:
- GPT-5.4는 ChatGPT Plus, Team, Pro 사용자에게 GPT-5.4 Thinking으로 제공되며, GPT-5.4 Pro는 Pro 및 Enterprise 요금제에서 사용할 수 있습니다.
- API에서는
gpt-5.4및gpt-5.4-pro로 사용 가능합니다. - GPT-5.4는 GPT-5.2보다 토큰당 가격이 높지만, 향상된 토큰 효율성으로 인해 많은 작업에서 총 토큰 사용량을 줄일 수 있습니다.
- 입력(Input) 가격:
gpt-5.4는 1.75 / M tokens) - 출력(Output) 가격:
gpt-5.4는 14 / M tokens) gpt-5.4-pro는 입력 180 / M tokens입니다.
- 입력(Input) 가격:
- Codex의 GPT-5.4는 실험적으로 1M 컨텍스트 윈도우(context window)를 지원합니다.
GPT-5.4는 전문적인 작업 환경에서 사용자 경험을 혁신하고, 에이전트 기반 애플리케이션의 개발을 가속화하며, 복잡한 문제 해결 능력을 한 단계 끌어올리는 것을 목표로 합니다.