
SWE-Bench Pro 56.8% · OSWorld 64.7% (인간 72%) · NVIDIA GB200 NVL72 · Anthropic과 동시 출시
2026년 2월 5일, OpenAI가 GPT-5.3-Codex를 공식 출시했습니다. 같은 날 같은 시각(태평양시 오전 10시), Anthropic이 Claude Opus 4.6을 발표한 것과 정확히 맞물린 타이밍입니다. 슈퍼볼 광고까지 겹친 양사의 경쟁이 그 어느 때보다 뜨겁습니다.
TL;DR
| 모델명 | GPT-5.3-Codex |
| 출시일 | 2026년 2월 5일 |
| 가격 | API 가격 미공개 (ChatGPT 유료 플랜으로 사용 가능) |
| 속도 | GPT-5.2-Codex 대비 25% 빠름 |
| 접근 방법 | Codex 앱, CLI, IDE 확장, 웹 (API는 곧 공개) |
| 핵심 특징 | 자기 자신을 만든 최초의 모델, 범용 컴퓨터 에이전트로 진화, 사이버보안 High 등급 |
| 주요 벤치마크 | Terminal-Bench 2.0 77.3%, SWE-Bench Pro 56.8%, OSWorld 64.7%, GDPval 70.9% |
| 하드웨어 | NVIDIA GB200 NVL72에서 학습·서빙 |
"스스로를 만든 최초의 모델"
이번 발표에서 가장 주목받는 문장은 단연 이것입니다.
"GPT-5.3-Codex is our first model that was instrumental in creating itself."
OpenAI는 GPT-5.3-Codex의 초기 버전을 활용해 모델 자신의 학습을 디버깅하고, 배포를 관리하고, 테스트 결과와 평가를 진단했다고 밝혔습니다. Sam Altman은 X에서 "5.3-Codex를 써서 5.3-Codex를 더 빨리 출시할 수 있었다는 것 자체가 앞으로 올 일의 신호"라고 말했습니다.
구체적으로 어떤 일을 했을까요?
- 리서치 팀: 학습 과정 모니터링 및 디버깅, 학습 전반의 패턴 추적, 상호작용 품질 심층 분석, 수정 사항 제안 및 연구원용 분석 앱 구축
- 엔지니어링 팀: 모델 하네스(harness) 최적화, 컨텍스트 렌더링 버그 식별, 낮은 캐시 히트율의 근본 원인 조사, 트래픽 스파이크 시 GPU 클러스터 동적 스케일링
- 데이터 사이언스 팀: 새로운 데이터 파이프라인 구축, 시각화 도구 개발, 수천 개의 데이터 포인트에 대한 핵심 인사이트를 3분 이내에 요약
- 알파 테스트: 자체 성능 개선 사항 분석, 정규식 분류기를 만들어 세션 로그 전체에서 명확화 요청·사용자 응답·작업 진행도의 빈도를 추정
OpenAI의 Preparedness Framework에 따르면 GPT-5.3-Codex는 "AI 자기개선(AI self-improvement)" 항목에서는 High 등급에 도달하지 않았다고 명시하고 있습니다. 즉, 학습 과정을 도운 것은 맞지만, 완전히 자율적으로 다음 세대를 만들어내는 수준은 아직 아니라는 뜻입니다.
벤치마크 성능: Terminal-Bench에서 압도적 격차
GPT-5.3-Codex는 코딩, 에이전트, 지식 업무 벤치마크 전반에서 새로운 최고 기록을 세웠습니다. 특히 Terminal-Bench 2.0에서의 도약이 눈에 띕니다.
주요 벤치마크 비교

SWE-Bench Pro에서의 개선은 점진적입니다. 56.4% → 56.8%로 0.4%p 상승에 그쳤습니다. 다만 OpenAI는 이 점수를 이전 모델보다 적은 토큰으로 달성했다는 점을 강조합니다. 토큰당 비용을 고려하면 패치 하나당 실질 비용이 줄어든다는 의미입니다.

Terminal-Bench 2.0에서 77.3%는 경이적입니다. 전작 GPT-5.2-Codex(64.0%) 대비 13.3%p 점프이며, 같은 날 출시된 Claude Opus 4.6(65.4%)을 11.9%p 앞섭니다. 한 사용자는 이를 "absolutely demolished"라고 표현했습니다. 터미널 기반 실전 작업 (커맨드라인 조작, 파일 관리, 시스템 설정 등) 에서 GPT-5.3 Codex가 현재 업계 최강임을 보여줍니다.

OSWorld에서 인간 수준에 근접합니다. 38.2% → 64.7%로 거의 두 배 가까이 뛰었습니다. 인간 기준이 약 72%이므로, 시각적 데스크톱 환경에서의 생산성 작업 수행 능력이 인간과 비교 가능한 수준에 진입했습니다.
모든 벤치마크는 xhigh reasoning effort로 측정되었으며, 다른 모델과 비교 시 이 점을 고려해야 합니다.
코딩 에이전트에서 범용 컴퓨터 에이전트로
OpenAI가 이번 발표에서 가장 강조한 메시지는 Codex의 정체성 전환입니다.
"Codex goes from an agent that can write and review code to an agent that can do nearly anything developers and professionals can do on a computer."
이제 Codex가 처리할 수 있는 업무 범위는 다음과 같습니다:
- 코드 작성, 리뷰, 디버깅 (기존)
- 배포, 모니터링, 인프라 관리
- PRD(제품 요구사항 문서) 작성
- 카피 편집, 사용자 리서치
- 슬라이드 덱 제작, 스프레드시트 분석
- 테스트·메트릭스 분석
GDPval 벤치마크에서 70.9%의 승/무 비율을 기록한 것이 이를 뒷받침합니다. GDPval은 44개 직업군에 걸친 실제 지식 업무 태스크를 측정하며, 금융 자문 슬라이드, 소매업 교육 문서, NPV 분석 스프레드시트, 패션 프레젠테이션 등 다양한 실무 산출물을 평가합니다.
장기 실행 작업 & 실시간 상호작용
GPT-5.3-Codex의 또 다른 핵심 개선은 멀티데이(수일간) 작업 수행과 실시간 스티어링입니다.
기존에는 에이전트가 결과를 내놓을 때까지 기다려야 했다면, 이제는 작업 중간에 질문하고, 트레이드오프를 논의하고, 방향을 바꿔도 컨텍스트가 유지됩니다. OpenAI는 이를 "동료와 함께 일하는 것과 같다"고 표현합니다.
이를 시연하기 위해 OpenAI는 GPT-5.3-Codex에게 두 개의 복잡한 게임을 수백만 토큰에 걸쳐 자율적으로 구축하게 했습니다:
- 레이싱 게임: 여러 레이서, 8개 맵, 스페이스바로 사용하는 아이템까지 포함
- 다이빙 게임: 다양한 리프 탐험, 물고기 수집(코덱스 도감 채우기), 산소·수압·위험 요소 관리
"develop web game"이라는 스킬과 "fix the bug", "improve the game" 같은 일반적인 후속 프롬프트만으로 이 결과가 나왔다는 점이 인상적입니다.
일상적인 웹 개발에서도 변화가 있습니다. 간단하거나 구체적이지 않은 프롬프트를 넣어도 더 기능적이고 합리적인 기본값으로 완성도 높은 결과물을 내놓습니다. 동적 가격 표시, 추천 캐러셀 같은 기능이 별도 요청 없이 자동으로 포함됩니다.
사이버보안: 최초의 "High" 등급 모델
GPT-5.3-Codex는 OpenAI의 Preparedness Framework에서 사이버보안 영역 최초의 High capability 모델로 분류되었습니다. 또한 소프트웨어 취약점을 식별하도록 직접 훈련된 최초의 모델이기도 합니다.
OpenAI는 "엔드투엔드로 사이버 공격을 자동화할 수 있다는 확정적 증거는 없지만, 예방적 접근 방식을 취하고 있다"고 밝혔습니다.
이에 따라 다음과 같은 안전 장치를 배포했습니다:
- Trusted Access for Cyber: 방어적 사이버보안 연구를 가속화하기 위한 파일럿 프로그램
- Aardvark: OpenAI의 보안 연구 에이전트, 비공개 베타 확대 (Codex Security 제품 라인의 첫 번째 제품)
- $1,000만 API 크레딧: 사이버보안 방어 연구를 위한 Cybersecurity Grant Program
- 이중 사용(Dual-use) 안전 훈련: 모델 레벨에서의 안전 장치
- 자동 모니터링 + 위협 인텔리전스 연동 집행 파이프라인
Sam Altman은 X에서 "이것은 우리의 preparedness framework에서 사이버보안 'high'를 달성한 최초의 모델이다. Trusted Access 프레임워크를 시범 운영하고, 사이버 방어 가속화를 위해 1,000만 달러의 API 크레딧을 투자한다"고 강조했습니다.
흥미롭게도 같은 날 Anthropic도 Claude Opus 4.6이 오픈소스 코드에서 500건 이상의 제로데이 취약점을 발견했다고 발표했습니다. 양사 모두 AI의 사이버보안 능력을 강조하면서도 이중 사용 위험을 경고하는 유사한 패턴을 보이고 있습니다.
25% 빨라진 추론 속도
인프라 및 추론 스택 개선을 통해 GPT-5.3-Codex는 전작 대비 25% 빠른 추론 속도를 달성했습니다.
- NVIDIA GB200 NVL72 시스템에서 학습·서빙
- SWE-Bench Pro 기준, 이전 모든 모델보다 적은 토큰으로 동등 이상의 성능 달성
- 장시간 작업에서 더 빈번한 진행 상황 업데이트 제공
토큰 사용량 감소 + 속도 향상의 조합은 비용 측면에서 상당한 개선입니다. 토큰당 과금 체계에서 동일한 결과를 더 적은 토큰으로, 더 빠르게 얻을 수 있다는 뜻이니까요. 다만 API 가격은 아직 공개되지 않았습니다.
UX 개선: 실제 개발자 고통 해결
벤치마크만큼 중요한 것이 일상 개발 경험의 개선입니다. OpenAI는 다음과 같은 실무 문제들을 해결했다고 밝혔습니다:
- 코드베이스 일관성(Codebase Coherence): 대규모 리포지토리 작업 시 맥락 유지 능력 향상
- Deep Diffs: 추론 과정의 투명성을 위한 상세한 변경 내역
- Lint 루프 수정: 린트 오류를 고치다가 무한 루프에 빠지는 문제 해결
- 버그 설명 강화: 피상적인 버그 설명 대신 깊이 있는 분석 제공
- Flaky 테스트 조기 종료 방지: 불안정한 테스트에서 "완료" 상태로 조기 종료하는 문제 해결
이런 개선들은 벤치마크 숫자에는 잘 드러나지 않지만, 실제로 코드 리뷰어의 시간을 아끼고 개발 사이클을 단축시키는 데 직접적으로 기여합니다.
접근 방법 및 가격
항목 상세
| ChatGPT | Plus, Pro, Business, Enterprise 유료 플랜 |
| Codex 앱 | 사용 가능 |
| CLI | 사용 가능 |
| IDE 확장 | 사용 가능 |
| 웹 | 사용 가능 |
| API | 곧 공개 예정 (현재 미제공) |
API 가격은 아직 발표되지 않았습니다. ChatGPT 유료 플랜 사용자는 모델 선택기에서 GPT-5.3-Codex를 선택할 수 있습니다.
주의할 점: API가 아직 열리지 않았다는 것은 엔터프라이즈 자동화 워크플로우에 즉시 통합하기 어렵다는 의미입니다. OpenAI는 사이버보안 세이프가드를 이유로 신중한 API 롤아웃을 예고하고 있으며, 3월 2026년까지 무료 티어 확대도 가능할 것으로 관측됩니다.
Anthropic vs OpenAI: 같은 날, 같은 시각
이번 동시 출시의 맥락을 이해하려면 양사 간 치열해진 경쟁 구도를 봐야 합니다.
VentureBeat에 따르면, 양사는 2월 5일 태평양시 오전 10시에 동시 발표를 예정하고 있었으나 Anthropic이 15분 먼저 발표를 올렸고, OpenAI가 곧바로 뒤따랐습니다. 이번 주말에는 양사 모두 슈퍼볼 광고를 내보낼 예정이며, Anthropic은 OpenAI가 무료 사용자 대상으로 ChatGPT에 광고를 도입한 결정을 조롱하는 내용의 광고를 준비한 것으로 알려져 있습니다.
양사 제품을 벤치마크 기준으로 비교하면:
| 벤치마크 | GPT 5.3 codex | Opus 4.6 | |
| Terminal-Bench 2.0 | 77.3% | 65.4% | OpenAI (+11.9%p) |
| OSWorld | 64.7% | 72.7% | Anthropic (+8.0%p) |
| GDPval-AA | 70.9% (승/무) | Elo 1606 | 직접 비교 어려움 |
| ARC-AGI 2 | — | 68.8% | Anthropic |
Terminal-Bench에서는 GPT-5.3 Codex가 압도적이고, OSWorld과 ARC-AGI 2에서는 Opus 4.6이 앞서는 구도입니다. 각 회사의 강점이 다른 영역에 있으며, "어느 모델이 낫다"는 단순한 결론보다는 어떤 작업에 어떤 모델을 쓸 것인가가 중요해지고 있습니다.
이전 모델과의 호환성
OpenAI는 GPT-5.1, GPT-5, GPT-4.1의 API 폐지 계획이 없다고 밝혔습니다. 기존 모델에서 마이그레이션할 때는 충분한 사전 공지가 있을 것이라고 합니다.
다만 GPT-5.3-Codex는 현재 Codex 전용 인터페이스에서만 사용 가능하며, 범용 API 접근은 추후 제공됩니다. 기존 GPT-5.2를 API로 사용하는 팀은 당장 전환할 필요는 없지만, Terminal-Bench나 OSWorld 유형의 에이전트 작업이 중심이라면 Codex 인터페이스를 통한 파일럿 테스트를 권장합니다.
한 줄 요약
GPT-5.3-Codex는 코딩 에이전트에서 컴퓨터를 사용하는 범용 에이전트로의 전환을 선언한 모델입니다. Terminal-Bench 77.3%라는 숫자가 인상적이지만, 더 중요한 것은 이 모델이 자기 자신의 학습을 디버깅하고, 수일간 자율적으로 복잡한 앱을 만들고, 사이버보안 High 등급을 최초로 받은 모델이라는 점입니다.
코딩을 넘어 전체 소프트웨어 라이프사이클과 지식 업무 전반을 커버하겠다는 OpenAI의 야심이 구체적인 형태를 갖추고 있습니다.
이 글은 OpenAI 공식 블로그, System Card, NBC News, VentureBeat, TechCrunch, The New Stack, Neowin, MarkTechPost, MacObserver 등의 보도를 종합하여 작성되었습니다. 벤치마크 수치는 xhigh reasoning effort 기준이며, 실제 사용 환경에서의 성능은 다를 수 있습니다.
OpenAI 공식 블로그 GPT 5.3-Codex 발표: https://openai.com/index/introducing-gpt-5-3-codex/
Introducing GPT-5.3-Codex
GPT-5.3-Codex is a Codex-native agent that pairs frontier coding performance with general reasoning to support long-horizon, real-world technical work.
openai.com
'Vibe coding' 카테고리의 다른 글
| Claude Opus 4.6 출시: ARC-AGI 2 68.8% · 1M 토큰 컨텍스트 · Agent Teams (0) | 2026.02.06 |
|---|---|
| Claude Sonnet 5 (Fennec) 출시 임박 총정리 (2) | 2026.02.05 |
| Oh-My-ClaudeCode 설치 및 사용법 (0) | 2026.02.02 |
| OpenCode와 Oh-my-opencode 설치 가이드 (0) | 2026.01.29 |
| Vibe coding으로 30분만에 게임 만들기 (하와이안 피자 게임) (0) | 2026.01.24 |