본문 바로가기

Vibe coding

Claude Opus 4.6 출시: ARC-AGI 2 68.8% · 1M 토큰 컨텍스트 · Agent Teams

Terminal-Bench 65.4% · GDPval-AA 업계 1위 · Opus 4.5와 동일 가격 · 적응형 사고(Adaptive Thinking)

2026년 2월 6일, Anthropic이 차세대 플래그십 모델 Claude Opus 4.6을 공식 출시했습니다. "더 똑똑한 모델을 업그레이드합니다(We're upgrading our smartest model)"라는 한 문장으로 시작된 발표이지만, 그 안에 담긴 변화는 상당합니다.


TL;DR

모델명 Claude Opus 4.6
모델 ID claude-opus-4-6 
출시일 2026년 2월 5일
가격 \$5 / 1M input · \$25 / 1M output (Opus 4.5와 동일)
컨텍스트 1M 토큰 (베타), 기본 200K
최대 출력 128,000 토큰
핵심 특징 Agent Teams, Adaptive Thinking, Compaction API, PowerPoint 통합
주요 벤치마크 ARC-AGI 2 68.8%, Terminal-Bench 2.0 65.4%, GDPval-AA Elo 1606

무엇이 달라졌나: Opus 4.5 → 4.6

Opus 4.5가 2025년 11월에 출시된 지 불과 3개월 만의 업데이트입니다. 버전 번호의 변화는 작지만, 내용은 결코 작지 않습니다.

Anthropic의 제품 총괄 Scott White는 "지난 1년간 Claude는 작은 태스크에 답하는 모델에서 실제 의미 있는 업무를 넘길 수 있는 존재로 바뀌었다. Opus 4.6은 그 전환을 사용자에게 구체적으로 체감시키는 모델"이라고 설명했습니다.

핵심 개선 영역을 정리하면 다음과 같습니다.

코딩: 더 신중한 계획 수립, 대규모 코드베이스에서의 안정적 작동, 자체 실수를 잡아내는 디버깅 능력 향상. Terminal-Bench 2.0에서 65.4%(Opus 4.5 대비 +5.6%p)를 달성하며 GPT-5.2와 Gemini 3 Pro를 모두 앞섰습니다.

지식 업무(Knowledge Work): GDPval-AA에서 Elo 1606점을 기록하며 OpenAI GPT-5.2(1462)를 144점, 전작 Opus 4.5(1416)를 190점 차이로 제쳤습니다. 금융 분석, 법률 문서 검토, 리서치 등 실무 영역에서의 성능이 대폭 향상되었습니다.

추론(Reasoning): ARC-AGI 2 벤치마크에서 68.8%를 달성했습니다. 이 벤치마크는 PhD 수준 전문 태스크가 아닌, "인간에게는 쉽지만 AI에게는 매우 어려운 문제"를 측정합니다. Opus 4.5의 37.6%에서 거의 두 배 가까이 뛰어올랐고, GPT-5.2(54.2%)와 Gemini 3 Pro(45.1%)를 큰 폭으로 앞섭니다.

장문 컨텍스트: MRCR v2(100만 토큰 내 8개 숨겨진 정보 찾기) 벤치마크에서 76%를 기록했습니다. Sonnet 4.5의 18.5%와 비교하면 질적으로 완전히 다른 수준입니다.


벤치마크 성능 상세 비교

지식 업무 (GDPval-AA)

에이전틱 검색 (BrowseComp)

코딩 (Coding-Bench 2.0)

추론 (Humanity 's Last Exam)

장문 컨텍스트 검색 (MRCR-v2)

장문 컨텍스트 추론 (MRCR-v2)

총 정리

 

 

주목할 점은 SWE-Bench Verified에서는 소폭 하락(regression)이 보고되었다는 것입니다. The New Stack에 따르면 MCP Atlas 벤치마크에서도 비슷한 현상이 있었으나, 유사한 에이전트 코딩 벤치마크(Terminal-Bench, t2-bench)에서는 크게 앞서는 것으로 보아, 특정 벤치마크 최적화보다는 실전 작업 능력에 집중한 결과로 해석됩니다.


핵심 새 기능

1. Agent Teams (Claude Code)

Claude Code에서 가장 눈에 띄는 신기능입니다. 하나의 에이전트가 순차적으로 작업하는 대신, 여러 에이전트가 역할을 나눠 병렬로 협업합니다.

작동 방식은 다음과 같습니다. 프론트엔드 변경을 담당하는 에이전트, 백엔드 로직을 처리하는 에이전트, 테스트를 관리하는 에이전트가 동시에 작업하면서 서로의 결과를 조율합니다. Anthropic의 Scott White는 이를 "유능한 인간 팀이 병렬로 협업하는 것과 같다"고 표현했습니다.

NBIM(노르웨이 국부펀드)의 AI/ML 총괄 Stian Kirkeberg는 "40건의 사이버보안 조사에서 Opus 4.6이 38건에서 1위를 차지했다. 각 모델이 최대 9개의 서브에이전트와 100개 이상의 도구 호출을 수행하는 동일한 에이전트 하네스에서 엔드투엔드로 실행되었다"고 밝혔습니다.

현재 리서치 프리뷰 단계이며, Claude Code 내에서 사용할 수 있습니다.

2. Adaptive Thinking (적응형 사고)

기존에는 Extended Thinking을 켜거나 끄는 이진 선택만 가능했습니다. Opus 4.6부터는 모델이 맥락 단서를 읽고 스스로 사고 깊이를 조절합니다.

개발자는 effort 파라미터를 통해 4단계(low, medium, high, max)로 제어할 수 있습니다. 기본값은 high이지만, Anthropic은 모델이 간단한 문제에서 과도하게 생각하는(overthinking) 경향이 있으므로, 단순한 태스크에서는 medium으로 낮출 것을 권장합니다.

이는 비용과 지연시간의 최적화에 직접적으로 연결됩니다. 간단한 분류 작업에 max effort를 쓸 이유가 없으니까요.

3. 1M 토큰 컨텍스트 윈도우

Opus 계열 최초로 100만 토큰 컨텍스트가 지원됩니다(베타). 200K 토큰을 초과하는 요청에는 프리미엄 요금이 적용됩니다(input $10, output $37.5 / 1M 토큰).

단순히 창 크기만 늘린 것이 아니라, MRCR v2에서 76%를 기록하며 장문에서의 실질적 정보 검색 능력이 크게 향상되었습니다. 전체 코드베이스나 대량의 법률 문서를 한 번에 입력하고 의미 있는 분석을 수행할 수 있는 수준입니다.

4. Compaction API (컨텍스트 압축)

장시간 대화에서 컨텍스트 한계에 부딪히는 문제를 해결하기 위해, 모델이 오래된 컨텍스트를 자동 요약하여 공간을 확보합니다. 이를 통해 에이전트가 컨텍스트 제한 없이 더 긴 작업을 수행할 수 있게 됩니다. 베타로 제공됩니다.

5. 128K 출력 토큰

최대 출력이 128,000 토큰으로 확장되었습니다. 대규모 코드 생성이나 긴 보고서를 여러 번 나눠 요청할 필요 없이 한 번에 완료할 수 있습니다.

6. Claude in PowerPoint (리서치 프리뷰)

Claude가 PowerPoint에 직접 사이드 패널로 통합되었습니다. 기존에는 Claude가 프레젠테이션을 생성하면 파일을 옮겨야 했지만, 이제 PowerPoint 내에서 직접 슬라이드를 만들고 편집할 수 있습니다.

모델이 기존 슬라이드의 레이아웃, 폰트, 템플릿을 읽어서 기업 디자인 가이드라인에 맞는 슬라이드를 생성합니다. 데이터 기반인 Excel과 달리, 색상·텍스트 배치 등 디자인 판단이 필요한 PowerPoint에서 이를 구현한 것이 기술적으로 도전적이었다고 Anthropic 측은 설명합니다.

Max, Team, Enterprise 플랜 사용자에게 베타로 제공됩니다.


 

가격 정책

Opus 4.5와 완전히 동일한 가격을 유지합니다.

항목 가격

Input (기본) $5 / 1M tokens
Output $25 / 1M tokens
Input (200K+ 초과, 롱 컨텍스트) $10 / 1M tokens
Output (200K+ 초과, 롱 컨텍스트) $37.50 / 1M tokens
미국 데이터 레지던시 옵션 +10% 추가

 

API 사용 시 claude-opus-4-6으로 호출하면 됩니다. 날짜 접미사가 없는 단순화된 네이밍이 적용되었습니다. Anthropic API, AWS Bedrock, Google Vertex AI, Microsoft Foundry에서 모두 사용 가능합니다.

Batch API 50% 할인과 프롬프트 캐싱 할인은 기존과 동일하게 적용됩니다.


안전성(Safety)

Opus 4.6은 자동화된 행동 감사(behavioral audit)에서 업계 최저 수준의 부적절 행동(misalignment) 점수를 기록했습니다.

모델 Misalignment 점수 (10점 만점, 낮을수록 좋음)

Opus 4.6 ~1.8
Opus 4.5 ~1.9
Haiku 4.5 ~2.2
Sonnet 4.5 ~2.7
Opus 4.1 ~4.3

기만, 아첨, 사용자 기만 조장, 남용 협조 등의 항목에서 전작 Opus 4.5보다 개선되거나 동등한 수준을 유지하며, "최근 Claude 모델 중 합리적인 요청을 과도하게 거부하는(over-refusal) 비율이 가장 낮다"고 Anthropic은 밝혔습니다.


 

이 글은 Anthropic 공식 발표, TechCrunch, CNBC, CNN, The New Stack, Axios, The Decoder, IT Pro 등의 보도를 종합하여 작성되었습니다. 지금 Claude code나 Claude Desktop을 사용하시면 Opus 4.6을 바로 사용하실 수 있습니다.

 

앤트로픽 공식 발표: https://www.anthropic.com/news/claude-opus-4-6

 

Claude Opus 4.6

We’re upgrading our smartest model. Across agentic coding, computer use, tool use, search, and finance, Opus 4.6 is an industry-leading model, often by wide margin.

www.anthropic.com