나온지 얼마 안되어서요, 본 글은 직접 사용해본 후기가 아닙니다. 다만 자료에서 그들이 말하는 개발의 방향성과, 소개되는 부분, 그리고 레딧을 포함한 외국 커뮤니티나 블로그 등을 참고하여 정리한 글입니다.


자료 출처는 아래와 같습니다.

Opus 4.6: https://www.anthropic.com/news/claude-opus-4-6 , https://platform.claude.com/docs/en/about-claude/models/overview
GPT 5.3 Codex: https://openai.com/index/introducing-gpt-5-3-codex/

비교표

\ Opus 4.6 GPT 5.3 Codex
Terminal-Bench 2.0 65.4% 77.3%
SWE-Bench Pro 미공개 56.8%
OSWorld-Verified 72.7% 64.7%
GDPval GPT-5.2 +144 elo GPT-5.2 와 동일(70.9%)
콘텍스트 윈도우 1,000,000 (Beta) / 200,000 400,000(추정)

범용성의 Claude Opus 4.6

클로드 Opus 4.6은 오래, 깊이 생각합니다. 콘텍스트 윈도우가 1M이기 때문에 더 큰 문맥을 안정적으로 처리할 수 있습니다(200K 이후론 비싸지지만요). 200K 기준으로, Long context retrieval이 오퍼스 4.6이 93%, 소넷 4.5가 10.8%일 정도로 큰 차이가 납니다. 1M 기준으론 76% vs 18.5%입니다.

그 외에 적응형 사고(Adaptive Thinking)을 도입하여, 최소-중간-높음-최대의 사고 단계 중 기본 노력 수준인 '높음'에서 모델은 자동으로 이를 조정하면서 사용하고, 개발자는 수동으로 노력 수준을 조정할 수도 있습니다.

토큰 비용은 기본: $5/M 입력, $25/M 출력입니다. 코덱스와 같습니다만, 1M 콘텍스트 윈도우를 사용할 땐 200K 이후론 Input: $10 / MTok, Output: $37.50 / MTok 입니다.

속도와 생산성의 GPT 5.3 Codex

GPT 5.3 코덱스는 기존 모델 대비 25%나 빨라졌다고 합니다. 안그래도 Opus에 비하면 빨랐던 것으로 체감하고 있는데, 더 빨라졌단 말이죠.

설정 > 일반 > Follow-up behavior 기능을 켜면, "실시간 스티어링"이 가능합니다(작업 중 진행 상황 확인, 질문/토론/수정). 클로드 코드에서 되던거랑 뭐가 다른진 잘 모르겠습니다. (즉, 작업중에 실시간으로 개입해서 질문할 수 있다는데... 클로드 코드도 되거든요. 외국 글 몇개 찾아보니 더 동료처럼 쓸 수 있도록 실시간성이 강하다는 이야기도 있습니다.)

홍보하는 또다른 내용으로는 비즈니스 문서 생성(PPT, 스프레드시트 등)입니다.

소프트웨어 개발 과정에 코딩만 있는 것은 아니므로, 코딩 전문 모델일지라도 개발 사이클 내에 있는 다른 작업들(문서화 등)도 쉽게 할 수 있다고 합니다.

토큰 비용은 기본: $5/M 입력, $25/M 출력입니다. 클로드와 같습니다.


실제 사용 후기를 봐야겠지만, 터미널 작업, 실시간 스티어링 사용 및 짧은 시간 내 높은 생산성을 위해서라면 Codex를,
대규모 컨텍스트, 지식노동(GDPval), 장기 에이전트, 툴콜링을 중요시 한다면 Opus를 선택하는게 좋지 않나 싶습니다.