클로드 소넷 4.6이 발표되었습니다.

이는 지금까지의 소넷 모델 중 가장 강력한 모델로, 코딩, 컴퓨터 사용, 장문 추론, 에이전트 플래닝, 지식 작업, 디자인 전반이 모두 업그레이드되었습니다. 베타 기능이지만, 최대 1M의 컨텍스트 윈도우도 지원하기 때문에 기존 200K 윈도우에 비해 더 긴 맥락을 유지할 수 있습니다. 가격은 소넷답게 기존 4.5의 가격과 동일합니다.

Opus 4.5 (4.6이 아닙니다!) 보다도 지시 따르기, 과도한 설계 감소, "게으름"과 환각, 허위 성공 주장 감소 면에서 더 낫다는 피드백이 나왔습니다. 특히나 놀라웠던 점은 자체 벤치마크 상으로 재무 분석과 오피스 도구 사용 측면에선 Opus 4.6을 뛰어 넘었다는 것입니다. 컴퓨터 유즈나 툴 사용 능력도 Opus 4.5 이상, 4.6 이하로 설계되었습니다.

그리고 https://coevo.space/post/56 와 연계되는 내용으로, 소넷 4.6 API는 이제 web fetch툴과 web search 툴이 결과를 필터링 및 가공하기 때문에, 품질과 토큰 효율이 향상된 것도 특징입니다.

이제 Opus 4.5는 더이상 쓸 일이 없겠네요. 정확히 딱 전반적인 성능이 Opus 4.5 < Sonnet 4.6 < Opus 4.6 으로 잘 배치된 것 같습니다.
마치 50만원만 더 주면 더 높은 등급의 차를 살 수 있는 것처럼, 조금 무리해서 Opus를 프로 플랜에서 사용하고 있었는데.... 이제 아주 특별한 경우 아닌 이상 소넷을 쓰는게 토큰 한도 면에서 훨씬 좋아보이네요. (물론 벤치상 성능은 오퍼스가 더 우위지만요)

저는 당분간 오퍼스를 탈출하고, 소넷 4.6을 쓸 생각입니다. 이유는 너무 비싸서...