IMG_0891.jpeg

오퍼스 4.8이 나왔네요. 맥스 요금제부터 조금씩 롤아웃 되나봐요.

이전 버전인 Opus 4.7을 기반으로 벤치마크 전반에서 성능을 끌어올렸으며, 가격은 동일하게 유지됩니다. 

가장 두드러진 개선점은 정직성(honesty입니다. AI 모델은 근거가 빈약한데도 진전을 이뤘다고 자신 있게 주장하며 결론으로 비약하는 문제가 있는데,  Opus 4.8은 불확실성을 더 잘 드러내고 근거 없는 주장을 덜 합니다. 평가 결과 자신이 작성한 코드의 결함을 그냥 넘기는 비율이 이전 버전보다 약 4배 낮았습니다. 

정렬(alignment) 측면에서도 진전이 있었습니다. Anthropic 정렬팀은 Opus 4.8이 사용자 자율성 지원과 사용자 최선의 이익을 위한 행동 같은 친사회적 특성에서 새로운 최고치를 기록했다고 평가했습니다. 기만이나 오용 협조 같은 오정렬 행동 비율도 Opus 4.7보다 크게 낮았습니다. 

가격은 Opus 4.7과 동일하게 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러이며, 향후 같은 성능을 더 저렴하게 제공하는 모델과, Opus를 뛰어넘는 차세대 모델도 준비 중이라고 밝혔습니다.