개요
클로드 소네 4.6이 오퍼스 4.6 출시에 이어 공개됐다. 많은 사람들이 소네 5를 기대했지만, 엔트로픽은 전략적으로 소네 4.6을 먼저 출시했으며 이번 버전은 오퍼스 수준에 근접한 성능을 더 저렴한 가격에 제공한다는 점이 핵심이다. 특히 컴퓨터를 직접 사용하는 능력이 크게 향상됐고, 100만 토큰 컨텍스트 윈도우가 베타로 지원되기 시작했다.
이 영상은 코드팩토리 채널에서 소네 4.6 출시 당일 제작한 빠른 리뷰 콘텐츠다. 클로드 코드를 실제로 사용하는 개발자 관점에서 이 업데이트가 어떤 의미인지, 어떻게 활용해야 하는지를 실용적으로 정리했다.
핵심 내용
소네 5가 아닌 소네 4.6을 출시한 이유
영상에서는 소네 5가 존재하긴 하지만 전략적인 이유로 소네 4.6을 먼저 출시했다고 분석한다. 엔트로픽은 기존에도 점 1씩 버전을 올리며 출시하는 패턴을 보여왔다. 오퍼스 4.6을 출시했을 때 다른 AI 회사들이 바로 대응하지 않자, 소네 4.6으로 한 번 더 시장을 자극하는 전략이라는 해석이다.
중요한 점은 소네 4.6이 단순히 숫자만 올라간 게 아니라는 것이다. 영상에서는 “오퍼스랑 거의 비슷한 정도의 성능을 갖고서 출시를 했다”고 직접 언급하며, 동시에 오퍼스보다 저렴하다는 점을 강조한다.
컴퓨터 사용 능력의 향상
이번 업데이트에서 가장 주목할 만한 변화는 컴퓨터를 직접 사용하는 능력이다. 영상에서는 엔트로픽이 발표 자료에 컴퓨터 사용 벤치마크 차트를 별도로 포함시킨 점을 짚으며, 이것이 전략적으로 중요한 방향임을 시사한다고 설명한다.
맥락을 이해하려면 최근 오픈 클로우의 인기를 살펴봐야 한다. 오픈 클로우는 컴퓨터를 완전히 제어해서 비서처럼 쓸 수 있다는 점에서 큰 주목을 받았다. 엔트로픽은 이미 코워크라는 유사 도구를 출시한 상태였고, 소네 4.6을 통해 이 방향을 더욱 강화하고 있다. 영상에서는 “오픈 클로우보다 안전하지만 보완적으로 더 튼튼하지만 마찬가지로 사용자의 비서처럼 작동할 수 있는 기능을 포인트로 가져가지 않을까”라고 예상한다.
벤치마크와 실제 성능 차이
벤치마크 결과는 예상대로다. 4.5보다 모든 지표가 개선됐다. 그중 특이한 점은 소네 4.6이 금융 분석 능력과 오피스 작업에서 오퍼스 4.6보다 더 높은 성과를 낸다는 것이다. 영상에서는 이를 근거로 “조금 더 현실 속에서 우리가 사용할 만한 에이전트로 거듭나고 있다”고 평가한다.
클로드 코드 기준 사용자 선호도 조사에서도 소네 4.6은 소네 4.5보다 약 70%, 오퍼스 4.5보다 59% 이상 더 선호됐다. 이 수치는 이전 세대 오퍼스 모델보다 실제 작업에서 더 선호된다는 것을 의미한다.
오버 엔지니어링과 게으름 문제 개선
개발자들이 많이 겪던 문제가 개선됐다. 작업을 시켰을 때 “지금 당장 중요한 건 아니니까 스킵할게”라며 임의로 건너뛰는 행동, 완료되지 않았는데 완료됐다고 보고하는 행동 등이 줄어들었다. 영상에서는 이를 “어떤 사용자가 준 인스트럭션을 잘 따라한다”고 표현한다. 헬루시네이션도 줄었고, 여러 단계 작업도 더 규칙적으로 잘 수행한다.
100만 토큰 컨텍스트 윈도우
100만 토큰 컨텍스트 윈도우가 베타로 지원된다. 영상에서는 “여러분의 소스코드 전체를 메모리에 올려놓을 수 있을 정도”의 분량이라고 설명한다. 컨텍스트 부족으로 불편함을 겪었다면 큰 개선이 될 것이다.
단, 함정이 있다. 클로드 코드에서 100만 토큰 컨텍스트를 사용하려면 엔터프라이즈 플랜이나 API 플랜에서 별도로 허가를 설정해야 한다. 일반 구독 상태에서는 200K 컨텍스트까지만 사용 가능하다. 이유는 20만 토큰을 넘어가면 비용이 두 배로 올라가기 때문이다.
실전 가이드
소네 4.6을 효과적으로 활용하기 위한 단계별 접근법이다.
먼저 기본 전략을 정해야 한다. 영상에서 코드팩토리는 “기본은 오퍼스 4.6을 쓰는 걸 추천”한다고 명확히 말한다. 소네 4.6은 오퍼스 4.6으로 해결하지 못하는 문제가 생겼을 때 역방향으로 시도하는 용도로 쓰는 게 현재로선 좋은 접근이다. 어떤 특정 작업에서 소네 4.6이 더 잘하는지는 본인이 사용하면서 패턴을 파악해야 한다.
다음으로 컨텍스트 설정을 확인한다. 100만 토큰 컨텍스트가 필요하다면 엔터프라이즈 또는 API 플랜을 사용 중인지 확인하고, 플랜에서 허가 설정이 돼 있어야 한다. 그냥 일반 구독으로는 200K 컨텍스트만 사용 가능하다는 점을 기억한다.
마지막으로 클로드 코드에서 모델을 선택한다. 영상에서 설명하는 것처럼 모델 메뉴에서 소네 4.6과 오퍼스 4.6 모두 선택할 수 있고, 소네 메뉴 내에서 레벨 조정도 가능하다. 업그레이드 후 로그인하면 바로 사용할 수 있다.
비판적 검토
영상은 출시 당일 빠르게 제작됐기 때문에 실제 사용 후기가 충분히 담기지 않았다. 코드팩토리 본인도 “아직 패턴을 파악하지 못했다”고 솔직하게 인정하며, 파악하면 다시 공유하겠다고 한다. 이 점은 정보의 한계를 분명히 하는 태도다.
오퍼스 4.6과 소네 4.6의 역할 구분에 대한 분석은 코드팩토리의 개인적인 해석이다. 영상에서도 “제피셜”이라고 표현하며 공식 입장이 아님을 명시한다. 실제 어떤 작업에 어떤 모델이 더 맞는지는 직접 써보면서 판단해야 한다.
100만 토큰 컨텍스트의 비용 구조에 대한 설명은 중요하다. 무조건 좋은 기능이 아니라 일반 사용자에게는 진입 장벽이 있다. 엔터프라이즈나 API 플랜 사용자가 아니라면 당분간 200K로 만족해야 한다.
핵심 요점
영상에서 기억해야 할 다섯 가지:
- 소네 4.6은 오퍼스 수준에 근접한 성능을 더 저렴한 가격에 제공한다. 벤치마크보다 실제 작업에서 오퍼스 4.5보다 59% 이상 선호됐다는 사용자 데이터가 더 의미 있는 지표다.
- 컴퓨터를 직접 사용하는 능력이 핵심 강화 포인트다. 엔트로픽은 코워크와 소네 시리즈를 통해 안전한 AI 비서 방향으로 일관되게 나아가고 있다.
- 100만 토큰 컨텍스트는 엔터프라이즈나 API 플랜에서만 사용 가능하다. 일반 구독자는 20만 토큰을 넘어가면 비용이 두 배가 되기 때문에 기본적으로 200K 컨텍스트가 적용된다.
- 오버 엔지니어링과 게으름 현상이 개선됐다. 지시사항을 임의로 건너뛰거나 완료하지 않은 작업을 완료했다고 보고하는 문제가 줄어들어 실무 사용성이 높아졌다.
- 실용적인 활용법은 오퍼스 4.6을 기본으로 쓰고, 해결되지 않는 문제에 소네 4.6을 역방향으로 시도하는 것이다. 어떤 작업에서 어떤 모델이 더 나은지는 직접 사용하며 파악해야 한다.