Anthropic은 무료 사용자를 위한 기본 모델에 "플래그십 기능" 중 일부를 추가했습니다. 베이징 시간으로 7월 1일 이른 아침, 클로드 소네트 5번이 공식적으로 공개되었습니다. 독립적으로 작업을 계획하고, 브라우저와 터미널을 호출하고, 코드를 작성하고, 오류를 확인하고, 복잡한 작업 흐름을 실행할 수 있습니다... Anthropic의 공식 표현으로 이것은 현재 "가장 에이전트와 유사한" Sonnet 모델입니다.성능은 이미 Opus 4.8과 비슷하지만 가격은 한 단계 떨어졌습니다.

맛있을 것 같네요.
출시 기간 동안 Sonnet 5의 입력 및 출력 토큰 가격(백만당)은 각각 US$2와 US$10입니다. 8월 말에 정상화가 되더라도 입력 및 출력 토큰 가격은 각각 US$3 및 US$15입니다. Opus 4.8의 표준 가격(입력 $5/출력 $25)과 비교하면 Sonnet 5는 40%의 직접 할인에 해당하며 초기 출시 기간 동안에는 40%까지 할인됩니다.
그러나 벤치마크와 가격 전쟁에만 집중한다면 Anthropic의 야망을 과소평가하는 것입니다.
이는 실리콘밸리의 유니콘이 IPO 직전에 실시한 극심한 스트레스 테스트에 가깝습니다. 플래그십 수준에 가까운 모델이 일일 생산성 도구로 사용할 수 있을 만큼 저렴하더라도 기업 고객은 여전히 해당 모델을 "파일럿 프로젝트"에 고정시킬 것입니까? AI를 핵심 비즈니스 프로세스에 진정으로 통합할 용기가 있습니까?
이 대답은 소네트5가 얼마나 인기를 끌 수 있을지를 결정할 뿐만 아니라, 1조 달러 가치를 지적하는 앤트로픽의 거창한 스토리가 자본시장에서 실질 자금을 조달할 수 있을지도 결정한다.
동시에 Anthropic은 미국 상무부가 Claude Fable 5와 Mythos 5에 대한 수출 통제를 해제했으며 내일 두 모델에 대한 액세스가 복원될 것이라고 공식 문서를 통해 발표했습니다.

01결제 장벽에서 공개 벤치마크까지 4개월: 지능형 에이전트는 더 이상 고귀하지 않습니다.
이전에 최고급 Opus를 사용해 본 적이 없다면 이번에 Sonnet 5가 가져오는 영향을 이해하지 못할 수도 있습니다.
시간을 올해 2월로 돌려보자. 당시 AI가 채팅창의 질문에 답하는 것뿐만 아니라 브라우저를 조작하고, 터미널을 열고, 복잡한 다단계 워크플로우를 스스로 실행하게 하길 원한다면 아마 돈을 들여 가장 비싼 모델을 구입해야 할 것입니다.
이는 기업의 예산으로 뒷받침되는 소수의 특권이자 일반 사용자가 참여할 수 없는 부분이다.
이제 Claude를 열면 무료 기본 모델에 이미 이 기능이 있습니다.
AI 제품 전문가 Aakash Gupta는 자신의 경험 이후 일련의 충격적인 비교를 공유했습니다. 데이터를 뽑아보니 에이전트 코딩 하드코어 테스트인 SWE-bench Pro에서 소네트 5가 63.2%를 기록했고, 플래그십인 Opus 4.8이 69.2%를 기록해 플래그십 수준을 90% 이상 따라잡았다고 합니다.

또 다른 지식 작업 벤치마크인 GDPval-AA v2에서 Sonnet 5는 1618점을 얻었으며 심지어 Opus 4.8의 1615점을 직접 능가했습니다. 그의 감정은 매우 직접적입니다.불과 4개월 전만 해도 고급 페이월이었던 것이 이제는 모든 사람의 표준이 되었습니다.
Gupta는 또한 가격 대비 성능 곡선에서 현재 어떤 이점을 갖고 있는지에 관계없이 해자는 본질적으로 지속적으로 재설정되는 단기 임대일 뿐이라는 점을 모든 사람에게 상기시킵니다.오늘 Anthropic이 실제로 발표한 것은 이렇게 크게 단축된 감가상각 시간표일 것입니다.최첨단 인텔리전스의 감가상각 주기는 약 4~6개월에 불과하며, 대부분의 팀은 값비싼 버전이 필요한 이유를 설명하는 프레젠테이션을 마치기도 전에 이미 저렴한 버전에 빠졌습니다.
또 다른 X 사용자 @Shawnife도 소셜 미디어에서 비슷한 감정을 표현했습니다.
그는 Sonnet 5와 같은 릴리스가 쉽게 과소평가되고 있다고 생각합니다. 이는 개선 사항이 중요하지 않기 때문이 아니라 AI 발전이 이제 너무 빈번해져서 성능 상승이 정상으로 보이기 시작하기 때문입니다. 그에게 눈에 띄는 것은 단지 Sonnet이 더 좋아졌다는 것이 아닙니다.오히려 "일상적인 모델"과 "최첨단 기능" 사이의 경계는 계속해서 얇아지고 있습니다.

몇 달 전만 해도 이러한 수준의 추론, 도구 사용, 자율성 및 신뢰성을 달성하려면 당시 사용 가능한 가장 큰 모델을 선택하고 그에 따른 높은 비용을 감수해야 하는 경우가 많았습니다. 이제 Sonnet 5는 가격대를 유지하면서 Opus 수준의 기능에 크게 접근하고 있어 더 폭넓은 사용이 가능해집니다.
@Shawnife는 결론을 내렸습니다.우리는 사람들이 "어떤 모델이 가장 똑똑한지"라는 질문을 멈추고 "이 수준의 전력이 매일 사용할 수 있을 만큼 저렴하니 이제 무엇을 만들 수 있는가"라고 묻기 시작하는 단계에 진입한 것 같습니다.실제 변화가 시작되는 경우가 많습니다.
02 "더 똑똑해지는 것"뿐만 아니라 "일을 완수하는 것"을 배우십시오.
일반 사용자들에게는 모델이 더 똑똑해졌다는 느낌이 막연한 경우가 많지만, 개발자들은 매우 예민한 후각을 가지고 있습니다.
이번 Sonnet 5 업그레이드의 가장 큰 특징은 채팅이 더 잘된다는 것이 아니라 매우 "신뢰할 수 있게" 되었으며 특히 이전에 중간에 막혔던 더러운 작업을 처리하는 데 능숙하다는 것입니다.
이러한 "깨지지 않는" 품질은 기업이 감히 실험 프로젝트를 프로덕션 배포로 전환하는 데 핵심입니다.AI를 파일럿에서 생산 라인으로 추진하는 데 가장 큰 장애물은 특정 눈부신 기술의 개별 점수가 아니라 혼란스럽고 예측할 수 없는 실제 워크플로우에서 안정성을 유지할 수 있는지 여부입니다. 80계단의 길 중 64계단에 도달한 후 길을 잃은 안내자는 정직한 지도만큼 쓸모가 없습니다.
먼저 객관적인 데이터를 살펴보겠습니다.

프록시 코딩 테스트 SWE-bench Pro에서 Sonnet 5는 63.2%를 얻었고 이전 세대 Sonnet 4.6은 58.1%를 얻었습니다. 이 점프로 Sonnet 5는 Opus 4.8의 69.2%에 가까워졌습니다.
또 다른 코딩 평가에서는 실제 전투를 더 강조한 터미널-벤치 2.1에서 소네트 5가 80.4%, 오푸스 4.8이 82.7%로 거의 동률을 기록하는 등 격차가 더욱 좁아졌다.
다학문적 추론 측면에서 최종 인간 테스트를 벤치마크로 사용한 Sonnet 5는 도구의 도움으로 57.4%를 기록했으며 이는 Opus 4.8의 57.9%와 기본적으로 동일합니다.
실제 컴퓨터 작동을 시뮬레이션하는 OSWorld 검증 평가에서 Sonnet 5는 81.2%를 기록했는데, 이는 이전 세대의 78.5%에 비해 크게 향상된 수치입니다.
이러한 수치는 Sonnet 5가 이전 세대의 패치워크가 아니라 플래그십 모델과 크게 겹치는 성능 범위로 직접 뛰어든다는 사실을 종합적으로 나타냅니다.
주관적인 경험을 살펴보겠습니다.
AI 코드 편집기 Cursor의 공동 창립자인 Sualeh Asif는 이를 사용하여 일상 작업을 실행했으며 이 새로운 모델이 확립된 계획을 고수하고 개발 사양을 따르며 마침내 안정적인 출력을 제공하는 진정으로 신뢰할 수 있는 엔지니어처럼 편안한 비용으로 명확한 일련의 다단계 코드 변경을 제공할 수 있다는 것을 발견했습니다.
자동화 플랫폼 Zapier의 수석 엔지니어인 Daniel Shepard는 이전 모델에서는 종종 실패했던 작업을 맡겼습니다. 즉, 회사의 복잡한 Salesforce 계정 계층 구조를 자동으로 업데이트하고 엄격한 형식의 릴리스 공지를 보내는 것입니다. 이전 모델은 보통 중간에 막혔는데,그러나 Sonnet 5는 처음부터 끝까지 전체 작업 흐름을 완료합니다. 전체 프로세스를 안정적으로 완료하는 이러한 능력은 자동화의 경제성을 완전히 변화시킵니다.
팟캐스트 진행자 Ben Davis의 경험은 또 다른 느낌을 선사합니다. 그의 첫 번째 반응은 이 물건의 벤치마크 테스트 성능이 실제로 매우 열악했고 특히 추론 측면에서 비효율적이라는 것이었습니다. 빠른 모델은 아니었습니다. 가격을 낮추긴 했지만 비효율성 문제로 인해 저렴한 모델은 아니었습니다.

그런데 화제가 바뀌자 자신의 첫인상은 다른 사람들이 모두 틀렸다고 느꼈다고 말했습니다. 이것은 매우 좋은 모델이었습니다. 그가 사용한 표현은 Sonnet5가 "차세대" 냄새가 난다는 것이었습니다.
그는 Fable이 모두가 접할 수 있는 최초의 "차세대" 모델이라고 설명했습니다.이 모델의 특징은 높은 점수는 아니지만 터무니없이 오랜 시간 동안 지속적으로 실행하는 능력, 서브 에이전트를 잘 처리하는 능력, 자체 작업을 확인하는 능력, 프롬프트의 공백을 채우고 이전 모델보다 단어의 의미를 진정으로 이해하는 능력입니다.
Sonnet 5는 첫 번째 테스트에서 이 특징을 물려받아 자체 출력을 확인하고 명시적으로 요청하지 않고 사전에 오류를 확인했습니다. 그러나 그는 또한 대부분의 Claude 모델과 마찬가지로 때때로 너무 많은 설교를 하고, 묻지 않은 질문에 대답하고, 쉽게 주제에서 벗어난다는 점을 인정했습니다. 다행스럽게도 당신이 그것을 지적하면 그것은 당신과 너무 오랫동안 논쟁을 벌이지 않고 단순히 당신의 실수를 인정하고 다시 정상으로 돌아갈 것입니다.
그래서 그의 결론은,Fable이 실제로 돌아올 때까지 이것은 최고의 모델일 수 있습니다.
마지막으로 실제 비즈니스 사례를 살펴보겠습니다. Box CEO Aaron Levie의 테스트 결과는 이러한 이전 감정에 대한 보다 확실한 증거를 제공합니다.

Box는 자체 개발한 AI 복합 업무 평가 시스템을 내부적으로 보유하고 있으며, 이를 통해 모델이 실제 기업 문서를 끝까지 갉아먹을 수 있습니다. 그는 Sonnet 5를 던지고 굴러다녔는데, 그 결과는 꽤 놀라웠습니다. 에너지 산업과 같이 수익성이 높고 복잡도가 높은 여러 부문에서 Sonnet 5는 이전 제품에 비해 4.7% 포인트, 소매는 4.4% 포인트, 전문 서비스는 2.6% 포인트 앞섰습니다.
Levi는 또한 몇 가지 구체적인 실제 사례를 공유했습니다. Sonnet 5는 자금 조달에 대한 실사를 할 때 원본 대차대조표에서 회사의 유동성과 레버리지 비율을 계산하고 소스 보고서에서 과소평가된 부채비율까지 알아냈고, 문서 자체에서 인정한 대출뿐만 아니라 세 대출 모두 위반으로 표시했습니다.
정밀 검사 비용을 분석할 때 다른 모델은 무심코 표의 모든 숫자를 합산할 수 있지만 이를 회사에서 정의한 KPI 프레임워크로 영리하게 제한하여 별도로 추적해야 하는 생산 손실 비용을 깔끔하게 제거하고 단서를 따라 스프레드시트에서 손상된 참조 셀을 찾습니다.
SKU 수익 분석을 할 때 합계로 나누는 일반적인 함정에 빠지지 않습니다. 대신, 올바른 하위 카테고리의 분모에 대한 각 제품의 기여도를 정확하게 계산하고 특정 제품 카테고리가 상위 9위 순위에 들지 못한 이유도 설명할 수 있습니다.
Levy는 구조화되지 않은 데이터가 매우 복잡한 영역에서 Sonnet 5가 실제로 생산 배너를 전달하는 능력을 입증했다고 생각합니다.그는 이 모델이 곧 Box AI Studio 고객에게 제공되어 회사 고유의 개인화된 지능을 구축할 수 있을 것이라고 확인했습니다.
03 토크나이저의 원장: 저렴하지만 반드시 비용을 절약할 수 있는 것은 아닙니다.
기업 고객의 경우 복잡한 문서를 안정적으로 처리할 수 있는 능력이 바로 그들이 기꺼이 비용을 지불하는 이유입니다. 그러나 지불할 의향이 있기 위한 전제 조건은 청구서가 예산 범위 내에 있어야 한다는 것입니다.
표면적으로는 소네트5의 가격이 많이 내려간 것으로 보이며, 단돈 2달러와 10달러의 특가로 오퍼스에 가까운 스마트폰을 구입할 수 있다. 그러나 시험이 끝난 후 많은 사람들이 돌아서서 모두에게 "함정을 피하라"고 주의를 환기시켰다.
AI 디테일을 전문으로 연구하는 사이먼 윌리슨에게는 습관이 있다. 새로운 모델이 출시될 때마다 그는 개발자 문서의 "새로운 기능" 섹션으로 직접 이동합니다. 왜냐하면 일반적으로 공식 발표보다 거기에 더 많은 실용적인 정보가 숨겨져 있기 때문입니다. 이번에 그는 신중하게 평가해야 할 기술적 세부 사항을 자세히 파헤쳤습니다.
Sonnet 5에는 새로운 버전의 단어 분할기가 있으며 텍스트를 처리하는 방식이 변경되었습니다. 이것의 직접적인 결과는 동일한 입력 텍스트에 대해 현재 토큰 소비가 이전 모델 Sonnet 4.6보다 거의 30% 더 많다는 것입니다.

그는 공개적으로 사용 가능한 Claude Token 계산 도구를 사용하여 실제 측정을 수행했으며 결과는 매우 직관적이었습니다. 그는 테스트를 위해 세계인권선언문의 영문판 전문을 사용했습니다. 이전 모델 Sonnet 4.6에서는 2356개의 토큰만 소비되었습니다. Sonnet 5에서는 1.42배 증가한 3341개의 토큰으로 직접 확장되었습니다. 스페인어 버전으로 전환하면 토큰 수가 3572에서 4747로 1.33배 증가했습니다.
가장 잔혹한 일은 4,000줄이 넘는 Python 코드 파일을 테스트하는 것이었습니다. 토큰은 44014에서 56113으로 1.27배나 급증했습니다. 그를 안심시킨 유일한 것은 중국어 간체뿐이었다. 두 모델의 중국어 텍스트 토큰 소비는 기본적으로 동일했으며 변동폭은 1.01배로 거의 무시할 수 있는 수준이었습니다.
이 결과는 영어 처리에 크게 의존하거나 많은 Python 코드를 실행하는 개발자의 경우 모델의 작업당 비용이 광고만큼 좋지 않을 수 있음을 의미합니다.
Anthropic은 실제로 공식 문서의 각주에서 이를 인정했습니다. 그들은 우대 가격 설정의 목적이 전환 기간을 거의 비용 중립적으로 유지하는 것이라고 설명했습니다.즉, 가격 인하 여지가 있는 몇 달러의 일부가 토큰 인플레이션을 방지하는 데 사용됩니다.
이 숨겨진 변수로 인해 처음에는 가격 인하에 박수를 보냈던 일부 개발자가 즉시 진정되고 일반적인 작업량을 기반으로 계산을 다시 계산하기 시작했습니다.
04 소셜네트워크상에서는 냄새가 좋다고 소리치는 사람도 있고, 환불을 요구하는 사람도 있어 큰 논란이 됐다.
모델이 출시될 때마다 소셜 미디어에는 한 목소리만 있는 것이 아닙니다. Sonnet 5가 출시된 후 처음 몇 시간 동안 X 플랫폼에 대한 피드백은 빠르게 나누어졌습니다.
어떤 사람들은 이번 업데이트가 진심이라고 생각하는 반면, 다른 사람들은 의례적으로 실망감을 표시합니다.
X 사용자 @BennettBuhner의 불만은 상당히 날카로웠습니다. 그는 소네트 5가 현재까지 최악의 모델이라고 직접적으로 말했다. 그 이유는 각 작업의 실제 소비 비용은 Opus를 사용하는 것보다 높지만 성능은 Opus보다 나쁘고 버전 번호가 4.6에서 5로 점프한 것은 어떤 면에서 의미 있는 개선이 되지 않기 때문입니다. 그는 아이러니하게도 안트로슬롭(Anthroslop)이라는 신조어를 사용해 불만을 표출했다.

X 사용자 @weswinder도 비슷한 혼란을 표현했습니다. 그의 논리는 간단하다. Sonnet 5는 Opus 4.8보다 비싸 보이지만 그렇게 똑똑하지는 않습니다.더 나쁜 결과를 얻기 위해 더 많은 토큰이 필요한 경우 소위 토큰 당 단가 이점은 실제로 의미가 없습니다.그는 이 모델의 의미가 무엇인지 직접적으로 물었다.

또 다른 X 사용자인 @DaveShapi는 롤러코스터 경험을 했습니다. 그의 첫 반응은 충격이었다. 자신의 말로는 자신이 이런 말을 하고 있다는 것을 믿을 수 없었지만 소네트 5의 Max Effort 모드는 너무 힘들었습니다. 그는 그것을 다람쥐 상자에 코카인 한 다발을 먹인 다음 "신의 축복이 있기를"이라고 말하고 반대편에서 무엇이 나오는지 기다리는 것과 같은 느낌이라고 설명했습니다.
그런 다음 그는 Sonnet 5가 주제에서 너무 쉽게 벗어나고, 대부분의 Claudes처럼 설교하고, 묻지 않은 질문에 대답하고, 전반적으로 너무 거만하다고 불평했습니다. 다행히도 장점이 있습니다. 당신이 그 실수를 지적하면, 그것은 당신과 너무 오랫동안 논쟁하지 않을 것입니다. 단순히 실수를 인정하고 무엇이 잘못되었는지 물어볼 것입니다. 우리는 그것에 대해 걱정할 필요가 없습니다. 그는 무기력하게 물었습니다. 내가 왜 이것에 돈을 써야합니까?

하지만 불만의 목소리와는 별개로 전혀 다른 판단을 내리는 이들도 있었다. X 사용자 @kimmonismus의 댓글은 더욱 전략적인 수준의 조사를 가져왔습니다.
그가 받은 평가 결과는 모두가 예상했던 이전 세대보다 소네트 5가 확실히 좋아졌으나 모든 평가에서 Opus 4.8보다는 약하다는 것이었다. 특히 그가 이해하지 못하는 것은 성능 향상이 없는데 왜 버전 번호를 4.8이나 유사한 번호로 부르는 대신 4.6에서 5로 직접 점프하는가입니다. 일반적으로 큰 버전 번호 점프는 기능의 큰 도약을 의미하지만 이번에는 분명히 그렇지 않습니다.

@kimmonismus는 전체 릴리스가 그를 혼란스럽게 만들고 답변보다 더 많은 질문을 제기했다고 말했습니다. 그는 Fable 5의 맥락에서 Sonnet 5를 검토하지 않을 수 없었습니다. 내부에 훨씬 더 강력한 성능을 가진 Fable 5가 있다는 것을 모두가 이미 알고 있었고 내부에 더 나은 Opus가 있다고 가정할 수도 있다는 것을 알고 있었음에도 불구하고 그들은 왜 오랫동안 주저하고 좋지도 나쁘지도 않은 Sonnet 5만 출시했을까요?
그는 이것이 현재의 구속이 필요하기 때문일 것이라고 추측했습니다. 진짜 하이라이트는 규제 관련 의사소통이 여전히 전반적으로 지연되고 있기 때문에 Anthropic은 긍정적인 목소리를 유지하는 것을 포함하여 대화에 참여하고 이를 잊지 않기 위해 지금 무언가를 출시해야 한다는 것입니다.그의 의견으로는 Sonnet 5의 출시는 아마도 이러한 맥락에서만 이해될 수 있으며, 적어도 개인적으로는 일반적으로 실망스러운 일종의 과도기적 중간성의 뒷맛을 남깁니다.
이러한 비판에 직면하여 많은 사람들이 Anthropic을 옹호했습니다.
어떤 사람들은 Sonnet을 Opus 자체와 비교하면 Sonnet이 시장을 뛰어넘었다는 것을 보여준다고 생각합니다. 중저가 제품이 플래그십 모델과 비교되고 있는 것은 성능이 1위권에 밀렸다는 사실을 방증할 뿐입니다. 다른 사람들은 이제 무료 사용자가 이 수준의 모델을 무료로 구입할 수 있으므로 불평할 것이 없다고 지적했습니다.
이런 논란 자체가 소네트 5가 미묘한 균형점을 걷고 있음을 보여준다. 아직 놀라운 일과는 거리가 멀지만, 실패와는 거리가 멀다.실제 테스트는 출시 당일의 입소문이 아니라 얼마나 많은 개발자가 앞으로 몇 주 안에 일상적인 작업 흐름을 이 모델로 실제로 마이그레이션할지, 마이그레이션한 개발자가 월말에 청구서를 받았을 때 고개를 끄덕이거나 눈살을 찌푸릴지 여부입니다.
05IPO 직전 "봉인" 위험과 거래제한
1조 달러 가치 평가를 향해 질주하는 스타 기업인 Anthropic은 보안에 매우 엄격합니다. 이번에는 Sonnet 5의 시스템 카드에서 보안 평가가 넓은 공간을 차지하고 많은 세부 정보가 공개됩니다.
먼저 발전 분야에 대해 이야기해 보겠습니다. 이전 세대 Sonnet 4.6과 비교하여 Sonnet 5는 다차원적으로 실질적인 개선을 이루었습니다.
환각 및 아첨하는 행동의 비율이 낮고, 악의적인 요청을 더 잘 거부하며, 에이전트 시나리오에서 힌트 주입 공격에 더 잘 저항합니다. 해당 공무원은 자동화된 행동 감사 전체 세트를 실시했으며 테스트 범위에는 협력, 학대, 사기 등 일련의 부적절한 행동이 포함됩니다. Sonnet 5의 전반적인 부적절한 행동 점수는 이전 세대보다 낮아서 더 안전하다는 것을 의미합니다.

하지만 솔직히 말해서 가장 안전한 것은 아닙니다.시스템 카드에는 더욱 뛰어난 기능을 갖춘 Opus 4.8 및 특히 네트워크 보안에 초점을 맞춘 Claude Mythos Preview와 비교하여 Sonnet 5가 동일한 평가에서 약간 더 높은 위법 행위 비율을 보여주었다고 명시되어 있습니다.이 진술은 매우 조심스럽기는 하지만 문제를 설명하는 데는 충분합니다. 더 강력한 모델은 실제로 일부 보안 차원에서 더 나은 성능을 발휘합니다.
가장 직관적인 비교는 Mozilla와 협력하여 개발된 익스플로잇 테스트에서 나온 것입니다.
임무는 모델이 Firefox 147 브라우저에 사용 가능한 소프트웨어 익스플로잇을 작성하는 것이었습니다. Sonnet 5의 성적표는 매우 깨끗합니다. 사용가능한 취약점은 전혀 없고, 성공률도 0입니다. 부분 성공률은 13.2%로 이전 세대 소넷 4.6의 8.8%보다 약간 높지만, 두 수치 모두 Opus 4.8 앞에서 언급할 가치가 있다. Opus 4.8은 사용 가능한 익스플로잇의 68.8%를 생성했으며 Mythos 5는 88.4%에 달했습니다.

즉, 소네트 5의 범용성이 치솟았지만, 극도의 파괴력을 요구하는 네트워크 보안 기술 측면에서 두 형 사이에는 여전히 격차가 있다는 것이다.
너무 영리하고 혼란을 일으키는 것을 방지하기 위해 Anthropic의 접근 방식은 기본적으로 네트워크 보안 보호를 직접 활성화하는 것입니다. 이 시스템은 위험한 네트워크 사용 행위를 실시간으로 탐지하고 차단할 수 있습니다. 모델이 위험 영역에 접근하려고 할 때마다 보호막이 팝업됩니다.
관계자들은 이러한 일련의 보호 조치의 엄격함이 Opus 4.7 및 4.8의 엄격성과 동일하다고 설명했습니다. Sonnet 5의 전반적인 네트워크 보안 위험 수준이 낮다고 판단했기 때문에 Fable 5를 제한하는 등 더 엄격한 조치를 취하지 않았습니다.
사이버 보안 연구에 대한 보호가 덜 필요한 특별한 요구 사항이 있는 조직을 위해 Anthropic은 "사이버 검증 프로그램" 채널을 제공합니다. 이미 프로그램에 가입한 조직은 자동으로 Sonnet5에 대한 동일한 액세스 권한을 받게 되며 다시 신청할 필요가 없습니다. 일반적으로 네트워크 보안 업무를 중요하게 생각하는 사람들은 Opus4.8을 사용하는 것이 공식적인 권장 사항입니다.
06 IPO 서사에서 Sonnet 5는 어떤 역할을 합니까?
Anthropic은 상장을 서두르고 있으며 그 가치는 거의 1조 달러에 달했습니다. 이 노드에서 Sonnet 5를 추진하는 것은 단순한 업데이트라기보다는 전략적 움직임에 가깝습니다.
지난 6개월간 자금조달 궤적을 살펴보면 참으로 빠른 속도다. 올해 2월 Anthropic은 평가액 3,800억 달러로 300억 달러의 자금 조달을 완료했습니다. 당시 연간 수익은 140억 달러에 이르렀으며 지난 3년 동안 매년 10배 이상 성장했습니다. 5월 말까지 시리즈 H 파이낸싱에서 미화 650억 달러를 추가로 완료했으며, 가치 평가는 미화 9,650억 달러로 직접 뛰어올랐고, 연간 수익은 미화 470억 달러 이상으로 치솟았습니다.
그러나 이러한 성장률은 불가피한 조사를 가져옵니다. 분석 회사인 D.A.의 기술 연구 이사인 Gil Luria는 다음과 같이 말했습니다. Davidson은 찬물을 부어 Anthropic이 최첨단 모델 측면에서 앞서 있는 것처럼 보이지만,그러나 현재 사용량의 대부분은 지속 가능하지 않을 수 있는 시도와 실험에서 비롯됩니다.개발자의 호기심 추구 시도를 장기 계약을 통해 생산 수준 종속성으로 전환하는 것은 AI 실험실이 직면한 가장 중요한 장애물입니다.
이러한 맥락에서 Sonnet 5의 가격 전략을 살펴보면 논리가 분명해집니다. 값비싼 Opus급 모델을 사용하고 있는 기업 고객은 Sonnet 5가 재무 부서에서 대규모로 승인할 수 있는 가격대에서 충분한 생산 품질을 제공한다는 것을 알 수 있습니다.이것이 진행되면 업계의 실험에서 배포로의 전환이 가속화될 수 있으며, 이는 Anthropic이 가치 평가를 정당화하는 핵심 단계입니다.
쉽게 무시할 수 있는 또 다른 신호가 있습니다. Sonnet 5 출시 하루 전, 캘리포니아 주지사 Gavin Newsom은 무료 인력 교육과 함께 Claude를 모든 주 기관에 50% 할인된 가격으로 제공하는 파트너십을 발표했습니다.이는 Anthropic이 지속적이고 반복적인 수익을 얻게 된다는 것을 의미합니다.
Anthropic의 미주 지역 책임자인 Kate Jensen은 캘리포니아를 계속 운영하는 사람들이 Claude를 계속 이용할 수 있도록 하는 것이라고 말했습니다. 이 계약은 캘리포니아의 여러 도시와 카운티로도 확대되었습니다. 일회성 판매를 의미하는 것이 아니라 수익 기반이 개발자 커뮤니티에 침투하고 공공 서비스 시스템에 침투할 수 있도록 하는 일종의 깊은 바인딩입니다. 기업 고객의 경우 복잡한 문서를 안정적으로 처리할 수 있는 능력이 바로 그들이 기꺼이 비용을 지불하는 이유입니다.
07경쟁 구도 및 밸류에이션 압력
Sonnet 5의 출시 시기도 전체 업계에서 가장 경쟁이 치열한 시기와 일치합니다.
OpenAI는 지난 3월 평가액 8,520억 달러로 1,220억 달러의 자금 조달을 완료했으며 자체 IPO도 준비하고 있습니다. Elon Musk의 SpaceX와 xAI의 합병 후 IPO 가격은 주당 135달러, 가치는 1조 7700억 달러였습니다. Google, Meta 및 자금력이 풍부한 아시아 AI 스타트업 다수가 모두 동일한 엔터프라이즈 시장을 두고 경쟁하고 있습니다.
이것은 아무도 감히 멈추고 숨을 쉬지 못하는 돈을 태우는 군비 경쟁입니다.
PitchBook 분석가인 Harrison Rolfes는 이에 대해 매우 현실적인 말을 했습니다. 그가 의미하는 바는 가치 평가나 수익과 같은 피상적인 숫자만 보지 말라는 것입니다. 그것들은 모두 돈을 태워서 쌓일 수 있습니다.정말 중요한 숫자는 매출총이익률인데, 이는 회사가 버는 1달러당 컴퓨팅 전력, 전기 요금 등 직접 비용을 공제한 후 남는 금액입니다. 이 숫자는 지금까지 외부 세계에서는 한 번도 본 적이 없습니다. 매출총이익률이 형편없으면 아무리 매출이 높아도 손해만 볼 뿐입니다.
따라서 2026년 AI 기업의 이번 물결 상장은 인터넷 버블 이후 가장 성공적인 자본 잔치가 될 수도 있고, 아니면 공개 시장의 투자자들에게 책을 보지 않고 이야기만 듣는 것이 얼마나 비싼지 기억하게 하는 부정적인 교재가 될 것입니다.
이 문장의 의미는 월스트리트가 수익의 급속한 성장에 쉽게 감동받지 않을 것이라는 것입니다. 그들은 재무 보고서를 계층별로 벗겨내어 각 수익 1달러 뒤에 얼마나 많은 컴퓨팅 성능이 소모되는지 확인할 것입니다. 매출총이익률은 AI 기업이 기술의 기적인지 자본 블랙홀인지를 가늠하는 핵심 지표다. 공개시장은 잔인하다.
결론
이제 공은 아웃되었습니다.Sonnet 5의 실제 테스트는 출시 당일의 벤치마크 차트가 아니라 다음 달의 청구 및 유지율에 있을 것입니다.개발자가 실제로 일상적인 작업 흐름을 마이그레이션했습니까? 월말에 청구서를 받으면 고개를 끄덕이거나 눈살을 찌푸립니까? 이것이 중요한 유일한 것입니다.
분석해 보면 답을 결정하는 세 가지 변수가 있습니다.
첫 번째는 에이전트의 신뢰성이다.벤치마크 테스트는 기능 한도를 테스트하지만 프로덕션 환경은 장기적인 안정성을 테스트합니다. 수천 명의 개발자가 혼란스럽고 예측할 수 없는 시나리오에서 실행되기 시작한 후 Sonnet 5가 체인에서 떨어질지 여부가 실험실에서 실행되는 점수보다 더 중요합니다.
두 번째는 토크나이저에 숨겨진 bill 변수입니다.기업 고객이 비즈니스 시나리오에 따라 비용을 계산하지 않고 각 토큰의 광고 단가만 보고 저렴하다고 생각한다면 할인 기간이 끝나면 실제 청구서는 충격적일 수 있습니다.
세 번째 변수는 더 흥미롭습니다.Sonnet 5가 실제로 성공하고 개발자가 대규모로 마이그레이션하고 기업 고객도 이를 생산 프로세스에 삽입한다고 가정하면 다음에는 어떤 일이 일어날까요?
오퍼스의 입장이 어색해질 것이다. Sonnet이 이미 대부분의 시나리오에서 훨씬 낮은 비용으로 충분한 성능을 제공할 수 있다면 누가 Opus를 호출하는 데 두 배 이상의 비용을 지출할 의향이 있습니까?그때 앤트로픽은 자신의 성공으로 반격을 받을 수도 있다. Sonnet이 더 잘 팔릴수록 Opus의 매출이 더 많이 줄어들고 Opus는 총 이익이 더 높은 제품군입니다.
가격을 낮추고 이윤을 압축하는 데 앞장서거나, 고객이 고가 제품에서 저가 제품으로 이동하는 것을 지켜보십시오. 어느 길도 따르기 쉽지 않습니다.
이번에 앤트로픽의 베팅은 두 엔딩의 중간쯤이다.
성능은 플래그십에 가깝지만 가격도 대규모로 출시할 수 있는 모델을 내놨다. 한 가지를 증명하고 싶습니다. 최첨단 기능은 가장 비싼 플래그십 수준에 머물 수 있을 뿐만 아니라 기업이 매일 사용하고 동시에 돈을 벌 수 있는 인프라가 될 수 있다는 것입니다.
Anthropic이 실제로 공개 시장에 등장하면 투자자들은 다음과 같은 대답을 할 것입니다. 이 "주력에 가까운 가격 하락" 경로가 1조 달러에 가까운 이야기를 뒷받침할 수 있습니까?