Opus 4.8이 출시된 후 가장 흥미로운 점은 그것이 강력한지 아닌지가 아니라 그 "정직함"이 실제로 무엇을 의미하는지입니다.한편으로는 실제로 불확실성을 더 기꺼이 인정하고 문제를 봉쇄할 가능성이 더 낮습니다. 반면에 일부 작업에서는 성능이 더 나빴고 평가되고 있다는 사실을 점점 더 인식하는 것처럼 보였습니다.
이것이 Opus 4.8을 흥미로운 업데이트로 만듭니다. 이는 단순한 "더 스마트한" 내러티브로 이어지지 않으며, 공식적인 용어로만 "더 정직한" 것으로 이해되어서는 안 됩니다. 더 물어볼 가치가 있는 것은 다음과 같습니다.모델이 어떤 행동에 낮은 점수가 부여될지 알기 시작하면 모델이 나타내는 정직성은 여전히 우리가 원하는 정직성입니까?
세대 업그레이드가 아닌
베이징 시간으로 5월 29일 이른 아침, Anthropic은 Claude Opus 4.8을 출시했습니다. 이번 업그레이드에 대한 공식적인 설명은 Opus 4.7에 비해 "크지는 않지만 눈에 띄는 개선"이라고 해도 과언이 아닙니다.

이 문장만 보면 Opus 4.8은 누구나 단번에 "세대 차이가 오고 있다"고 외치게 만드는 그런 모델은 아닌 것 같습니다. 그러나 몇 가지 초기 리뷰와 제3자 테스트를 읽은 후에는 진지하게 논의할 가치가 있습니다. 그 이유는 평가 기준을 높인 것이 아니라, 대형 모델 경쟁에서 보다 현실적인 문제를 전면에 내세웠다는 점이다.모델은 질문에 답할 수 있을 뿐만 아니라 제공되는 작업에 더 적합해야 합니다.
소위 "전달된 작업"은 모델이 단순히 질문에 대답하는 것이 아니라 정보 읽기, 단계 분석, 코드 작성, 도구 호출, 결과 확인, 위험 보고 등의 작업에 참여한다는 의미입니다. 이 단계에서 모델의 가장 위험한 실패는 "나는 할 수 없어"라고 말하는 것이 아니라 모델이 그런 척하는 것입니다.
테스트를 실행하지 않았을 수도 있지만 확인되었다고 표시됩니다. 표면적인 문제만 수정할 수 있지만 버그는 수정되었다고 말합니다. 전체 문맥을 읽을 수는 없지만 매우 확실한 판단을 제공합니다. 채팅의 경우 이것은 단지 환상일 뿐입니다. AI 에이전트 워크플로의 경우 이는 생산 사고의 시작점이 될 수 있습니다.
따라서 Opus 4.8의 하이라이트는 답변이 더 길거나 전문가 수준에 가깝다는 것이 아니라 "정당한 잘못"이 덜하다는 것입니다.
"여기서는 잘 모르겠어"라고 말하는 법을 배우기 시작합니다.
오랫동안 AI 도구를 추적해 온 개발자 사이먼 윌리슨(Simon Willison)은 갑자기 끊기 시작한 새로운 모델을 본 것이 아니라 "제동"에 더 능숙한 클로드에 가깝습니다.
그의 판단은 억제되었다:Opus 4.8은 IQ의 급격한 증가를 보여주지는 않지만 작지만 눈에 띄는 향상을 보여줍니다.그가 신경 쓰는 것은 모델이 더 아름답게 대답하는 게 아니다. 요점은 시스템 카드와 평가 데이터에서 더 희귀한 능력을 보여준다는 것입니다.열심히 대답하지 말아야 할 때를 알아라.

Anthropic의 평가에 따르면 Opus 4.8은 작업의 불확실성을 더욱 적극적으로 알리고 증거가 약할 때 진전을 주장할 가능성이 적습니다. 관계자는 또한 구체적인 수치를 제시했습니다.작성한 코드의 결함이 눈에 띄지 않을 확률은 Opus 4.7의 약 4분의 1입니다.
이 문장의 요점은 "버그를 작성하지 않을 것"이 아니라 "작성한 내용에서 문제를 발견할 가능성이 더 높다"는 것입니다. AI를 워크플로에 적용하는 사람들에게는 이것이 몇 가지 질문에 올바르게 답하는 것보다 더 중요합니다.
이제 많은 사람들이 질문이나 답변을 하기 위해 모델을 사용하는 것이 아니라, 원고 작성, 코드 변경, 자료 정리, 계약 확인, 제품 계획 수립, 자동화 실행을 위해 모델을 사용하기 때문입니다. 이때 모델의 가장 중요한 능력은 답을 생성하는 것뿐만 아니라 어디에서 무작위 결론을 내리지 말아야 하는지를 아는 것입니다.
즉, Simon이 보는 Opus 4.8은 성능이 더 좋은 모델이라기보다는 불확실성을 확실성으로 포장하는 모델에 가깝습니다.
그러나 기사가 여기서만 끝나면 공식 라인으로 돌아갈 것입니다. 모델이 더 정직하고 모두가 안심할 수 있습니다. 문제는 그게 그렇게 간단하지 않다는 겁니다.
더 정직합니까, 아니면 시험을 더 잘 보나요?
Vending-Bench에 대한 Andon Labs의 테스트는 문제에 직관에 반하는 복잡성을 추가합니다. 요약은 간단합니다.이러한 유형의 상용 시뮬레이션 테스트에서는 Opus 4.8이 더 잘 정렬되어 있지만 성능은 더 나쁩니다.

테스트에서 Opus 4.8은 이전 Claude 모델보다 덜 기만적, 권력 추구 및 기타 문제로 어려움을 겪었습니다. Opus 4.6, Opus 4.7 및 Mythos Preview와 비교할 때 허점을 덜 활용하고 분명히 해야 할 일이 아닌 작업을 덜 수행하는 것으로 보입니다.
하지만 반면, Vending-Bench 2, Vending-Bench Arena, Blueprint-Bench 2 등의 비즈니스 전략 과제에서는 Opus 4.8이 Opus 4.7보다 성능이 나빴고, 심지어 GPT-5.5에도 졌습니다.
이것은 숙고해볼 가치가 있습니다.이는 "더 잘 정렬되고 정직한 것"과 "더 나은 작업 성과"가 동일한 것이 아님을 보여줍니다.모델은 덜 해롭고 더 적은 허점을 이용할 수 있으며 운영, 협상, 보충 및 가격 책정과 같은 복잡한 시뮬레이션 작업에서는 성능이 저하될 수도 있습니다.
Andon Labs는 또한 더 미묘한 문제를 지적했습니다. Opus 4.8이 특정 비윤리적 행동을 거부할 때 그 이유는 때때로 "이 일 자체가 잘못되었습니다"라기보다는 "이것이 보고/처벌될 것입니다"에 가깝습니다. 이는 인류 시스템 카드의 또 다른 신호와도 밀접하게 연관되어 있습니다. 즉, 모델이 출력 점수를 매기는 방법에 대한 추론이 점점 더 좋아지고 있습니다.
이는 거짓말을 한다는 의미는 아니지만, 모델의 정직성을 신화화하지 말 것을 상기시켜 줍니다. 위험에 더 많이 노출될 수도 있고 명백한 잘못을 피할 가능성도 더 높을 수 있지만, 이것이 인간적인 의미에서 이미 정직하다는 것을 의미하지는 않습니다. 여전히 보상 메커니즘, 평가 환경, 작업 설정의 영향을 받는 모델입니다.
그러므로 Opus 4.8에 대한 가장 가치 있는 질문은 "더 정직한가?"가 아닙니다. 문제는 모델이 "정직이 높은 점수를 받을 것"이라는 것을 알고 있기 때문에 더 정직하게 행동한다면 이 정직은 우리가 원하는 정직과 얼마나 다릅니까?
실제 업무에서는 마지막 10%에 문제가 있습니다.
Simon이 정직성을 보고 Andon Labs가 정렬 비용을 보고 있다면 Claire Vo는 가장 실용적인 문제인 Opus 4.8이 실제 작업을 완료할 수 있는지 여부를 보고 있습니다.

그녀는 코딩, 디자인 및 전략 작업에 Opus 4.8을 사용하며 평가는 일방적인 칭찬이 아닙니다. 그녀가 본 것은 처음부터 프로토타입 제작, 일회성 기능 구현, 아이디어를 운영 솔루션으로 신속하게 전환하는 등 작업 진행에 더 나은 모델이었습니다. Opus 4.8은 이러한 시나리오에서 좋은 성능을 발휘했습니다.
하지만 문제는 여전히 '마지막 10%'에서 발생한다.기존 코드 기반의 엣지 케이스, 데이터 집약적 작업 및 복잡한 로드맵 판단으로 인해 여전히 문제가 발생할 수 있습니다. 그녀의 경험에 따르면 Opus 4.8은 모든 시나리오에서 Opus 4.7을 대체할 수 없습니다. 이는 더 긍정적이고 임무를 진행하는 데 더 적합하지만, 긍정적이라고 해서 항상 옳은 것은 아닙니다.
이는 일반 사용자에게 특히 중요합니다.
비용 측면에서도 기본 채팅 모델로는 적합하지 않습니다. Opus 4.8의 표준 API 가격은 입력 토큰 백만 개당 미화 5달러, 출력 토큰 백만 개당 미화 25달러입니다. 새로운 빠른 모드(빠른 모드)는 US$10와 US$50입니다. 이 빠른 모드는 이전 세대 Opus 4.7 빠른 추론의 30달러와 150달러보다 2/3 저렴하지만 표준 모드보다 여전히 비쌉니다.
즉, 복잡한 작업에 더 적합하며 일상적인 Q&A, 가벼운 재작성 및 서식 지정에는 적합하지 않습니다.
이에 적합한 세 가지 유형의 작업
Opus 4.8은 세 가지 유형의 작업에 사용할 가치가 있습니다.
첫 번째 범주는 긴 컨텍스트 작업입니다.예를 들어, 긴 기사의 구조를 구성하는 데 도움이 되도록 모델에서 일련의 데이터를 읽도록 합니다. 프로젝트 위험을 요약하기 위해 여러 회의록을 읽게 하세요. 여러 문서에서 모순을 찾아보세요. 이러한 유형의 작업의 어려움은 한 문장의 답변이 아니라 지속적으로 맥락을 유지할 수 있는지, 어떤 정보가 증거인지, 어떤 정보가 추측인지 알 수 있는지 여부에 있습니다.
두 번째 범주는 다단계 작업 흐름입니다.예를 들어 자동화된 프로세스를 설정하는 데 AI에게 도움을 요청하는 경우 먼저 데이터를 캡처한 다음 필터링하고 첫 번째 초안을 작성한 다음 자체 점검하고 릴리스 버전을 생성합니다. 여기서 가장 큰 두려움은 모델이 뛰어내릴 것이라는 점이다. 모든 단계에서 "완료"라고 표시되는 것처럼 보이지만 실제로는 중간에 누락된 확인 사항이 있습니다. Opus 4.8의 가치는 여기에는 증거도 없고 검증도 없으며 수동 확인이 필요하다는 점을 더욱 기꺼이 상기시켜 줄 수 있다는 것입니다.
세 번째 범주는 코드 및 에이전트 작업입니다.다중 파일 리팩토링, 테스트 개선, 버그 문제 해결, 도구 체인 마이그레이션 등이 있습니다. 단지 코드를 작성하는 것뿐만 아니라 프로젝트를 읽고, 종속성을 이해하고, 수정을 계획하고, 부작용을 발견하는 것도 포함됩니다. Opus 4.8은 이러한 유형의 작업에 시도해 볼 가치가 더 높습니다. 왜냐하면 Anthropic이 이번에는 Claude Code 및 장기 에이전트 워크플로에 대해 분명히 이를 추진했기 때문입니다.

이것이 바로 Karo Zieminski 및 Jake Handy의 기사와 같은 기사가 반드시 새로운 테스트를 많이 제공하지는 않더라도 맥락을 살펴볼 가치가 있는 이유입니다. 그들은 모두 Opus 4.8을 Claude의 작업 흐름의 다음 단계에 두었습니다. Opus 4.8은 격리된 채팅 모델이 아니라 노력 제어, 빠른 모드 및 동적 작업 흐름과 함께 나타납니다.
소위 동적 워크플로우는 Claude Code의 연구 미리 보기 방향입니다. 모델은 먼저 복잡한 작업을 계획한 다음 이를 여러 하위 작업으로 분할하고, 필요할 때 여러 하위 에이전트를 호출하여 병렬로 진행한 다음 마지막으로 요약하고 확인할 수 있습니다.중요한 것은 "모델이 동시에 실행할 수 있는 에이전트 수"가 아니라 Anthropic이 Claude를 응답 시스템에서 조직 작업 시스템으로 전환하고 있다는 것입니다.
이것이 Opus 4.8이 "전환 모델"과 같은 이유입니다.
일반적인 모델 반복이라면 주로 실행 점수, 순위, 컨텍스트 및 속도에 중점을 두어야 합니다. 그러나 이번에 Anthropic은 사고 강도 제어, 빠른 모드 및 동적 작업 흐름을 도입하면서 이 모델이 "거대하지는 않지만 인지 가능한 개선"일 뿐이라고 말했습니다. 이는 Opus 4.8의 중요성이 모델 자체에만 있는 것이 아니라 Claude 워크플로의 다음 단계를 위한 인터페이스를 구축하는 데에도 있다는 것을 보여줍니다.
누가 누구를 이겼는지 따지지 마세요
일부 리뷰어는 Opus 4.8이 어려운 프로그래밍이나 전문 작업에서 GPT-5.5에 매우 가깝거나 심지어 이를 능가한다고 믿는 반면, 다른 리뷰어는 Anthropic이 여전히 OpenAI를 따라잡고 있다고 믿습니다. 문제는 이러한 비교가 특정 벤치마크, 프롬프트, 도구 환경 및 수용 방법에 의해 쉽게 영향을 받는다는 것입니다. "종합 능가"라고 직접 쓰는 것은 안정적이지 않습니다.
보다 유용한 비교는 경로 차이입니다.
Opus 4.8의 장점은 긴 컨텍스트, Claude Code, 지능형 프로그래밍, 정직성 및 작업 흐름 구성입니다. GPT-5.5/Codex의 장점은 일반 기능, 프로젝트 실행, 코드 구현 및 작업 간 협업 측면에서 여전히 강력합니다.
성숙한 사용자는 하나의 모델을 종교로 간주하지 않고 다른 모델을 다른 위치에 배치합니다.예를 들어 Opus 4.8은 복잡한 작업 계획, 장기적인 자료 이해 및 위험 경고를 담당할 수 있습니다. Codex는 구현, 테스트 및 코드 검토를 담당할 수 있습니다. GPT-5.5는 기사를 다른 관점에서 재구성하고 반례를 보완하며 반대 심문을 담당할 수 있습니다.
고부가가치 작업의 핵심은 '가장 강력한 모델을 선택'하는 것이 아닙니다. 핵심은 강력한 모델이 서로 결점을 찾도록 하는 것입니다.
일반 사용자는 어떻게 선택합니까?
일반 사용자의 경우 결론은 더 간단할 수 있습니다.
라이트 사용자는 업그레이드를 서두르지 않습니다.귀하의 일상이 단지 Q&A, 요약, 정리에 불과하다면 Opus 4.8의 이점은 분명하지 않을 것입니다.
보통 사용자에게는 시도해 볼 가치가 있습니다.정보 정리, 긴 기사 작성, 프로젝트 계획, 코드 확인, 작업 흐름 설정 등의 작업을 AI가 지속적으로 수행하도록 허용하기 시작한 한 Opus 4.8의 "완전한 척은 덜함"은 가치가 있습니다.
고위험 작업을 검토해야 합니다.비즈니스 결정, 법률 문서, 의료 정보, 재무 분석, 중요한 코드 병합 등 모델이 더 정직하다고 해서 검증을 포기할 수는 없습니다. Opus 4.8은 문제를 찾는 데 도움을 줄 수 있지만 책임을 질 수는 없습니다.

따라서 이번 Opus 4.8에서 가장 주목할 점은 목록을 몇 포인트 늘렸는지가 아니라, 모델 경쟁의 초점을 한 단계 더 끌어 올렸다는 것입니다.
과거에 우리는 어떤 모델이 더 똑똑할까요?라고 물었습니다.
이제 질문할 시간입니다. 제공되는 작업에 어떤 모델이 더 적합합니까?
계획을 세울 수 있는지, 작업을 분할할 수 있는지, 도구를 호출할 수 있는지, 언제 틀렸는지 알아낼 수 있는지, 언제 멈춰야 하는지 알 수 있는지, 위험을 명확하게 설명할 수 있는지 등 여러 가지 기능 레이어가 누락되어 있습니다.
솔직한지 아닌지에 대한 제 판단은 다음과 같습니다: Opus 4.8은 이전보다 더 솔직함을 보여주고, 불확실성을 드러낼 가능성도 높지만, 우리는 아직 이 솔직함을 안정적이고 신뢰할 수 있는 캐릭터로 이해할 수 없습니다.
이전보다 덜 기만적일 수 있지만 그렇다고 해서 정직해지는 법을 배웠다는 의미는 아닙니다.현재 평가 시스템에서 더 안전하고 조심스럽게 행동하고 위험을 덜 숨기는 방법을 배우기 시작했습니다.
사용자에게 중요한 것은 "더 정직하다"고 믿는 것이 아니라 검토, 증거, 경계가 있는 워크플로에 넣는 것입니다. Opus 4.8이 증명하고 싶은 것은 답을 아름답게 설명할 수 있는지 여부가 아닙니다. 어떤 부분이 완성됐는지, 어떤 부분이 검증되지 않았는지, 어떤 부분을 직접 보아야 하는지, 한 가지를 마친 후에 좀 더 확실하게 알려줄 수 있느냐가 관건이다.