거의 두 달 동안 기다려오며 소셜 미디어를 장악하고 있는 Anthropic Mythos 모델이 오늘 드디어 공식 출시되었습니다. 두 달 전, Anthropic은 자사의 가장 강력한 모델이 공개되기에는 너무 위험하다고 말했으며, 이를 100개가 넘는 기관에만 보냈습니다. 오늘날 이러한 기능은 모든 사람에게 열려 있습니다. 공개적으로 출시된 버전은 Claude Fable 5입니다. 진정한 "제한이 없는" Mythos 5는 여전히 소수의 파트너만을 위한 것입니다.즉, 당신이 사용할 수 있는 가장 강력한 클로드는 경계가 추가된 신화입니다.


이 가드레일의 디자인은 "공개"라는 단어 자체보다 더 언급할 가치가 있습니다. 안전을 보장하는 방식은 여러분을 거부하는 것이 아닙니다.

Anthropic은 이번에 Claude Fable 5와 Claude Mythos 5라는 두 가지 모델을 한 번에 출시했습니다. 두 모델은 실제로 안전 가드레일이라는 한 가지 차이점만 제외하고 동일한 기본 모델입니다.

Fable 5는 모든 사용자를 위한 완전한 보안 분류자 세트를 제공합니다. Mythos 5는 이러한 제한 사항 중 일부를 제거하고 이를 Project Glasswing의 네트워크 보안 파트너에게만 제공합니다.

직설적으로 말하면,우화 5는 "가드레일이 있는 신화"입니다..

앤트로픽의 평소 스타일처럼, 모델명 자체에도 어떤 생각이 숨겨져 있습니다.

Anthropic에 따르면 Fable은 "이야기가 전달되는 것"을 의미하는 라틴어 fabula에서 유래했으며 그리스 신화와 동일한 기원을 가지고 있습니다. 두 이름은 같은 것을 가리키며, 유일한 차이점은 둘 중 하나에 경계가 있다는 것입니다.

타임라인을 조금 뒤로 당겨보세요. 올해 4월 Anthropic은 Project Glasswing을 출시했으며 Mythos 수준 모델(Claude Mythos Preview)을 처음 출시했을 때 소수의 사이버 보안 및 중요 인프라 기관에만 제공되었습니다. 지난 주까지 목록은 12개 이상의 국가와 100개 이상의 기관으로 확대되었습니다. 당시 공식 성명에서는 해당 모델이 잘못된 손에 들어가면 심각한 피해를 입을 수 있어 공개할 수 없다는 것이었는데요.


두 달 만에 "게시하기에는 너무 위험함"에서 "모든 사람이 사용할 수 있음"으로 바뀌었습니다. 그 사이에 일어나는 일이 이번 릴리스의 진짜 주인공입니다.

대부분의 AI의 안전 메커니즘은 "거부"입니다. 즉, 대답해서는 안 되는 질문을 하면 AI는 "죄송합니다. 도와드릴 수 없습니다."라고 말합니다.

Fable 5는 다른 접근 방식을 취합니다.안전은 거부하는 법을 배우는 것이 아니라 위험이 발생할 때 교체하는 것입니다.

특히 Fable 5에는 그 뒤에 독립된 분류기 세트가 있습니다.

이 분류자 세트가 귀하의 요청이 사이버 공격, 생화학 무기 및 모델 증류(자신의 모델을 훈련하기 위해 모델의 기능을 "훔치는" 것을 의미)의 세 가지 고위험 영역에 해당한다고 판단하면 Fable 5가 대답하도록 허용하지 않고 조용히 Opus 4.8로 질문을 전송하고 다음과 같이 알려줍니다. 다운그레이드가 발생했습니다.

이 디자인의 흥미로운 점은 "보안"과 "능력"을 서로 다른 두 가지로 분리한다는 것입니다.당신은 신화 수준의 힘을 구매하고 있지만 가장 위험한 세 가지 영역에서는 실제로 Opus와 대화하고 있습니다.Anthropic 자신의 진술에 따르면 Opus 4.8로 다운그레이드한 경험이 Fable에서 직접 거부당하는 것보다 낫다는 것입니다. 결국 Opus 4.8 자체도 상당히 강력한 모델입니다.


Anthropic에 따르면 대화의 95% 이상이 다운그레이드를 전혀 유발하지 않습니다. 즉, 대부분의 사람들에게 당신이 사용하는 Fable 5의 경험은 파트너의 손에 있는 "완전한" Mythos 5와 거의 동일합니다.

그럼 이 가드레일 세트는 튼튼한가요? Anthropic은 수천 시간이 넘는 외부 레드팀 테스트를 수행했지만 이를 우회할 수 있는 "보편적 탈옥" 방법(모델이 모든 보안 제한을 완전히 무시할 수 있도록 하는 보편적인 방법)을 아무도 발견하지 못했다고 말했습니다.

물론, 약간의 여지도 남겨둡니다. 탈옥을 완전히 없애는 것은 아마도 불가능할 것입니다. 목표는 대규모로 악용하기에는 "너무 느리고 비용이 많이 드는" 취약점을 만드는 것입니다.

그러나 이 메커니즘에는 대가가 있으며 Anthropic 자체가 먼저 이렇게 말했습니다. 분류자는 이제 너무 엄격하게 조정되어 실수로 일반 요청을 손상시킬 수 있습니다. 바이러스를 연구하는 생물학자나 침투 테스트를 수행하는 보안 엔지니어는 합법적인 업무 과정에서 설명할 수 없는 이유로 "강등"될 수 있습니다. 관계자는 이로 인해 일부 사용자가 짜증을 낼 수 있음을 인정하고 앞으로는 점차 범위를 좁혀 허위 경보를 줄이겠다고 약속했습니다.

나는 이것에 대해 잠시 생각해 보았고 실제로는 매우 영리하지만 매우 무력한 타협이라고 느꼈습니다. 영리한 점은 "촬영"과 "보내지 않음" 중에서 선택하지 않고 능력을 삭감한다는 것입니다. 하지만 안타깝게도 이 컷은 정확하지 않습니다. 문제가 발생하기 전에 온라인에 접속하기 위해 Anthropic은 놓치는 것보다 실수로 죽이는 편이 낫습니다.

위험할 정도로 강한 사람만이 이 가드레일을 가질 자격이 있습니다.

보안에 대해 오랫동안 이야기한 후 다음과 같이 질문할 수 있습니다. 얼마나 강력한 보안이며, 적에게 그렇게 취약할 가치가 있습니까?

나는 원래 벤치마크 테스트를 건너뛰고 싶었습니다. 벤치마크를 너무 많이 읽으면 무감각해질 것입니다. Anthropic은 목록이 길고 모든 카테고리에서 거의 1위를 차지할 만큼 목록이 많습니다.

가장 허세를 부리는 것은 Stripe에서 나온 것입니다. Anthropic에 따르면 Stripe은 Fable 5를 사용하여 5천만 줄의 Ruby 코드 기반에서 전체 데이터베이스 마이그레이션을 수행했으며 이는 하루 만에 완료되었습니다. 이 작업은 원래 전체 팀이 2개월 이상 수동으로 수행해야 했습니다. 더 중요한 것은 효율성입니다. Cognition의 FrontierCode 프로그래밍 테스트에서 Fable 5는 "중간 컴퓨팅 전력 소비" 항목에서 가장 높은 점수를 얻었으며 토큰 효율성은 이전 Claude보다 훨씬 뛰어났습니다.

이는 또한 Anthropic이 오랫동안 자율적으로 작동하고 매 턴마다 수백만 개의 토큰을 소비할 수 있는 모델인 토큰 효율성을 반복해서 강조하는 이유를 설명합니다. 만약 이것이 여전히 "말도 안되는" 경우 비용이 너무 높아서 누구도 사용할 여유가 없을 것입니다.

시력의 진행은 더욱 직관적입니다. 과거 Claude가 Pokémon Fire Red를 플레이할 때 그는 보조 도구 체인의 완전한 세트에 의존하여 비틀거리며 발전해야 했습니다. Fable 5는 스스로 레벨을 완성하기 위해 가장 기본적인 시각적 인터페이스만을 사용했습니다. 또한 몇 개의 스크린샷만으로 웹 애플리케이션의 소스 코드를 복원할 수도 있습니다.

Anthropic의 사내 단백질 디자인 전문가들은 Mythos 5를 사용하여 약물 디자인 프로세스의 일부 측면을 약 10배 가속화했습니다. 두 번째는 훨씬 더 과장되었습니다. 유전체학 연구에서 Mythos 5는 거의 완전히 자율적인 상태에서 일주일 이상 지속적으로 작동하여 자체적으로 기계 학습 모델을 훈련했습니다. 이 모델의 성능은 Science에 게시된 유사한 모델의 성능을 능가했으며 그 양은 후자의 1%에 불과했습니다.

모델이 일주일 간의 과학 연구를 독립적으로 완료하고 최고의 저널에 발표된 인간의 결과보다 더 나은 결과를 얻을 수 있다면 "바이러스를 설계하는 데 사용될지 여부"는 더 이상 근거 없는 걱정이 아닙니다.이것이 바로 Anthropic이 생화학 분야를 별도로 잠그는 이유입니다. 동일한 능력이 연구자의 손에 있는 해독제이지만 다른 쌍의 손에 있는 것은 다른 것일 수도 있습니다.


여기서는 권력과 위험이 동전의 양면입니다. 가드레일을 추가하는 이유는 모델이 좋지 않아서가 아니라, 너무 좋기 때문입니다.

Anthropic은 Mythos를 완전한 감독이 필요한 위험한 개체로 묘사하는 것을 볼 수 있습니다. 하지만 공식적인 내러티브 외에 다른 목소리도 있다.

Mythos의 엔터프라이즈 파일럿에 참여했다고 주장하는 ID @zekramu를 가진 X 사용자는 최근 Mythos를 하루 종일 사용한 후 자신의 감정을 공유하기 위해 게시했습니다. 그의 설명은 기자 회견의 설명과 완전히 일치하지 않습니다.

그에 따르면 Mythos는 특히 보안 연구 작업에서 매우 강력하다고 합니다. 마치 이런 종류의 작업을 위해 특별히 조정된 것처럼 Opus 및 GPT-5.5의 최고 구성보다 확실히 더 좋습니다. 하지만 '강하다'와 '인류를 위협하다'는 것은 별개의 문제다. 그는 세부 사항을 설명했습니다. 공식적으로 훌륭하다고 알려진 이 모델은 Bazel(코드 구성 도구)을 기반으로 하는 회사의 프로세스 앞에 갇혀 있고 많은 사용자 정의 로직을 변경했습니다. 결국 그는 먼저 코드를 컴파일한 다음 모델을 실행해야 했습니다.


더욱 흥미로운 것은 가드레일 자체입니다. 그의 설명에 따르면 Anthropic이 모델과 함께 보낸 것은 친숙한 Claude Code가 아니라 "모델 탈출을 방지"하기 위해 특별히 설계된 일련의 운영 환경(소위 Project Glasswing)이라고 그의 의견으로는 주로 이 샌드박스입니다. 그러나 그는 환경이 매우 열악하다고 느꼈고 일부 제한 사항이 실제로 전혀 적용되지 않는다고 의심하기도 했습니다. 그는 또한 공식적인 경계를 우회하고 샌드박스 외부에서 모델을 실행했다고 말했습니다.

기록에 따르면 그는 Mythos가 자사 제품에서 이전에 발견되지 않은 수많은 보안 취약점을 발견했으며 이는 팀이 보안 전략을 다시 생각하게 만들 정도로 충분하다고 말했습니다.

그의 결론은 곰곰이 생각해볼 가치가 있다. 이 모델은 안전 공수 측면에서 두 가지 브러시를 갖고 있지만, 그의 눈에는 인류학이 의미하는 것처럼 "모든 사람의 머리 위에 걸려 있는" 존재라기보다는 극도로 비싸고 극도로 전문화된 도구에 더 가깝다.

보통 사람들이 가장 걱정하는 것이 무엇인지, 즉 비용이 얼마인지, 언제 사용할 수 있는지 다시 생각해 보겠습니다.

가격 측면에서 Fable 5 및 Mythos 5의 API 가격은 입력 토큰 백만 개당 미화 10달러, 출력 토큰 백만 개당 미화 50달러입니다. 수평적 비교는 흥미롭습니다. Mythos Preview의 25/125 미국 달러와 비교하면 60% 더 낮습니다. 그러나 Opus 4.8의 5/25 미국 달러보다 두 배나 비쌉니다. OpenAI의 GPT-5.5(5/30 US $)와 비교하면 입력 비용은 2배, 출력 비용은 약 67% 더 비쌉니다.


다시 말해서,현재까지 가장 강력한 Claude 모델이자 가장 비싼 Claude 모델 중 하나입니다.강력하지만 저렴하지는 않습니다.

앞서 언급한 @zekramu의 주장도 정황 증거로 간주될 수 있습니다. 그의 추정에 따르면 파일럿 단계에만 투자한 금액이 수백만 달러 수준에 이르렀습니다. "너무 비싸다"는 그가 반복해서 반복하는 문장이다.


가입자는 또한 시간대에 주의를 기울여야 합니다. 오늘부터 6월 22일까지 Pro, Max, Team 및 Enterprise 버전 사용자는 Fable 5를 무료로 사용할 수 있습니다. 6월 23일부터 계속 사용하려면 추가 사용 크레딧을 구매해야 합니다.

Anthropic은 생산 능력이 따라잡으면 Fable 5를 다시 구독 표준으로 만들 것이라고 밝혔지만 구체적인 시기는 밝히지 않았습니다. API 및 종량제 기업 고객은 이러한 리듬에 영향을 받지 않으며 오늘부터 평소대로 계속 통화할 것입니다.

이 약간 어색한 "먼저 무료로 제공하고 그 다음에는 충전하고 나중에 이야기하라"는 것은 실제로 생산 능력이 부족하다는 신호를 드러냅니다. Anthropic은 자체적으로 인정한 바에 따르면 Fable 5에 대한 수요가 "매우 높고 예측하기 어려울" 것으로 예상합니다. 누구에게나 열려 있는 가장 강력한 모델은 먼저 컴퓨팅 파워 수준을 통과해야 합니다.

이번 릴리스에서 정말 간과하기 쉽지만 가장 멈춰서 살펴보아야 할 것은 또 다른 정책입니다.

Fable 5부터 모든 Mythos 수준 모델의 트래픽은 자사 및 타사 플랫폼을 모두 포함하여 30일 동안 유지되어야 합니다.

Anthropic은 이 데이터를 모델 훈련에 사용하지 않고, 많은 요청에 분산되어 있고 각각 정상적으로 보이는 새로운 유형의 탈옥 및 복잡한 공격을 식별하는 등 보안 모니터링에만 사용할 것을 약속합니다. 이를 위해 새로운 개인 정보 보호 기능도 추가했습니다. 모든 수동 방문은 기록되고 기본적으로 30일 후에 삭제됩니다.

합리적인 것 같습니다. 하지만원래 "데이터 보존 제로" 때문에 Anthropic을 선택한 기업 고객의 경우 이는 재평가가 필요한 변경 사항입니다.

가장 강력한 모델을 사용하는 데 드는 비용은 더 비쌀 뿐만 아니라 귀하의 데이터가 Anthropic 서버에 한 달 더 유지됩니다.

여기서는 보안과 개인 정보 보호가 동일한 수준으로 이루어집니다. Anthropic이 제시한 답변은 다음과 같습니다. 전례 없는 공격을 방지하려면 모든 사람의 트래픽을 30일 동안 모니터링해야 합니다. 이 계정은 비용 효율적이지 않으며 각 회사가 자체적으로 계산을 해야 하는 것이 유감입니다.

이것을 종합하면 Fable 5의 진정한 참신함은 그것이 얼마나 강력한가가 아니라 인류학에서 새로운 길을 택했다는 것입니다.공개하기에는 너무 위험한 기능을 모두가 사용할 수 있는 제품으로 바꾸는 방법.

방법은 분류자를 사용하여 기능을 나누고, 거부 대신 다운그레이드를 사용한 다음, 30일 보존을 비밀 모니터링 네트워크로 사용하는 것입니다.

완벽하지 않습니다. 우발적인 손상을 일으키고 비용이 더 많이 들며 일부 사람들은 데이터에 대해 걱정하게 될 것입니다. 그러나 이는 적어도 모든 최첨단 실험실이 조만간 직면하게 될 질문에 답합니다. 손에 있는 무언가가 사람을 다칠 만큼 강할 때 소수의 사람만 들어갈 수 있는 방에 그것을 잠그겠습니까, 아니면 그 위에 충분히 강한 난간을 설치하고 모든 사람의 손에 쥐어줄 것입니까?

인류는 후자를 선택했습니다.


이 가드레일이 충분히 강한지 여부에 대해서는 이번에는 더 이상 100개 이상의 기관이 이에 대한 스트레스 테스트를 수행하는 것이 아니라 모든 사람이 수행합니다.