세차하러 걸어가기, 적록색맹 등의 질문에는 모두 오답이 나왔습니다. 네티즌들은 가장 강력한 프로그래밍 AI가 지능을 심각하게 감소시켰다고 불평했습니다

며칠 전 앤트로픽(Anthropic)이 출시한 마이토스(Mythos)가 가장 강력한 AI 대형 모델이라는 신기록을 세웠으나 아직 공개되지 않고 있다. 현재 가장 강력한 AI 프로그래밍 대형 모델은 Claude Opus 4.6이며 현재 가장 비쌉니다. 그러나 최근 클로드의 지능 문제는 높은 가격을 지불한 수많은 개발자들 사이에서 불만을 불러일으키고 있다.이전에는 AMD의 AI 부서 임원들도 나와서 지능 감소 문제가 개발에 영향을 미쳤으며 영향 범위가 상당히 크다고 말했습니다.

국내 Linux.do 커뮤니티에서도 많은 네티즌들이 Opus 4.6의 지능 저하 문제에 대해 이야기하고 있으며, 잘 알려진 두 가지 AI 대형 모델 테스트 문제로 이를 검증하기도 했습니다.

이 두 가지 질문 중 하나는 50미터 거리에 있는 세차장까지 운전해서 갈 것인지, 걸어갈 것인지에 관한 것입니다. 다른 하나는 딸의 적록 색맹으로 인해 아버지가 쇠약해진 것에 관한 것입니다.본질적으로 그들은 모두 논리적 함정이지만 AI의 능력을 테스트할 수 있습니다.

이전에도 많은 국내외 AI가 세차 문제를 뒤집은 적이 있다. Claude의 대형 모델은 IQ 이점이 분명하며 질문에 정확하게 답할 수 있는 몇 안 되는 대형 모델 중 하나입니다.

그러나 현재의 실제 측정에 따르면 가장 강력한 Opus 4.6 대형 모델조차도 이 두 가지 질문에 부정확하게 답하기 시작했으며 이전의 높은 IQ 능력을 상실했습니다.

일부 네티즌들은 자신들이 정답을 맞힐 수 있다며 직접 테스트한 사진도 게재해 이 질문이 완전히 일방적인 것은 아니다.

AMD의 이전 불만 사항을 보면 최근 Cluade의 지능이 감소한 것이 분명하지만 감소 이유를 말하기는 어렵습니다. 앤트로픽 경영진은 이전에도 문제가 있었다는 점을 인정하지 않았다.

보다 합리적인 추측은 컴퓨팅 성능과 관련이 있다는 것입니다. 며칠 전 머스크의 질문에서는 클로드의 소네트 4.6이 1조 개의 매개변수를 가진 대형 모델이라는 사실이 무심코 드러났다.Opus 4.6에는 5조 개의 매개변수가 있습니다.그리고 그것은 MoE 유형이 아닙니다. 밀집형 모델은 매우 높은 컴퓨팅 파워를 요구하고 가격도 비싸기 때문에 충전 가격도 가장 비싸다.

오늘날의 AI 회사는 여전히 구독 판매로 인해 손실을 입고 있으며, 이는 Crayfish와 같이 토큰 소비가 극도로 높은 애플리케이션을 금지하려는 Anthropic의 동기를 부분적으로 설명할 수도 있습니다.

국내 개발자들이 지능을 낮추는 이유는 또 있다.즉, Anthropic은 IP 기반의 지능을 목표로 삼을 것입니다.본질적으로 컴퓨팅 파워를 할당하는 문제이기도 하지만, 이를 타겟 IP/국가 형태로 하는 것은 그들만이 아닙니다. 오픈AI 등 다른 미국 기업들도 이 방식을 사용해 국내 개발자와 사용자를 제한한 것으로 드러났다.