SuperCLUE 팀이 DeepSeek V4 시리즈의 중국 대형 모델에 대한 평가 결과를 공개했습니다. DeepSeek-V4-Pro는 종합적인 성능으로 국내 1위를 차지했습니다., 플래시 버전이 2위를 바짝 뒤쫓고 있으며, 국내 오픈소스 모델이 또 다른 돌파구를 마련하고 있다. 이 평가는 수학적 추론, 과학적 추론, 코드 생성, 에이전트 작업 계획, 지시 따르기 및 환상 제어의 6가지 차원을 다룹니다. Pro 버전은 70.98점, Flash 버전은 68.82점을 기록했습니다. 두 점수 모두 다른 국내 모델에 비해 월등히 앞섰다.


DeepSeek V4 시리즈는 새로운 주의 메커니즘을 채택했습니다. 모든 버전은 수백만 개의 긴 컨텍스트를 지원하는 동시에 컴퓨팅 성능과 메모리 사용량을 줄입니다. 국내 칩과 함께 사용하면 전반적인 효율이 더 높아집니다.

이전 세대 V3.2와 비교하여 두 버전 모두 포괄적인 개선을 이루었습니다. Pro 버전의 에이전트 능력은 20점 이상 향상되었고, 수학적 추론은 10점 가까이 향상되었으며, 명령 추종 능력은 12점 가까이 향상되었으며, 환상 제어도 대폭 최적화되었습니다.


효율적인 추론을 유지하는 동시에 Flash 버전은 뛰어난 비용 대비 성능으로 에이전트 및 수학적 추론을 크게 향상시킵니다.


Pro 버전(15위안/백만 토큰)은 고성능, 보다 안정적인 환상 제어에 중점을 두고 있으며 복잡한 작업 및 전문적인 장면에 적합합니다. 플래시 버전이 더 빠르고 저렴합니다. API 가격은 백만 토큰당 1.25위안에 불과하므로 매일 사용하기에 더욱 비용 효율적입니다.

코드 생성과 복잡한 명령어 실행 측면에서도 아직 해외 상위 모델과 격차가 있다는 점도 평가에서 지적됐다. 전반적으로 DeepSeek V4는 균형 잡힌 기능과 저렴한 비용으로 중국 최초의 계층으로 자리매김하여 일상적인 사무, 개발 및 생성, 긴 텍스트 처리를 위한 고품질 선택이 되었습니다.