DeepSeek R1 정식 버전을 실행하는 Apple M3 Ultra의 실제 테스트: 8카드 A100

최근 Bilibili의 UP 호스트 "하지만 장 헤이 헤이"는 동영상을 공유했습니다.6,710억 개의 매개변수 DeepSeekR1 모델을 실행하는 Apple M3Ultra의 순수 버전의 테스트 결과를 보여줍니다. 속도는 A100 그래픽 카드 8개보다 훨씬 빠르지만 비용은 훨씬 저렴합니다.

6,710억 매개변수의 DeepSeekR1 모델을 실행하려면 일반적으로 6~8개의 A100을 갖춘 전문가급 서버가 필요합니다. 총 가격은 100만 위안을 쉽게 넘는데, 이는 일반 사용자가 감당하기 거의 불가능합니다.

그러나 M3Ultra의 완전한 버전은 MacStudio만 있으면 유사한 성능을 얻을 수 있으며 매우 비용 효율적입니다.

테스트 결과에 따르면 DeepSeekR1 모델을 실행할 때 8개의 A100 그래픽 카드 성능은 16.41Tokens/s인 반면, M3Ultra의 전체 버전은 GGUF 형식으로 15.78Tokens/s에 도달합니다.

통합 메모리를 활용할 수 있는 MLX 형식으로 전환한 후 속도는 19.17Tokens/s로 향상되어 A100 그래픽 카드 8개를 넘어섰습니다. 또한 M3Ultra가 DeepSeekV36710억 매개변수 모델을 실행했을 때 속도도 19.66Tokens/s에 도달했습니다.

그러나 이것이 M3Ultra가 모든 시나리오에서 A100을 능가할 수 있다는 의미는 아닙니다. 단일 사용자가 단일 모델 추론을 수행하는 경우 주로 메모리 대역폭과 용량에 의존하므로 A100의 잠재력을 완전히 실현할 수 없습니다. 다중 사용자 추론 및 대규모 모델 교육 시나리오에서 M3Ultra는 A100과 완전히 비교할 수 없습니다.

또한, M3Ultra는 대규모 언어 모델 추론 속도 테스트에서도 좋은 성적을 거두었고,Llama3.170B, Gemma227B 또는 Qwen2.514B 모델이든 속도는 다른 M 시리즈 칩보다 훨씬 뛰어납니다. M2Ultra에 비해 속도는 각각 13%, 34%, 18% 증가합니다.

이번에 테스트한 M3Ultra 풀블러드 버전은 512GB 통합 메모리를 탑재했으며, 총 가격은 74,249위안이다. 대부분의 사용자는 이러한 대규모 모델을 실행할 필요가 없다면 통합 메모리 용량을 적절하게 줄여 비용을 절감할 수 있습니다.