DeepSeek은 한 단계 더 발전하여 추론 속도가 85%나 치솟습니다. 어떻게 합니까?

6월 27일 DeepSeek은 DSpark 기술 보고서와 DeepSpec 코드 베이스를 공개했습니다. DeepSeek-V4의 기본 모델은 변경되지 않았습니다. 새로운 점은 서버 측 추측 디코딩 모듈인 DSpark입니다. DeepSeek은 HuggingFace 모델 페이지에서 V4-Pro-DSpark와 V4-Flash-DSpark가 "새 모델이 아닙니다"라고 매우 솔직하게 설명합니다. 이 두 페이지는 동일한 모델 체크포인트와 디코딩된 모듈을 추측한 후의 서비스 버전을 가리킵니다.

이는 DSpark가 모델을 갑자기 더 똑똑하게 만들지 않는다는 것을 의미합니다. 모델이 온라인화 된 후 더 빠르고 저렴하게 답변을 내놓는 방법을 목표로합니다.

기술 보고서에는 DSpark가 DeepSeek-V4의 온라인 서비스 시스템에 배포되었다고 명시되어 있습니다. 실제 사용자 트래픽에서 처리량 조건이 일치하는 경우 DeepSeek의 이전 세대 온라인 추측 생성 솔루션인 이전 MTP-1 생산 기준과 비교하여 V4-Flash의 사용자당 생성 속도는 60%에서 85%로 증가하고 V4-Pro는 57%에서 78%로 증가합니다.

여기서 "금식"도 완화되어야 합니다.주로 생성 단계, 즉 모델이 계속해서 토큰을 출력하는 속도를 나타냅니다. 이는 모든 사용자 요청의 종단 간 응답 시간이 85% 더 빠르다는 의미는 아닙니다.긴 프롬프트 단어 미리 채우기, 검색, 도구 호출, 대기열 및 네트워크 지연은 여전히 사용자가 실제로 기다리는 시간에 영향을 미칩니다.

모델이 온라인 상태가 된 후에도 여전히 추론 계정이 있습니다.

이는 신모델 출시만큼 생동감은 없지만 AI 기업이 매일 직면하는 현실에 더 가깝다.모델이 훈련된 후에도 비용은 끝나지 않습니다.

챗봇, 코드 도우미, 에이전트, 검색 기반 제품은 호출할 때마다 GPU 시간을 계속 소모합니다. 모델이 느리면 사용자는 더 오래 기다려야 합니다. 추론 비용이 더 많이 든다면 제조업체가 더 많은 시나리오에 고품질 모델을 공개하는 것이 더 어려울 것입니다.

AI 업계는 지난 2년 동안 기업이 구입해야 하는 GPU 수, 클러스터 구축 규모, 차세대 모델을 훈련하는 데 드는 비용 등 훈련 비용을 논의하는 데 더욱 익숙해졌다. 그러나 모델이 실제로 제품이 된 후에는 또 다른 유형의 비용이 계속해서 등장합니다. 바로 추론입니다.

훈련은 큰 프로젝트와 같고 추론은 공과금과 같습니다.사용자가 계속 질문하고, 에이전트가 계속 작업을 실행하고, 코드 도우미가 계속 패치를 생성하는 한, 모델은 계속해서 컴퓨팅 성능을 소비합니다.

대형 모델 서비스는 결국 속도와 단위 토큰 비용이라는 두 가지 지표로 돌아갑니다. API 가격 책정 페이지는 일반적으로 입력 토큰과 출력 토큰을 기준으로 비용을 청구하며 회사는 내부적으로 다양한 모델, 캐시, 경로 및 컨텍스트 길이를 비용 항목으로 분할합니다.

DSpark가 가격 인하와 직접적으로 동일시될 수는 없지만 동일한 GPU 클러스터를 통해 사용자가 유사한 처리량으로 더 빠르게 답변을 얻을 수 있다면 동일한 하드웨어가 더 많은 사용자에게 서비스를 제공할 수 있거나 더 적은 수의 카드로 동일한 사용자 경험을 제공할 수 있다는 의미입니다.

"먼저 추측한 다음 테스트해 보세요"

추측적 디코딩의 개념은 대략 "먼저 추측한 다음 테스트"로 이해될 수 있습니다.

대형 모델이 텍스트를 생성할 때 일반적으로 토큰을 하나씩 뱉어냅니다. 이전 토큰이 나온 후 다음 토큰은 무엇을 선택할지 알게 됩니다. 이 방법은 안정적이지만 느립니다. 추측적 디코딩을 통해 가벼운 초안 모듈은 후보 토큰을 미리 추측할 수 있으며 대상 대형 모델은 일괄적으로 검증됩니다. 정확한 추측은 바로 받아들여지고, 틀린 추측은 수정됩니다.

작은 모델은 큰 모델에 대해 결정을 내릴 수 없습니다. 최종적으로 승인되는 토큰은 여전히 대상 모델에 의해 확인됩니다. 올바르게 구현되면 생성 방법이 변경되고 대상 모델의 출력 분포는 변경되지 않습니다.속도 향상은 대규모 모델이 후보자를 증분 방식이 아닌 일괄적으로 검증함으로써 발생합니다.

DSpark가 변경한 것은 초안을 생성하는 방법입니다.

이 논문은 "먼저 추측한 다음 테스트"하는 설명에서 끝나지 않습니다. 초안을 생성하는 방법에 중점을 둡니다.

기존 초안 전략은 크게 두 가지 범주로 나뉩니다. 자동 회귀 초안 작성기는 나중 토큰이 이전 토큰을 볼 수 있기 때문에 더 안정적이지만 초안이 길어질수록 지연도 늘어납니다. 평행 제도자는 더 빠르고 전체 단락을 한 번에 추측할 수 있지만 각 위치는 별도로 추측됩니다. 나중 토큰은 이전 토큰과의 연결이 쉽게 끊어지며, 나중으로 갈수록 수락률이 하락할 가능성이 높습니다.

DSpark는 타협을 선택합니다.논문 제목의 핵심 단어는 '반자기회귀 세대(Semi-Autoregressive Generation)'입니다. 먼저 병렬 방법을 사용하여 후보를 제안한 다음 경량 순차 레이어를 사용하여 후속 토큰의 조건부 관계를 수정합니다. 이를 통해 병렬 생성 속도를 유지할 수 있을 뿐만 아니라 후속 후보자가 이전에 추측한 내용을 확인할 수 있습니다.

또 다른 핵심 포인트는 검증 시간입니다.

더 많은 후보 토큰을 추측할수록 절약하는 금액은 줄어듭니다. 후반부가 거부될 가능성이 높다는 것을 알고도 여전히 검증을 위해 대규모 모델에 넘겨준다면 가치가 낮은 위치에 GPU 시간을 소비하고 있는 것입니다.DSpark는 후보자의 신뢰도와 현재 시스템 부하를 확인하여 검증 기간을 동적으로 결정합니다.GPU가 비어 있으면 여러 테스트를 수행할 수 있습니다. 로드가 높을 때 컴퓨팅 성능은 수용될 가능성이 더 높은 부분을 위해 예약됩니다.

논문 제목의 "Confidence-Scheduled"가 말하는 내용이 바로 이것이다.

DSpark는 기존 기술 경로를 따릅니다.

DSpark는 기존 디코딩 경로를 추측한 후 DeepSeek가 이 기술 경로를 온라인 서비스로 푸시한 후 공개 참조에 가깝습니다.

SpecInfer는 이르면 2023년부터 소규모 모델 예측, 토큰 트리 및 병렬 검증을 대규모 모델 서비스 시스템에 도입합니다. Medusa는 여러 개의 후속 토큰을 한 번에 예측하기 위해 2024년에 모델에 여러 개의 디코딩 헤드를 추가할 것을 제안했습니다. EAGLE 시리즈는 초안 모델 및 동적 초안 트리에 대한 수용률을 지속적으로 향상시키고 있습니다. vLLM, SGLang 및 TensorRT-LLM과 같은 추론 프레임워크는 오랫동안 추측적 디코딩을 지연 시간을 줄이기 위한 중요한 도구로 간주해 왔습니다.

DSpark의 장점은 초안 생성 방법, 후보자 일관성 유지 방법, 로드에 따른 확인 길이 변경 방법, 실제 온라인 트래픽에서 속도를 얼마나 향상시킬 수 있는지 등 여러 가지 제작 문제를 함께 처리한다는 것입니다.

논문에 반복적으로 등장하는 키워드도 '모델 역량 개선'에서 사용자별 생성 속도, 일치된 처리량, 서비스 수준 계약(SLA)과 같은 서비스 측면 용어로 이동했습니다.

이는 또한 보고자 하는 가장 큰 숫자를 선택할 수 없는 이유를 설명합니다. 실제로 논문에는 661% 및 406%와 같은 높은 처리량 데이터가 있지만 이는 보다 엄격한 사용자별 속도 목표에서 나온 것입니다. 해당 설정에서 이전 기준 자체는 이미 서비스 기능의 경계에 가깝고 DSpark의 상대적 이점이 증폭됩니다.

일반적인 이점을 실제로 설명할 수 있는 것은 이전 숫자 집합, 즉 일치하는 처리량, 실제 트래픽 분포 및 비교 대상은 MTP-1입니다.

DeepSpec은 무엇을 재현할 수 있나요?

DeepSeek은 DeepSpec도 오픈소스로 제공합니다. 이는 추측적 디코딩 초안 모델을 훈련하고 평가하기 위한 코드 라이브러리입니다. 여기에는 데이터 준비, 교육 및 평가 프로세스가 포함되며 Qwen3, Gemma 및 기타 모델에 대한 관련 체크포인트도 공개됩니다.

하지만,오픈 소스는 "다운로드 및 재생산"을 의미하지 않습니다.프로젝트 문서에 따르면 기본 Qwen3-4B 구성에서 대상 모델 캐시는 38TB에 가까울 수 있습니다. 기본 학습 스크립트에서는 단일 노드에 8개의 GPU가 있다고 가정합니다. 문서 결과를 정렬하려면 교육 설정이 엄격하게 일관되어야 하며 특정 영역에서 초안 모델의 추가 미세 조정이 필요합니다.

외부 세계는 방법의 일부를 검증할 수 있고 DeepSpec을 다른 오픈 소스 모델에 이식할 수도 있지만 DeepSeek-V4 온라인 서비스의 속도 향상 수치는 여전히 DeepSeek의 자체 하드웨어 규모, 트래픽 분산 및 생산 시스템 스케줄링에서 비롯됩니다.

오픈소스는 환경이 아니라 방법입니다.

커뮤니티는 반복되는 경계에 대해 가장 우려하고 있습니다.

에 대한 토론

AI 연구원 Ravid ShwartzZiv는 DSpark를 두 가지 유형의 제도자 사이의 절충안으로 요약합니다. 병렬 제도자는 빠르지만 후보 블록에 따라 수용률이 감소합니다. 자동 회귀 드래프터는 안정적이지만 드래프트 길이에 따라 지연이 증가합니다. 그는 DSpark에 추가된 두 가지 구성 요소인 신뢰 판단 헤드와 로드 인식 스케줄러를 구체적으로 언급하고 "모든 추측 디코딩과 마찬가지로 무손실"이라는 핵심 경계를 추가했습니다.

엔지니어들은 그것이 실행될 수 있는지에 대해 더 우려하고 있습니다. vLLM 기여자 Rafael Caricio는 듀얼 DGX Spark GB10에서 DeepSeek-V4-Flash의 DSpark 모드를 실행했으며 단일 스트림 디코딩은 약 60 tok/s로 MTP-1의 약 1.5배라고 말했습니다.

그는 또한 실제 코드 세션에서 합성 벤치마크가 볼 수 없는 문제가 노출되었다고 언급했습니다. 병목 현상은 컴퓨팅 코어의 속도뿐만 아니라 장기적인 맥락에서 초안 수락률이 크게 떨어질 것입니다.

Tech2Wild도 비슷한 방향으로 현장 데이터를 제공했는데, 이는 V4-Flash-DSpark가 특정 vLLM 환경에서 시범 운영되었음을 보여줍니다. 그러나 이러한 결과는 하드웨어 모델, 프레임워크 패치 버전, 컨텍스트 길이 및 동시성 설정에 따라 크게 달라집니다. 다른 환경에서는 결과가 완전히 다를 수 있습니다.

경계를 구체적으로 상기시켜주는 사람들도 있습니다. AcingAI가 지적한

이는 DSpark의 장점 중 일부가 로드 인식 스케줄링에서 비롯되며 스케줄링 효과는 당연히 프로덕션 환경의 트래픽 규모와 하드웨어 구성에 따라 달라진다는 점을 상기시켜 줍니다.

동일한 성능, 더 적은 컴퓨팅 성능

사우스 차이나 모닝 포스트(South China Morning Post)는 6월 28일자 보고서에서 추론 병목 현상, 칩 압박, 사용자 대기 시간 측면에서 DSpark를 조사했습니다. 이런 관점은 "DeepSeek이 또 어떤 모델을 출시했나요?"보다 제품 현실에 더 가깝습니다.

AI 기업들은 계속해서 모델 역량을 비교할 것이지만, 역량 격차가 줄어들면 동일한 역량을 더 빠르고 저렴하게 제공할 수 있는 사람도 경쟁의 일부가 될 것입니다.

DeepSeek과 같은 회사는 특히 이 점을 분명히 해야 합니다. DeepSeek은 항상 저비용과 고효율을 외부 세계가 이해하는 중요한 진입점으로 간주해 왔습니다. 모델 학습 내러티브부터 API 가격까지 가장 관심을 끄는 것은 매개변수 규모가 더 큰지 여부가 아니라 동일한 기능을 더 저렴하게 만들 수 있는지 여부입니다.

DSpark는 다음과 같이 말합니다. V4가 갑자기 더 똑똑해졌다는 것을 증명하는 것이 아니라 V4가 사용자에게 서비스를 제공할 때 추론 컴퓨팅 성능을 덜 낭비할 수 있다는 것을 증명합니다.

관점을 조금 더 넓히면 추론 최적화는 오픈 소스 모델 생태계에도 영향을 미칠 것입니다. 오픈 소스 모델은 예전에는 "저렴한" 것으로 간주되었지만 실제로 배포되면 그래픽 메모리, 처리량, 동시성, 대기 시간, 운영 및 유지 관리 복잡성이 모두 비용이 됩니다.

모델이 오픈 소스가 될 수 있다면 이는 모든 사람이 해당 모델을 얻을 수 있다는 의미일 뿐입니다. 많은 사용자에게 저렴하게 서비스를 제공할 수 있는지 여부는 추론 스택이 이를 따라갈 수 있는지 여부에 따라 달라집니다.

DeepSpec은 Qwen3, Gemma 및 기타 체크포인트를 공개했는데, 이는 이 문제가 DeepSeek-V4 자체에서 끝나지 않음을 나타냅니다. 마이그레이션 정도는 커뮤니티 적응, 프레임워크 지원 및 하드웨어 호환성의 실제 진행 상황에 따라 달라집니다. 그러나 현재 공개 정보에 따르면 DeepSeek은 자체 모델에서 이 경로를 선택했습니다.

DSpark의 가치는 여기에 있습니다.이는 단지 새로운 기능 레이블이 아닌 생산 시스템에 더 가까운 추론 서비스 도구 계층을 V4에 추가합니다.

다음으로 지켜볼 가치가 있는 것은 DeepSeek이 얼마나 빨리 달릴 수 있는지 뿐만 아니라 얼마나 많은 사람들이 이 경로를 통과할 수 있는지입니다. DeepSpec은 체크포인트와 교육 프로세스를 공개했으며, 비용 절감을 위해 디코딩이 기업의 엔지니어링 선택에서 일반적인 오픈 소스 추론 수단으로 바뀌고 있는 것으로 추측됩니다.이는 다른 프레임워크와 하드웨어가 이를 따라갈 수 있다고 가정합니다.