DeepSeek, V4 API 공식 출시: Flash/Pro 듀얼 버전이 출시되고 수백만 개의 컨텍스트가 표준이 됩니다

많은 기대를 모았던 DeepSeek V4가 드디어 출시되었습니다! 이제 오랫동안 기다려온 DeepSeek V4의 미리보기 버전이 공식적으로 출시되었습니다. 두 가지 버전 - V4-Pro 및 V4-Flash, 전체 시리즈에는 1M(백만 단어)의 매우 긴 컨텍스트, 동기화된 오픈 소스 모델 가중치 및 기술 보고서가 표준으로 제공됩니다.

노동절을 이틀 앞두고 대형 모델들이 새로운 출시 물결에 돌입했습니다.

4월 23일 정오, '천재소년' 야오순위가 텐센트 입사 후 첫 모델 답안지를 제출했다. Tencent Hunyuan Hy3 프리뷰 버전이 공개되었습니다. 2,950억 개의 매개변수 MoE 아키텍처, 활성화된 매개변수 21B, 추론 효율성이 40% 증가하고 입력 가격이 1.2위안/백만 토큰으로 감소되었습니다.

오늘 아침 일찍 OpenAI는 유료 사용자를 위한 GPT-5.5를 출시하고 에이전트 워크플로우와 다단계 작업 완료에 초점을 맞춘 API 계획을 공식 발표했습니다. 컨텍스트 창은 100만 개의 토큰으로 확장되었으며 API 가격도 증가했습니다(입력 $5, 출력 $30/백만 토큰).

표면적으로 세 회사는 서로 다른 경로를 가지고 있습니다. OpenAI는 고급 비공개 소스 경로를 택하고 계속해서 가격 상한선을 높이고 있습니다. Tencent는 모델을 자체 생태계에 연결하고 비용 효율성을 활용하여 대규모 상용화를 활용합니다. DeepSeek은 오픈 소스 전통을 이어가는 동시에 컨텍스트 길이를 새로운 포괄적인 임계점으로 끌어올립니다.

동시에 에이전트 기능, 매우 긴 컨텍스트, 코드 및 도구 호출, 이 세 가지 키워드,이는 세 회사가 출시한 새 모델에 반복적으로 등장한다. 그들은 모두 같은 방향에 초점을 맞추고 있습니다. 즉, 모델이 더 긴 정보를 처리하고, 더 복잡한 작업 체인에서 자율적으로 작동하며, 워크플로 「」에 실제로 내장되도록 허용하는 것입니다.

DeepSeek V4의 "실용주의"

DeepSeek 이 릴리스는 Million의 맥락을 변경했습니다. "고급 옵션"에서 "기본 표준"까지의 단어입니다.

이전에는 플래그십 폐쇄 소스 모델의 고급 버전에서 1M 수준 컨텍스트 길이가 더 일반적이었습니다. 높은 통화 비용은 대부분의 개발자와 중소기업이 사용하기 어려울 정도로 높았습니다.

DeepSeek의 접근 방식은 매우 명확합니다. V4-Pro 및 V4-Flash 버전 모두 1M 컨텍스트 길이를 표준으로 갖추고 있습니다. 전자는 최고의 성능을 제공하는 반면, 후자는 다양한 요구 사항을 가진 사용자를 완벽하게 포괄하는 포괄적인 경제적 옵션을 제공합니다. “핵심 기능의 무분별한 분산화” 전략은 본질적으로 장문 처리 기능에 대한 업계 획득 임계값을 완전히 낮춥니다.

이미지 출처: DeepSeek 공식 웹사이트

플래시 버전은 매우 낮은 지연 시간과 높은 비용 성능에 중점을 두고 있으며 경량 고주파 시나리오를 위한 DeepSeek의 핵심 솔루션입니다. 13B 활성화 매개변수, 새로운 토큰 압축 주의 메커니즘 및 DSA 희소 주의 아키텍처 최적화를 통해 Pro 버전의 핵심 추론 기능에 가까운 것을 보장하면서 매우 빠른 응답 속도를 달성합니다. 실시간 대화 상호 작용, 함수 호출 파이프라인 및 응답 속도에 민감한 모든 경량 시나리오의 경우 이 기능을 사용하면 경험이 크게 향상될 수 있습니다.

더 중요한 것은 경쟁력 있는 가격 구조입니다..

DeepSeek의 공식 API 가격 문서에 따르면 Flash 버전은 계층화된 청구 규칙을 채택합니다. 즉, 캐시 히트에 대한 입력 토큰은 0.2위안/백만 토큰, 캐시 미스에 대한 입력 토큰은 1위안/백만 토큰, 출력 토큰의 가격은 2위안/백만 토큰입니다.

DeepSeek V4의 다양한 버전이 출시되었습니다 | 이미지 출처: DeepSeek API 문서

이러한 사용자 친화적인 가격은 전체 시리즈에 표준으로 제공되는 1M 상황별 기능과 결합되어 "호출당 비용"을 더 이상 엔지니어링 설계의 핵심 제약 조건으로 만들지 않습니다. 개발자는 호출 수와 비용 사이에서 반복적으로 절충점을 찾지 않고도 제품 경험과 아키텍처 설계의 우선 순위를 지정할 수 있습니다.

Flash는 "저렴하고 빠르다"는 보편적인 요구를 해결하는 반면, V4-Pro는 또 다른 핵심 질문인 오픈 소스 대형 모델의 기능 경계를 어디까지 확장할 수 있는지에 대한 답을 제공합니다.

가장 직관적인 능력 향상은 여전히 긴 맥락을 중심으로 이루어집니다. DeepSeek은 모델 컨텍스트 길이를 이전 세대 V3.2의 128K에서 1M(백만 토큰)로 직접 늘립니다. 기본 아키텍처의 혁신과 함께 전체 컨텍스트 창의 성능을 그대로 유지하면서 긴 컨텍스트 계산 및 비디오 메모리 요구 사항을 크게 줄입니다.

이 규모에서 개발자는 복잡한 RAG(검색 확대 생성) 시스템을 추가로 구축할 필요 없이 완전한 코드 베이스, 매우 긴 산업 문서, 다중 라운드 프로젝트 파일, 심지어 엔드투엔드 처리를 위해 수백만 단어로 구성된 완전한 책까지 직접 가져올 수 있어 긴 텍스트 처리의 기술 링크가 크게 단순화됩니다.

기본 아키텍처 측면에서 Pro 버전은 총 매개변수가 1.6T이고 활성화 매개변수가 49B인 MoE 아키텍처를 사용합니다. 사전 훈련 데이터의 양은 33T에 도달하는데, 이는 DeepSeek 하이브리드 전문가 경로가 포괄적으로 심화된 것입니다. 공식 평가 데이터에 따르면 수학, STEM, 경쟁 수준 코드 등 핵심 추론 평가에서 현재 공개적으로 평가된 모든 오픈소스 모델을 능가하며 세계 최고의 폐쇄소스 모델과 비교할 수 있는 수준에 도달한 것으로 나타났습니다.

에이전트 성능면에서 전송 품질은 Claude Opus 4.6 논씽킹 모드에 가깝습니다. , 내부 사용 피드백은 Anthropic Sonnet 4.5보다 우수하며 DeepSeek 내부 직원을 위한 주요 Agentic Coding 도구가 되었습니다.

기능적 측면에서 V4 시리즈의 두 버전 모두 비사고 모드와 사고 모드를 모두 지원합니다. 개발자는 Reasoning_effort 매개변수를 통해 사고 강도를 맞춤 설정할 수 있습니다. 동시에 Json 출력, 도구 호출 및 대화 접두어 연속 기능을 완벽하게 지원합니다.

가격 측면에서 Pro 버전은 비용 효율적인 경로인 를 이어갑니다. 공식 가격은 캐시 히트의 경우 입력 토큰 1위안/백만 토큰, 캐시 미스의 경우 입력 토큰 12위안/백만 토큰, 출력 토큰 가격은 24위안/백만 토큰으로, 이는 동일한 수준의 해외 플래그십 비공개 소스 모델보다 훨씬 낮습니다.

API 액세스도 매우 낮은 임계값을 달성했습니다. 개발자는 원래 base_url을 수정할 필요가 없습니다. 액세스를 완료하려면 모델 매개변수를 해당 버전 이름으로 바꾸면 됩니다. OpenAI ChatCompletions 및 Anthropic 인터페이스 형식과도 호환됩니다.

"향상된 기능 + 비용 절감"의 조합으로 인해 최고 수준의 대형 모델 기능은 더 이상 일부 제조업체의 독점 자원이 아닙니다. 업계가 점차 매개 변수 군비 경쟁의 악순환에 빠져들면서 DeepSeek는 수백만 개의 컨텍스트와 풀 링크 오픈 소스 옵션의 표준 구성을 통해 대형 모델의 보편화를 위한 새로운 모델을 제공합니다.

동시에 DeepSeek V4는 Claude Code, OpenClaw, OpenCode 및 CodeBuddy와 같은 주류 Agent 제품에 대해 특별한 조정 및 최적화를 수행했으며 코딩 작업 및 문서 생성과 같은 실제 시나리오에서 성능이 향상되었습니다. 모델의 가치는 궁극적으로 실제 개발 및 작업 프로세스에서 테스트되어야 합니다.

는 계속 오픈 소스이며 API는 완전히 개방되어 있습니다.

DeepSeek는 오픈 소스 경로를 계속하고 모든 API 호출을 직접 엽니다.

현재 DeepSeek-V4의 모델 가중치는 Hugging Face 및 ModelScope 플랫폼에서 동시에 다운로드할 수 있도록 공개되었으며 지원 기술 보고서도 공개되어 개발자의 로컬 배포 및 2차 개발을 지원합니다.

일부 제조업체의 "오픈 소스 거세 버전, 폐쇄 소스 정식 버전"이라는 업계 관행과 달리 두 오픈 소스 버전은 공식 클라우드 API와 일치하는 모든 기능을 완전히 유지합니다. 여기에는 비생각/생각 듀얼 모드, 1M 초장기 컨텍스트 무손실 처리, 에이전트 특수 최적화 및 기능적 거세 없이 전체 도구 호출 기능이 포함됩니다.

이는 중소 규모의 스타트업, 개인 개발자 또는 과학 연구 기관이든 상관없이 수백만 개의 컨텍스트, 최고 수준의 추론 및 에이전트 기능을 제로 임계값으로 갖춘 대규모 모델 기반을 얻을 수 있음을 의미합니다. 고급 모델 기능을 위해 더 이상 높은 비공개 소스 인터페이스 비용을 지불할 필요가 없습니다.

구현 임계값을 더욱 낮추기 위해 DeepSeek은 모델 미세 조정, 정량화 및 추론 가속화를 위한 전체 프로세스 도구 체인을 동시에 오픈 소스화했으며, vLLM 및 TGI와 같은 주류 추론 프레임워크와 LangChain 및 LlamaIndex와 같은 주류 에이전트 프레임워크의 Day 0 기본 적응을 완료했습니다. 또한 국내 컴퓨팅 플랫폼을 위한 풀스택 배포 솔루션을 열어 개발자가 다양한 하드웨어 환경에서 애플리케이션을 신속하게 구현할 수 있도록 했습니다.

동시에 DeepSeek은 명확한 모델 반복 전환 계획도 제시했습니다. 이전 API 인터페이스 모델 이름인 deepseek-chat 및 deepseek-reasoner는 3개월(2026년 7월 24일) 후에 사용이 중단됩니다. 현 단계에서 이 두 가지 모델명은 각각 deepseek-v4-flash의 non-thinking 모드와 Thinking 모드를 가리키고 있어 개발자들이 원활하게 마이그레이션할 수 있는 충분한 시간을 남겨두고 있습니다.

AI를 '인프라 모델'로 만들기로 결정

지난 이틀 동안의 출시를 살펴보면 한 가지 추세는 분명합니다. 각 회사가 에이전트를 가속화하고 있다는 것입니다. 능력.

지난 2년간 대형 모델에 대한 대중과 자본시장의 관심은 주로 '스마트함'에 집중됐다면 이제는 '누가 일을 더 안정적으로 해낼 수 있는가'로 쏠렸다. GPT-5.5 릴리스의 초점은 다중 모드 이해가 얼마나 향상되었는지가 아니라 에이전트 프로그래밍, 컴퓨터 사용 및 지식 작업과 같은 시나리오에서 지속적인 실행 기능입니다. Tencent Hunyuan Hy3의 핵심 판매 포인트는 현실 세계에서 '행동하는 능력'이기도 합니다. DeepSeek V4는 실제 워크로드에 대한 명확한 목표를 가지고 에이전트 기능과 긴 컨텍스트 처리에 직접적으로 중점을 둡니다.

이러한 변화의 이면에는 업계 전체가 '모델 효용' 경쟁을 향해 나아가고 있다는 사실이 있습니다. 요즘 사용자와 기업 고객은 특정 평가에서 모델의 순위에 대해 점점 더 관심을 기울이지 않습니다. 그들이 관심을 갖는 것은 모델과 제품이 얼마나 많은 작업을 수행하는 데 도움이 되는지입니다. 이 모델이 코드 작성에 도움이 될 수 있는지, 복잡한 문서를 처리할 수 있는지, 오류 없이 다단계 작업을 수행할 수 있는지, 합리적인 비용으로 실행할 수 있는지 여부입니다.

이미지 출처 : DeepSeek 공식 홈페이지

오늘 게재된 기사 말미에 DeepSeek는 "Xunzi"의 문장을 인용합니다: " 칭찬의 유혹에 빠지지 말고, 비방을 두려워하지 말고, 길을 따르고, upright '를 통해 독자적인 기술 루트를 계속 정박하고 있습니다. 현재 대형 모델 경쟁 상황에서 이 문장의 의미는 매우 분명합니다. 외부 평가와 잡음에 흔들리지 말고 올바른 일을 하는 데 집중하라는 것입니다.

DeepSeek의 지난 1년간의 행동은 실제로 이러한 논리를 구현했습니다. 즉, 오픈 소스와 개방성을 사용하여 글로벌 개발자 생태학적 영향력을 구축하고, 궁극적인 비용 효율성을 사용하여 고급 AI 기능 사용에 대한 장벽을 허물고, 견고한 기본 아키텍처 혁신을 사용하여 개발자와 기업 사용자의 가장 실제적인 문제점을 해결했습니다.

R1 추론 모델의 출현부터 처음으로 긴 컨텍스트 기능을 포괄적 범위로 확장하는 V4까지 DeepSeek은 상대적으로 "느린" 방식으로 더 어려운 작업을 수행해 왔습니다. - 소수의 사람들을 위한 도구의 최고 모델 기능을 더 많은 사람들이 라고 직접 부를 수 있는 인프라로 전환하세요.