이 문제에 정통한 소식통에 따르면 중국 인공지능 기업 딥시크(DeepSeek)는 다음 주 최신 세대의 대형 언어 모델 V4를 출시할 계획이다. 이는 1년여 전 마지막 블록버스터 제품을 출시한 이후 회사의 첫 번째 주요 업데이트입니다. 이는 중국이 인공지능 분야에서 미국 경쟁자들에게 계속 도전하는 중요한 단계로 평가된다.

상황에 정통한 두 사람에 따르면 딥식(DeepSeek)은 항저우에 본사를 두고 있으며, 이번에 출시된 V4는 이미지, 영상, 텍스트 생성 기능을 갖춘 멀티모달 모델이 될 것이라고 한다. 이 문제에 정통한 여러 소식통은 DeepSeek이 중국의 현지 AI 칩 제조업체인 Huawei 및 Cambrian과 협력하여 양 당사자의 최신 세대 칩 제품에 맞게 V4를 맞춤화하고 최적화함으로써 컴퓨팅 성능 수준에서 긴밀한 협력을 형성했다고 말했습니다. 이러한 움직임은 현재 미국의 수출 통제와 중국의 기술 상승을 억제하기 위한 관련 조치의 대상이 되고 있는 엔비디아의 고급 AI 칩에 대한 중국 기술 기업의 의존도에서 점점 더 멀어지고 있다는 또 다른 신호로 간주됩니다.

이번 출시 시기도 상당히 상징적입니다. DeepSeek은 올해 3월 4일에 열리는 중국의 연례 국가 "양회" 전날 V4를 출시할 계획입니다. 이 주목할만한 정치 회의는 회사에 중요한 노출 창을 제공하고 "국가 AI 챔피언"으로서의 이미지를 더욱 공고히 할 수 있습니다.

이는 2025년 1월 R1 추론 모델 출시 이후 DeepSeek의 첫 번째 주요 버전 반복입니다. 당시 회사는 실리콘 밸리의 선도 기업이 사용하는 것보다 훨씬 낮은 컴퓨팅 파워 규모로 선도 모델과 성능이 비슷한 시스템을 훈련했다고 주장했습니다. 이 소식은 한때 미국 기술주 시장에 충격을 안겼다. 일부 분석가들은 이를 중국이 인공 지능 분야의 지형을 빠르게 따라잡고 심지어 다시 쓰는 것을 의미하는 "스푸트니크 순간"으로 묘사했습니다. 그 이후 DeepSeek은 완전히 새로운 아키텍처보다 더 많은 증분 업데이트를 출시했으며, 이로 인해 Alibaba 및 Moonshot을 포함한 국내 경쟁업체도 저가형 오픈 소스 중국 모델 시장에서 성장할 수 있는 추가 공간을 확보했습니다.

이 문제에 정통한 여러 사람들은 DeepSeek의 국내 AI 칩에 대한 V4 최적화가 현지 칩에 대한 시장 수요를 늘리고 모델 추론 단계(즉, 훈련된 모델을 사용하여 답변을 생성하는 프로세스)에서 Huawei 및 Cambrian과 같은 중국 제조업체로의 이전을 가속화하여 Nvidia 및 AMD 칩에 대한 의존도를 줄이는 데 도움이 될 것이라고 예측합니다. Reuters는 이전에 DeepSeek과 Huawei 및 Cambrian의 협력 진행 상황을 보고한 바 있습니다. 상황에 정통한 또 다른 사람은 DeepSeek이 V4 최적화에 대해 Nvidia와 협력하고 있지 않다고 말했습니다.

그러나 모델 훈련 분야에서는 특히 엄청난 양의 컴퓨팅 성능이 필요한 사전 훈련 단계에서 NVIDIA가 여전히 우위를 점하고 있으며 GPU는 여전히 업계 표준입니다. Financial Times는 이전에 DeepSeek가 Huawei 하드웨어에 대한 초기 교육을 완료하려고 시도했지만 그 과정에서 기술적인 어려움에 직면했다고 보도했습니다. 회사는 작년에 R1 모델을 출시했을 때 NVIDIA 칩에서 모델을 보다 효율적으로 훈련하고 실행하는 방법을 설명하는 자세한 기술 보고서도 발표했습니다. 관련 엔지니어링 방법은 광범위한 관심과 칭찬을 받았습니다. 일부 내부자는 DeepSeek이 "추론 모델" 구축을 위한 훈련 방법을 공유함으로써 실제로 다른 실험실에 재사용 가능한 엔지니어링 경로를 제공하여 후자가 제한된 컴퓨팅 성능 하에서 모델 추론 기능을 향상시키는 데 도움이 된다고 믿습니다.

소위 "추론 모델"은 복잡한 문제를 해결하기 위해 특별히 최적화된 모델 패러다임을 의미합니다. 핵심 아이디어는 문제를 단계별로 해결할 수 있는 여러 하위 문제로 분할한 다음 다단계 추론을 통해 최종 결론을 도출하는 것입니다. DeepSeek 계획에 정통한 소식통에 따르면 다음 주에는 주요 개선 사항에 초점을 맞춘 더 짧은 기술 설명 문서로 V4를 출시할 예정이며, 약 한 달 후에는 모델 아키텍처와 훈련 방법을 체계적으로 공개하기 위해 보다 자세한 기술 보고서를 출시할 예정이라고 합니다.

이와 함께 지식재산권과 모델 '차용'을 둘러싼 논란도 가열되고 있다. 이번 주 초, 미국 AI 회사인 Anthropic은 DeepSeek과 다른 두 개의 중국 AI 연구소가 모델에 대해 소위 "증류 공격"을 수행했다고 비난했습니다. 즉, 더 강력한 모델의 출력을 사용하여 작은 모델을 훈련시켜 후자가 동일한 수준의 컴퓨팅 리소스를 직접 사용하지 않고도 전자의 성능에 접근할 수 있도록 하는 것입니다. Huawei, DeepSeek 및 Cambrian은 논평 요청에 응답하지 않았습니다.