프로그래밍왕 클로드의 상태가 불안정한 걸까요? ? 대형 모형 경기장의 최신 전투 보고서가 공개됩니다.DeepSeek R1의 새 버전은 Claude Opus 4를 간신히 제치고 웹 프로그래밍 부문 1위를 차지했습니다.. Claude Opus 4가 "세계 최강의 인코딩 모델"로 인정받고 있다는 사실을 아셔야 합니다.


그렇다면 프로그래밍에서 클로드 오푸스 4를 물리칠 수 있는 DeepSeek-R1-0528의 유래는 무엇일까?

이름만 보면 마이너 버전 업데이트인 줄 알겠지만 사실은 -

LiveCodeBench의 OpenAI o3-high와 거의 동일하며 많은 네티즌들은 전설적인 R2라고 추측하기도 합니다.


이렇게 보면 프로그래밍에 있어서는 어느 쪽도 만만치 않은 것 같아요~

그러니 더 이상 고민하지 말고 DeepSeek-R1-0528을 직접 테스트하여 Kangkang이 얼마나 강력한지 확인해 보겠습니다.


실제로 테스트해보세요

현재 DeepSeek-R1-0528은 DeepSeek 공식 홈페이지와 앱, 미니프로그램(Deep Thinking 오픈)에 출시되었습니다.

여기에서는 공식 웹 사이트로 직접 이동하여 경험해 보겠습니다.

테스트 1: 애니메이션 태양계 앱 만들기

프롬프트 단어는 다음과 같습니다.

  • 웹 검색을 사용하여 애니메이션 태양계 앱을 만들어보세요.

그냥 생각해봐49초나중에 DeepSeek-R1-0528은 Python 코드 조각을 제공했습니다.


VS Code로 실행한 후 결과는 다음과 같습니다.

독립적으로 실행할 수 있는 애니메이션이 있지만 페이지가 상대적으로 거칠습니다.


그러나 다른 프롬프트 단어로 변경하면 효과가 분명히 달라집니다.

  • Three.js를 사용하여 태양계를 시뮬레이션하고 마우스를 행성 위로 가져갈 때 행성의 이름을 표시합니다.

단 34초 만에 DeepSeek-R1-0528은 설계 아이디어를 명확히 했습니다.


관건은 이때다원클릭으로 바로 실행 가능, 별도의 편집기를 열 필요가 없습니다.(기능을 실행하면 마치 블라인드 박스를 여는 듯한 느낌이 들고 항상 나타나지는 않을 수도 있습니다.)

그리고 애니메이션과 인터랙션도 있어서 그 효과가 넥스트네벨로 바로 전달되더라구요~


테스트 2: 프런트엔드 웹페이지 제작

다음으로 DeepSeek에게 AGI 테마로 웹사이트를 생성하도록 요청하면 프롬프트 단어는 다음과 같습니다.

  • "지식 공유", "커뮤니티", "미래 창조"의 세 가지 개념 부분을 포함하여 일반 인공지능(AGI)을 주제로 웹페이지를 디자인해주세요. 각 부분에는 해당 아이콘과 간결한 설명이 포함되어야 합니다. 전반적인 스타일은 현대적이고 기술적이며 AGI의 혁신적이고 협력적인 정신을 강조합니다. 상호 작용 및 시각 효과를 위해 HTML, CSS 및 JavaScript를 사용하십시오.

23초 동안 생각한 후 DeepSeek-R1-0528은 한 번의 클릭으로 계속 실행할 수 있는 HTML 코드 조각을 제공했습니다.


테스트 3: 테트리스 미니 게임 만들기

마지막으로 영어 프롬프트 단어를 사용해 보겠습니다.

  • 아름다운 그래픽과 컨트롤을 갖춘 완전한 기능의 테트리스 버전을 만들어보세요.

    아름다운 그래픽과 컨트롤을 갖춘 테트리스 정식 버전을 만들어보세요.

보시다시피 DeepSeek-R1-0528은 이렇게 생각합니다.12초그런 다음 Python 코드 조각이 제공됩니다.


실행 결과는 다음과 같습니다.

실제로 테트리스 미니 게임이지만 기본 데모에는 명백한 버그가 있고 상호 작용 버튼이 없습니다.


포기하지 않고 우리는 DeepSeek이 계속해서 개선되도록 노력했지만 두 번째로 번복되었습니다.


개선된 게임이 여전히 제대로 작동하지 않습니다.(항상 벽을 통과함)이며 명시적으로 요청한 대화형 기능을 구현하지 않습니다.


요약하자면, 위의 간단한 실제 측정으로 볼 때 오픈 소스 모델인 DeepSeek R1의 새 버전은 실제로 프로그래밍 기능에서 큰 발전을 이루었지만 여전히 개선의 여지가 있습니다.

하지만 한 가지 말씀드릴 부분은 일반 국내 사용자들에게는 확실히 더 친숙하다는 점입니다.(Claude 모델에 비해 무료이고, 구하기도 쉽습니다).

한 가지 더

프로그래밍 능력 목록 업데이트 외에도 DeepSeek R1의 새 버전도 선택되었습니다.현재 사용 가능한 최고의 오픈 소스 텍스트 모델.

MIT 라이선스에 따라 전체 목록에서 6위, 오픈 소스 중 1위를 차지합니다.


세분화 분야에서는 프롬프트 난이도에서 4위, 수학에서는 5위를 기록했습니다. 오픈 소스 모델에서 매우 유능한 플레이어입니다.


그러나 Kimi의 새 모델이 코드 오픈 소스 SOTA에서 방금 우승했다는 점은 언급할 가치가 있습니다.

72B 매개변수만 포함된 오픈 소스 코드 모델키미데브, SWE-bench Verified에서 60.4%의 점수로 오픈 소스 SOTA를 달성했습니다.

최신 DeepSeek-R1보다 프로그래밍 수준이 우수할 뿐만 아니라 비공개 소스 모델에 비해 성능도 뛰어납니다.


그럼 진짜 능력을 모르면 어떡하지(도제)~