오늘 이른 아침, Dark Side of the Moon은 소프트웨어 엔지니어링 작업을 위한 새로운 오픈 소스 코드 대형 모델인 Kimi-Dev-72B를 출시했습니다. 이 모델은 SWE-bench Verified 프로그래밍 벤치마크 테스트에서 세계 최고 오픈소스 모델 수준을 달성했습니다. 파라미터 볼륨이 72B에 불과해 지난 5월 28일 출시된 새 버전인 DeepSeek-R1의 파라미터 볼륨이 671B를 능가했습니다.



Kimi-Dev-72B는 AI 소프트웨어 엔지니어링 역량 벤치마크 테스트인 SWE-bench Verified를 획득했습니다.60.4%높은 점수는 오픈 소스 모델에 대한 기록적인 SOTA 점수입니다.


▲SWE-bench에서 오픈소스 모델의 성능이 검증됐다


▲SWE-bench에서 비공개 소스 모델의 성능이 검증되었습니다.

대규모 강화학습을 통해 최적화되었습니다. Docker의 실제 리포지토리를 자동으로 패치할 수 있으며 전체 테스트 스위트를 통과한 경우에만 보상을 받습니다. 이를 통해 솔루션이 정확하고 강력하며 실제 개발 표준을 준수하는지 확인할 수 있습니다.

이제 Kimi-Dev-72B를 Hugging Face 및 GitHub에서 다운로드하고 배포할 수 있습니다. 커뮤니티에 공개되는 주요 리소스에는 모델 가중치, 소스 코드 및 기술 보고서가 곧 공개될 예정입니다.

포옹하는 얼굴 주소:Huggingface.co/moonshotai/Kimi-Dev-72B

GitHub 주소:github.com/MoonshotAI/Kimi-Dev

Dark Side of the Moon은 다음을 포함하여 Kimi-Dev-72B의 디자인 컨셉과 기술적 세부 사항을 소개합니다.BugFixer와 TestWriter의 결합,중간 훈련,강화 학습그리고테스트 중 셀프 게임.

1. BugFixer와 TestWriter의 결합

버그를 성공적으로 수정한 패치는 버그를 정확하게 반영하는 단위 테스트를 통과해야 합니다. 동시에, 버그를 재현하는 성공적인 테스트는 어설션 오류를 발생시키고 올바른 버그 수정 패치를 코드 베이스에 적용한 후 통과해야 합니다. 이는 BugFixer와 TestWriter를 상호 보완적으로 만들고, 충분히 강력한 프로그래밍 언어 모델은 두 측면 모두에서 잘 수행되어야 합니다.

BugFixer와 TestWriter의 작업 흐름은 비슷합니다. 둘 다 편집할 올바른 파일을 찾은 다음 취약한 구현을 수정하든 단위 테스트 함수를 삽입하든 상관없이 올바른 코드 업데이트를 편집합니다. 따라서 두 역할 모두에 대해 Kimi-Dev-72B는 파일 현지화와 코드 편집이라는 두 단계로만 구성된 동일한 미니멀리스트 프레임워크를 사용합니다. BugFixer와 TestWriter의 이중 설계는 Kimi-Dev-72B의 기반을 마련했습니다.

2. 중기연수

BugFixer 및 TestWriter로서 Kimi-Dev-72B의 사전 지식을 강화하기 위해 Dark Side of the Moon은 약을 사용합니다.1,500억중기 훈련을 위한 고품질의 실제 데이터입니다.

Dark Side of the Moon은 Qwen 2.5-72B 기본 모델을 시작으로 수집했습니다.수백만GitHub 문제 및 PR 제출은 중기 교육 데이터 세트로 사용됩니다. 데이터 레시피는 Kimi-Dev-72B가 인간 개발자가 GitHub 문제에 대해 추론하고, 코드 수정 사항을 작성하고, 단위 테스트하는 방법을 배울 수 있도록 신중하게 구성되었습니다.

Dark Side of the Moon은 엄격한 데이터 정리 과정을 거쳐 SWE-bench Verified에서 모든 저장소를 제거했습니다.

중기 학습은 실제 버그 수정 및 단위 테스트에 대한 기본 모델의 이해를 완전히 향상시켜 모델을 후속 강화 학습 학습을 위한 더 나은 출발점이 되게 합니다.

3. 강화 학습

적절한 중기 교육과 SFT를 통해 Kimi-Dev-72B는 파일 현지화에 탁월합니다. 따라서 강화 학습 단계는 코드 편집 기능을 향상시키는 데 중점을 둡니다.

Dark Side of the Moon은 추론 작업에 좋은 성능을 보이는 Kimi k1.5에 설명된 정책 최적화 방법을 사용합니다. SWE-bench Verified의 경우 Dark Side of the Moon은 다음 세 가지 주요 디자인에 중점을 둡니다.

  • 오직 결과에만 기초한 보상.Docker의 최종 실행 결과(0 또는 1)만 보상으로 사용되며 훈련 중에는 형식이나 프로세스 기반 보상이 사용되지 않습니다.

  • 효율적인 프롬프트 세트.다중 샘플 평가에서 모델의 성공률이 0인 힌트를 필터링하여 대규모 배치를 보다 효율적으로 활용합니다. 새로운 프롬프트를 도입하고 점차적으로 작업의 난이도를 높이는 커리큘럼 학습 방법을 채택합니다.

  • 긍정적인 사례를 통한 강화.훈련의 마지막 단계에서는 이전 반복에서 가장 최근에 성공한 샘플이 현재 배치에 포함됩니다. 이는 모델이 성공 패턴을 강화하고 성과를 향상시키는 데 도움이 됩니다.

Kimi-Dev-72B는 고도로 병렬적이고 강력하며 효율적인 내부 에이전트 인프라를 사용하여 확장 가능한 수의 문제 해결 작업에 대한 교육을 통해 이점을 얻습니다.


4. 테스트 중 셀프 게임

강화 학습 후 Kimi-Dev-72B는 BugFixer와 TestWriter의 역할을 동시에 마스터할 수 있습니다. 테스트 과정에서 자체 게임 메커니즘을 채택하여 자체 버그 수정 및 테스트 작성 기능을 조정합니다.


▲ 테스트 중 BugFixer와 TestWriter 간의 셀프 게임

각 문제당 최대 40개의 패치 후보와 40개의 테스트 후보가 생성될 수 있으며(에이전트리스 표준 설정 기준), 테스트 중 셀프 게임의 확장 효과를 관찰할 수 있습니다.

결론: 향후 반복에서는 심층적인 통합과 워크플로로의 보다 원활한 통합에 중점을 둘 것입니다.

Dark Side of the Moon은 Kimi-Dev-72B의 기능을 확장하고 보다 복잡한 소프트웨어 엔지니어링 작업을 탐색하는 방법을 적극적으로 연구 및 개발하고 있습니다.

향후 반복에서는 널리 사용되는 통합 개발 환경(IDE), 버전 제어 시스템 및 CI/CD 파이프라인과의 심층 통합에 중점을 두어 Kimi-Dev-72B가 개발자 워크플로에 보다 원활하게 통합될 수 있도록 할 것입니다.

회사는 Kimi-Dev-72B를 지속적으로 개선하고, 엄격한 레드팀 테스트를 수행하고, 더욱 강력한 모델을 커뮤니티에 출시할 것을 약속합니다.