오늘 이른 아침, Dark Side of the Moon은 소프트웨어 엔지니어링 작업을 위한 새로운 오픈 소스 코드 대형 모델인 Kimi-Dev-72B를 출시했습니다. 이 모델은 SWE-bench Verified 프로그래밍 벤치마크 테스트에서 세계 최고 오픈소스 모델 수준을 달성했습니다. 파라미터 볼륨이 72B에 불과해 지난 5월 28일 출시된 새 버전인 DeepSeek-R1의 파라미터 볼륨이 671B를 능가했습니다.


Kimi-Dev-72B는 AI 소프트웨어 엔지니어링 역량 벤치마크 테스트인 SWE-bench Verified를 획득했습니다.60.4%높은 점수는 오픈 소스 모델에 대한 기록적인 SOTA 점수입니다.

▲SWE-bench에서 오픈소스 모델의 성능이 검증됐다

▲SWE-bench에서 비공개 소스 모델의 성능이 검증되었습니다.
대규모 강화학습을 통해 최적화되었습니다. Docker의 실제 리포지토리를 자동으로 패치할 수 있으며 전체 테스트 스위트를 통과한 경우에만 보상을 받습니다. 이를 통해 솔루션이 정확하고 강력하며 실제 개발 표준을 준수하는지 확인할 수 있습니다.
이제 Kimi-Dev-72B를 Hugging Face 및 GitHub에서 다운로드하고 배포할 수 있습니다. 커뮤니티에 공개되는 주요 리소스에는 모델 가중치, 소스 코드 및 기술 보고서가 곧 공개될 예정입니다.
포옹하는 얼굴 주소:Huggingface.co/moonshotai/Kimi-Dev-72B
GitHub 주소:github.com/MoonshotAI/Kimi-Dev
Dark Side of the Moon은 다음을 포함하여 Kimi-Dev-72B의 디자인 컨셉과 기술적 세부 사항을 소개합니다.BugFixer와 TestWriter의 결합,중간 훈련,강화 학습그리고테스트 중 셀프 게임.
1. BugFixer와 TestWriter의 결합
버그를 성공적으로 수정한 패치는 버그를 정확하게 반영하는 단위 테스트를 통과해야 합니다. 동시에, 버그를 재현하는 성공적인 테스트는 어설션 오류를 발생시키고 올바른 버그 수정 패치를 코드 베이스에 적용한 후 통과해야 합니다. 이는 BugFixer와 TestWriter를 상호 보완적으로 만들고, 충분히 강력한 프로그래밍 언어 모델은 두 측면 모두에서 잘 수행되어야 합니다.
BugFixer와 TestWriter의 작업 흐름은 비슷합니다. 둘 다 편집할 올바른 파일을 찾은 다음 취약한 구현을 수정하든 단위 테스트 함수를 삽입하든 상관없이 올바른 코드 업데이트를 편집합니다. 따라서 두 역할 모두에 대해 Kimi-Dev-72B는 파일 현지화와 코드 편집이라는 두 단계로만 구성된 동일한 미니멀리스트 프레임워크를 사용합니다. BugFixer와 TestWriter의 이중 설계는 Kimi-Dev-72B의 기반을 마련했습니다.
2. 중기연수
BugFixer 및 TestWriter로서 Kimi-Dev-72B의 사전 지식을 강화하기 위해 Dark Side of the Moon은 약을 사용합니다.1,500억중기 훈련을 위한 고품질의 실제 데이터입니다.
Dark Side of the Moon은 Qwen 2.5-72B 기본 모델을 시작으로 수집했습니다.수백만GitHub 문제 및 PR 제출은 중기 교육 데이터 세트로 사용됩니다. 데이터 레시피는 Kimi-Dev-72B가 인간 개발자가 GitHub 문제에 대해 추론하고, 코드 수정 사항을 작성하고, 단위 테스트하는 방법을 배울 수 있도록 신중하게 구성되었습니다.
Dark Side of the Moon은 엄격한 데이터 정리 과정을 거쳐 SWE-bench Verified에서 모든 저장소를 제거했습니다.
중기 학습은 실제 버그 수정 및 단위 테스트에 대한 기본 모델의 이해를 완전히 향상시켜 모델을 후속 강화 학습 학습을 위한 더 나은 출발점이 되게 합니다.
3. 강화 학습
적절한 중기 교육과 SFT를 통해 Kimi-Dev-72B는 파일 현지화에 탁월합니다. 따라서 강화 학습 단계는 코드 편집 기능을 향상시키는 데 중점을 둡니다.
Dark Side of the Moon은 추론 작업에 좋은 성능을 보이는 Kimi k1.5에 설명된 정책 최적화 방법을 사용합니다. SWE-bench Verified의 경우 Dark Side of the Moon은 다음 세 가지 주요 디자인에 중점을 둡니다.
오직 결과에만 기초한 보상.Docker의 최종 실행 결과(0 또는 1)만 보상으로 사용되며 훈련 중에는 형식이나 프로세스 기반 보상이 사용되지 않습니다.
효율적인 프롬프트 세트.다중 샘플 평가에서 모델의 성공률이 0인 힌트를 필터링하여 대규모 배치를 보다 효율적으로 활용합니다. 새로운 프롬프트를 도입하고 점차적으로 작업의 난이도를 높이는 커리큘럼 학습 방법을 채택합니다.
긍정적인 사례를 통한 강화.훈련의 마지막 단계에서는 이전 반복에서 가장 최근에 성공한 샘플이 현재 배치에 포함됩니다. 이는 모델이 성공 패턴을 강화하고 성과를 향상시키는 데 도움이 됩니다.
Kimi-Dev-72B는 고도로 병렬적이고 강력하며 효율적인 내부 에이전트 인프라를 사용하여 확장 가능한 수의 문제 해결 작업에 대한 교육을 통해 이점을 얻습니다.

4. 테스트 중 셀프 게임
강화 학습 후 Kimi-Dev-72B는 BugFixer와 TestWriter의 역할을 동시에 마스터할 수 있습니다. 테스트 과정에서 자체 게임 메커니즘을 채택하여 자체 버그 수정 및 테스트 작성 기능을 조정합니다.

▲ 테스트 중 BugFixer와 TestWriter 간의 셀프 게임
각 문제당 최대 40개의 패치 후보와 40개의 테스트 후보가 생성될 수 있으며(에이전트리스 표준 설정 기준), 테스트 중 셀프 게임의 확장 효과를 관찰할 수 있습니다.
결론: 향후 반복에서는 심층적인 통합과 워크플로로의 보다 원활한 통합에 중점을 둘 것입니다.
Dark Side of the Moon은 Kimi-Dev-72B의 기능을 확장하고 보다 복잡한 소프트웨어 엔지니어링 작업을 탐색하는 방법을 적극적으로 연구 및 개발하고 있습니다.
향후 반복에서는 널리 사용되는 통합 개발 환경(IDE), 버전 제어 시스템 및 CI/CD 파이프라인과의 심층 통합에 중점을 두어 Kimi-Dev-72B가 개발자 워크플로에 보다 원활하게 통합될 수 있도록 할 것입니다.
회사는 Kimi-Dev-72B를 지속적으로 개선하고, 엄격한 레드팀 테스트를 수행하고, 더욱 강력한 모델을 커뮤니티에 출시할 것을 약속합니다.