일론 머스크 테슬라 최고경영자(CEO)가 중국 AI 기업 키미(Kimi)의 최신 연구 결과를 공개적으로 칭찬한 뒤, 키미 공식 계정은 오늘 유머러스한 어조로 반응했다. “당신의 로켓도 나쁘지 않아요!”최근 Kimi 팀은 거의 10년 동안 딥러닝 분야에서 사용되어 온 전통적인 잔여 연결의 파괴적인 재구성을 달성하기 위한 새로운 Attention Residuals 메커니즘을 제안하는 기술 보고서를 발표했으며 빠르게 전 세계의 주목을 받았습니다.

전통적인 잔여 연결은 정보를 전송하기 위해 "고정된 동일 가중치 축적"을 사용합니다. 레이어 수를 늘리면 얕은 정보가 희석되고 훈련 효율성이 낮아지며 안정성이 저하되기 쉽습니다.

Kimi의 혁신은 AI에 "지능형 필터"를 설치하고 Transformer 주의 메커니즘을 모델의 깊이 차원으로 마이그레이션하여 각 계층이 이전에 유용했던 정보를 동적으로 선별하고 중복성을 줄이고 전송 효율성을 향상시키는 것과 같습니다.

메모리 과부하를 피하기 위해 팀은 "차단 주의 잔여" 전략을 설계했습니다. 모델이 블록으로 분할된 후에는 전통적인 누적이 블록에 유지되어 안정성을 보장합니다.블록 간에 동적 가중치가 사용되며 추론 지연은 2% 미만으로만 증가하여 성능과 효율성 간의 균형을 달성합니다.

실제 측정에 따르면 48B 매개변수 모델의 훈련 효율성은 1.25배 증가하고 과학적 추론 점수와 수학적 질문 답변 점수는 각각 7.5%와 3.6% 증가하여 기존 모델 훈련의 불균형 문제를 효과적으로 해결하는 것으로 나타났습니다.

까다롭기로 유명한 머스크는 연구 결과를 소개하며 "키미의 작업이 인상적이다"라고 평했다. 그의 xAI는 구조 조정 과정에 있으며, 이러한 인식은 그 기술적 중요성을 보여줍니다.

또한 '추론 모델의 아버지'로 알려진 OpenAI의 전 연구 부사장인 Jerry Tworek도 "딥 러닝 2.0이 온다"라고 썼습니다.