엔비디아 연구진은 모델 자체를 수정하지 않고도 대화 기록을 추적하기 위해 LLM(대형 언어 모델)의 메모리 사용량을 최대 20배까지 줄일 수 있는 새로운 기술 KVTC(KV 캐시 변환 코딩)를 출시했습니다.이번 혁신은 대규모 언어 모델에서 긴 대화 추론 시 메모리 부족 문제를 해결할 것으로 기대된다.기업이 AI를 사용하는 데 필요한 하드웨어 비용을 크게 줄이는 동시에 모델이 처음으로 응답을 생성하는 데 걸리는 시간을 최대 8배까지 단축합니다.

간단히 말해서,KVTC 기술의 핵심은 대규모 언어 모델을 압축하는 데 사용되는 KV 캐시입니다. 이는 AI 모델의 '단기 메모리'에 해당합니다.. KV 캐시를 학생들이 메모하는 것으로 생각할 수 있습니다. 모델이 대화를 처리할 때 핵심 정보(즉, 키와 값)를 기록합니다. 다음에 응답이 생성될 때 전체 대화를 처음부터 다시 계산할 필요가 없으며 응답 속도가 크게 향상될 수 있습니다.
하지만 문제는 대화가 길어질수록 "노트"의 크기가 커지고 심지어 몇 GB까지 확장되어 많은 GPU 메모리를 차지하므로 모델 속도가 느려지고 처리 능력이 제한된다는 것입니다.
NVIDIA의 수석 딥 러닝 엔지니어인 Adrian Lancucki는 "대규모 언어 모델을 추론할 때 성능 병목 현상은 종종 컴퓨팅 성능이 아니라 GPU 메모리에서 발생합니다"라고 말했습니다. 일시적으로 사용되지 않는 KV 캐시는 항상 귀중한 GPU 리소스를 차지하므로 시스템이 이를 CPU 메모리나 하드 디스크로 전송하게 됩니다. 이는 데이터 전송의 부담을 증가시킬 뿐만 아니라 새로운 지연 문제를 야기할 수도 있습니다. 이러한 추가 비용은 결국 기업의 사용료에 반영됩니다.
기존 압축 기술과 비교하여 KVTC에는 뚜렷한 한계가 없습니다. 익숙한 JPEG 이미지 압축 아이디어를 활용하며 "주성분 분석, 적응형 양자화, 엔트로피 코딩"의 간단한 3단계를 통해 효율적인 압축을 달성할 수 있습니다.
더욱 편리한 점은 이 기술을 사용하면 모델의 핵심 설정과 코드를 변경할 필요가 없다는 점입니다. 이는 "비침해적" 설계이며 기업에서 신속하게 배포할 수 있습니다. 핵심 장점은 KV 캐시의 "관련성이 높은 데이터" 특성을 캡처하고, 핵심 정보를 유지하면서 중복 데이터를 제거하고, 모델의 실시간 응답에 영향을 주지 않고 블록 및 레이어별로 압축을 풀 수 있다는 것입니다.
여러 차례의 테스트를 통해 다음과 같은 결과가 나타났습니다.KVTC의 성능은 기존의 주류 방식을 훨씬 능가합니다. 15억~700억 범위의 매개변수를 갖는 다양한 모델(Llama 3 시리즈, R1-Qwen 2.5 등 포함)에서는 메모리를 20번 압축하더라도 모델 정확도에는 거의 영향을 받지 않으며 손실률은 1% 미만으로 압축하지 않은 것과 거의 동일합니다.; 하지만 기존의 압축 방식은 5번만 압축하면 정확도가 크게 떨어지게 됩니다.
게다가,H100 GPU에서 8,000개의 토큰 프롬프트를 처리할 때 KVTC를 사용하지 않고 첫 번째 응답을 생성하는 데 3초가 걸리며, KVTC를 사용한 후에는 380밀리초만 소요됩니다. 이는 완전히 8배 빠른 속도입니다.
KVTC는 프로그래밍 보조자, 반복 에이전트 추론 등과 같은 긴 대화 및 다중 라운드 상호 작용 시나리오에 더 적합하다는 점에 유의해야 합니다. 대화가 짧으면 압축 값을 발휘하기 어렵습니다.
현재 NVIDIA는 이 기술을 Dynamo 프레임워크의 KV 블록 관리자에 통합하여 vLLM과 같은 주류 오픈 소스 추론 엔진과 호환되도록 할 계획입니다.
업계 관계자들은 대규모 언어 모델이 처리할 수 있는 대화 길이가 계속 증가함에 따라 향후 KVTC와 같은 표준화된 압축 기술이 비디오 압축만큼 대중화되어 AI가 보다 광범위하게 적용되는 데 도움이 될 것이라고 믿고 있습니다.