동부 표준시 기준 화요일에 Google은 실리콘 밸리 기술계에서 폭발적인 인기를 얻은 최신 알고리즘인 초효율 AI 메모리 압축 알고리즘인 TurboQuant를 출시했습니다. Google은 이 알고리즘이 대규모 언어 모델의 캐시 메모리 공간을 6배 이상 줄이고 정확성을 잃지 않으면서 성능을 8배 향상시킬 수 있다고 주장합니다. 본질적으로 인공지능은 더 적은 메모리 공간을 차지하면서 더 많은 정보를 기억할 수 있습니다.



이 알고리즘이 공개되자마자 미국 칩주가 하락했다. Google과 월스트리트도 열띤 토론을 시작했습니다. 현재 많은 기술 대기업을 괴롭히는 메모리 칩 부족 재앙이 여기서 끝날 수 있습니까?

터보퀀트(TurboQuant)란 무엇입니까?

먼저, 이 TurboQuant 알고리즘이 정확히 무엇인지 이야기해 보겠습니다.

Google의 공식 웹사이트 소개에 따르면 TurboQuant는 정확도를 잃지 않으면서 모델 크기를 크게 줄일 수 있는 압축 방법이므로 키-값 캐시(KV Cache) 압축 및 벡터 검색을 지원하는 데 매우 적합합니다. 이는 두 가지 주요 단계를 통해 수행됩니다.

1. 고품질 압축(PolarQuant 방법): TurboQuant는 먼저 데이터 벡터를 무작위로 회전합니다. 이 기발한 단계는 데이터의 기하학적 구조를 단순화하여 표준 고품질 양자화기를 벡터의 각 부분에 개별적으로 적용하는 것을 쉽게 만듭니다. 첫 번째 단계에서는 원본 벡터의 주요 개념과 특징을 보존하기 위해 대부분의 압축 성능(대부분의 비트)을 활용합니다.

2. 숨겨진 오류 제거: TurboQuant는 소량의 남은 압축 전력(단 1비트)을 사용하여 첫 번째 단계에서 남은 작은 오류에 QJL 알고리즘을 적용합니다. QJL 단계는 수학적 오류 검사기 역할을 하여 편향을 제거하고 더 정확한 주의 점수를 얻습니다.

간단히 말해서 TurboQuant는 본질적으로 AI 모델의 핵심 구조를 변경하지 않은 채 AI 모델을 압축하며 전처리나 특정 교정 데이터가 필요하지 않습니다.

Google은 LongBench, Needle In A Haystack, ZeroSCROLLS, RULER 및 L-Eval을 포함한 여러 벤치마크 테스트에서 세 가지 알고리즘인 TurboQuant, PolarQuant 및 KIVI를 엄격하게 평가하기 위해 오픈 소스 긴 컨텍스트 모델(Gemma 및 Mistral)을 사용했다고 주장합니다.

실험 데이터에 따르면 TurboQuant는 내적 왜곡 및 재현율 측면에서 최적의 채점 성능을 달성하는 동시에 키-값(KV) 메모리 사용을 최소화하는 것으로 나타났습니다.


위 그림은 질문 답변, 코드 생성 및 요약과 같은 다양한 작업에서 TurboQuant, PolarQuant 및 KIVI 기준 알고리즘의 종합적인 성능 점수를 보여줍니다.

Google은 TurboQuant가 키-값 메모리 크기를 최소 6배 줄이면서 모든 벤치마크에서 완벽한 다운스트림 결과를 달성했다고 주장합니다.

그들은 다음 달 ICLR 2026 컨퍼런스에서 연구 결과를 발표할 뿐만 아니라 그러한 압축을 달성하는 두 가지 방법, 즉 양자화 방법 PolarQuant와 QJL이라는 훈련 및 최적화 방법을 시연할 계획입니다.

Google이 DeepSeek 순간을 보내고 있나요?

이 구글 알고리즘은 많은 사람들에게 HBO TV 시리즈 '실리콘 밸리'(2014년부터 2019년까지 방송)에 등장하는 가상의 스타트업 기업 파이드 파이퍼(Pied Piper)를 연상시킨다. TV 시리즈에서 Pied Piper는 거의 무손실 압축으로 파일 크기를 크게 줄일 수 있는 획기적인 압축 알고리즘도 개발했습니다.


실제로 구글 연구소가 공개한 터보퀀트(TurboQuant) 기술도 품질 저하 없이 궁극의 압축을 달성하는 데 전념하고 있지만, 이는 인공지능 시스템의 핵심 병목 현상에 적용된다.

Cloudflare CEO Matthew Prince 등은 이를 Google의 DeepSeek 순간이라고 부르기도 했습니다. 이는 DeepSeek처럼 매우 높은 효율성 향상을 통해 AI의 운영 비용을 크게 절감하는 동시에 결과 측면에서 경쟁력을 유지할 것으로 기대되기 때문입니다.


그는 X에 대한 기사에서 "AI 추론은 속도, 메모리 사용량, 전력 소비 및 활용 측면에서 여전히 최적화할 여지가 많습니다"라고 썼습니다.

메모리 칩 수요가 식을 것인가?

구글의 알고리즘 공개는 전 세계적으로 메모리 칩 부족 현상이 점점 심각해지는 가운데 이뤄졌다.

세계 주요 거대 기업들이 AI 인프라 구축에 힘쓰고 있어 메모리 수요는 계속 증가하고 있어 공급 부족 현상은 단기적으로 완화되기 어려울 전망이다. 주요 기술 회사의 개발자들은 메모리 부족을 극복하거나 최소한 처리하기 위한 다양한 혁신적인 방법을 고안해 냈으며 Google의 TurboQuant는 현재 기술 업계 사람들에 의해 메모리 수요 냉각에 대한 지속 가능한 솔루션으로 간주됩니다.

이러한 기대는 AI 인프라 구축에 전념하는 거대 기술 기업들에게는 당연히 좋은 일입니다. 하지만 메모리칩 제조사 입장에서는 결과가 다를 수 있다.

미국 메모리 반도체 업종은 메모리 수요 둔화에 대한 기대감으로 수요일 개장 직후 집단 급락했다. 샌디스크는 6.5%, 마이크론 테크놀로지는 4%, 웨스턴디지털은 4% 이상, 시게이트 테크놀로지는 5% 이상 하락했다.

샌디스크 주가는 수요일 오전 거래에서 급락했다.
샌디스크 주가는 수요일 오전 거래에서 급락했다.

보도시간 기준 목요일 아시아 세션에서 SK하이닉스는 4.42%, 삼성전자는 3.02% 하락했다.

Futurum Equity Research의 Shay Boloor는 다음과 같이 주장합니다.

"장문맥 AI 추론이 워크로드당 필요할 수 있는 메모리가 이제 크게 줄어들 수 있기 때문에 시장에서는 이를 메모리 주식에 대한 잠재적인 역풍으로 보고 있습니다."

다모는 반대 입장을 내놨다

그러나 일부 월스트리트 거인들은 반대 견해를 표명했습니다.

예를 들어, Lynx Equity Strategies 분석가 KC Rajkumar는 TurboQuant의 기술이 미디어에서 설명하는 것처럼 "파괴적"이지 않을 수 있다고 제안했습니다.

그는 구글의 이른바 '8배 성능 향상'은 기존 32비트 모델과의 비교를 바탕으로 한 것이라고 말했다. 그러나 현재의 추론 모델은 4비트의 정량화된 데이터를 널리 사용하고 있기 때문에 성능 향상이 그다지 과장되지는 않습니다.

또한 Morgan Stanley는 Google TurboQuant 기술이 추론 단계의 키 값 캐시에만 작용할 뿐 모델 가중치가 차지하는 HBM에는 영향을 미치지 않으며 훈련 작업과 아무런 관련이 없다고 지적했습니다.

따라서 전체 스토리지 요구 사항이나 전체 하드웨어가 6배 감소하는 것이 아니라 효율성 향상을 통해 단일 GPU 처리량이 증가하는 것입니다. 동일한 하드웨어는 메모리 오버플로를 유발하지 않고 4배에서 8배 더 긴 컨텍스트를 지원하거나 배치 크기를 크게 늘릴 수 있습니다.

더 중요한 것은 모건스탠리가 메모리 수요가 식지 않을 것이라는 판단을 설명하기 위해 '제본스 패러독스(Jevons Paradox)'를 추가로 인용했다는 점이다.

제본스의 역설(Jevons' paradox)은 경제학에서 중요한 개념으로, 기술 진보와 자원 소비 사이의 반직관적인 관계를 말합니다. 정의는 다음과 같습니다. 기술 발전으로 효율성이 향상되면 자원 소비는 감소할 뿐만 아니라 증가합니다. 예를 들어 와트의 개선된 증기 엔진 덕분에 석탄을 더욱 효율적으로 연소할 수 있었지만 그 결과 석탄 수요가 급증했습니다.

Morgan Stanley는 TurboQuant가 단일 쿼리의 서비스 비용을 크게 줄임으로써 클라우드의 값비싼 클러스터에서만 실행할 수 있는 모델을 로컬로 마이그레이션하여 AI의 대규모 배포에 대한 임계값을 효과적으로 낮춰 전반적인 수요를 더욱 높일 수 있다고 믿습니다.

실제로 Cloudflare CEO Matthew Prince 등이 언급한 DeepSeek은 Jevons의 역설을 가장 생생한 사례로 보여줍니다. 작년 초 DeepSeek이 출시되었을 때 시장에서는 AI 하드웨어에 대한 수요가 식을 것이라고 우려했습니다. 그러나 사실은 효율성 향상으로 인해 AI 애플리케이션이 더욱 대중화되었고, AI 하드웨어에 대한 수요도 다시 뜨거워졌습니다.