인공지능(AI)의 물결이 데이터센터의 전력 수요를 증가시키자 일리노이대학교 어바나-섐페인 캠퍼스 연구팀이 새로운 3차원 인쇄 순수 구리 냉각판 기술을 개발했습니다. 이를 통해 데이터센터의 냉각용 전력 소비는 현재 전체 전력 소비량의 약 30%에서 약 1.1%로 크게 줄어들 것으로 예상됩니다. 연구진은 이 기술이 초대형 데이터센터에 전면 적용되면 전체 냉각 관련 에너지 소비가 90% 이상 감소해 현재 열공학이 달성할 수 있는 효율성 한계에 근접할 것으로 추정하고 있다.

국제 에너지 기구(International Energy Agency)에 따르면, 전 세계 데이터 센터 전력 소비량은 2025년에 485테라와트시에 도달할 것이며, 그 중 약 30%(이미 스웨덴의 연간 전력 소비량을 초과하는 수치)가 냉각 시설 자체에 사용됩니다. 동시에, 생성 인공 지능의 급속한 발전으로 인해 업계는 보다 직접적인 태양 에너지 공급을 얻기 위해 우주에 데이터 센터를 구축하는 것을 고려하게 되었습니다. 더욱 아이러니한 점은 이러한 막대한 전력 소비 중 약 3분의 1이 컴퓨팅 자체와는 아무런 관련이 없고 칩에 의해 열로 변환된 전기 에너지를 "이동"하는 데 사용된다는 것입니다.

Nvidia의 GB200 칩을 예로 들면, 단일 칩의 전력 소비량은 1,200W에 이르고, 일일 전력 소비량은 약 28.8kWh로 평균 미국 가정의 일일 평균 전력 소비량에 가깝습니다. 피할 수 없는 줄(Joule) 가열 효과로 인해 이 1200와트는 가열 전력으로 거의 동일하게 변환되며, 이는 이론적으로 단 한 시간 안에 50잔 이상의 물을 가열하기에 충분합니다. 수천, 심지어 수십만 개의 칩이 냉각 개입 없이 지금처럼 랙에 빽빽하게 쌓여 있다면 xAI의 Colossus 1 데이터 센터에 있는 220,000개의 GPU와 300MW의 전력만으로도 약 785,000평방피트의 공간을 한 시간 안에 섭씨 약 1,200도까지 가열할 수 있습니다. 이는 마그마보다 더 뜨거운 온도입니다. 냉각은 데이터센터 운영에 있어 피할 수 없는, 심지어 생사를 가르는 연결 고리가 되었음을 알 수 있습니다.

논문의 제1저자이자 기계 엔지니어인 Behnood Bazmi는 "냉각은 현재 칩 설계의 병목 현상입니다. 컴퓨팅 설계와 제조 역량 간의 격차를 해소함으로써 우리의 솔루션은 보다 에너지 효율적인 칩과 다양한 전자 장비의 액체 냉각을 위한 새로운 경로를 제공합니다."라고 지적했습니다. 오랫동안 데이터센터는 주로 공기 냉각에 의존해 왔습니다. CPU와 GPU에 금속 방열판을 설치하고, 얇은 핀을 통해 열 교환 영역을 확장하고, 이를 고출력 팬에 의한 강제 대류로 보완했습니다. 거대한 공기조화 시스템을 구동하기 위해서는 이 방법 자체가 많은 전력을 소모하며, 차세대 AI 가속기 칩의 열 흐름 밀도가 급격히 높아지는 상황에서 기존의 공기 냉각 방식은 점점 더 부적절해지고 있습니다.

따라서 업계에서는 직접 칩 액체 냉각 솔루션으로의 전환을 가속화하고 있습니다. 즉, 프로세서 위에 금속 "냉각판"을 설치하고 내부의 작은 채널을 통해 냉각수의 흐름을 안내하며 칩 열을 빠르게 방출하는 것입니다. 시중에서 판매되는 기존 냉각판은 오랫동안 사용되어 왔지만 내부 핀과 흐름 채널의 설계는 일반적으로 처리 용이성을 우선시합니다. 기하학적 형태는 직사각형이나 원통형이 대부분이며, 재질은 대부분 알루미늄 합금이나 스테인리스강으로 만들어진다. 궁극적인 열 교환 성능과 흐름 저항 제어의 균형을 맞추는 것은 어렵습니다.

일리노이 대학 팀의 혁신은 소재와 핀 구조의 두 가지 핵심 측면에 집중되어 있습니다. 연구원들은 토폴로지 최적화 방법을 사용하고 수학적 최적화 알고리즘을 도입하여 냉각판의 내부 미세 구조를 재설계했습니다. 기존의 정사각형 기둥과 원통형 형상에서 더 복잡하고 들쭉날쭉하며 날카로운 3차원 형상으로 진화하여 유동 채널 저항을 고려하면서 열 전달 면적과 열 성능을 최대화했습니다. 이러한 매우 복잡한 구조는 전통적인 공정을 통해 경제적으로 처리하는 것이 거의 불가능하기 때문에 팀은 고급 전기화학 적층 제조(ECAM)를 사용하여 층별로 원하는 모양을 직접 생성했습니다. 소재 선택 측면에서는 열전도율은 우수하지만 기존 3D 프린팅으로는 미세한 형태를 만들기가 극히 어려운 순동(純銅)을 과감하게 사용했다.

해당 논문의 교신 저자인 기계 엔지니어 Nenad Miljkovic에 따르면, ECAM 기술은 순수 구리를 인간의 머리카락 직경보다 훨씬 작은 30~50미크론만큼 미세한 형상으로 가공할 수 있습니다. 실험 결과에 따르면 상용 기존 냉각판과 비교하여 순수 구리로 제작된 이 토폴로지 최적화 냉각판은 액체 냉각 조건에서 냉각 성능을 최대 약 32% 향상시키는 동시에 시스템의 압력 강하를 최대 68%까지 줄일 수 있는 것으로 나타났습니다. 압력 강하의 감소는 단위 시간당 냉각수 순환을 촉진하는 데 필요한 펌프 동력이 크게 감소함을 의미합니다. 이 두 가지를 결합하면 전반적인 에너지 소비가 크게 절감됩니다.

연구팀은 추가적으로 데이터센터 전체 수준에서 모델링 분석을 진행했다. 공기 냉각이 여전히 지배적인 현재 시나리오에서 1GW의 설치 용량을 갖춘 데이터 센터에는 냉각 인프라에만 약 550MW의 추가 전력이 필요할 수 있습니다. 이들이 제안한 최적화된 수냉식 솔루션을 채택하면 동일 규모 시설의 냉각 전력 소모가 약 11MW로 줄어들 것으로 예상된다. 즉, 대규모 AI 하드웨어에서 발생하는 극심한 열의 효과적인 방열을 유지하면서 냉각에 필요한 에너지 소비량은 현재 약 30~35%에서 약 1.1%로 압축돼 전체적으로 95% 이상 감소할 것으로 예상된다.

이러한 모델 예측이 실제 하이퍼스케일 배포에서 재현될 수 있다면 데이터 센터 에너지 효율성에 미치는 영향은 혁명적일 것입니다. 연구팀의 추정에 따르면 이 시스템은 데이터 센터가 약 1.011의 전력 사용 효율(PUE)을 달성하는 데 도움이 될 수 있습니다. 이는 전력망에서 입력되는 거의 모든 전력이 냉각, 전송 및 배전 손실, 조명과 같은 보조 수단에 소비되지 않고 컴퓨팅에 직접 사용된다는 의미입니다. 비교해 보면, 세계에서 가장 발전된 초대형 데이터 센터 PUE의 대부분은 1.1에서 1.3 사이인 반면, 이론적으로 "완벽한" 데이터 센터 PUE는 1.0입니다. 즉, 인프라 냉각 및 지원에 에너지가 낭비되지 않습니다.

물론, 연구팀은 현재 데이터센터 전체의 에너지 소비량 수치가 아직 모델 도출 단계에 불과하며, 실제 기가와트급 데이터센터의 현장 측정 결과를 바탕으로 한 것이 아니라는 점도 인정했다. 그럼에도 불구하고 기술이 예상대로 대규모 배포에서 성능을 유지할 수 있다면 현재 AI 붐 뒤에 간과된 가장 큰 숨겨진 에너지 소비 중 하나인 데이터 센터 냉각을 크게 줄일 수 있는 잠재력이 있습니다. 연구원들은 설계 최적화와 고급 제조 공정을 결합한다는 아이디어가 데이터 센터에만 국한되지 않고 더 넓은 범위의 전자 장비와 효율적인 열 관리가 필요한 기타 엔지니어링 분야로도 확장될 수 있다고 믿습니다.