AI 모델이 계속 확장됨에 따라 HBM은 비디오 메모리 용량에 대한 미래 수요를 충족하지 못할 수 있으며, 이로 인해 업계에서는 GPU 기반 스토리지 아키텍처를 잠재적인 차세대 기술 개척지로 여기게 되었습니다. 지난해 엔비디아가 SK하이닉스, 키옥시아와 각각 협력해 AI SSD 개발을 추진하고 맞춤형 SSD 부품을 사용해 GPU 메모리 확장기인 HBM을 대체한다는 소식이 나왔다. 또 올해 SK하이닉스도 샌디스크와 협력해 AI 추론 시대를 위한 차세대 메모리 솔루션인 HBF(High Bandwidth Flash)를 선보여 같은 문제를 해결했다.

Nvidia는 GPU가 스토리지에 직접 액세스할 수 있도록 허용할 계획이며 HBF를 가속화할 것으로 예상됩니다.

TrendForce 보고서에 따르면 Nvidia는 GPU 직접 액세스 스토리지 아키텍처 개발을 진행하고 있으며 이를 Vera Rubin 플랫폼에서 도입하고 GIDS(GPU-Initiated Direct Storage Access) 기능을 활성화할 계획입니다. 외부인들은 이러한 변화가 HBF의 발전을 가속화할 수 있다고 믿습니다.

GIDS는 기존 GDS(GPU Direct Storage) 기능과 다릅니다. 둘 사이에는 차이점이 있습니다. GDS에서는 CPU가 GPU로 데이터를 전송하기 전에 저장 장치에 데이터 요청을 보냅니다. GIDS에서는 CPU와 DRAM을 중간에 건너뛰고 GPU가 직접 저장 장치에 액세스합니다.

GIDS와 GDS는 모두 기존 컴퓨팅 아키텍처의 데이터 전송 병목 현상을 극복하는 것을 목표로 하고 있으며 Microsoft와 AMD도 비슷한 접근 방식을 모색하고 있다는 소문이 있습니다. 가장 큰 문제는 전통적인 데이터 전송 방식이 비효율적이라는 것입니다. CPU는 스레드 처리에 있어서 제한된 구조를 가지고 있는 반면, GPU는 수만 개의 병렬 스레드를 생성할 수 있습니다. 현재 GPU-HBM 데이터 전송은 전체 시스템 전력 소비의 약 절반을 차지하며, 이는 HBF 아키텍처를 더욱 지원하고 초고속 NAND 플래시 메모리를 GPU에 더 가깝게 가져와 향후 AI 병목 현상에 대처할 수 있게 해줍니다.

GIDS의 출현으로 NAND 플래시가 AI 스토리지 시스템에서 더 중요한 역할을 수행하는 동시에 용량 측면에서 HBM에 대한 부담을 줄일 수 있습니다. 이러한 변화에는 GPU 처리 속도를 따라잡기 위해 고성능 NAND 플래시 메모리가 필요합니다. NAND 플래시 메모리의 장점은 비트 밀도가 DRAM의 약 30배에 달해 비슷한 공간에서 더 큰 저장 용량을 구현할 수 있다는 점입니다.

그러나 NAND 플래시 메모리는 내구성이 제한적인 반면 DRAM은 쓰기 기능이 거의 무제한입니다. 따라서 HBF는 AI 모델 매개변수를 저장하는 데 더 적합한 것으로 간주됩니다. 데이터의 이 부분은 추론 프로세스 중에 기본적으로 변경되지 않고 읽기 전용 워크로드로만 사용되기 때문입니다.