AMD MI300 가속기 심층 공개: 8채널 병렬 처리가 10억 회를 초과하여 모든 측면에서 NVIDIA를 능가합니다

올해 6월, AMD는 미국 샌프란시스코에서 세계 최초의 APU 가속기 MI300A와 차세대 GPU 가속기 MI300X를 포함하는 차세대 AI/HPC 가속기 InstinctMI300 시리즈를 발표했습니다. 당시 AMD는 일부 기술적인 세부 사항만 발표했습니다. CPU/GPU 코어 수, 성능/전력 소모/에너지 효율 등의 지표에 대해서는 언급하지 않았고 적용 사례도 부족했다. 이제 마술사는 마침내 자신의 모든 비밀을 드러냅니다.

베이징 시간으로 12월 7일 이른 아침, 캘리포니아 산호세에서 열린 AMDAdvancingAI 컨퍼런스에서 AMD는 InstinctMI300 시리즈 가속기의 세부 사양과 성능은 물론 수많은 애플리케이션 배포 사례를 공식 발표하여 AI 인공 지능과 HPC 고성능 컴퓨팅을 새로운 수준으로 끌어올렸습니다.

AI라는 개념이 탄생한 지 거의 70년이 되었습니다. 오랜 시간의 진화를 거쳐 사람들의 일과 삶의 구석구석까지 침투해 왔습니다. 그러나 많은 경우 인식이 그다지 강하지 않습니다. 사람들은 노드 시간을 통해 AI의 힘을 느끼는 경우가 더 많습니다.

초기에는 IBM의 딥블루 슈퍼컴퓨터가 체스 명장 가리 카스파로프를 물리친 것과 다름없었다. 최근에는 알파고와 이시시, 커제의 바둑 대결이 벌어지고 있다. 최근 가장 뜨거운 것은 물론 ChatGPT를 통해 촉발된 대규모 언어 모델과 생성 AI의 물결입니다.

솔직히 말해서, 현재로서는 대규모 언어 모델이 다소 과열된 것처럼 보이지만, 기술적이고 관점적인 관점에서 볼 때 AI는 확실히 미래입니다. 어떤 형태를 취하든 이는 일반적인 추세이자 거대한 시장이며, 특히 컴퓨팅 성능에 대한 전례 없는 수요가 있는 경우 더욱 그렇습니다.

1년 전 AMD 내부에서는 글로벌 데이터센터 AI 가속기 시장 규모가 2023년 약 300억 달러에 이를 것으로 예상했다. 앞으로 연평균 성장률은 50%를 넘을 것이며, 2027년에는 무제한인 1,500억 달러 이상의 가치를 형성할 것으로 예상된다.

이제 이 데이터는 너무 보수적인 것 같습니다.AMD는 2023년과 2027년 데이터 센터 AI 가속기 시장 전망을 각각 400억 달러와 4,500억 달러로 상향 조정했으며, 연평균 성장률은 70% 이상입니다.

가장 포괄적인 솔루션을 갖춘 제조업체로서 AMD는 모든 각도에서 슈퍼 컴퓨팅 성능과 폭넓은 적용을 위한 AI, 특히 생성적 AI의 요구 사항을 충족할 수 있습니다.

GPU 측면에는 세계 최고의 EPYC 프로세서가 있고, GPU 측면에는 성장하는 Instinct 가속기가 있고, 네트워크 측면에는 Alveo 및 Pensando와 같은 기술이 있으며, 소프트웨어 측면에는 ROCm 개발 플랫폼이 있어 유기적이고 완전한 솔루션을 구성합니다.

AMD의 초기 컴퓨팅 가속기 기반 기술은 모두 게임 그래픽 카드와 동일한 RDNA 아키텍처에서 나왔는데, 이는 명백히 관련성이 부족했기 때문에 컴퓨팅을 위한 특별히 CDNA 아키텍처가 탄생했습니다.

1세대 제품 InstinctMI100 시리즈는 FP32/FP64HPC 워크로드에 대한 가속을 제공할 수 있는 AMD 최초의 전용 GPU입니다. 2세대 제품인 InstinctMI200 시리즈는 빠르게 발전하여 많은 슈퍼컴퓨팅 시스템에서 어느 정도 자리를 차지하고 있습니다.

3세대 InstinctMI300 시리즈는 CDNA3 아키텍처를 기반으로 하며 데이터센터 APU와 전용 GPU의 두 가지 경로로 나뉩니다. 생성적 AI에 대한 강력한 수요를 충족하기 위해 고급 패키징 및 더 높은 에너지 효율성과 결합하여 통합 메모리, AI 성능, 노드 네트워크 등의 성능을 개선하는 데 중점을 둡니다.

InstinctMI300X: 1,920억 개의 트랜지스터 괴물이 NVIDIA H100을 능가합니다.

InstinctMI300X는 최신 세대의 CDNA3 컴퓨팅 아키텍처를 기반으로 한 순수 GPU 설계인 전통적인 GPU 가속기 솔루션입니다.

8개의 XCD 가속 컴퓨팅 모듈(AcceleratorComputeDie)을 통합하고 각 XCD에는 38개의 CU 컴퓨팅 장치, 총 304개의 장치가 있습니다.

그룹에 있는 XCD 2개마다 맨 아래에 IOD 모듈을 배치합니다., 입력, 출력 및 통신 연결을 담당하며,총 4개의 IOD는 최대 896GB/s의 총 대역폭과 최대 256MB InfinityCache 무제한 캐시를 갖춘 최대 7개의 완전한 4세대 InfinityFabric 연결 채널을 제공합니다.

XCD 및 IOD 주변 장치는총 용량이 최대 192GB인 8개의 HBM3 고대역폭 메모리는 약 5.3TB/s의 초고대역폭을 제공할 수 있습니다.

AI/HPC 시대에 HBM은 의심할 여지없이 고속 지원을 제공하는 최고의 메모리 솔루션이며, AMD는 HBM의 적용과 대중화를 가장 먼저 추진했습니다.

위의 모든 모듈은 2.5D 실리콘 인터포저, 3D 하이브리드 본딩 및 AMD가 3.5D 패키징 기술이라고 부르는 기타 기술을 통해 함께 통합 및 패키징됩니다.

총 트랜지스터 수는 1,530억 개에 달하며, 그 중 XCD 컴퓨팅의 핵심 부분은 5nm 프로세스이고, 중간 및 상호 연결을 담당하는 부분은 6nm 프로세스입니다.

그런데 구조도에서 HBM 메모리 사이에는 8개의 작은 실리콘 웨이퍼가 있습니다. 실제 컴퓨팅 및 전송 기능은 없지만 기계적 지원 및 전체 구조의 안정성을 보장하는 데 사용됩니다.

MI300X는 모든 성능 지표에서 NVIDIA H100을 능가할 수 있으며(H200은 발표되었지만 내년 2분기까지 출시되지 않아 아직 비교는 불가능함) 독특한 장점도 가지고 있습니다.

HPC 측면에서 보면,MI300XFP64 배정밀도 부동 소수점 행렬 및 벡터 성능은 각각 163.4TFlops(초당 163.4조 계산) 및 81.7TFlops에 달합니다. FP32 단정밀도 부동 소수점 성능은 모두 163.4TFlops로 H100에 비해 각각 2.4배, 무한 시간, 2.4배, 2.4배 향상되었습니다.——H100은 FP32 매트릭스 작업을 지원하지 않습니다.

AI 측면에서 MI300XTF32 부동 소수점 성능은 653.7TFlops, FP16 반정밀도 부동 소수점 및 BF16 부동 소수점 성능은 1307.4TFlops, FP8 부동 소수점 및 INT8 정수 성능은 2614.9TFlops에 도달할 수 있으며 모두 H100의 1.3배입니다.

TF32는 새로운 부동 소수점 정밀도 표준인 TensorFloat32입니다. 한편으로는 10개의 가수 비트로 FP16과 동일한 정밀도를 유지합니다. 반면, FP32와 동일한 동적 범위(지수 비트는 모두 8비트)를 유지합니다.

BF16은 딥러닝에 최적화된 부동 소수점 형식인 BloatFloat16입니다.

또한 HBM3 고대역폭 메모리에도 적합합니다. MI300X는 용량과 대역폭 측면에서 H100을 능가합니다.전체 소비전력은 H100700W보다 조금 높은 750W로 조절됐다.

또한 AMD는 병렬로 연결된 8개의 MI300X 모듈로 구성되고 모든 OCP 개방형 컴퓨팅 표준 플랫폼과 호환되는 MI300X 플랫폼도 만들었습니다.

이처럼 단일 서버 공간에는 총 2432개의 컴퓨팅 유닛, 1.5TB HBM3 메모리, 42.4TB/s 메모리 대역폭이 있다.

실적이 직접적으로 치솟았습니다.BF16/FP16의 부동소수점 성능은 초당 10억회 이상의 연산을 수행하는 10PFlops를 넘어 중형 슈퍼컴퓨터와 맞먹는다.

동일한 H100 8개로 구성된 컴퓨팅 플랫폼 H100HXG와 비교해도 컴퓨팅 성능과 HBM3 용량 면에서 많은 장점이 있으며 대역폭과 네트워크 측면에서도 비슷한 수준입니다.

특히, 각 GPU에서 실행할 수 있는 대형 모델의 크기가 직접적으로 두 배로 늘어나 컴퓨팅 효율성을 크게 향상시키고 배포 비용을 절감할 수 있습니다.

실제 애플리케이션 성능 측면에서 AMD에서 제공하는 일부 공식 데이터를 살펴보세요. 비교 대상은 모두 H100입니다.

중형 및 대형 커널 모두 범용 대형 언어 모델이 10-20% 앞설 수 있습니다.

추론 성능 측면에서는 8방향 병렬 서버가 모두 사용됩니다. 1,760억 개의 매개변수 모델인 Bloom의 컴퓨팅 성능은 최대 60% 앞설 수 있으며, 700억 개의 매개변수 모델인 Llama2의 지연 시간은 40% 앞설 수 있습니다.

훈련 성능 측면에서 300억 매개변수 MPT 모델의 컴퓨팅 성능은 동일한 8방향 서버와 비슷합니다.

일반적으로 AI 추론이든 AI 훈련이든 MI300X 플랫폼은 H100 플랫폼보다 성능이 뛰어나며 많은 경우 쉽게 성능을 두 배로 늘릴 수 있습니다.

강력한 제품은 파트너의 지원과 분리될 수 없습니다. MI300X는 잘 알려진 OEM 제조업체 및 솔루션 제조업체의 지원을 받았습니다.Hewlett Packard Enterprise(HPE), Dell, Lenovo, Super Micro, Gigabyte, Honbai(Hon Hai의 자회사/Foxconn 동료), Inventec, Quanta, Wistron, Wiwynn.

그중 Dell의 PowerEdgeXE9680 서버에는 8개의 MI300X가 있습니다. Lenovo의 제품은 2024년 상반기에 출시될 예정입니다. Supermicro의 H13 가속기는 4세대 EPYC 프로세서와 MI300X 가속기를 조합하여 사용합니다.

Aligned, ArkonEngergy, Cirrascale, Crusoe, DenvrDataworks, TensorWare 등 MI300X를 인프라에 도입한 파트너도 꽤 있습니다.

고객 솔루션 측면에서는 마이크로소프트의 Azure NDMI300Xv5 시리즈 가상머신, 오라클 클라우드의 베어메탈(bare metal) AI 인스턴스, 메타(페이스북) 데이터센터 도입, ROCm6Llama2 대형 모델 최적화에 대한 높은 인지도 등이 있다.

InstinctMI300A: 세계 최초의 융합 컴퓨팅 APU 200억 회 달성

MI300X가 기존 GPU 가속기의 진화라면 MI300A는 혁명입니다. 현재 AMD만이 CPU와 GPU의 진정한 통합을 이룰 수 있습니다.

반면 엔비디아 그레이스호퍼(NVIDIA GraceHopper)도 CPU와 GPU의 조합이지만 독립된 칩이라 외부에 연결해 PCB 보드에 배치해야 하는데 아직 한 단계 뒤떨어져 있다.

인텔이 계획하고 있는 통합 솔루션인 FalconShores는 여러 가지 이유로 일시적으로 취소되었습니다. 단기적으로는 순수한 GPU로 유지되며 향후 통합에 영향을 미칠 것입니다.

MI300A는 세계 최초의 AI 및 HPC용 APU 가속기입니다. Zen3CPU와 CDNA3GPU를 하나의 칩에 통합하고 HBM3 메모리를 통합 방식으로 사용하며 InfinityFabric 고속 버스를 사용하여 모두 상호 연결하므로 전체 구조와 프로그래밍 애플리케이션이 크게 단순화됩니다.

이 통합 아키텍처에는 다음과 같은 뛰어난 이점이 많이 있습니다.

하나는통합 메모리, CPU와 GPU는 서로 공유하므로 데이터를 반복적으로 복사하고 전송할 필요가 없으며 별도로 저장하고 처리할 필요도 없습니다.

두 번째는공유 무제한 캐시, 데이터 전송이 더 간단하고 효율적입니다.

세 번째는동적 전력 밸런싱, 컴퓨팅 성능이 CPU에 집중되어 있는지 GPU에 집중되어 있는지에 관계없이 실시간으로 조정되고 보다 목표화되며 에너지 효율성이 향상됩니다.

네 번째는프로그래밍 단순화, 별도의 프로그래밍 호출 없이 협업 가속화를 위해 CPU와 GPU를 통합 프로그래밍 시스템에 통합할 수 있습니다.

MI300A에는 6개의 XCD 모듈이 있으며 총 228개의 컴퓨팅 장치가 있습니다. MI300X의 다른 두 XCD 위치는 총 24개의 CPU 코어를 갖춘 3개의 CCD로 대체되었습니다. 후자는 4세대 EPYC9004 시리즈의 CCD와 정확히 동일하며 직접 재사용이 가능합니다.

4개의 IOD, 256MB 무제한 캐시, 8개의 HBM3 메모리, 3.5D 패키징은 MI300X와 완전히 동일합니다.유일한 차이점은 HBM3 메모리 스택이 12H 스택에서 8H 스택으로 줄어들고, 단일 용량도 24GB에서 16GB로 줄어들어 총 용량이 128GB라는 점입니다.하지만 이는 동일한 5.3TB/s인 대역폭에는 영향을 미치지 않습니다.

총 트랜지스터 수는 1,460억 개이며, 그 중 XCD 및 CCD 프로세스는 모두 5nm이고 중간 및 상호 연결 부분은 여전히 6nm이며 외부 소켓 패키징 인터페이스는 독립적입니다.

성능면에서,MI300AFP64 매트릭스/벡터 및 FP32 벡터 성능은 HJ100의 1.8배이며(FP32 매트릭스도 지원하지 않음), TF32, FP16, BF16, FP8 및 INT8은 모두 동일하게 일치합니다.

이 중 FP64 매트릭스와 FP32/벡터 성능은 모두 122.6TFlops, FP64 벡터 성능은 61.3TFlops로 MI300X의 75% 수준이다.

TF32의 성능은 493.0TFlops, FP16과 BF16의 성능은 980.6TFlops, FP8과 INT8의 성능은 1961.2TFlops로 MI300X의 75% 수준이다.

왜 항상 75%인가요? XCD 모듈이 1/4로 줄어들기 때문에 GPU 코어도 자연스럽게 1/4로 줄어듭니다. 즉, 이는 모두 GPU 성능에 관한 것이며 CPU 부분은 포함되지 않습니다.

MI300A의 전체 전력 소비는550-760W범위 내에서는 주파수의 다양한 사양에 따라 다릅니다.

H100과 비교하여 MI300A는 단 550W의 전력 소비만으로 OpenFOAM 고성능 컴퓨팅 테스트에서 최대 4배의 이점을 얻을 수 있으며 다양한 실제 애플리케이션에서 10~20% 앞서갈 수 있습니다.

최신 GH200과 비교하여 MI300A760W의 최대 전력 소비 시 에너지 효율성 이점은 2배에 달할 수 있습니다.

MI300A는 미국 로렌스 리버모어 국립연구소의 차세대 슈퍼컴퓨터 엘캐피탄(ElCapitan)에 탑재됐다.

설계 목표는 세계 최초의 200억 엑사급 슈퍼컴퓨터가 되는 것이며, AMD 플랫폼을 기반으로 하는 두 번째 엑사급 슈퍼컴퓨터이기도 합니다.

MI300A의 OEM 및 솔루션 파트너 라인업도 지속적으로 확장되고 있습니다. 현재 다음이 있습니다.HPE, Eviden(프랑스 Atos의 일부), Gigabyte 및 AMD.

이 중 HPE EX255a는 MI300A를 기반으로 한 최초의 슈퍼컴퓨팅 가속기 블레이드 서버로 2024년 초 출시 예정이다.

현재 AMDInstinct 시리즈 가속기는 많은 기업, 대학, 과학 연구 기관, 특히 슈퍼컴퓨터 분야에서 사용되고 있습니다.지난 11월 발표된 최신 슈퍼컴퓨팅 500 순위에서는 상위 25위권 중 5석을 차지했습니다.1위를 차지한 미국 오크리지국립연구소(Oak Ridge National Laboratory) 프론티어(Frontier)와 5위를 차지한 핀란드의 LUMI(루미) 등 모두 MI250X를 사용하고 있다.

동시에,Instinct Accelerator는 MI250X 6개, MI210 1개를 포함해 그린 슈퍼컴퓨터 500 순위 상위 10위 중 7개를 차지했습니다.그 중 FrontierTDS가 2위, LUMI가 3위로 높은 에너지 효율성을 보여줍니다.

이는 AMD의 30x25 목표에서도 중요한 노드입니다. AMD는 2020년부터 2025년까지 서버 프로세서와 AI/HPC 가속기의 에너지 효율성을 최대 30배까지 향상시키기 위해 최선을 다하고 있습니다.

소프트웨어 생태학: ROCm6은 소프트웨어와 하드웨어를 완전히 발전시키고 결합하여 속도를 8배 향상시킵니다.

좋은 말에는 좋은 안장이 달려있습니다. 게임 그래픽 카드에 성능 잠재력을 발휘하려면 드라이버가 있어야 하는 것처럼, AI/HPC 가속기의 성능은 개발 플랫폼과 도구의 전적인 지원 없이는 달성할 수 없습니다.

AMDROCm은 이러한 개방형 소프트웨어 플랫폼이며 이제 차세대 ROCm6으로 출시됩니다.

대규모 언어 모델과 생성 AI 최적화 및 개선, 오픈 소스 지원 강화, 생태학적 지원 확대, AI 라이브러리 추가 등에 중점을 두고 있습니다.

예를 들어, 대규모 언어 모델 최적화 측면에서 오픈 소스 대규모 모델 추론 가속 프레임워크 vLLM을 지원하고 추론 라이브러리를 최적화하여 대기 시간 성능을 최대 2.6배 향상합니다.

지원되는 고성능 그래프 분석 및 학습 프레임워크인 HIPGraph는 런타임을 최적화하고 대기 시간 성능을 1.4배 향상시킵니다.

메모리 효율적인 주의 알고리즘 FlashAttention을 지원하고 커널을 최적화하며 대기 시간 성능을 1.3배 향상시킵니다.

차세대 하드웨어와 차세대 개발 플랫폼의 힘은 매우 강력합니다. 예를 들어 MI250X와 ROCm5에 비해 MI300X와 ROCm6의 조합은 270억 개의 매개변수 Llama2 대규모 모델 추론을 실행할 수 있으며 대기 시간 성능을 최대 8배까지 향상시킬 수 있습니다!

물론 ROCm6 플랫폼은 잠재력을 더욱 활용하기 위해 기존 플랫폼 하드웨어도 계속 지원할 것입니다.

130억 개의 매개변수를 갖춘 대형 Llama2 모델과 같은 경쟁 제품과 비교하면 MI300X의 대기 시간 성능은 H100보다 20% 앞서 있습니다.

생태학적 지원 측면에서 ROCm6는 특히 AMD의 일관된 오픈 소스 경로를 기반으로 빠르게 확장되고 있습니다. 한편으로는 자체 개발 라이브러리를 오픈 소스 커뮤니티에 적극적으로 기여합니다. 반면에,HuggingFace, PyTorch, TensorFlow, Jax, OAItriton, ONNX 등을 포함한 다양한 오픈 및 오픈 소스 AI 모델, 알고리즘 및 프레임워크를 최대한 활용할 수 있습니다.

안에,OpenAI는 곧 출시될 Triton 3.0 버전에서 공식적으로 AMDGPU를 지원할 예정입니다. AMD Instinct는 향후 귀하가 대화하는 ChatGPT 뒤에 있을 수 있습니다.

전반적으로 AMD의 차세대 InstinctMI300X/MI300A 가속기는 최첨단 하드웨어 설계와 세계 최고의 컴퓨팅 성능 및 에너지 효율성을 갖추고 있습니다. 특히, 진정한 통합형 APU는 업계를 선도하며 새로운 가능성을 열어줍니다.

EPYCCPU 프로세서 및 네트워크 솔루션의 협력과 결합하여 생성적 AI 추론, 교육 및 적용을 위한 강력한 컴퓨팅 플랫폼 기반을 제공합니다.

소프트웨어 개발 및 생태학적 협력 측면에서 AMD는 시대에 적극적으로 보조를 맞추고 커뮤니티와 업계를 공개적으로 포용하며 개발 및 응용 프로세스를 단순화하고 자체 경쟁력을 크게 향상시키며 기대할만한 유망한 미래를 가지고 있습니다.