MLCommons는 60억 매개변수 대형 언어 모델과 컴퓨터 비전 및 자연어 처리 모델 GPT-J에 대한 MLPerf 추론 v3.1의 성능 벤치마크 테스트 결과를 공식 발표했습니다. 인텔 CPU 프로세서와 AI 가속기는 성능이 뛰어나 AI 추론에서 꽤 경쟁력이 있다.

앞서 공개된 MLCommonsAI 트레이닝 결과와 지난 6월 HuggingFace 성능 벤치마크 테스트 결과에서는 Intel Gaudi2AI 가속기가 고급 시각 언어 모델에서 NVIDIA H100 가속기의 성능을 완전히 능가할 수 있음을 보여주었습니다.NVIDIAH100/A100에 대한 유일한 실현 가능한 대안이라고 할 수 있습니다., 최신 결과는 이것을 다시 확인시켜줍니다.

GPT-J 모델에서 Intel Gaudi2 가속기의 GPT-J-99, GPT-J-99.9 서버 쿼리 및 오프라인 샘플 추론 성능은 각각 78.58회/초 및 84.08회/초입니다.

경쟁 제품과 비교했을 때 H100은 Gaudi2에 비해 1.09배(서버), 1.28배(오프라인) 성능 이점만 가지고 있습니다. Gaudi2는 A100에 비해 2.4배(서버), 2배(오프라인) 성능 이점을 가지고 있습니다.

그것을 언급할 가치가 있다Gaudi2가 제출한 결과는 99.9%의 정확도로 FP8 데이터 유형을 사용합니다.

Gaudi2 소프트웨어는 6~8주마다 업데이트되며 계속해서 MLPerf 벤치마크 성능을 개선하고 모델 적용 범위를 확장할 것입니다.

동시에 Intel은 GPT-J 모델을 포함하여 SapphireRapids 4세대 Xeon 확장 가능 프로세서를 기반으로 한 7개의 추론 벤치마크 테스트를 제출했습니다.

결과는 4세대 Xeon이 비전, 언어 처리, 음성 및 오디오 번역 모델은 물론 더 큰 DLRMv2 딥 러닝 추천 모델 및 ChatGPT-J 모델을 포함한 일반적인 AI 워크로드를 처리할 때 매우 우수한 성능을 발휘한다는 것을 보여줍니다.

지금으로서는,인텔은 업계 표준 딥 러닝 에코시스템 소프트웨어를 사용하여 공개 CPU 결과를 제출하는 유일한 공급업체입니다.

최근 결과에 따르면,GPT-J를 사용하여 약 1,000~1,500단어의 1000단어 보도 자료를 요약하면 4세대 Xeon은 오프라인 모드에서는 초당 2문단, 실시간 서버 모드에서는 초당 1문단을 완료할 수 있습니다.

또한,Intel은 처음으로 Xeon CPUMax 프로세서에 대한 MLPerf 테스트 결과를 제출했습니다.최대 64GB HBM3 고대역폭 메모리를 통합한 는 GPT-J에 대해 99.9% 정확도를 달성할 수 있는 유일한 CPU로, 매우 높은 정확도 요구 사항이 있는 애플리케이션에 매우 적합합니다.

구매 페이지를 방문하세요:

인텔 플래그십 스토어