차세대 국내 슈퍼컴퓨터 "Tianhe Xingyi" 출시: 1597.44만 코어, 최고 성능은 620PFLOPS에 도달?

17일 뉴스에 따르면 진양닷컴에 따르면 이달 6일 '초지능 융합, 컴퓨팅이 새로운 장을 열다'라는 주제로 2023년 슈퍼컴퓨팅 혁신 응용 컨퍼런스가 광저우에서 성대하게 열렸다. 이번 컨퍼런스에서 광저우 국립 슈퍼컴퓨팅 센터는 센터의 차세대 국내 슈퍼컴퓨팅 시스템인 "Tianhe Xingyi"를 공식 출시했습니다.

광저우 국립 슈퍼컴퓨팅 센터 소장 Lu Yutong에 따르면 "Tianhe Xingyi"는 애플리케이션 중심이며 국내 고급 컴퓨팅 아키텍처, 고성능 멀티 코어 프로세서, 고속 상호 연결 네트워크 및 대규모 스토리지와 같은 핵심 기술을 사용하여 구축되었습니다.

'Tianhe-2'에 비해 일반 CPU 컴퓨팅 성능, 네트워크 기능, 스토리지 기능 및 애플리케이션 서비스 기능이 2배 증가했으며 고성능 컴퓨팅, AI 대형 모델 교육, 빅데이터 분석 등 다양한 애플리케이션 시나리오의 요구 사항을 지원합니다.

국가 슈퍼컴퓨팅 광저우 센터의 다중 분야 애플리케이션 서비스 역량을 더욱 강화하고, 광저우, 광둥성 및 광둥-홍콩-마카오 Greater Bay Area에서 최첨단 과학 및 기술 혁신, 전략적 엔지니어링 건설, 산업 업그레이드 및 변혁을 위한 강력한 고급 컴퓨팅 성능 및 플랫폼 지원을 제공하고, 국가 중심 도시이자 종합 관문 도시인 광저우의 핵심 과학 기술 혁신 강점을 효과적으로 강화하고, 지역 과학, 기술, 경제 및 사회의 고품질 발전을 지원할 것입니다.

광저우 국립슈퍼컴퓨팅센터 부국장 Chen Zhiguang은 "Tianhe Xingyi"가 가장 진보된 슈퍼컴퓨팅 기술을 채택했다고 말했습니다. 원래 시스템과 비교하여 일반 컴퓨팅 성능이 5배 증가했습니다. 그는 또한 애플리케이션 기능의 향상과 애플리케이션 소프트웨어의 추가 개발 여지가 있음을 강조했습니다.

슈퍼컴퓨팅 인터넷의 최종 목표는 전국적인 네트워킹을 이루는 것이고, 다음 단계는 심천 슈퍼컴퓨팅, 우시 슈퍼컴퓨팅과의 네트워킹을 이루는 것이다.

Tianhe Xingyi의 일반 컴퓨팅 성능이 5배 증가했습니다.

데이터에 따르면 'Tianhe-2'는 광저우 국립슈퍼컴퓨팅센터에 배치됐다. Intel Watt를 사용하며 이론성능은 54.9PFLOPS(5490억회), Linpack의 최고성능은 33.86PTFLOPS입니다. 2013년 6월부터 2016년 6월까지 실적은 변함없으며 TOP500 챔피언에 6차례 선정됐다.

Tianhe-2는 원래 이후 업그레이드 계획이 있었지만 2015년 미국 정부는 Intel과 같은 기업이 고성능 컴퓨팅 칩을 중국의 4개 슈퍼컴퓨팅 센터에 수출하는 것을 금지하는 금지령을 발표했습니다. 결과적으로 Intel Xeon Phi 가속기 카드를 사용하는 Tianhe-2는 더 이상 미국 회사의 고성능 칩을 사용할 수 없습니다.

2017년 9월, 광저우 슈퍼컴퓨팅 센터는 2017년 말까지 Tianhe-2 슈퍼컴퓨팅 시스템을 업그레이드할 것이라고 발표했습니다.원래 IntelXeonPhi 가속기를 대체하려면 국내 가속기 Matrix2000을 사용하십시오.

Matrix2000의 정수 아키텍처는 ARM이어야 하는 것으로 이해되나, 벡터 유닛은 국내 맞춤형 256bitVFU 벡터 유닛이다.

각 Matrix2000은 128개의 코어로 구성되어 있으며 1.2GHz의 주파수를 가지며 사이클당 16개의 배정밀도 작업을 수행할 수 있으며 최대 프로세서 성능은 2.45TFLOPS입니다. 업그레이드된 Tianhe-2는 Tianhe 2A라고 불리며, 최고 성능은 기존 54.9PFLOPS에서 약 100PFLOPS로 향상되었습니다.

공식 성명에 따르면, "Tianhe Xingyi"의 일반적인 성능은 일반 컴퓨팅 성능 측면에서 원래 시스템(업그레이드된 "Tianhe 2", Tianhe 2A라고도 함)보다 5배 더 높습니다. 즉, "Tianhe Xingyi"의 최대 컴퓨팅 성능은 약 600PFlop/s(초당 50억 회)에 도달해야 합니다.

올해 11월 10일 베이징에서 열린 'ChinaSC2023 제5회 중국 슈퍼컴퓨팅 강국 컨퍼런스'에서는 2023년 슈퍼컴퓨팅센터에 탑재될 1위 '슈퍼컴퓨팅 센터 호스트 시스템 이기종 다코어 프로세서'의 성능 매개변수를 공개한 2023년 중국 고성능 컴퓨터 성능 상위 100대 순위가 발표됐다.

CPU 코어 수는 15,974,400개 코어에 도달하고 최대 성능은 620PFLOPS에 도달하여 Sunway TaihuLight를 능가합니다. 분명히 이 데이터는 "Tianhe Xingyi"의 컴퓨팅 성능에 대한 이전 설명과 일치합니다.

올해 8월 12일, 국립국방기술대학교는 "국내 천하 차세대 슈퍼컴퓨터 지능형 컴퓨팅 노드 머신 타임 서비스에 대한 단일 소스 협상 발표(2023-YKJSJY-F5027)"를 발표했는데, 이는 "국내 천하 차세대 슈퍼컴퓨터 지능형 컴퓨팅 노드 머신 타임 서비스 36만 노드 시간을 구매하여 동적 풍장 계산 소프트웨어의 기능과 성능을 테스트하고 검증할 계획"이라고 밝혔습니다. 제안된 협력 공급업체: 국립 슈퍼컴퓨팅 텐진 센터."

국립슈퍼컴퓨팅천진센터를 단일 공급업체로 선택한 이유는 다음과 같습니다.

“이 프로젝트는 MT3000 프로세서를 탑재한 국내 고성능 컴퓨팅 시스템에서 동적 풍장 계산 소프트웨어 환경을 테스트하고 검증해야 하기 때문에 국내 고성능 컴퓨팅 시스템 컴퓨터 시간 서비스 360,000노드 시간을 구매해야 합니다.

Tianjin 슈퍼컴퓨팅 호스트 시스템은 Tianhe-1 시스템(TH-1A)과 Tianhe 차세대 시스템(E-레벨 검증 시스템 포함)입니다. 그중 Tianhe의 차세대 시스템에는 MT3000 프로세서 기반 컴퓨팅 노드가 있어 프로젝트 요구 사항을 충족할 수 있습니다. 현재 MT3000 프로세서를 기반으로 한 국내 고성능 컴퓨팅 환경을 제공할 수 있는 곳은 천진슈퍼컴퓨터 뿐이다. 따라서 이번 조달은 단일 소스에서 수행될 예정입니다. "

2018년 7월 신화통신은 "천진 슈퍼컴퓨팅 센터가 개발한 국내 차세대 엑사급 슈퍼컴퓨터인 'Tianhe-3' E클래스 프로토타입이 개발 및 배치되었으며 항목별 승인을 성공적으로 통과했다"고 보도했습니다.

프로토타입 시스템은 국내에서 생산된 고성능 컴퓨팅 및 통신 칩 3개를 사용합니다. "이후 2019년 추가 보고서에 따르면 "우리나라의 엑사급 슈퍼컴퓨터 'Tianhe-3' 프로토타입이 30개 이상의 유닛에 대한 대규모 병렬 애플리케이션 테스트를 완료하고 점차 서비스를 오픈했습니다."

위의 정보를 바탕으로 E급 컴퓨팅 성능을 갖춘 소문난 'Tianhe-3'이 정확히국내 MT3000 프로세서.

광저우 슈퍼컴퓨팅 센터에서 출시한 "Tianhe Xingyi"는 MT3000 프로세서를 기반으로 할 가능성이 높으며, 물론 소문난 Matrix2000+를 기반으로 할 수도 있습니다. 현재 MT3000 프로세서에 대한 추가 정보는 없지만 확실한 것은 이전 세대 MT2000에 비해 성능이 크게 향상될 것이라는 점입니다.

국내 E급 슈퍼컴퓨터 Shenwei Ocean Light

또한 Tianhe 2A의 더욱 강력한 "Sunway TaihuLight" 슈퍼컴퓨터 시스템과 비교하여 언급할 가치가 있습니다.중국에서 독자적으로 개발한 40,960개의 "Shenwei 26010" 매니코어 프로세서를 사용합니다.

이 매니코어 프로세서는 64비트 독립 Shenwei 명령어 시스템을 사용하며 코어 작동 주파수는 1.45GHz이고 최대 성능은 초당 3조 1680억 연산입니다. Sunway TaihuLight에는 40,960개의 프로세서가 설치되어 있습니다. 전체 최고 성능은 초당 12억 5천만 회, 지속 성능은 초당 93억 회에 달합니다.

소문난 차세대 Sunway 슈퍼컴퓨터인 Sunway Oceanlite(Sunway Oceanlite)는 더욱 강력한 성능을 제공할 것으로 예상되는 새로운 Sunway SW26010-Pro 프로세서를 사용할 예정입니다.

올해 11월 개최된 SC23(고성능 컴퓨팅 및 아키텍처 분야 최고의 컨퍼런스인 고성능 컴퓨팅, 네트워킹, 스토리지 및 분석을 위한 국제 컨퍼런스)에서 중국 과학자들은 이전 세대보다 4배 향상된 성능을 갖춘 새로운 Sunway SW26010-Pro 프로세서를 전 세계에 선보였습니다. 이것은 우리나라가 자체 명령어 세트(알파 확장 기반)를 채택하고 완전히 독립적인 지적 재산권을 갖는 일련의 프로세서 제품입니다.

PPT 데이터에 따르면 SW26010pro는 SW26010의 향상된 버전으로 6개의 코어 모듈과 1개의 프로토콜 처리 장치(PPU)로 구성됩니다. 각 모듈에는 Linux 스레드(MPE) 관리용 코어 1개와 컴퓨팅 코어 64개, 즉 총 384개의 코어가 있습니다. 이와 대조적으로 이전 세대 SW26010에는 코어 그룹이 4개만 있으므로 SW26010pro 단일 칩의 성능이 50% 향상되어야 함을 나타냅니다.

SW26010Pro 프로세서의 64개(8x8) 컴퓨팅 코어 네트워크는 256KBL2 캐시가 있는 CPE(컴퓨팅 처리 장치)입니다. 각 CPE에는 4개의 논리 블록이 있으며 한 쌍에서는 FP64 및 FP32를 지원하고 다른 쌍에서는 FP16 및 BF16을 지원할 수 있습니다.

SW26010Pro의 각 코어 모듈에는 DDR4-3200 메모리 컨트롤러와 16GB 메모리가 있으며 메모리 대역폭은 51.4GB/s이므로 전체 프로세서는 96GB의 메인 메모리(SW26010의 32GB에 비해 크게 향상됨)와 307.2GB/s의 대역폭을 갖습니다.

6개의 CPE는 링 상호 연결을 통해 연결되며, 외부와 연결하기 위해 전용 상호 연결을 사용하는 2개의 네트워크 인터페이스를 갖습니다. SW26010Pro 칩의 FP64 또는 FP32 정확도는 14.03PB이고 BF16 또는 FP16 정확도는 55.3PB입니다.

또한 SW26010Pro의 MPE 코어는 2.1GHz(이전 세대 제품은 1.45GHz에 불과)에서 실행되고, CPW 코어는 2.25GHz에서 실행됩니다. 새로운 64비트 RISC 마이크로아키텍처 및 시스템 아키텍처 개선과 함께 FP64 컴퓨팅 처리량도 4배 이상 증가했습니다.

보고서에 따르면 Sunway OceanLight의 가장 큰 구성에는 100,000개 이상의 노드가 있으며, 약 105개의 캐비닛에 총 4,100만 개 이상의 코어가 분산되어 있습니다. 최고 반정밀도(FP16) 성능은 5엑사플롭/s를 초과하며, FP64의 이론적 최고 성능은 1.5엑사플롭스로 American Frontier 슈퍼컴퓨터에 이어 두 번째입니다.

Thenextplatform의 이전 보고서에 따르면 Sunway Ocean Light의 규모가 120개의 캐비닛으로 확장되면 FP64pervision의 최고 값은 1.72Exaflops에 도달합니다.이는 오크리지 국립연구소(Oak Ridge National Laboratory)의 "프론티어(Frontier)" 슈퍼컴퓨터의 1.68엑사플롭(Exaflop)을 초과하는 것입니다.

160개 캐비닛 조건에서 FP64의 최대 성능은 2.3엑사플롭스에 가까우며, 이는 미국 에너지부 아르곤 국립연구소에 설치된 인텔 CPU 및 GPU 기반 차세대 슈퍼컴퓨터 '오로라'와 건설 중인 미국 로렌스 리버모어 국립연구소에 설치된 AMDMI300 칩 기반 슈퍼컴퓨터 '엘 캐피탄'을 능가할 것으로 예상된다. 후자 두 제품의 FP64 성능은 2엑사플롭스 이상에 도달합니다.