SC22(2022超算)今年秋季全球绿色超级计算机Green500出了个新能效霸主:由英伟达(Nvidia)H100 GPU驱动的31千瓦的小型集群Henri。
Henri系统由纽约联想Flatiron研究所开发,速度可达2 petaflop(petaflop:每秒一千万亿次数学运算)。 Henri系统是进入今年秋季超级计算排行榜的第一个也是唯一一个使用Nvidia的Hopper GPU架构的系统。
Henri系统本身实际上更像是个HPC(高性能计算)集群,而不是一台超级计算机,有点像Frontier或LUMI。Henri是个基于联想ThinkSystem SR670 V2服务器平台的系统,Henri的每个节点都有两个32核冰湖至强可扩展处理器和四个Nvidia的80GB H100 GPU。Henri的 CPU和GPU内核共5920个,是排行榜上第二小的系统。
Green500排行榜与Top500排行榜不同,Top500排的是性能,Green500则基于性能与系统功耗之比,排名根据每瓦特可以达到多少gigaflops(每秒十亿次数学运算)确定。
Henri的性能功耗比每瓦刚刚超过65 gigaflops,成功超越了橡树岭国家实验室的TDS测试平台(之前的效率冠军),尽管Henri只达到了其最大理论性能5.4 petaflops的37.6%。
这表明其实还存在大量改进空间。如果Flatiron或联想能够在管理性能延伸方面优于线性,该系统的效率未来应该可以继续提高。
将Henri与同样使用英特尔CPU和Nvidia GPU的下一个最高效的系统Atos THX.A.B集群比较一下可以看到,基于H100的系统的效率约为59%。
虽然很难说这其中有多少可以归功于Nvidia H100的新Hopper架构,但确实看起来大有可为。
我们在澳大利亚的Setonix等系统里可以看到,与CPU计算相比,GPU加速对效率会有很大的影响。Setonix的纯CPU配置在今年秋季的Green500中排名第338位,而Setonix的GPU加速配置则排名第四。
也就是说,一个使用与Henri相同硬件的更大系统可能做不到性能线性延伸。系统越来越大以后,性能开销吞噬系统整体效率是很常见的。例如,ORNL的全尺寸Frontier超级计算机比Frontier TDS系统大74倍,但效率大约低16%。
另外还有个未知数:当Nvidia的H100s与英特尔的Sapphire Rapids等配备更快的PCIe 5.0的CPU配对时,其性能会是什么样子。
和以往一样,Green500在今年秋天出现了相当大的调整。但正如我们在今年春季的排名中看到的那样,HPE基于AMD的系统继续成为高效系统10强里大多数系统的动力。
Frontier TDS、Adastra、Setonix - GPU、Dardel - GPU、Frontier和LUMI现在占据了Green500的第二至第七位,这几个系统都是由HPE的Cray EX235a平台提供动力,该平台将AMD的64核Epyc 3 Milan CPU与AMD芯片制造商的Instinct MI250x GPU搭配在一起。
排名第十的法国Champollion系统基于HPE的Apollo服务器平台,也使用AMD Epyc处理器,但选择了Nvidia的A100 GPU而不是Instinct。
唯一进入前十名的非AMD系统是排名第八的Atos公司的THX.A.B和第九的MN-3。这两个系统都配备了英特尔至强可扩展处理器。
AMD称霸Green500可能不会持续太久。英特尔、AMD和Nvidia等公司的下一代CPU和GPU将在未来几个月内进入各种系统。
我们本周了解到,Adastra系统将是首批部署AMD的Epyc 4 Genoa CPU的系统之一。该芯片有望在内核数增加50%后提升IPC 达14%,但是很难说这是否足以保持AMD的领先地位。
英特尔的HBM堆叠至强可扩展处理器和Ponte Vecchio GPU(现在名为至强Max和数据中心GPU Max)已经发货至Argonne国家实验室,用作与Aurora超级计算机的整合。洛斯阿拉莫斯国家实验室(LANL)的Crossroads机器也将使用英特尔的至强Max处理器。
同样,第一批由Nvidia的Grace和Grace-Hopper超级芯片驱动的超级计算机(包括LANL的Venado系统)预计将在明年某个时候推出。
根据这些芯片在HPC应用中的表现,明年春天的Green500可能会面貌全非。
好文章,需要你的鼓励
CIO越来越多地利用云和分析引领数字化变革,尤其是在零售和服务公司,但本质上交叉点是与创收密切相关,在这方面IT优先级也不断提高。
谷歌云(Google Cloud)希望通过推出新的谷歌云人工智能代理生态系统计划,将人工智能代理的销售和客户采用率提升到新的高度,通过新的技术和市场资源帮助合作伙伴建立并共同创新人工智能代理。
微软已将旗下的软件成分析技术以原生的方式整合到旗下的Microsoft Defender for Cloud 云原生应用保护平台中。