SC22(2022超算)今年秋季全球绿色超级计算机Green500出了个新能效霸主:由英伟达(Nvidia)H100 GPU驱动的31千瓦的小型集群Henri。

Henri系统由纽约联想Flatiron研究所开发,速度可达2 petaflop(petaflop:每秒一千万亿次数学运算)。 Henri系统是进入今年秋季超级计算排行榜的第一个也是唯一一个使用Nvidia的Hopper GPU架构的系统。
Henri系统本身实际上更像是个HPC(高性能计算)集群,而不是一台超级计算机,有点像Frontier或LUMI。Henri是个基于联想ThinkSystem SR670 V2服务器平台的系统,Henri的每个节点都有两个32核冰湖至强可扩展处理器和四个Nvidia的80GB H100 GPU。Henri的 CPU和GPU内核共5920个,是排行榜上第二小的系统。
Green500排行榜与Top500排行榜不同,Top500排的是性能,Green500则基于性能与系统功耗之比,排名根据每瓦特可以达到多少gigaflops(每秒十亿次数学运算)确定。
Henri的性能功耗比每瓦刚刚超过65 gigaflops,成功超越了橡树岭国家实验室的TDS测试平台(之前的效率冠军),尽管Henri只达到了其最大理论性能5.4 petaflops的37.6%。
这表明其实还存在大量改进空间。如果Flatiron或联想能够在管理性能延伸方面优于线性,该系统的效率未来应该可以继续提高。
将Henri与同样使用英特尔CPU和Nvidia GPU的下一个最高效的系统Atos THX.A.B集群比较一下可以看到,基于H100的系统的效率约为59%。
虽然很难说这其中有多少可以归功于Nvidia H100的新Hopper架构,但确实看起来大有可为。
我们在澳大利亚的Setonix等系统里可以看到,与CPU计算相比,GPU加速对效率会有很大的影响。Setonix的纯CPU配置在今年秋季的Green500中排名第338位,而Setonix的GPU加速配置则排名第四。
也就是说,一个使用与Henri相同硬件的更大系统可能做不到性能线性延伸。系统越来越大以后,性能开销吞噬系统整体效率是很常见的。例如,ORNL的全尺寸Frontier超级计算机比Frontier TDS系统大74倍,但效率大约低16%。
另外还有个未知数:当Nvidia的H100s与英特尔的Sapphire Rapids等配备更快的PCIe 5.0的CPU配对时,其性能会是什么样子。
和以往一样,Green500在今年秋天出现了相当大的调整。但正如我们在今年春季的排名中看到的那样,HPE基于AMD的系统继续成为高效系统10强里大多数系统的动力。
Frontier TDS、Adastra、Setonix - GPU、Dardel - GPU、Frontier和LUMI现在占据了Green500的第二至第七位,这几个系统都是由HPE的Cray EX235a平台提供动力,该平台将AMD的64核Epyc 3 Milan CPU与AMD芯片制造商的Instinct MI250x GPU搭配在一起。
排名第十的法国Champollion系统基于HPE的Apollo服务器平台,也使用AMD Epyc处理器,但选择了Nvidia的A100 GPU而不是Instinct。
唯一进入前十名的非AMD系统是排名第八的Atos公司的THX.A.B和第九的MN-3。这两个系统都配备了英特尔至强可扩展处理器。
AMD称霸Green500可能不会持续太久。英特尔、AMD和Nvidia等公司的下一代CPU和GPU将在未来几个月内进入各种系统。
我们本周了解到,Adastra系统将是首批部署AMD的Epyc 4 Genoa CPU的系统之一。该芯片有望在内核数增加50%后提升IPC 达14%,但是很难说这是否足以保持AMD的领先地位。
英特尔的HBM堆叠至强可扩展处理器和Ponte Vecchio GPU(现在名为至强Max和数据中心GPU Max)已经发货至Argonne国家实验室,用作与Aurora超级计算机的整合。洛斯阿拉莫斯国家实验室(LANL)的Crossroads机器也将使用英特尔的至强Max处理器。
同样,第一批由Nvidia的Grace和Grace-Hopper超级芯片驱动的超级计算机(包括LANL的Venado系统)预计将在明年某个时候推出。
根据这些芯片在HPC应用中的表现,明年春天的Green500可能会面貌全非。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。