SC22(2022超算)今年秋季全球绿色超级计算机Green500出了个新能效霸主:由英伟达(Nvidia)H100 GPU驱动的31千瓦的小型集群Henri。

Henri系统由纽约联想Flatiron研究所开发,速度可达2 petaflop(petaflop:每秒一千万亿次数学运算)。 Henri系统是进入今年秋季超级计算排行榜的第一个也是唯一一个使用Nvidia的Hopper GPU架构的系统。
Henri系统本身实际上更像是个HPC(高性能计算)集群,而不是一台超级计算机,有点像Frontier或LUMI。Henri是个基于联想ThinkSystem SR670 V2服务器平台的系统,Henri的每个节点都有两个32核冰湖至强可扩展处理器和四个Nvidia的80GB H100 GPU。Henri的 CPU和GPU内核共5920个,是排行榜上第二小的系统。
Green500排行榜与Top500排行榜不同,Top500排的是性能,Green500则基于性能与系统功耗之比,排名根据每瓦特可以达到多少gigaflops(每秒十亿次数学运算)确定。
Henri的性能功耗比每瓦刚刚超过65 gigaflops,成功超越了橡树岭国家实验室的TDS测试平台(之前的效率冠军),尽管Henri只达到了其最大理论性能5.4 petaflops的37.6%。
这表明其实还存在大量改进空间。如果Flatiron或联想能够在管理性能延伸方面优于线性,该系统的效率未来应该可以继续提高。
将Henri与同样使用英特尔CPU和Nvidia GPU的下一个最高效的系统Atos THX.A.B集群比较一下可以看到,基于H100的系统的效率约为59%。
虽然很难说这其中有多少可以归功于Nvidia H100的新Hopper架构,但确实看起来大有可为。
我们在澳大利亚的Setonix等系统里可以看到,与CPU计算相比,GPU加速对效率会有很大的影响。Setonix的纯CPU配置在今年秋季的Green500中排名第338位,而Setonix的GPU加速配置则排名第四。
也就是说,一个使用与Henri相同硬件的更大系统可能做不到性能线性延伸。系统越来越大以后,性能开销吞噬系统整体效率是很常见的。例如,ORNL的全尺寸Frontier超级计算机比Frontier TDS系统大74倍,但效率大约低16%。
另外还有个未知数:当Nvidia的H100s与英特尔的Sapphire Rapids等配备更快的PCIe 5.0的CPU配对时,其性能会是什么样子。
和以往一样,Green500在今年秋天出现了相当大的调整。但正如我们在今年春季的排名中看到的那样,HPE基于AMD的系统继续成为高效系统10强里大多数系统的动力。
Frontier TDS、Adastra、Setonix - GPU、Dardel - GPU、Frontier和LUMI现在占据了Green500的第二至第七位,这几个系统都是由HPE的Cray EX235a平台提供动力,该平台将AMD的64核Epyc 3 Milan CPU与AMD芯片制造商的Instinct MI250x GPU搭配在一起。
排名第十的法国Champollion系统基于HPE的Apollo服务器平台,也使用AMD Epyc处理器,但选择了Nvidia的A100 GPU而不是Instinct。
唯一进入前十名的非AMD系统是排名第八的Atos公司的THX.A.B和第九的MN-3。这两个系统都配备了英特尔至强可扩展处理器。
AMD称霸Green500可能不会持续太久。英特尔、AMD和Nvidia等公司的下一代CPU和GPU将在未来几个月内进入各种系统。
我们本周了解到,Adastra系统将是首批部署AMD的Epyc 4 Genoa CPU的系统之一。该芯片有望在内核数增加50%后提升IPC 达14%,但是很难说这是否足以保持AMD的领先地位。
英特尔的HBM堆叠至强可扩展处理器和Ponte Vecchio GPU(现在名为至强Max和数据中心GPU Max)已经发货至Argonne国家实验室,用作与Aurora超级计算机的整合。洛斯阿拉莫斯国家实验室(LANL)的Crossroads机器也将使用英特尔的至强Max处理器。
同样,第一批由Nvidia的Grace和Grace-Hopper超级芯片驱动的超级计算机(包括LANL的Venado系统)预计将在明年某个时候推出。
根据这些芯片在HPC应用中的表现,明年春天的Green500可能会面貌全非。
好文章,需要你的鼓励
英特尔第三季度财报超华尔街预期,净收入达41亿美元。公司通过裁员等成本削减措施及软银、英伟达和美国政府的大额投资实现复苏。第三季度资产负债表增加200亿美元,营收增长至137亿美元。尽管财务表现强劲,但代工业务的未来发展策略仍不明朗,该业务一直表现不佳且面临政府投资条件限制。
美国认知科学研究院团队首次成功将进化策略扩展到数十亿参数的大语言模型微调,在多项测试中全面超越传统强化学习方法。该技术仅需20%的训练样本就能达到同等效果,且表现更稳定,为AI训练开辟了全新路径。
微软发布新版Copilot人工智能助手,支持最多32人同时参与聊天会话的Groups功能,并新增连接器可访问OneDrive、Outlook、Gmail等多项服务。助手记忆功能得到增强,可保存用户信息供未来使用。界面新增名为Mico的AI角色,并提供"真实对话"模式生成更机智回应。医疗研究功能也得到改进,可基于哈佛健康等可靠来源提供答案。同时推出内置于Edge浏览器的Copilot Actions功能,可自动执行退订邮件、预订餐厅等任务。
纽约大学等机构联合开发的ThermalGen系统能够将普通彩色照片智能转换为对应的热成像图片,解决了热成像数据稀缺昂贵的难题。该系统采用创新的流匹配生成模型和风格解耦机制,能适应从卫星到地面的多种拍摄场景,在各类测试中表现优异。研究团队还贡献了三个大规模新数据集,并计划开源全部技术资源,为搜救、建筑检测、自动驾驶等领域提供强有力的技术支撑。