英伟达“GRACE”ARM CPU在HPC领域力压X86

从种种方面来看，英伟达打造的“Grace”CG100服务器处理器都堪称其首款真正的服务器级CPU，也成为扩展“Hopper”GH100 GPU加速器（专为HPC仿真与建模工作负载而设计）内存空间的重要方案。

从种种方面来看，英伟达打造的“Grace”CG100服务器处理器都堪称其首款真正的服务器级CPU，也成为扩展“Hopper”GH100 GPU加速器（专为HPC仿真与建模工作负载而设计）内存空间的重要方案。目前，多家主要超级计算实验室都在对Grace CPU进行HPC测试，下面我们一起来看这些有趣的早期结果。

Grace CPU拥有相对较高的核心数量和相对较低的发热量，同时配备低功耗DDR5（LPDDR5）内存组（常见于笔记本电脑，但配合纠错机制来达到服务器应用级别）。目前常见的单节点内存容量通常在256 GB到512 GB之间，基本可以满足HPC工作负载的需求。

将两个Grace CPU组合成一个Grace-Grace超级芯片，即可获得一种使用NVLink芯片间互连的紧密耦合封装，能够在LPDDR5内存组之间保证内存一致性，且运行功耗仅为500瓦左右。这样的方案对HPC受众来说颇具吸引力，因为其能提供144个基于Armv9架构的Arm Neoverse“Demeter”V2核心，外加1 TB物理内存与1.1 TB/秒的峰值理论带宽。但出于某种原因，可能是LPDDR5内存为了保证更好的良品率，这样的组合只能实际提供960 GB内存容量和1 TB/秒的内存带宽。而如果愿意，英伟达完全可以创建一个四路Grace计算模块，整体包含288个核心和1.9 TB内存，同时提供2 TB/秒的聚合内存带宽。这样的四路处理器也许能卖出与上代或者上上代GPU相媲美的价格……

作为参考，我们在2022年3月刚发布时就对Grace芯片做过初步分析，并在2022年8月深入研究了Grace芯片架构（当时还没人确定英伟达到底使用怎样的Arm核心）。到2023年9月Arm发布架构详细信息之后，我们又对采用新架构的Demeter V2核心做过认真剖析。这里不再赘述，概括来讲，英伟达为Grace采用了Arm V2核心（而非自研核心），其中包含四个128位SVE2矢量引擎，基本相当于英特尔至强SP架构中使用的双AVX-512矢量引擎，因此可以用于运行经典的HPC工作负载、一部分AI推理工作负载（规模不能太大）、甚至可用于对中等规模的AI模型进行重新训练。

巴塞罗那超级计算中心同纽约州立大学石溪分校/布法罗分校最近公布的数据，也再次证实了这一判断。两个研究小组都发布了在各类HPC与AI基准测试中使用Grace-Hopper与Grace-Grace超级芯片的性能结果，也基本符合我们之前做出的猜测：从发热量和使用成本角度看，Grace CPU确实能够在HPC领域表现出一定的竞争力。

两个研究小组也都在上周于日本名古屋召开的HPC Asia 2024大会上发表了相关论文。巴塞罗那超级计算中心方面的文章题为《英伟达Grace超级芯片在HPC应用中的早期评估》（https://dl.acm.org/doi/abs/10.1145/3636480.3637284），石溪与布法罗分校研究小组的文章则题为《英伟达Grace CPU超级芯片与英伟达Grace Hopper超级芯片的科学工作负载初探》（https://dl.acm.org/doi/abs/10.1145/3636480.3637097）。两篇论文都介绍了如何在Grace-Grace与Grace-Hopper超级芯片上实际执行关键HPC应用程序。相对来说，纽约州立大学研究人员的论文更有指导意义，这主要得益于小组汇总了来自多家HPC中心和一家云服务商的性能数据，具体涵盖石溪分校、亚马逊云科技、匹兹堡超级计算中心、得克萨斯高级计算中心和普渡大学的性能数据。

巴塞罗那超级计算中心则将英伟达Grace-Grace与Grace-Hopper超级芯片（属于其MareNostrum 5系统实验集群的一部分）与上代MareNostrum 4超级计算机中的x86 CPU节点进行了性能比较，后者采用两块24核“Skylake”至强SP-8160 Platinum处理器，运行主频为2.1 GHz。以下是MareNostrum 4节点与Grace-Hopper与Grace-Grace节点的简单结构比较：

在Grace-Hopper节点上，巴塞罗那超级计算中心仅在超级芯片的CPU部分上测试了各类HPC应用程序。石溪分校团队则对比较了早期英伟达系统中的CPU-CPU与CPU-GPU组合。

以面来看巴塞罗那超级计算中心给出的汇总表格，其中比较了三套测试系统的各自架构：

巴塞罗那超级计算中心称，Grace处理器早期版本中的CPU主频已下降至3.2 GHz，且内存带宽也低于英伟达当初公布的完整生产单元。虽然具体数字尚难以最终确定，但Grace CPU受测设备的实际运行主频约为3.2 GHz。

在应用程序运行性能上，巴塞罗那超级计算中心在三类节点上分别运行了自主开发的Alya计算力学与OpenFOAM计算流体力学代码、NEMO海洋气候模型、LAMMPS分子动力学模型以及PhysiCell多细胞模拟框架。以下是Grace-Grace节点与上代MareNostrum 4节点之间的性能比对。这里我们跳过了Grace-Hopper节点，因为其中并没有用到GPU，所以性能只相当于Grace-Grace节点的一半左右。下面来看相同数量CPU核心条件下的加速结果：

在Alya应用程序中，Grace-Grace的速度达到1.67倍至18.1倍。
在OpenFOAM上，Grace-Grace的加速效果约为4.49倍。
在NEMO上，加速比为2.78倍。
在LAMMPS上，当使用相同数量核心时（1到288个），加速比为2.1倍至2.9倍。
在PhysiCell上，同样使用48核心节点时的加速比为3.24倍。

很明显，Grace-Grace单元拥有3倍核心数量，因此节点层面的比较也应照此比例。

前文已经提到，石溪分校的论文还包含一系列基准测试，并整理了其他机构的性能结果。下表所示为运行HPC Challenge（HPCC）基准测试时各节点的相对性能，其中分别提取Matrix、LINPACK与FFT元素进行比较：

我们已经很长时间没看到这种带有误差范围的基准数据了，由于监控难度较大，多数测试并不提供误差参考。总而言之，以单一插槽为基础，Grace-Grace超级芯片的性能介于英特尔“Ice Lake”与“Skylake”至强SP之间，但高于“Milan”与“Rome”AMD EPyc处理器。

而在更严格的高性能共轭梯度（HPCG，主要强调计算与内存带宽之间的平衡，很多超级计算机在此测试中得分不高）测试中，Grace-Grace超级芯片带来了如下性能表现：

再来看Grace-Grace在OpenFOAM上的性能表现，测试使用MotoBikeQ在全部硬件上模拟1100万个细胞：

我们本以为Grace-Grace单元能在这项测试中表现更好，但很遗憾……

最后来看Gromacs分子动力学基准测试在各节点上的运行得分，包括CPU-GPU和纯CPU变体：

看来最终的优胜者已经出现了！Grace-Hopper组合明显表现更佳，但其他CPU配合Hopper GPU也能达到类似的效果。而在仅采用CPU的Grace-Grace单元上，Gromacs的性能则与双“Sapphire Rapids”至强Max系列CPU基本相当。值得注意的是，该芯片上的HBM内存似乎并没有给Gromacs负载带来什么性能提升。

总而言之，这就是我们目前掌握的Grace CPU在HPC工作负载上的实际表现与相关结论。石溪分校的论文中还列举了其他基准测试，欢迎感兴趣的朋友自行查看。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

英伟达“GRACE”ARM CPU在HPC领域力压X86

来源：至顶网计算频道

2024

02/09

07:57

分享

点赞

现在的AI已经有可能超越人类，INTUITOR系统让AI获得自我评估能力

百度2025 Q1财报深度解读：智能云表现强劲，萝卜快跑已拓展全球 李彦宏详解AI战略：AI-first战略使百度保持领先地位

重新思考数据中心架构，推进AI的规模化落地

DeepMind CEO哈萨比斯：AGI将在2030后到来，年轻人要更重视怎么学习而非学什么专业，梵高画作震撼人心是因为他的人生

大模型应该怎么用？我们大多数人都错了，微软最新研究：大模型对话次数越多，性能越差

英伟达发布Q1财报，黄仁勋：有没有美国芯片，中国AI都会高速发展

五大机器人团队谈：人形机器人的卡点和破局之道

从 0.1% 到无穷大：不断扩大的 GPT 模型如何在未知化学宇宙中变革药物发现的未来

Mistral AI 推出代理框架以争夺企业市场

对抗性 AI：金融网络安全的新前沿

Sardina 向 SUSE Enterprise Storage 用户抛出诱饵

Nvidia 超预期Q1业绩，营收同比增长 69%

思科与英伟达扩大合作，助力企业加速应用AI技术

黄仁勋CES记者会实录：AI扩展没有物理限制，英伟达只专注做好两件事

英伟达推进合作，旨在加速人工智能代理在医疗保健研究中的应用

市值一夜蒸发6400亿！回顾英伟达被调查始末，华为或成最终赢家？

2024 AI服务器市场竞争格局

苏姿丰的十年历程回顾：AMD如何从英特尔廉价替代品成长为x86领域的有力竞争者

面临AMD及自身内部挑战，英伟达Green 500主导地位受到威胁

微软率先拿下HBM驱动的AMD CPU供货

英伟达数据中心收入继续增长，“Blackwell平台逐渐步入正轨”

英伟达继续努力，希望推动AI融入包括HPC在内的一切领域

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

杨晓东眼中的AI"中国速度"，希捷如何跑赢这场数据竞赛？

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

百度2025 Q1财报深度解读：智能云表现强劲，萝卜快跑已拓展全球李彦宏详解AI战略：AI-first战略使百度保持领先地位