从种种方面来看,英伟达打造的“Grace”CG100服务器处理器都堪称其首款真正的服务器级CPU,也成为扩展“Hopper”GH100 GPU加速器(专为HPC仿真与建模工作负载而设计)内存空间的重要方案。目前,多家主要超级计算实验室都在对Grace CPU进行HPC测试,下面我们一起来看这些有趣的早期结果。
Grace CPU拥有相对较高的核心数量和相对较低的发热量,同时配备低功耗DDR5(LPDDR5)内存组(常见于笔记本电脑,但配合纠错机制来达到服务器应用级别)。目前常见的单节点内存容量通常在256 GB到512 GB之间,基本可以满足HPC工作负载的需求。
将两个Grace CPU组合成一个Grace-Grace超级芯片,即可获得一种使用NVLink芯片间互连的紧密耦合封装,能够在LPDDR5内存组之间保证内存一致性,且运行功耗仅为500瓦左右。这样的方案对HPC受众来说颇具吸引力,因为其能提供144个基于Armv9架构的Arm Neoverse“Demeter”V2核心,外加1 TB物理内存与1.1 TB/秒的峰值理论带宽。但出于某种原因,可能是LPDDR5内存为了保证更好的良品率,这样的组合只能实际提供960 GB内存容量和1 TB/秒的内存带宽。而如果愿意,英伟达完全可以创建一个四路Grace计算模块,整体包含288个核心和1.9 TB内存,同时提供2 TB/秒的聚合内存带宽。这样的四路处理器也许能卖出与上代或者上上代GPU相媲美的价格……
作为参考,我们在2022年3月刚发布时就对Grace芯片做过初步分析,并在2022年8月深入研究了Grace芯片架构(当时还没人确定英伟达到底使用怎样的Arm核心)。到2023年9月Arm发布架构详细信息之后,我们又对采用新架构的Demeter V2核心做过认真剖析。这里不再赘述,概括来讲,英伟达为Grace采用了Arm V2核心(而非自研核心),其中包含四个128位SVE2矢量引擎,基本相当于英特尔至强SP架构中使用的双AVX-512矢量引擎,因此可以用于运行经典的HPC工作负载、一部分AI推理工作负载(规模不能太大)、甚至可用于对中等规模的AI模型进行重新训练。
巴塞罗那超级计算中心同纽约州立大学石溪分校/布法罗分校最近公布的数据,也再次证实了这一判断。两个研究小组都发布了在各类HPC与AI基准测试中使用Grace-Hopper与Grace-Grace超级芯片的性能结果,也基本符合我们之前做出的猜测:从发热量和使用成本角度看,Grace CPU确实能够在HPC领域表现出一定的竞争力。
两个研究小组也都在上周于日本名古屋召开的HPC Asia 2024大会上发表了相关论文。巴塞罗那超级计算中心方面的文章题为《英伟达Grace超级芯片在HPC应用中的早期评估》(https://dl.acm.org/doi/abs/10.1145/3636480.3637284),石溪与布法罗分校研究小组的文章则题为《英伟达Grace CPU超级芯片与英伟达Grace Hopper超级芯片的科学工作负载初探》(https://dl.acm.org/doi/abs/10.1145/3636480.3637097)。两篇论文都介绍了如何在Grace-Grace与Grace-Hopper超级芯片上实际执行关键HPC应用程序。相对来说,纽约州立大学研究人员的论文更有指导意义,这主要得益于小组汇总了来自多家HPC中心和一家云服务商的性能数据,具体涵盖石溪分校、亚马逊云科技、匹兹堡超级计算中心、得克萨斯高级计算中心和普渡大学的性能数据。
巴塞罗那超级计算中心则将英伟达Grace-Grace与Grace-Hopper超级芯片(属于其MareNostrum 5系统实验集群的一部分)与上代MareNostrum 4超级计算机中的x86 CPU节点进行了性能比较,后者采用两块24核“Skylake”至强SP-8160 Platinum处理器,运行主频为2.1 GHz。以下是MareNostrum 4节点与Grace-Hopper与Grace-Grace节点的简单结构比较:
在Grace-Hopper节点上,巴塞罗那超级计算中心仅在超级芯片的CPU部分上测试了各类HPC应用程序。石溪分校团队则对比较了早期英伟达系统中的CPU-CPU与CPU-GPU组合。
以面来看巴塞罗那超级计算中心给出的汇总表格,其中比较了三套测试系统的各自架构:
巴塞罗那超级计算中心称,Grace处理器早期版本中的CPU主频已下降至3.2 GHz,且内存带宽也低于英伟达当初公布的完整生产单元。虽然具体数字尚难以最终确定,但Grace CPU受测设备的实际运行主频约为3.2 GHz。
在应用程序运行性能上,巴塞罗那超级计算中心在三类节点上分别运行了自主开发的Alya计算力学与OpenFOAM计算流体力学代码、NEMO海洋气候模型、LAMMPS分子动力学模型以及PhysiCell多细胞模拟框架。以下是Grace-Grace节点与上代MareNostrum 4节点之间的性能比对。这里我们跳过了Grace-Hopper节点,因为其中并没有用到GPU,所以性能只相当于Grace-Grace节点的一半左右。下面来看相同数量CPU核心条件下的加速结果:
很明显,Grace-Grace单元拥有3倍核心数量,因此节点层面的比较也应照此比例。
前文已经提到,石溪分校的论文还包含一系列基准测试,并整理了其他机构的性能结果。下表所示为运行HPC Challenge(HPCC)基准测试时各节点的相对性能,其中分别提取Matrix、LINPACK与FFT元素进行比较:
我们已经很长时间没看到这种带有误差范围的基准数据了,由于监控难度较大,多数测试并不提供误差参考。总而言之,以单一插槽为基础,Grace-Grace超级芯片的性能介于英特尔“Ice Lake”与“Skylake”至强SP之间,但高于“Milan”与“Rome”AMD EPyc处理器。
而在更严格的高性能共轭梯度(HPCG,主要强调计算与内存带宽之间的平衡,很多超级计算机在此测试中得分不高)测试中,Grace-Grace超级芯片带来了如下性能表现:
再来看Grace-Grace在OpenFOAM上的性能表现,测试使用MotoBikeQ在全部硬件上模拟1100万个细胞:
我们本以为Grace-Grace单元能在这项测试中表现更好,但很遗憾……
最后来看Gromacs分子动力学基准测试在各节点上的运行得分,包括CPU-GPU和纯CPU变体:
看来最终的优胜者已经出现了!Grace-Hopper组合明显表现更佳,但其他CPU配合Hopper GPU也能达到类似的效果。而在仅采用CPU的Grace-Grace单元上,Gromacs的性能则与双“Sapphire Rapids”至强Max系列CPU基本相当。值得注意的是,该芯片上的HBM内存似乎并没有给Gromacs负载带来什么性能提升。
总而言之,这就是我们目前掌握的Grace CPU在HPC工作负载上的实际表现与相关结论。石溪分校的论文中还列举了其他基准测试,欢迎感兴趣的朋友自行查看。
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。