英伟达的加速器已经成为同类产品中耗电量最大的选项之一,但这些芯片却仍旧在Green500榜单中占据着全球最具可持续性超级计算机的主导地位。
在这份两年一度评选出的榜单上,十大最节能系统中有八家采用了英伟达部件,其中五家由该GPU巨头的1000瓦Grace Hopper超级芯片(GH200)负责驱动。
这些融合了基于Arm Neoverse V2设计的72核Grace CPU及480 GB LPDDR5x显存,同时配有96至114 GB HBM3或HBM3e内存的H100 GPU,在高性能计算(HPC)社区中可谓大受欢迎。
在最新的Green 500榜单上,这款芯片为能效排名第一和第二的两大系统提供支持——分别是EuroHPC的JEDI和Romeo HPC Center的Romeo-2025设备。二者在高性能Linpack基准测试中分别实现了每瓦727和709亿次浮点运算性能——当然,均为FP64精度。
这两套系统几乎完全相同,均使用Eviden BullSequana XH3000平台构建而成,且使用相同的GH200加速器。英伟达的GH200还与Isambard-AI Phase 1(688亿次/瓦)、Jupiter Exascale Transition Instrument(679 亿次/瓦)和 Helios GPU(669亿次/瓦)一道在榜单上为位列第四、第六和第七的设备提供支持。
Jupiter百亿亿次开发设备
与此同时,英伟达备受推崇的H100则为能效榜上排名第五、第八和第九的设备提供支持,包括Capella、Henri以及HoreKa-Teal系统。
不过英伟达能否在Green 500榜单中继续保持高位,恐怕值得怀疑。其Grace-Balckwell超级芯片已经正式发布规格,普版GB200功耗高达2.7千瓦,GB200 NVL4版功耗更是达到5.4千瓦。
而新一代产品,未必能提供更高的每瓦计算能力。
从2020年的A100到2022年的H100,其FP64性能跃升了约3.5倍。然而与1.2千瓦的Blackwell相比,700瓦的H100在FP64矩阵数学运算方面实际上更强。事实上,对于FP64精度的场景,Blackwell架构的唯一改进就是矢量数学,这款即将推出的芯片将性能提升了32%。
因此,虽然目前英伟达Green 500榜单上仍占据高位,但AMD也依旧维持着一席之地。事实上,正是Zen家族的MI300A加速处理单元支撑起了在最新榜单上排名第三的Adastra 2系统。
有些朋友可能不大熟悉,AMD的MI300A发布于不到一年之前,它将24个CPU核心和六个CDNA-3 GPU芯片融合至同一APU当中,板载HBM3内存高达128 GB,可配置热设计功耗(TDP)为550到760瓦。而且至少从纸面上看,该加速器的HPC性能已经达到H100的1.8倍。
Adastra 2由HPE Cray使用EX255a刀片服务器(与全球最强超级计算机采用同款设计)制造而成,能效达到每瓦690亿次。无独有偶,能效榜上排名第十的系统是劳伦斯利弗莫尔国家实验室的另一台基于MI300A的设备,名为RZAdams,能效为每瓦628亿次。
规模扩展成最大难题
Green 500榜单上前十名中的所有系统,都已经远远超过了在20兆瓦限制内实现百亿亿次算力的目标——换算下来相当于每瓦对应50亿次算力。但事实证明,要在规模扩展的同时保持这样的能效水平却极其困难。
观察Green 500榜单上能效最高的三套系统,不难发现它们的体量都很有限。JEDI的额定功率仅为67千瓦。相比之下,瑞士国家超级计算中心的AIps机器(Top 500榜单中最强大的GH200系统)在HPL基准测试中实现了434千万亿次算力,能耗则为7.1兆瓦,对应的每瓦610亿次性能仅在能效榜单中排名第14位。
Adastra 2的情况也差不多,规模甚至还不及JEDI,额定功率仅有37千瓦。如果能够保持住每瓦690亿次的算力,那么实际只需要耗费25.2兆瓦电力就能达到El Capitan 1.742百亿亿次的性能。可真实情况下,El Capitan需要近29.7兆瓦的功率才能支撑起这样破纪录的算力水平。
好文章,需要你的鼓励
AMD Radeon(TM) RX 9000 系列依托AI 加速为玩家带来极致游戏体验。
Inception Labs 于周四发布了 Mercury Coder,这是一种新的 AI 语言模型,利用扩散技术比传统模型更快地生成文本。与逐字生成文本的传统模型(如 ChatGPT)不同,基于扩散的模型(如 Mercury)能够同时生成完整的响应,并将其从最初的遮蔽状态逐步精炼为连贯的文本。
微软终于将其 AI 助手 Copilot 作为独立应用程序推出 macOS 版本。这款免费应用现已在 Mac App Store 上线,支持多种功能如文本翻译、问题解答、文档生成等。Copilot 采用 OpenAI 的 GPT-4 和 DALL-E 3 等模型,标志着微软在 AI 领域的重要布局。该应用要求 M1 或更新的 Mac 设备,以及 macOS 14 或更高版本。