英伟达的加速器已经成为同类产品中耗电量最大的选项之一,但这些芯片却仍旧在Green500榜单中占据着全球最具可持续性超级计算机的主导地位。
在这份两年一度评选出的榜单上,十大最节能系统中有八家采用了英伟达部件,其中五家由该GPU巨头的1000瓦Grace Hopper超级芯片(GH200)负责驱动。
这些融合了基于Arm Neoverse V2设计的72核Grace CPU及480 GB LPDDR5x显存,同时配有96至114 GB HBM3或HBM3e内存的H100 GPU,在高性能计算(HPC)社区中可谓大受欢迎。
在最新的Green 500榜单上,这款芯片为能效排名第一和第二的两大系统提供支持——分别是EuroHPC的JEDI和Romeo HPC Center的Romeo-2025设备。二者在高性能Linpack基准测试中分别实现了每瓦727和709亿次浮点运算性能——当然,均为FP64精度。
这两套系统几乎完全相同,均使用Eviden BullSequana XH3000平台构建而成,且使用相同的GH200加速器。英伟达的GH200还与Isambard-AI Phase 1(688亿次/瓦)、Jupiter Exascale Transition Instrument(679 亿次/瓦)和 Helios GPU(669亿次/瓦)一道在榜单上为位列第四、第六和第七的设备提供支持。
Jupiter百亿亿次开发设备
与此同时,英伟达备受推崇的H100则为能效榜上排名第五、第八和第九的设备提供支持,包括Capella、Henri以及HoreKa-Teal系统。
不过英伟达能否在Green 500榜单中继续保持高位,恐怕值得怀疑。其Grace-Balckwell超级芯片已经正式发布规格,普版GB200功耗高达2.7千瓦,GB200 NVL4版功耗更是达到5.4千瓦。
而新一代产品,未必能提供更高的每瓦计算能力。
从2020年的A100到2022年的H100,其FP64性能跃升了约3.5倍。然而与1.2千瓦的Blackwell相比,700瓦的H100在FP64矩阵数学运算方面实际上更强。事实上,对于FP64精度的场景,Blackwell架构的唯一改进就是矢量数学,这款即将推出的芯片将性能提升了32%。
因此,虽然目前英伟达Green 500榜单上仍占据高位,但AMD也依旧维持着一席之地。事实上,正是Zen家族的MI300A加速处理单元支撑起了在最新榜单上排名第三的Adastra 2系统。
有些朋友可能不大熟悉,AMD的MI300A发布于不到一年之前,它将24个CPU核心和六个CDNA-3 GPU芯片融合至同一APU当中,板载HBM3内存高达128 GB,可配置热设计功耗(TDP)为550到760瓦。而且至少从纸面上看,该加速器的HPC性能已经达到H100的1.8倍。
Adastra 2由HPE Cray使用EX255a刀片服务器(与全球最强超级计算机采用同款设计)制造而成,能效达到每瓦690亿次。无独有偶,能效榜上排名第十的系统是劳伦斯利弗莫尔国家实验室的另一台基于MI300A的设备,名为RZAdams,能效为每瓦628亿次。
规模扩展成最大难题
Green 500榜单上前十名中的所有系统,都已经远远超过了在20兆瓦限制内实现百亿亿次算力的目标——换算下来相当于每瓦对应50亿次算力。但事实证明,要在规模扩展的同时保持这样的能效水平却极其困难。
观察Green 500榜单上能效最高的三套系统,不难发现它们的体量都很有限。JEDI的额定功率仅为67千瓦。相比之下,瑞士国家超级计算中心的AIps机器(Top 500榜单中最强大的GH200系统)在HPL基准测试中实现了434千万亿次算力,能耗则为7.1兆瓦,对应的每瓦610亿次性能仅在能效榜单中排名第14位。
Adastra 2的情况也差不多,规模甚至还不及JEDI,额定功率仅有37千瓦。如果能够保持住每瓦690亿次的算力,那么实际只需要耗费25.2兆瓦电力就能达到El Capitan 1.742百亿亿次的性能。可真实情况下,El Capitan需要近29.7兆瓦的功率才能支撑起这样破纪录的算力水平。
好文章,需要你的鼓励
生成式AI在电商领域发展迅速,但真正的客户信任来自可靠的购物体验。数据显示近70%的在线购物者会放弃购物车,主要因为结账缓慢、隐藏费用等问题。AI基础设施工具正在解决这些信任危机,通过实时库存监控、动态结账优化和智能物流配送,帮助商家在售前、售中、售后各环节提升可靠性,最终将一次性买家转化为忠实客户。
泰国SCBX金融集团开发的DoTA-RAG系统通过动态路由和混合检索技术,成功解决了大规模知识库检索中速度与准确性难以兼得的难题。系统将1500万文档的搜索空间缩小92%,响应时间从100秒降至35秒,正确性评分提升96%,为企业级智能问答系统提供了实用的技术方案。
存储供应商Qumulo发布多租户架构Stratus,为每个租户提供独立的虚拟环境,通过加密技术和租户专用密钥管理系统实现隔离。该统一文件和对象存储软件支持本地、边缘、数据中心及AWS、Azure等云环境部署。Stratus采用加密隔离技术确保敏感数据安全,同时提供任务关键操作所需的灵活性和效率,帮助联邦和企业客户满足合规要求。
中科院和字节跳动联合开发了VGR视觉锚定推理系统,突破了传统AI只能粗略"看图"的局限。该系统能在推理过程中主动关注图片关键区域,像人类一样仔细观察细节后再得出结论。实验显示VGR在图表理解等任务上性能大幅提升,同时计算效率更高,代表了多模态AI"可视化推理"的重要进展。