英伟达最新Blackwell机板配备四GPU、双Grace CPU且功耗为5.4千瓦

客户可视需求将四块H200 PCIe卡合于一处。

英伟达推出的最新高性能计算与AI芯片采取大型单板计算机形式，配备四块Blackwell GPU、144个Arm Neoverse核心、高达1.3 TB的HBM内存容量以及高达5.4千瓦的热设计功耗（TDP）。

从诸多方面来看，本周在亚特兰大超级计算大会上全面推荐的全新GB200 NVL4，在外形上酷似由英伟达即将推出的两块Grace-Blackwell超级芯片拼接而成。

然而，与我们之前看到的2.7千瓦版GB200机板不同，英伟达NVL4所配置的高速NVLink通信仅限于板上的四块Blackwell GPU以及两块Grace CPU。所有板内或板外I/O则将由传统以太网或者InfiniBand NIC负责处理。

GB200 NVL4本质上就是两块连接起来的GB200超级芯片，再减去板外部分的NVLink。

虽然这种设计思路看似奇怪，但实际上与之前的高性能计算系统却是一脉相承。例如，Frontier超算系统中的Cray EX Blades就采用了一块第三代Epyc CPU加四块MI250X加速器的组合形式。

这也意味着HPE、Eviden和联想等主要高性能计算系统制造商不必拘囿于通过英伟达的专有互连来进行纵向与横向扩展。HPE和Eviden都拥有自己的互连传输技术。

事实上，HPE还预告将于2025年底推出新的EX系统，且确定将采用英伟达的GB200 NVL4机板。上周发布的EX154n能够在其巨大的液冷高性能计算机柜当中塞入多达56块超宽规格的超级芯片（每个刀片服务器一块）。

在这样的满配条件下，单个EX机柜即可提供超过10千万亿次的FP64矢量或矩阵算力。虽然听起来数字相当夸张，但如果只从高精度科学计算的角度来看，基于AMD的HPE系统其实能提供更加可观的浮点运算性能。

Cray的EX255a刀片服务器中的MI300A APU可提供61.3万亿次矢量FP64或122.6万亿次矩阵FP64算力，而每张Blackwell GPU的双精度矢量/矩阵性能则仅为45万亿次。

对于以AI为中心的工作负载类型，双方的性能差距则要小得多，因为每张MI300A加速器能够输出3.9造成亿次的稀疏FP8算力性能。所以对于一台满配条件下的EX机柜，用户可以获得约2百亿亿次的FP8性能，而Blackwell系统只需安装近半数GPU即可实现约2.2百亿亿次FP8算力。如果大家的实际用例适合MI300A无法支持的FP4数据类型，则性能还可进一步倍增。

尽管HPE Cray是首批宣布支持英伟达NVL4设计方案的厂商之一，但预计Eviden联想以及更多其他企业也将很快推出基于该设计的计算刀片与服务器。

H200 PCIe卡迎来NVL升级

除了英伟达的双倍宽度GB200 NVL4之外，GPU巨头此番还宣布其基于PCIe的H200 NVL配置已经全面上市。

不过大家先别急着兴奋，与2023年初公布的H100 NVL类似，这次亮相的H200 NVL在本质上也只是一款双倍宽度PCIe卡（最多四倍宽度），并采用NVLink桥连接在一起。

与英伟达基于SXM的大尺寸DGX与HGX平台一样，这款NVLink桥接器允许GPU将计算和内存资源集中起来以处理规模更大的任务，确保不会在速度较慢的PCIe 5.0 x 16接口上出现性能瓶颈。该接口的双工带宽上限仅为128 GBps，而NVLink的带宽上限则有900 GBps。

在最大容量下，H200 NVL能够支持高达564 GB的HBM3e内存和13.3万亿次的峰值稀疏FP8运算性能。同样的，这是因为H200 NVL仅仅是将四张H200 PCIe卡用一条速度极快的互连桥连接在一起。

需要注意的是，所有这些性能指标都是以牺牲功率和散热为代价的。在这套四堆栈系统中，每张H200卡的额定功率高达600瓦，总功率达到2.4千瓦。

话虽如此，这样的设计也的确有其优势。至少，这些加速卡几乎可以被部署在任何具备充足空间、电源并可提供必要散热气流的19英寸机架服务器当中，因此大大降低了系统部署对于机房环境的要求。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

英伟达最新Blackwell机板配备四GPU、双Grace CPU且功耗为5.4千瓦

H200 PCIe卡迎来NVL升级

来源：至顶网计算频道

2024

11/23

12:38

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

思科与英伟达扩大合作，助力企业加速应用AI技术

黄仁勋CES记者会实录：AI扩展没有物理限制，英伟达只专注做好两件事

英伟达推进合作，旨在加速人工智能代理在医疗保健研究中的应用

该需要多少 NVIDIA CUDA Cores ？

未来，就在我们手中

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

深度学习最佳 GPU，知多少？

一文读懂 GPU 资源动态调度

市值一夜蒸发6400亿！回顾英伟达被调查始末，华为或成最终赢家？

2024 AI服务器市场竞争格局

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: