NVIDIA宣布向OCP贡献Blackwell GPU平台设计

NVIDIA表示，已经将Blackwell加速计算平台设计的部分内容贡献给Open Compute Project（OCP），并在Spectrum-X网络结构中扩大了对OCP标准的支持。

NVIDIA希望此举将有助于巩固目前已投入生产的新型Blackwell GPU系列，使其成为人工智能和高性能计算的标准。

在OCP全球峰会上的另一份声明中，Arm宣布与三星的Foundry、ADTechnology以及韩国船舶初创公司Rebellions合作开发针对云、高性能计算、AI/机器学习训练和推理的AI CPU芯片平台。

NVIDIA将与OCP共享的GB200 NVL72系统机电设计（如图）元素包括机架架构、计算和交换机托盘机械结构、液体冷却和热环境规格、以及NVLink电缆盒体积。NVLink是NVIDIA开发的高速互连技术，可以实现GPU之间的更快通信。

GB200 NVL72是一款液冷设备，配备了36个GB200加速器和72个Blackwell GPU。NVLink域将它们连接到一个单一的大型GPU，可以提供每秒130兆字节的低延迟通信。

专为AI打造

GB200 Grace Blackwell Super Chip将两个Blackwell Tensor Core GPU和一个NVIDIA Grace CPU连接起来。NVIDIA表示，这款机架级设备能够以比上一代H100 Tensor Core GPU快30倍的速度进行大型语言模型推理，并且能效提高25倍。

NVIDIA为OCP做出了十多年的贡献，包括在2022年提交了HGX H100基板设计，现在已经成为AI服务器的事实标准，以及在2023年捐赠了ConnectX-7适配器网络接口卡设计，现在已经成为OCP网络接口卡3.0的基础设计。

Spectrum-X是一个专为AI工作负载（尤其是在数据中心环境中）构建的以太网网络平台。它结合了NVIDIA Spectrum-4以太网交换机及其BlueField-3数据处理单元，可以实现低延迟、高吞吐量和高效的网络架构。NVIDIA表示，仍将致力于为客户提供Infiniband选项。

这一平台现在支持OCP的Switch Abstraction Interface和Software for Open Networking in the Cloud（SONiC）标准。其中，Switch Abstraction Interface对于网络操作系统与网络交换机硬件的交互方式实施了标准化。SONiC则是一个独立于硬件的网络软件层，面向云基础设施运营商、数据中心和网络管理员。

NVIDIA表示，客户可以使用Spectrum-X的自适应路由和基于遥测的拥塞控制功能来加速可扩展AI基础设施的以太网性能。OCP 3.0的ConnectX-8 SuperNIC网络接口卡将于明年上市，让企业组织能够构建更灵活的网络。

解决复杂性问题

NVIDIA数据中心GPU产品营销总监Shar Narasimhan表示：“在过去五年中，我们看到AI模型的复杂性增加了20000多倍，还使用了更丰富的、更大的数据集。”NVIDIA对此做出了回应，设计了一种系统可以将模型分片或分段到通过高速互连连接的GPU集群中，以便所有处理器都可以作为单个GPU运行。

在GB200 NVL72中，每个GPU都可以通过每秒1.8 TB的互连直接访问其他每个GPU，“这使得所有GPU都可以作为一个统一的GPU工作，”Narasimhan说。

以前，在HGX H200基板上，单个NVLink域中连接的GPU数量最多为8个，通信速度为每秒900千兆位。GB200 NVL72将容量增加到72个Blackwell GPU，通信速度为每秒1.8兆字节，比以前的高端以太网标准快36倍。

Narasimhan表示：“关键要素之一就是使用NVSwitch将所有服务器和计算GPU紧密结合在一起，以便我们可以将它们安装到单个机架中，这使我们能够使用铜缆线配置NVLink以降低成本，并且比光纤消耗更少的电量。”

NVIDIA在机架上增加了100磅的钢筋以适应密集的基础设施，并开发了快速释放管道和电缆技术。NVLink主干经过加固，可容纳多达5000根铜缆，提供120 kW的功率，是当前机架设计负载的两倍多。

“我们将为整个机架贡献我们所取得的所有创新，以加固机架本身，升级NV Links、线路冷却和管道快速断开创新，以及位于计算托盘和开关托盘顶部的歧管，为每个单独的托盘提供直接液体冷却，”Narasimhan说。

Arm牵头的这个项目将结合Rebellions的Rebel AI加速器以及ADTechnology以Neoverse CSS V3为驱动的计算芯片，该芯片采用三星代工厂的2纳米Gate-All-Around先进工艺技术实现。两家厂商表示，在运行生成AI工作负载时，该芯片的性能和能效是竞争对手架构的两到三倍。Rebellions今年早些时候筹集了1.24亿美金，用于资助其工程设计工作。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

NVIDIA宣布向OCP贡献Blackwell GPU平台设计

来源：至顶网计算频道

2024

10/16

10:06

分享

点赞

IBM推出SAP迁移管理工具应对2027年系统升级截止期

博通AI硬件收入激增65%，VMware业务稳健增长

英伟达发布Nemotron 3开源模型助力可扩展多智能体系统

从AI到模拟对抗，网络安全桌面演练今年有了新变化

Equity 2026年预测：AI智能体崛起、重磅IPO与风投行业变革

英伟达护城河难撼动，Gemini无法击败OpenAI

山河为证，荣誉加冕，华为乾崑助传祺向往S9首次智行中国顺利收官

全国首批10城菁彩Vivid影厅启幕，《山河故人》重映见证影像新纪元

工业和信息化部人形机器人与具身智能标准化技术委员会成立大会暨第一次全体委员会议召开

生命科学计算测试专委会正式成立，BioProfile框架引领行业标准建设

超智算完成北京核心智算中心资产收购，加速构筑“3+X”全国算力网络新格局

走出“参数崇拜”：联想用“一体多端”重塑“人的尺度”

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: