NVIDIA宣布向OCP贡献Blackwell GPU平台设计

NVIDIA表示，已经将Blackwell加速计算平台设计的部分内容贡献给Open Compute Project（OCP），并在Spectrum-X网络结构中扩大了对OCP标准的支持。

NVIDIA希望此举将有助于巩固目前已投入生产的新型Blackwell GPU系列，使其成为人工智能和高性能计算的标准。

在OCP全球峰会上的另一份声明中，Arm宣布与三星的Foundry、ADTechnology以及韩国船舶初创公司Rebellions合作开发针对云、高性能计算、AI/机器学习训练和推理的AI CPU芯片平台。

NVIDIA将与OCP共享的GB200 NVL72系统机电设计（如图）元素包括机架架构、计算和交换机托盘机械结构、液体冷却和热环境规格、以及NVLink电缆盒体积。NVLink是NVIDIA开发的高速互连技术，可以实现GPU之间的更快通信。

GB200 NVL72是一款液冷设备，配备了36个GB200加速器和72个Blackwell GPU。NVLink域将它们连接到一个单一的大型GPU，可以提供每秒130兆字节的低延迟通信。

专为AI打造

GB200 Grace Blackwell Super Chip将两个Blackwell Tensor Core GPU和一个NVIDIA Grace CPU连接起来。NVIDIA表示，这款机架级设备能够以比上一代H100 Tensor Core GPU快30倍的速度进行大型语言模型推理，并且能效提高25倍。

NVIDIA为OCP做出了十多年的贡献，包括在2022年提交了HGX H100基板设计，现在已经成为AI服务器的事实标准，以及在2023年捐赠了ConnectX-7适配器网络接口卡设计，现在已经成为OCP网络接口卡3.0的基础设计。

Spectrum-X是一个专为AI工作负载（尤其是在数据中心环境中）构建的以太网网络平台。它结合了NVIDIA Spectrum-4以太网交换机及其BlueField-3数据处理单元，可以实现低延迟、高吞吐量和高效的网络架构。NVIDIA表示，仍将致力于为客户提供Infiniband选项。

这一平台现在支持OCP的Switch Abstraction Interface和Software for Open Networking in the Cloud（SONiC）标准。其中，Switch Abstraction Interface对于网络操作系统与网络交换机硬件的交互方式实施了标准化。SONiC则是一个独立于硬件的网络软件层，面向云基础设施运营商、数据中心和网络管理员。

NVIDIA表示，客户可以使用Spectrum-X的自适应路由和基于遥测的拥塞控制功能来加速可扩展AI基础设施的以太网性能。OCP 3.0的ConnectX-8 SuperNIC网络接口卡将于明年上市，让企业组织能够构建更灵活的网络。

解决复杂性问题

NVIDIA数据中心GPU产品营销总监Shar Narasimhan表示：“在过去五年中，我们看到AI模型的复杂性增加了20000多倍，还使用了更丰富的、更大的数据集。”NVIDIA对此做出了回应，设计了一种系统可以将模型分片或分段到通过高速互连连接的GPU集群中，以便所有处理器都可以作为单个GPU运行。

在GB200 NVL72中，每个GPU都可以通过每秒1.8 TB的互连直接访问其他每个GPU，“这使得所有GPU都可以作为一个统一的GPU工作，”Narasimhan说。

以前，在HGX H200基板上，单个NVLink域中连接的GPU数量最多为8个，通信速度为每秒900千兆位。GB200 NVL72将容量增加到72个Blackwell GPU，通信速度为每秒1.8兆字节，比以前的高端以太网标准快36倍。

Narasimhan表示：“关键要素之一就是使用NVSwitch将所有服务器和计算GPU紧密结合在一起，以便我们可以将它们安装到单个机架中，这使我们能够使用铜缆线配置NVLink以降低成本，并且比光纤消耗更少的电量。”

NVIDIA在机架上增加了100磅的钢筋以适应密集的基础设施，并开发了快速释放管道和电缆技术。NVLink主干经过加固，可容纳多达5000根铜缆，提供120 kW的功率，是当前机架设计负载的两倍多。

“我们将为整个机架贡献我们所取得的所有创新，以加固机架本身，升级NV Links、线路冷却和管道快速断开创新，以及位于计算托盘和开关托盘顶部的歧管，为每个单独的托盘提供直接液体冷却，”Narasimhan说。

Arm牵头的这个项目将结合Rebellions的Rebel AI加速器以及ADTechnology以Neoverse CSS V3为驱动的计算芯片，该芯片采用三星代工厂的2纳米Gate-All-Around先进工艺技术实现。两家厂商表示，在运行生成AI工作负载时，该芯片的性能和能效是竞争对手架构的两到三倍。Rebellions今年早些时候筹集了1.24亿美金，用于资助其工程设计工作。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

NVIDIA宣布向OCP贡献Blackwell GPU平台设计

来源：至顶网计算频道

2024

10/16

10:06

分享

点赞

《2025 中国企业级 AI 实践调研分析年度报告》：深度剖析与价值洞察

Gartner：在中国构建AI软件工程技能的三大举措

阿联酋MBZUAI发布PAN世界模型，AI仿真技术迎来突破

Nvidia和Google支持的AI代码编辑器Cursor获23亿美元融资

Anthropic披露首例Claude模型参与的AI网络间谍活动

Cadence首款系统芯粒架构成功流片，助力物理AI发展加速

百度发布定制AI加速器响应国产芯片需求

VasEdge试用火热招募，降本增效机遇来袭

Infinidat InfiniBox G4系列升级重塑高端企业存储格局

Avalonia为微软MAUI跨平台应用方案带来Linux和浏览器支持

谷歌DeepMind发布SIMA 2智能体：游戏世界中学习迈向AGI之路

Infinidat G4系列升级重新定义高端企业存储格局

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: