英伟达推出的最新高性能计算与AI芯片采取大型单板计算机形式,配备四块Blackwell GPU、144个Arm Neoverse核心、高达1.3 TB的HBM内存容量以及高达5.4千瓦的热设计功耗(TDP)。
从诸多方面来看,本周在亚特兰大超级计算大会上全面推荐的全新GB200 NVL4,在外形上酷似由英伟达即将推出的两块Grace-Blackwell超级芯片拼接而成。
然而,与我们之前看到的2.7千瓦版GB200机板不同,英伟达NVL4所配置的高速NVLink通信仅限于板上的四块Blackwell GPU以及两块Grace CPU。所有板内或板外I/O则将由传统以太网或者InfiniBand NIC负责处理。
GB200 NVL4本质上就是两块连接起来的GB200超级芯片,再减去板外部分的NVLink。
虽然这种设计思路看似奇怪,但实际上与之前的高性能计算系统却是一脉相承。例如,Frontier超算系统中的Cray EX Blades就采用了一块第三代Epyc CPU加四块MI250X加速器的组合形式。
这也意味着HPE、Eviden和联想等主要高性能计算系统制造商不必拘囿于通过英伟达的专有互连来进行纵向与横向扩展。HPE和Eviden都拥有自己的互连传输技术。
事实上,HPE还预告将于2025年底推出新的EX系统,且确定将采用英伟达的GB200 NVL4机板。上周发布的EX154n能够在其巨大的液冷高性能计算机柜当中塞入多达56块超宽规格的超级芯片(每个刀片服务器一块)。
在这样的满配条件下,单个EX机柜即可提供超过10千万亿次的FP64矢量或矩阵算力。虽然听起来数字相当夸张,但如果只从高精度科学计算的角度来看,基于AMD的HPE系统其实能提供更加可观的浮点运算性能。
Cray的EX255a刀片服务器中的MI300A APU可提供61.3万亿次矢量FP64或122.6万亿次矩阵FP64算力,而每张Blackwell GPU的双精度矢量/矩阵性能则仅为45万亿次。
对于以AI为中心的工作负载类型,双方的性能差距则要小得多,因为每张MI300A加速器能够输出3.9造成亿次的稀疏FP8算力性能。所以对于一台满配条件下的EX机柜,用户可以获得约2百亿亿次的FP8性能,而Blackwell系统只需安装近半数GPU即可实现约2.2百亿亿次FP8算力。如果大家的实际用例适合MI300A无法支持的FP4数据类型,则性能还可进一步倍增。
尽管HPE Cray是首批宣布支持英伟达NVL4设计方案的厂商之一,但预计Eviden联想以及更多其他企业也将很快推出基于该设计的计算刀片与服务器。
除了英伟达的双倍宽度GB200 NVL4之外,GPU巨头此番还宣布其基于PCIe的H200 NVL配置已经全面上市。
不过大家先别急着兴奋,与2023年初公布的H100 NVL类似,这次亮相的H200 NVL在本质上也只是一款双倍宽度PCIe卡(最多四倍宽度),并采用NVLink桥连接在一起。
与英伟达基于SXM的大尺寸DGX与HGX平台一样,这款NVLink桥接器允许GPU将计算和内存资源集中起来以处理规模更大的任务,确保不会在速度较慢的PCIe 5.0 x 16接口上出现性能瓶颈。该接口的双工带宽上限仅为128 GBps,而NVLink的带宽上限则有900 GBps。
在最大容量下,H200 NVL能够支持高达564 GB的HBM3e内存和13.3万亿次的峰值稀疏FP8运算性能。同样的,这是因为H200 NVL仅仅是将四张H200 PCIe卡用一条速度极快的互连桥连接在一起。
需要注意的是,所有这些性能指标都是以牺牲功率和散热为代价的。在这套四堆栈系统中,每张H200卡的额定功率高达600瓦,总功率达到2.4千瓦。
话虽如此,这样的设计也的确有其优势。至少,这些加速卡几乎可以被部署在任何具备充足空间、电源并可提供必要散热气流的19英寸机架服务器当中,因此大大降低了系统部署对于机房环境的要求。
好文章,需要你的鼓励
北京大学团队开发的DragMesh系统通过简单拖拽操作实现3D物体的物理真实交互。该系统采用分工合作架构,结合语义理解、几何预测和动画生成三个模块,在保证运动精度的同时将计算开销降至现有方法的五分之一。系统支持实时交互,无需重新训练即可处理新物体,为虚拟现实和游戏开发提供了高效解决方案。
AI硬件的竞争才刚刚开始,华硕Ascent GX10这样将专业级算力带入桌面级设备的尝试,或许正在改写个人AI开发的游戏规则。
达尔豪斯大学研究团队系统性批判了当前AI多智能体模拟的静态框架局限,提出以"动态场景演化、智能体-环境共同演化、生成式智能体架构"为核心的开放式模拟范式。该研究突破传统任务导向模式,强调AI智能体应具备自主探索、社会学习和环境重塑能力,为政策制定、教育创新和社会治理提供前所未有的模拟工具。