英伟达推出的最新高性能计算与AI芯片采取大型单板计算机形式,配备四块Blackwell GPU、144个Arm Neoverse核心、高达1.3 TB的HBM内存容量以及高达5.4千瓦的热设计功耗(TDP)。
从诸多方面来看,本周在亚特兰大超级计算大会上全面推荐的全新GB200 NVL4,在外形上酷似由英伟达即将推出的两块Grace-Blackwell超级芯片拼接而成。
然而,与我们之前看到的2.7千瓦版GB200机板不同,英伟达NVL4所配置的高速NVLink通信仅限于板上的四块Blackwell GPU以及两块Grace CPU。所有板内或板外I/O则将由传统以太网或者InfiniBand NIC负责处理。
GB200 NVL4本质上就是两块连接起来的GB200超级芯片,再减去板外部分的NVLink。
虽然这种设计思路看似奇怪,但实际上与之前的高性能计算系统却是一脉相承。例如,Frontier超算系统中的Cray EX Blades就采用了一块第三代Epyc CPU加四块MI250X加速器的组合形式。
这也意味着HPE、Eviden和联想等主要高性能计算系统制造商不必拘囿于通过英伟达的专有互连来进行纵向与横向扩展。HPE和Eviden都拥有自己的互连传输技术。
事实上,HPE还预告将于2025年底推出新的EX系统,且确定将采用英伟达的GB200 NVL4机板。上周发布的EX154n能够在其巨大的液冷高性能计算机柜当中塞入多达56块超宽规格的超级芯片(每个刀片服务器一块)。
在这样的满配条件下,单个EX机柜即可提供超过10千万亿次的FP64矢量或矩阵算力。虽然听起来数字相当夸张,但如果只从高精度科学计算的角度来看,基于AMD的HPE系统其实能提供更加可观的浮点运算性能。
Cray的EX255a刀片服务器中的MI300A APU可提供61.3万亿次矢量FP64或122.6万亿次矩阵FP64算力,而每张Blackwell GPU的双精度矢量/矩阵性能则仅为45万亿次。
对于以AI为中心的工作负载类型,双方的性能差距则要小得多,因为每张MI300A加速器能够输出3.9造成亿次的稀疏FP8算力性能。所以对于一台满配条件下的EX机柜,用户可以获得约2百亿亿次的FP8性能,而Blackwell系统只需安装近半数GPU即可实现约2.2百亿亿次FP8算力。如果大家的实际用例适合MI300A无法支持的FP4数据类型,则性能还可进一步倍增。
尽管HPE Cray是首批宣布支持英伟达NVL4设计方案的厂商之一,但预计Eviden联想以及更多其他企业也将很快推出基于该设计的计算刀片与服务器。
除了英伟达的双倍宽度GB200 NVL4之外,GPU巨头此番还宣布其基于PCIe的H200 NVL配置已经全面上市。
不过大家先别急着兴奋,与2023年初公布的H100 NVL类似,这次亮相的H200 NVL在本质上也只是一款双倍宽度PCIe卡(最多四倍宽度),并采用NVLink桥连接在一起。
与英伟达基于SXM的大尺寸DGX与HGX平台一样,这款NVLink桥接器允许GPU将计算和内存资源集中起来以处理规模更大的任务,确保不会在速度较慢的PCIe 5.0 x 16接口上出现性能瓶颈。该接口的双工带宽上限仅为128 GBps,而NVLink的带宽上限则有900 GBps。
在最大容量下,H200 NVL能够支持高达564 GB的HBM3e内存和13.3万亿次的峰值稀疏FP8运算性能。同样的,这是因为H200 NVL仅仅是将四张H200 PCIe卡用一条速度极快的互连桥连接在一起。
需要注意的是,所有这些性能指标都是以牺牲功率和散热为代价的。在这套四堆栈系统中,每张H200卡的额定功率高达600瓦,总功率达到2.4千瓦。
话虽如此,这样的设计也的确有其优势。至少,这些加速卡几乎可以被部署在任何具备充足空间、电源并可提供必要散热气流的19英寸机架服务器当中,因此大大降低了系统部署对于机房环境的要求。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。