英伟达推出的最新高性能计算与AI芯片采取大型单板计算机形式,配备四块Blackwell GPU、144个Arm Neoverse核心、高达1.3 TB的HBM内存容量以及高达5.4千瓦的热设计功耗(TDP)。
从诸多方面来看,本周在亚特兰大超级计算大会上全面推荐的全新GB200 NVL4,在外形上酷似由英伟达即将推出的两块Grace-Blackwell超级芯片拼接而成。
然而,与我们之前看到的2.7千瓦版GB200机板不同,英伟达NVL4所配置的高速NVLink通信仅限于板上的四块Blackwell GPU以及两块Grace CPU。所有板内或板外I/O则将由传统以太网或者InfiniBand NIC负责处理。
GB200 NVL4本质上就是两块连接起来的GB200超级芯片,再减去板外部分的NVLink。
虽然这种设计思路看似奇怪,但实际上与之前的高性能计算系统却是一脉相承。例如,Frontier超算系统中的Cray EX Blades就采用了一块第三代Epyc CPU加四块MI250X加速器的组合形式。
这也意味着HPE、Eviden和联想等主要高性能计算系统制造商不必拘囿于通过英伟达的专有互连来进行纵向与横向扩展。HPE和Eviden都拥有自己的互连传输技术。
事实上,HPE还预告将于2025年底推出新的EX系统,且确定将采用英伟达的GB200 NVL4机板。上周发布的EX154n能够在其巨大的液冷高性能计算机柜当中塞入多达56块超宽规格的超级芯片(每个刀片服务器一块)。
在这样的满配条件下,单个EX机柜即可提供超过10千万亿次的FP64矢量或矩阵算力。虽然听起来数字相当夸张,但如果只从高精度科学计算的角度来看,基于AMD的HPE系统其实能提供更加可观的浮点运算性能。
Cray的EX255a刀片服务器中的MI300A APU可提供61.3万亿次矢量FP64或122.6万亿次矩阵FP64算力,而每张Blackwell GPU的双精度矢量/矩阵性能则仅为45万亿次。
对于以AI为中心的工作负载类型,双方的性能差距则要小得多,因为每张MI300A加速器能够输出3.9造成亿次的稀疏FP8算力性能。所以对于一台满配条件下的EX机柜,用户可以获得约2百亿亿次的FP8性能,而Blackwell系统只需安装近半数GPU即可实现约2.2百亿亿次FP8算力。如果大家的实际用例适合MI300A无法支持的FP4数据类型,则性能还可进一步倍增。
尽管HPE Cray是首批宣布支持英伟达NVL4设计方案的厂商之一,但预计Eviden联想以及更多其他企业也将很快推出基于该设计的计算刀片与服务器。
除了英伟达的双倍宽度GB200 NVL4之外,GPU巨头此番还宣布其基于PCIe的H200 NVL配置已经全面上市。
不过大家先别急着兴奋,与2023年初公布的H100 NVL类似,这次亮相的H200 NVL在本质上也只是一款双倍宽度PCIe卡(最多四倍宽度),并采用NVLink桥连接在一起。
与英伟达基于SXM的大尺寸DGX与HGX平台一样,这款NVLink桥接器允许GPU将计算和内存资源集中起来以处理规模更大的任务,确保不会在速度较慢的PCIe 5.0 x 16接口上出现性能瓶颈。该接口的双工带宽上限仅为128 GBps,而NVLink的带宽上限则有900 GBps。
在最大容量下,H200 NVL能够支持高达564 GB的HBM3e内存和13.3万亿次的峰值稀疏FP8运算性能。同样的,这是因为H200 NVL仅仅是将四张H200 PCIe卡用一条速度极快的互连桥连接在一起。
需要注意的是,所有这些性能指标都是以牺牲功率和散热为代价的。在这套四堆栈系统中,每张H200卡的额定功率高达600瓦,总功率达到2.4千瓦。
话虽如此,这样的设计也的确有其优势。至少,这些加速卡几乎可以被部署在任何具备充足空间、电源并可提供必要散热气流的19英寸机架服务器当中,因此大大降低了系统部署对于机房环境的要求。
好文章,需要你的鼓励
VSCO今日更新VSCO Capture应用,新增视频拍摄功能。用户现可在拍摄照片和视频时应用并调整VSCO的50多种滤镜预设,包括经典胶片到现代创作风格。新版本还推出胶片颗粒滤镜,可动态控制纹理强度、大小和色彩。用户能将颗粒滤镜叠加到Film X滤镜上,结合柯达、富士和爱克发胶片风格,保存个性化胶片配方。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
Instagram负责人Adam Mosseri表示,AI生成内容已经占据社交媒体主导地位,预计将超越非AI内容。他认为识别AI内容的技术效果不佳,建议转而为真实媒体建立指纹识别系统,由相机制造商在拍摄时进行加密签名。Mosseri还指出,创作者应优先发布"不完美"的原始图像来证明真实性,因为精美方形图片的时代已经结束。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。