英伟达推出的最新高性能计算与AI芯片采取大型单板计算机形式,配备四块Blackwell GPU、144个Arm Neoverse核心、高达1.3 TB的HBM内存容量以及高达5.4千瓦的热设计功耗(TDP)。
从诸多方面来看,本周在亚特兰大超级计算大会上全面推荐的全新GB200 NVL4,在外形上酷似由英伟达即将推出的两块Grace-Blackwell超级芯片拼接而成。
然而,与我们之前看到的2.7千瓦版GB200机板不同,英伟达NVL4所配置的高速NVLink通信仅限于板上的四块Blackwell GPU以及两块Grace CPU。所有板内或板外I/O则将由传统以太网或者InfiniBand NIC负责处理。
GB200 NVL4本质上就是两块连接起来的GB200超级芯片,再减去板外部分的NVLink。
虽然这种设计思路看似奇怪,但实际上与之前的高性能计算系统却是一脉相承。例如,Frontier超算系统中的Cray EX Blades就采用了一块第三代Epyc CPU加四块MI250X加速器的组合形式。
这也意味着HPE、Eviden和联想等主要高性能计算系统制造商不必拘囿于通过英伟达的专有互连来进行纵向与横向扩展。HPE和Eviden都拥有自己的互连传输技术。
事实上,HPE还预告将于2025年底推出新的EX系统,且确定将采用英伟达的GB200 NVL4机板。上周发布的EX154n能够在其巨大的液冷高性能计算机柜当中塞入多达56块超宽规格的超级芯片(每个刀片服务器一块)。
在这样的满配条件下,单个EX机柜即可提供超过10千万亿次的FP64矢量或矩阵算力。虽然听起来数字相当夸张,但如果只从高精度科学计算的角度来看,基于AMD的HPE系统其实能提供更加可观的浮点运算性能。
Cray的EX255a刀片服务器中的MI300A APU可提供61.3万亿次矢量FP64或122.6万亿次矩阵FP64算力,而每张Blackwell GPU的双精度矢量/矩阵性能则仅为45万亿次。
对于以AI为中心的工作负载类型,双方的性能差距则要小得多,因为每张MI300A加速器能够输出3.9造成亿次的稀疏FP8算力性能。所以对于一台满配条件下的EX机柜,用户可以获得约2百亿亿次的FP8性能,而Blackwell系统只需安装近半数GPU即可实现约2.2百亿亿次FP8算力。如果大家的实际用例适合MI300A无法支持的FP4数据类型,则性能还可进一步倍增。
尽管HPE Cray是首批宣布支持英伟达NVL4设计方案的厂商之一,但预计Eviden联想以及更多其他企业也将很快推出基于该设计的计算刀片与服务器。
除了英伟达的双倍宽度GB200 NVL4之外,GPU巨头此番还宣布其基于PCIe的H200 NVL配置已经全面上市。
不过大家先别急着兴奋,与2023年初公布的H100 NVL类似,这次亮相的H200 NVL在本质上也只是一款双倍宽度PCIe卡(最多四倍宽度),并采用NVLink桥连接在一起。
与英伟达基于SXM的大尺寸DGX与HGX平台一样,这款NVLink桥接器允许GPU将计算和内存资源集中起来以处理规模更大的任务,确保不会在速度较慢的PCIe 5.0 x 16接口上出现性能瓶颈。该接口的双工带宽上限仅为128 GBps,而NVLink的带宽上限则有900 GBps。
在最大容量下,H200 NVL能够支持高达564 GB的HBM3e内存和13.3万亿次的峰值稀疏FP8运算性能。同样的,这是因为H200 NVL仅仅是将四张H200 PCIe卡用一条速度极快的互连桥连接在一起。
需要注意的是,所有这些性能指标都是以牺牲功率和散热为代价的。在这套四堆栈系统中,每张H200卡的额定功率高达600瓦,总功率达到2.4千瓦。
话虽如此,这样的设计也的确有其优势。至少,这些加速卡几乎可以被部署在任何具备充足空间、电源并可提供必要散热气流的19英寸机架服务器当中,因此大大降低了系统部署对于机房环境的要求。
好文章,需要你的鼓励
K Prize是由Databricks和Perplexity联合创始人推出的AI编程挑战赛,首轮比赛结果显示,获胜者巴西工程师Eduardo Rocha de Andrade仅答对7.5%的题目就获得5万美元奖金。该测试基于GitHub真实问题,采用定时提交系统防止针对性训练,与SWE-Bench 75%的最高得分形成鲜明对比。创始人承诺向首个在该测试中得分超过90%的开源模型提供100万美元奖励。
T-Tech公司研究团队开发了SAE Boost助推器系统,通过训练专门的"错误补偿器"来增强AI理解工具对专业领域的理解能力。该系统在化学、俄语和外交等领域测试中显示出显著改进效果,同时完全保持原有通用能力。这种模块化设计为AI系统的持续优化提供了安全可靠的路径,对AI可解释性研究具有重要意义。
阿里巴巴通义千问团队发布开源编程模型Qwen3-Coder-480B-A35B-Instruct,专门用于软件开发辅助。该模型采用混合专家架构,拥有4800亿参数,支持25.6万token上下文长度,可在数秒内创建完整功能应用。在SWE-bench基准测试中得分67.0%,表现优于GPT-4和Gemini。模型基于Apache 2.0开源许可,企业可免费使用。AI研究者称其可能是目前最佳编程模型,特别适合企业级代码库理解、自动化代码审查和CI/CD系统集成。
斯坦福大学研究团队开发出革命性AI系统,能够像生物学家一样"看懂"蛋白质三维结构并预测功能。该系统通过多层次分析方法,在蛋白质功能预测方面达到90%以上准确率,为新药开发和精准医疗开辟新道路。这项技术不仅加速了蛋白质研究进程,更为解决复杂疾病提供了强大的AI助手,预示着人工智能与生物医学融合的美好前景。