液冷 NVIDIA A100 PCIe GPU 能够满足客户对高性能绿色数据中心的需求,在主流服务器 GPU 中尚属首例。

为了遏制气候变化,全球企业正在加快构建高性能、高能效的数据中心,Equinix 边缘基础设施主管 Zac Smith 也参与其中。
他所效力的 Equinix 是一家全球服务提供商,旗下管理的数据中心超过 240 个,致力于在业内率先实现气候中和。
“一万家客户依赖Equinix达成气候中和的目标。他们需要更大量的数据以及更高水平的智能,而这通常有赖于AI,且他们希望能够以一种具有可持续性的方式来实现。”Smith 说道。2000 年代初还在茱莉亚音乐学院读研的他,为纽约的音乐家同僚们搭建了网站,由此与技术结下不解之缘。
能效稳步提升
截至 4 月,Equinix 已发行 49 亿美元的绿色债券。Equinix 将通过这些投资工具来优化电源使用效率 (PUE),以期减少对环境的影响。PUE 是一种行业指标,用于衡量数据中心使用的能源有多少直接用于计算任务。
数据中心运营商正试图将 PUE 降至接近 1.0 的理想水平。Equinix 设施目前的平均PUE为 1.48,而其旗下新数据中心的 PUE 最低可低于 1.2。

从 PUE来看,Equinix 正在稳步提升数据中心的能效(见插图)
Equinix 于 1 月新启动了一个专门用于提升能效的设施,在此方向上更进一步。其中一部分工作侧重于液冷技术。
液冷技术诞生于大型机时代,在 AI 时代日臻成熟。如今,液冷技术已经以直接芯片(Direct-to-Chip)冷却的形式广泛应用于全球高速超级计算机。
NVIDIA GPU 在 AI 推理和高性能计算方面的能效已比 CPU 高出 20 倍, 而加速计算也顺理成章地将采用液冷技术。
通过加速提高效率
如果将全球所有运行 AI 和 HPC 的 CPU 服务器切换为 GPU 加速系统,每年可节省高达 11 万亿瓦时的能源。节约的能源量可供 150 多万套房屋使用一年。
今日,NVIDIA 发布了率先采用直接芯片(Direct-to-Chip)冷却技术的数据中心 PCIe GPU,为可持续发展贡献了自己的力量。
Equinix 正在验证 A100 80GB PCIe 液冷 GPU 在其数据中心的应用,这也是该公司为实现可持续性冷却和热量捕获的综合性方案中的一部分。GPU 现已进入试用阶段,预计将于今年夏季正式发布。
节约用水和用电
“这是我们实验室中引入的首款液冷 GPU,我们倍感兴奋,因为客户迫切希望通过可持续的方式来利用 AI,”Smith 说道。
数据中心运营商旨在淘汰用于冷却数据中心内部气体的冷水机组,因其每年会蒸发数百万加仑的水量。而借助液冷技术,系统仅需对封闭系统中的少量液体进行循环利用,并能够着重于主要的发热点。
Smith说: “我们将变废为宝。”
同等性能,更少耗电
在单独的测试中,Equinix 和 NVIDIA 均发现:采用液冷技术的数据中心工作负载可与风冷设施持平,同时消耗的能源减少了约 30%。NVIDIA 估计,液冷数据中心的 PUE 可能达到 1.15,远低于风冷的 PUE 1.6。
在空间相同的条件下,液冷数据中心可以实现双倍的计算量。这是由于 A100 GPU 仅使用一个 PCIe 插槽,而风冷 A100 GPU 需使用两个 PCIe 插槽。

NVIDIA 借助液冷技术达到了节省电力和增加密度的效果
至少有十几家系统制造商计划于今年晚些时候在其产品中使用液冷 GPU,包括华硕(ASUS)、永擎电子(ASRock Rack)、富士康工业互联网(Foxconn Industrial Internet)、技嘉科技(GIGABYTE)、新华三(H3C)、浪潮(Inspur)、英业达(Inventec)、宁畅(Nettrix)、云达科技(QCT)、 超微(Supermicro)、 纬颖科技(Wiwynn)和超聚变(xFusion)。
全球趋势
在亚洲、欧洲和美国,制定能效标准的法规尚未确定。这也推动了银行和其他大型数据中心运营商纷纷加入液冷技术评估的队伍。
液冷技术的使用范围并不局限于数据中心,汽车和其他系统也需要利用该项技术来冷却封闭空间内的高性能系统。
可持续发展之路
“我们即将开启新的旅程,”Smith谈及这一采用液冷技术的主流加速器首次亮相时如是说。
事实上,NVIDIA计划于明年推出的一版 A100 PCIe 卡中搭载基于 NVIDIA Hopper 架构的 H100 Tensor Core GPU。近期内,NVIDIA计划将液冷技术应用于自有高性能数据中心 GPU 和 NVIDIA HGX 平台。
为推动快速采用,今日发布的液冷 GPU 可在减少能耗的同时维持性能不变。未来,我们期望这些卡在使用同等能源的条件下,展现更出色的性能,满足用户所需。
“仅仅测量功率没有意义,降低碳排放的同时提升性能才是我们努力的方向,” Smith 说道。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。