高性能 GPU 驱动的高密度数据中心正在通过释放 AI 的能力改变世界运作方式。同时,它们也释放出大量的热量。在这些数据中心中,为耗电量巨大的 GPU 机架降温的唯一方法就是使用液冷。但在部署液冷系统之前,可能需要首先解决 CFO 和董事会成员对这项技术的顾虑。
高密度数据中心所需的液冷系统比传统数据中心使用的空调系统前期成本更高。同时也有人担心用水量问题,最大的数据中心每天可能消耗数百万加仑的水。对某些人来说,在努力数十年将液体排除在白空间之外后,现在反而要引入液体,这个想法似乎有悖常理且存在风险。
设施运营团队可以通过制定液冷方案的商业案例来消除这些顾虑,阐明液冷的必要性,并结合设计最佳实践的价值。
确立液冷的必要性
一些领导者认为,用于 AI 工作负载的高性能 GPU 机架可以直接部署在传统数据中心基础设施中。但当功率密度超过每机架 15-20 kW 时,传统数据中心使用的空调系统就难以应付。相比之下,液体的导热性是空气的 15-25 倍。
简而言之,要使高密度数据中心可靠运行,就需要同样强大的液冷解决方案。这种解决方案可以采用闭环设计来最小化水损失,主要有三种设计方法:
直接芯片冷却:在 IT 设备内部的散热器或冷却板上使用水来散热。
后门热交换器:在热空气进入白空间之前,通过线圈捕获 IT 设备产生的热空气,然后将热量传递给水。
浸没式冷却:将 IT 系统浸入非导电液体冷却剂中以吸收热量,然后使用热交换器转移这些热量。
无论采用哪种设计方法,都应该与 GPU 基础设施协同设计,以确保能够提供适当的冷却性能。了解 GPU 的用电量固然重要,但了解其所需的冷却量同样重要。前期规划还可以及早发现关键问题,比如建筑物现有的冷却水容量是否足以支持液冷系统。
数据中心液冷的真实成本
如果领导者只考虑液冷系统的资本支出影响,就会忽视更大的图景。液冷可以带来运营支出节省,有可能在不到两年内收回资本投资。
例如,一对冷却分配装置用于循环水的功率,仅是风墙冷却空间所需能源的一小部分。液冷系统还在更有针对性的范围内运行,只冷却 IT 基础设施中产生热量的区域,而不是整个房间。室温每升高一度,数据中心就能实现 1-2% 的能源节省。
如果需要在多个数据中心部署液冷系统,采用供应商中立的设计基础也能带来节省。这涉及创建标准化设计,在各种场地都能提供类似的性能特征,同时最大限度减少每次部署的返工。它还能根据数据中心的环境和运营需求匹配合适的供应商技术,而不是强制使用特定供应商的技术。
发掘简化机会
液冷系统无需成为组织的负担。在这些系统的整个生命周期中,都有机会简化其部署、使用和维护,从而最大限度地减少对员工的要求。
首先,有经验的液冷技术部署合作伙伴可以帮助公司完成从评估设施基础设施到规划和设计定制液冷系统,再到采购和提供技术的全过程。同一合作伙伴还可以承担简化部署的关键任务,比如存放预购的组件,避免它们闲置在公司的数据中心,可能被损坏或被盗。
液冷系统的数据也可以以最适合负责监控和维护人员的方式进行整合。例如,如果由设施运营团队负责,数据可以整合到他们的建筑管理或自动化系统中。这样团队就可以像监控其他建筑系统一样轻松地监控液冷系统。
逐步接受液冷
通过确立液冷的必要性,展示它可以带来的节省和效率,数据中心团队可以为液冷建立令人信服的案例,并利用最佳可用技术来保护其高价值、高能耗的 GPU 机架多年运行。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。