高性能 GPU 驱动的高密度数据中心正在通过释放 AI 的能力改变世界运作方式。同时,它们也释放出大量的热量。在这些数据中心中,为耗电量巨大的 GPU 机架降温的唯一方法就是使用液冷。但在部署液冷系统之前,可能需要首先解决 CFO 和董事会成员对这项技术的顾虑。
高密度数据中心所需的液冷系统比传统数据中心使用的空调系统前期成本更高。同时也有人担心用水量问题,最大的数据中心每天可能消耗数百万加仑的水。对某些人来说,在努力数十年将液体排除在白空间之外后,现在反而要引入液体,这个想法似乎有悖常理且存在风险。
设施运营团队可以通过制定液冷方案的商业案例来消除这些顾虑,阐明液冷的必要性,并结合设计最佳实践的价值。
确立液冷的必要性
一些领导者认为,用于 AI 工作负载的高性能 GPU 机架可以直接部署在传统数据中心基础设施中。但当功率密度超过每机架 15-20 kW 时,传统数据中心使用的空调系统就难以应付。相比之下,液体的导热性是空气的 15-25 倍。
简而言之,要使高密度数据中心可靠运行,就需要同样强大的液冷解决方案。这种解决方案可以采用闭环设计来最小化水损失,主要有三种设计方法:
直接芯片冷却:在 IT 设备内部的散热器或冷却板上使用水来散热。
后门热交换器:在热空气进入白空间之前,通过线圈捕获 IT 设备产生的热空气,然后将热量传递给水。
浸没式冷却:将 IT 系统浸入非导电液体冷却剂中以吸收热量,然后使用热交换器转移这些热量。
无论采用哪种设计方法,都应该与 GPU 基础设施协同设计,以确保能够提供适当的冷却性能。了解 GPU 的用电量固然重要,但了解其所需的冷却量同样重要。前期规划还可以及早发现关键问题,比如建筑物现有的冷却水容量是否足以支持液冷系统。
数据中心液冷的真实成本
如果领导者只考虑液冷系统的资本支出影响,就会忽视更大的图景。液冷可以带来运营支出节省,有可能在不到两年内收回资本投资。
例如,一对冷却分配装置用于循环水的功率,仅是风墙冷却空间所需能源的一小部分。液冷系统还在更有针对性的范围内运行,只冷却 IT 基础设施中产生热量的区域,而不是整个房间。室温每升高一度,数据中心就能实现 1-2% 的能源节省。
如果需要在多个数据中心部署液冷系统,采用供应商中立的设计基础也能带来节省。这涉及创建标准化设计,在各种场地都能提供类似的性能特征,同时最大限度减少每次部署的返工。它还能根据数据中心的环境和运营需求匹配合适的供应商技术,而不是强制使用特定供应商的技术。
发掘简化机会
液冷系统无需成为组织的负担。在这些系统的整个生命周期中,都有机会简化其部署、使用和维护,从而最大限度地减少对员工的要求。
首先,有经验的液冷技术部署合作伙伴可以帮助公司完成从评估设施基础设施到规划和设计定制液冷系统,再到采购和提供技术的全过程。同一合作伙伴还可以承担简化部署的关键任务,比如存放预购的组件,避免它们闲置在公司的数据中心,可能被损坏或被盗。
液冷系统的数据也可以以最适合负责监控和维护人员的方式进行整合。例如,如果由设施运营团队负责,数据可以整合到他们的建筑管理或自动化系统中。这样团队就可以像监控其他建筑系统一样轻松地监控液冷系统。
逐步接受液冷
通过确立液冷的必要性,展示它可以带来的节省和效率,数据中心团队可以为液冷建立令人信服的案例,并利用最佳可用技术来保护其高价值、高能耗的 GPU 机架多年运行。
好文章,需要你的鼓励
随着人工智能和高性能计算持续推动需求增长,数据中心设计正以同样惊人的速度演进。曾经的高密度机架已成为标准配置,冷却系统在数月而非数年内完成重新设计,项目在各地区的规模和复杂性不断提升。全球工程设计咨询公司Black & White Engineering指出,液冷成为标准配置、极端机架密度管理、工业化规模交付、电网约束下的电力创新、AI驱动运营设计以及可持续性成为核心设计原则,将成为2026年塑造数据中心设计、建设和运营的六大关键趋势。
这项由ByteDance Seed、香港科技大学等机构联合完成的研究提出了"轨迹场"这一创新的4D视频表示方法。研究团队开发的Trace Anything系统能够在单次前向传递中为视频中的每个像素预测连续的三维轨迹,无需光流估计或迭代优化。通过构建大规模合成数据平台和精心设计的训练方案,该方法在轨迹估计基准上实现了最先进性能,同时推理速度比竞争方法快10倍以上,并展现了运动预测、时空融合等多种涌现能力。
Snowflake本周推送的一次更新导致全球范围内的"重大故障",用户长达13小时无法查询数据、文件导入失败并收到错误信息。初步调查显示,最新版本引入了不向后兼容的数据库架构更新,导致版本不匹配错误。此次故障影响了全球23个区域中的10个,包括美国、欧洲和亚洲多个数据中心。这是Snowflake一周内第二次发生事故。
伊斯法罕大学研究团队通过分析Google Play商店21款AI教育应用的用户评论,发现作业辅导类应用获得超80%正面评价,而语言学习和管理系统类应用表现较差。用户赞赏AI工具的快速响应和个性化指导,但抱怨收费过高、准确性不稳定等问题。研究建议开发者关注自适应个性化,政策制定者建立相关规范,未来发展方向为混合AI-人类模型。