高性能 GPU 驱动的高密度数据中心正在通过释放 AI 的能力改变世界运作方式。同时,它们也释放出大量的热量。在这些数据中心中,为耗电量巨大的 GPU 机架降温的唯一方法就是使用液冷。但在部署液冷系统之前,可能需要首先解决 CFO 和董事会成员对这项技术的顾虑。
高密度数据中心所需的液冷系统比传统数据中心使用的空调系统前期成本更高。同时也有人担心用水量问题,最大的数据中心每天可能消耗数百万加仑的水。对某些人来说,在努力数十年将液体排除在白空间之外后,现在反而要引入液体,这个想法似乎有悖常理且存在风险。
设施运营团队可以通过制定液冷方案的商业案例来消除这些顾虑,阐明液冷的必要性,并结合设计最佳实践的价值。
确立液冷的必要性
一些领导者认为,用于 AI 工作负载的高性能 GPU 机架可以直接部署在传统数据中心基础设施中。但当功率密度超过每机架 15-20 kW 时,传统数据中心使用的空调系统就难以应付。相比之下,液体的导热性是空气的 15-25 倍。
简而言之,要使高密度数据中心可靠运行,就需要同样强大的液冷解决方案。这种解决方案可以采用闭环设计来最小化水损失,主要有三种设计方法:
直接芯片冷却:在 IT 设备内部的散热器或冷却板上使用水来散热。
后门热交换器:在热空气进入白空间之前,通过线圈捕获 IT 设备产生的热空气,然后将热量传递给水。
浸没式冷却:将 IT 系统浸入非导电液体冷却剂中以吸收热量,然后使用热交换器转移这些热量。
无论采用哪种设计方法,都应该与 GPU 基础设施协同设计,以确保能够提供适当的冷却性能。了解 GPU 的用电量固然重要,但了解其所需的冷却量同样重要。前期规划还可以及早发现关键问题,比如建筑物现有的冷却水容量是否足以支持液冷系统。
数据中心液冷的真实成本
如果领导者只考虑液冷系统的资本支出影响,就会忽视更大的图景。液冷可以带来运营支出节省,有可能在不到两年内收回资本投资。
例如,一对冷却分配装置用于循环水的功率,仅是风墙冷却空间所需能源的一小部分。液冷系统还在更有针对性的范围内运行,只冷却 IT 基础设施中产生热量的区域,而不是整个房间。室温每升高一度,数据中心就能实现 1-2% 的能源节省。
如果需要在多个数据中心部署液冷系统,采用供应商中立的设计基础也能带来节省。这涉及创建标准化设计,在各种场地都能提供类似的性能特征,同时最大限度减少每次部署的返工。它还能根据数据中心的环境和运营需求匹配合适的供应商技术,而不是强制使用特定供应商的技术。
发掘简化机会
液冷系统无需成为组织的负担。在这些系统的整个生命周期中,都有机会简化其部署、使用和维护,从而最大限度地减少对员工的要求。
首先,有经验的液冷技术部署合作伙伴可以帮助公司完成从评估设施基础设施到规划和设计定制液冷系统,再到采购和提供技术的全过程。同一合作伙伴还可以承担简化部署的关键任务,比如存放预购的组件,避免它们闲置在公司的数据中心,可能被损坏或被盗。
液冷系统的数据也可以以最适合负责监控和维护人员的方式进行整合。例如,如果由设施运营团队负责,数据可以整合到他们的建筑管理或自动化系统中。这样团队就可以像监控其他建筑系统一样轻松地监控液冷系统。
逐步接受液冷
通过确立液冷的必要性,展示它可以带来的节省和效率,数据中心团队可以为液冷建立令人信服的案例,并利用最佳可用技术来保护其高价值、高能耗的 GPU 机架多年运行。
好文章,需要你的鼓励
当前软件工程团队正在试验基于AI代理的编码工具和大语言模型,以提高开发速度和质量。然而,AI编码工具的效果很大程度上取决于使用方式。开发者需要提供结构化的问题描述、明确的执行要求和相关上下文,同时建立适当的防护机制。AI不仅能处理重复性任务,还能识别和评估替代方案,从被动助手演进为工作流程推进器。成功的关键在于将AI视为合作伙伴而非快捷工具,并将其整合到软件交付的全生命周期中。
NVIDIA研究团队开发出名为Lyra的AI系统,能够仅凭单张照片生成完整3D场景,用户可自由切换观察角度。该技术采用创新的"自蒸馏"学习方法,让视频生成模型指导3D重建模块工作。系统还支持动态4D场景生成,在多项测试中表现优异。这项技术将大大降低3D内容创作门槛,为游戏开发、电影制作、VR/AR应用等领域带来重大突破。
Salesforce发布企业级AI智能体平台Agentforce 360,将AI智能体融入几乎所有应用中。该平台采用混合推理引擎Atlas,结合大语言模型的概率思维和业务规则的精确性,支持语音交互和深度集成。以Slack为主要界面,提供Agentforce Builder开发环境,能将非结构化文档转换为可查询记录。Salesforce内部已部署该系统,每周处理180万次对话,主动服务活动增长40%。
谷歌DeepMind团队创新性地让Gemini 2.5模型在无需训练的情况下学会理解卫星多光谱图像。他们将复杂的12波段卫星数据转换为6张可理解的伪彩色图像,配以详细文字说明,使通用AI模型能够准确分析遥感数据。在多个基准测试中超越现有模型,为遥感领域AI应用开辟了全新道路。