高性能 GPU 驱动的高密度数据中心正在通过释放 AI 的能力改变世界运作方式。同时,它们也释放出大量的热量。在这些数据中心中,为耗电量巨大的 GPU 机架降温的唯一方法就是使用液冷。但在部署液冷系统之前,可能需要首先解决 CFO 和董事会成员对这项技术的顾虑。
高密度数据中心所需的液冷系统比传统数据中心使用的空调系统前期成本更高。同时也有人担心用水量问题,最大的数据中心每天可能消耗数百万加仑的水。对某些人来说,在努力数十年将液体排除在白空间之外后,现在反而要引入液体,这个想法似乎有悖常理且存在风险。
设施运营团队可以通过制定液冷方案的商业案例来消除这些顾虑,阐明液冷的必要性,并结合设计最佳实践的价值。
确立液冷的必要性
一些领导者认为,用于 AI 工作负载的高性能 GPU 机架可以直接部署在传统数据中心基础设施中。但当功率密度超过每机架 15-20 kW 时,传统数据中心使用的空调系统就难以应付。相比之下,液体的导热性是空气的 15-25 倍。
简而言之,要使高密度数据中心可靠运行,就需要同样强大的液冷解决方案。这种解决方案可以采用闭环设计来最小化水损失,主要有三种设计方法:
直接芯片冷却:在 IT 设备内部的散热器或冷却板上使用水来散热。
后门热交换器:在热空气进入白空间之前,通过线圈捕获 IT 设备产生的热空气,然后将热量传递给水。
浸没式冷却:将 IT 系统浸入非导电液体冷却剂中以吸收热量,然后使用热交换器转移这些热量。
无论采用哪种设计方法,都应该与 GPU 基础设施协同设计,以确保能够提供适当的冷却性能。了解 GPU 的用电量固然重要,但了解其所需的冷却量同样重要。前期规划还可以及早发现关键问题,比如建筑物现有的冷却水容量是否足以支持液冷系统。
数据中心液冷的真实成本
如果领导者只考虑液冷系统的资本支出影响,就会忽视更大的图景。液冷可以带来运营支出节省,有可能在不到两年内收回资本投资。
例如,一对冷却分配装置用于循环水的功率,仅是风墙冷却空间所需能源的一小部分。液冷系统还在更有针对性的范围内运行,只冷却 IT 基础设施中产生热量的区域,而不是整个房间。室温每升高一度,数据中心就能实现 1-2% 的能源节省。
如果需要在多个数据中心部署液冷系统,采用供应商中立的设计基础也能带来节省。这涉及创建标准化设计,在各种场地都能提供类似的性能特征,同时最大限度减少每次部署的返工。它还能根据数据中心的环境和运营需求匹配合适的供应商技术,而不是强制使用特定供应商的技术。
发掘简化机会
液冷系统无需成为组织的负担。在这些系统的整个生命周期中,都有机会简化其部署、使用和维护,从而最大限度地减少对员工的要求。
首先,有经验的液冷技术部署合作伙伴可以帮助公司完成从评估设施基础设施到规划和设计定制液冷系统,再到采购和提供技术的全过程。同一合作伙伴还可以承担简化部署的关键任务,比如存放预购的组件,避免它们闲置在公司的数据中心,可能被损坏或被盗。
液冷系统的数据也可以以最适合负责监控和维护人员的方式进行整合。例如,如果由设施运营团队负责,数据可以整合到他们的建筑管理或自动化系统中。这样团队就可以像监控其他建筑系统一样轻松地监控液冷系统。
逐步接受液冷
通过确立液冷的必要性,展示它可以带来的节省和效率,数据中心团队可以为液冷建立令人信服的案例,并利用最佳可用技术来保护其高价值、高能耗的 GPU 机架多年运行。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。