高性能 GPU 驱动的高密度数据中心正在通过释放 AI 的能力改变世界运作方式。同时,它们也释放出大量的热量。在这些数据中心中,为耗电量巨大的 GPU 机架降温的唯一方法就是使用液冷。但在部署液冷系统之前,可能需要首先解决 CFO 和董事会成员对这项技术的顾虑。
高密度数据中心所需的液冷系统比传统数据中心使用的空调系统前期成本更高。同时也有人担心用水量问题,最大的数据中心每天可能消耗数百万加仑的水。对某些人来说,在努力数十年将液体排除在白空间之外后,现在反而要引入液体,这个想法似乎有悖常理且存在风险。
设施运营团队可以通过制定液冷方案的商业案例来消除这些顾虑,阐明液冷的必要性,并结合设计最佳实践的价值。
确立液冷的必要性
一些领导者认为,用于 AI 工作负载的高性能 GPU 机架可以直接部署在传统数据中心基础设施中。但当功率密度超过每机架 15-20 kW 时,传统数据中心使用的空调系统就难以应付。相比之下,液体的导热性是空气的 15-25 倍。
简而言之,要使高密度数据中心可靠运行,就需要同样强大的液冷解决方案。这种解决方案可以采用闭环设计来最小化水损失,主要有三种设计方法:
直接芯片冷却:在 IT 设备内部的散热器或冷却板上使用水来散热。
后门热交换器:在热空气进入白空间之前,通过线圈捕获 IT 设备产生的热空气,然后将热量传递给水。
浸没式冷却:将 IT 系统浸入非导电液体冷却剂中以吸收热量,然后使用热交换器转移这些热量。
无论采用哪种设计方法,都应该与 GPU 基础设施协同设计,以确保能够提供适当的冷却性能。了解 GPU 的用电量固然重要,但了解其所需的冷却量同样重要。前期规划还可以及早发现关键问题,比如建筑物现有的冷却水容量是否足以支持液冷系统。
数据中心液冷的真实成本
如果领导者只考虑液冷系统的资本支出影响,就会忽视更大的图景。液冷可以带来运营支出节省,有可能在不到两年内收回资本投资。
例如,一对冷却分配装置用于循环水的功率,仅是风墙冷却空间所需能源的一小部分。液冷系统还在更有针对性的范围内运行,只冷却 IT 基础设施中产生热量的区域,而不是整个房间。室温每升高一度,数据中心就能实现 1-2% 的能源节省。
如果需要在多个数据中心部署液冷系统,采用供应商中立的设计基础也能带来节省。这涉及创建标准化设计,在各种场地都能提供类似的性能特征,同时最大限度减少每次部署的返工。它还能根据数据中心的环境和运营需求匹配合适的供应商技术,而不是强制使用特定供应商的技术。
发掘简化机会
液冷系统无需成为组织的负担。在这些系统的整个生命周期中,都有机会简化其部署、使用和维护,从而最大限度地减少对员工的要求。
首先,有经验的液冷技术部署合作伙伴可以帮助公司完成从评估设施基础设施到规划和设计定制液冷系统,再到采购和提供技术的全过程。同一合作伙伴还可以承担简化部署的关键任务,比如存放预购的组件,避免它们闲置在公司的数据中心,可能被损坏或被盗。
液冷系统的数据也可以以最适合负责监控和维护人员的方式进行整合。例如,如果由设施运营团队负责,数据可以整合到他们的建筑管理或自动化系统中。这样团队就可以像监控其他建筑系统一样轻松地监控液冷系统。
逐步接受液冷
通过确立液冷的必要性,展示它可以带来的节省和效率,数据中心团队可以为液冷建立令人信服的案例,并利用最佳可用技术来保护其高价值、高能耗的 GPU 机架多年运行。
好文章,需要你的鼓励
OpenAI 推出专为政府机构定制的 ChatGPT Gov 版本,通过 Azure 云平台提供更高安全标准的服务环境。该版本保留了 ChatGPT Enterprise 的核心功能,同时确保政府数据的安全性和隐私保护,目前已获得多个联邦机构的采用,体现了 OpenAI 深化与美国政府合作的战略意图。
博通推出新一代 Emulex 安全主机总线适配器 (HBA),集成后量子加密算法和零信任架构,为存储区域网络 (SAN) 传输中的数据提供高级安全保护。这项创新旨在应对未来量子计算带来的安全挑战,同时满足各国政府对数据加密和网络安全的最新监管要求。
根据Gartner调查,2025年IT产品和服务成本预计平均上涨8.9%,全球IT支出预计增长9.8%至5.62万亿美元。价格上涨和AI投资推动支出增加,但部分CIO预算停滞,面临艰难抉择。云计算、AI功能和GPU需求是主要成本增长点。CIO需在创新投资和控制成本间寻求平衡。
Enlightenment 作为 Linux 最古老的桌面环境之一,近日发布了 0.27 版本。这次更新带来了大量修复和一些新功能,同时伴随着 EFL 1.28 的发布。Enlightenment 虽然不再是主流选择,但凭借其轻量级特性和独特风格,仍在不断发展,为用户提供了一个有趣的桌面替代方案。