当前,我们正处在数据中心行业的关键时刻。根据 McKinsey & Company 的报告,2023 年至 2030 年间,AI 就绪数据中心的需求容量预计将以年均 33% 的速度增长。
面对如此规模和速度的增长,数据中心运营商正在应对前所未有的供电和散热需求,以支持加速计算带来的更高功率密度要求。这些挑战正推动创新,以缓解密集部署的 AI 服务器在不断提高的热设计功率 (TDP) 要求下产生的热量。
作为从业者,我多年来一直与超大规模、企业、通信和半导体客户合作,解决各种技术、业务和运营挑战。从我的角度来看,解决数据中心扩张带来的散热和供电挑战的答案在于一项关键技术——芯片直接液冷。
液冷相较传统方法的优势
我并不是唯一一个强调液冷对行业规模化计算和提高能效重要性的人。Uptime Institute 2023 年冷却系统调查发现,到本十年末,直接液冷预计将超过风冷,成为冷却 IT 基础设施的主要方法。
这是因为 AI 和高性能计算工作负载需要更高功率要求的处理器和 AI 加速器,而这些 AI 服务器产生的热量可能会成为问题,因为传统的冷却系统(如风冷)难以维持最佳温度。这可能导致效率低下、能耗增加,甚至硬件故障等重大问题。
与其他方法相比,液冷具有诸多优势,包括:
增强冷却效率:比风冷更有效地维持较低温度,并在电路板和机架层面降低热量,这对于高性能计算环境至关重要,因为即使温度略微上升也会导致性能下降。
空间优化:通过芯片直接液冷能够为更密集的服务器提供冷却。
节能:最大限度地减少传统低效风冷方法所需的大型空调系统。
更高可靠性:更稳定的冷却可防止热节流,保护硬件组件并延长其使用寿命。
可扩展性:液冷系统设计可适应 AI 和其他技术持续发展带来的未来增长。
单相液冷的不同方法
液冷有多种技术方法,从芯片直接液冷到机架级热交换器和浸没式冷却。微对流技术就是一个独特方法的例子,它可以在 GPU 和 CPU 的热点处精确冷却液体,以缓解热量并提高性能和可靠性。
与风冷相比,这种方法将散热性能提高了 82%,将客户功耗降低了 15%,并将用水量减少了 92%。与其他微通道液冷方法相比,这种技术设计通过消除微通道或风冷散热器中常见的热梯度,实现了高达 40% 的较低热阻。
通过先进的数据中心冷却技术实现规模化发展
在我们应对 AI 时代复杂性的过程中,先进的冷却系统对数据中心的可持续扩张至关重要。为 AI 数据中心未来做准备意味着确保它们具备能够处理急剧增加的热负载和热通量的解决方案。
液冷是解决许多供电和散热挑战的突出方案。结合全球制造、供应链和循环经济服务,我们可以确保行业通过广泛部署这些功能来满足当前和未来的需求规模。
好文章,需要你的鼓励
上海交通大学研究团队开发出革命性AI癌症诊断系统,通过深度学习技术分析50万张细胞图像,实现94.2%的诊断准确率,诊断时间从30分钟缩短至2分钟。该系统不仅能识别多种癌症类型,还具备解释性功能,已在多家医院试点应用。研究成果发表于《Nature Communications》,展示了AI在精准医疗领域的巨大潜力。
南华理工大学等机构提出3DFlowAction方法,让机器人通过预测物体3D运动轨迹来学习操作技能。该研究创建了包含11万个实例的ManiFlow-110k数据集,构建了能预测三维光流的世界模型,实现了跨机器人平台的技能迁移。在四个复杂操作任务上成功率达70%,无需特定硬件训练即可在不同机器人上部署,为通用机器人操作技术发展开辟新路径。
这是首个系统性探索跨视角协作智能的综合性研究,由南京大学、东京大学等顶尖机构联合完成。研究团队首次将"第一人称视角"与"第三人称视角"的协作应用进行了全面梳理,提出了三大技术方向和十三个关键任务,涵盖从智能厨房到手术机器人的八大应用场景。这项突破性工作为人工智能向人类认知迈进提供了重要的技术路径和理论基础。
这项由台湾大学与微软研究团队合作的研究探索了使用音频感知大语言模型(ALLMs)作为自动评判员来评估语音生成模型的说话风格。研究设计了"语音风格指令跟随"和"角色扮演"两个任务,测试了四种语音模型的表现,并比较了人类与AI评判的一致性。结果表明,特别是Gemini-2.5-pro模型,其评判结果与人类评判的一致性甚至超过了人类评判者之间的一致性,证明ALLMs可以作为可靠的自动评估工具。同时研究也发现,即使是最先进的语音模型在说话风格控制方面仍有显著改进空间。