至顶网计算频道 01月10日 新闻消息(文/邹大斌): 相信大多数进过数据中心机房的人都会对里面嗡嗡作响的设备留下深刻印象,吵是风冷数据中心的一个共同特点,因为风冷需要借助风扇带动气流,气体流动会发出声响,令人厌烦但也无可奈何。而在浸没式液冷数据中心里却是非常安静的。除了安静外,液冷其实还有很多好处,比如能效更高、更可靠等,代表了数据中心行业的最新发展趋势。
与风冷相比,液冷是一种革命性技术,才刚刚开始应用,特别是如何规模化部署和应用还缺少经验可循。阿里巴巴是第一个吃螃蟹的,2018年阿里巴巴在其张北数据中心部署了全球首个浸没式液冷服务器集群,将这项技术真正带到了生产环境。经过一年多的运行,阿里将这些经验进行了总结并对外公开。
1月6日,阿里巴巴宣布将《浸没式液冷数据中心技术规范》向社会开放。这项规范用一套标准流程为下一代绿色基地型数据中心的建设提供设计依据,通过液冷技术的普及,降低全社会的能耗水平。如果全国的数据中心都采用液冷技术,一年可节省上千亿度电。
再大的风也无法吹凉滚烫的“芯”
与此同时,我国数据中心的低能效也日益凸显出来。根据中国信通院的统计数据,全国超大型数据中心平均PUE值1.63,大型数据中心平均PUE值1.54。为了提高能效,国家和各个地方政府陆续出台了不少鼓励建立绿色数据中心的相关政策,对PUE的要求越来越高,比如,北京和深圳都要求新建数据中心PUE值低于1.4,上海要求PUE值低于1.3。
事实上,数据中心PUE值要降到1.5以下,对于传统风冷数据中心是非常困难的,不借助其他技术手段(比如自然风、水冷)很难达到。而液冷技术可以显著改善PUE值,浸没式液冷技术可以让PUE值达到1.1,甚至接近于1,就是说几乎没有致冷方面的用电消耗。
另一方面,随着大数据和人工智能的大规模使用,对算力的需求有了大幅提高。更大的算力意味着更大的能耗,也就意味着需要更高的致冷需求。比如,传统机架的功率密度一般不超过8KW,刀片服务器让一个机架很容易超过10KW,而一个部署了多个GPU卡的机架功率密度可能高达20KW,甚至30KW,这么高的功率密度已经超出了风冷技术的制冷能力(100W/每立方英寸)。面对这种高计算密度的应用,以液冷取代传统风冷是必然之选。
阿里巴巴吃“螃蟹”
为了改进阿里巴巴数据中心的能源利用效率,阿里巴巴很早就投入液冷技术的研究,并于2016年推出了全球首台浸没式液冷服务器,此后一直持续不断改进和完善,最终于2018年将这项技术正式投入生产,在阿里巴巴张北数据中心中建成了全球首个上千台机柜规模的浸没式液冷服务器集群。该集群支撑了阿里巴巴几乎所有主流的业务,包括连续两年的“双11”,阿里云部分业务也跑在这个液冷集群上。
一年多的运营,浸没式液冷具有的高能效、高密度、高可用、高可靠等诸多优点得到了充分展现。比如,阿里张北数据中心采用浸没式液冷技术制冷的机柜功率密度为30KW,如果需要提升到60KW或者100KW也完全不是问题。而传统风冷机房机柜功率密度超过10KW的都不多见。
“由于液冷的热传导效率比传统的风冷要高百倍,因此能突破传统风冷致冷能力的瓶颈,得以让单机柜功率密度提升了3倍。”阿里巴巴基础设施事业部首席架构师&IDC总经理高山渊表示。
更高效的制冷还带来设备的较低温度运行,这有助于提高设备高可靠性,再加上取消风扇后没有了震动进一步提升了设备可靠性,浸没式液冷技术让设备故障率下降了50%。另外,浸没式液冷的机柜具有更高的功率密度意味着能容纳更多的设备,加之少了空调,因此浸没式液冷数据中心相比传统风冷数据中心空间也要更节约。这些都为阿里巴巴降低运维成本,更好地支持业务提供了很好的基础。
“如今云成为IT技术创新中心,浸没式液冷则是数据中心支撑云计算创新的发动机之一。”高山渊评价说。
高山渊透露,接下来阿里巴巴会用3-5年的时间继续完善液冷技术和产业生态,使液冷能与风冷互相替换,也就是在能够部署风冷的区域都可以部署液冷。而最终的目标是,淘汰风冷技术,把液冷变成默认配置。
对外开放,普惠社会
虽然液冷的优势显而易见,但真正应用的企业却是凤毛麟角,即使那些在数据中心领域有非常大技术投资的互联网巨头也并没有真正规模化应用这项技术。背后的原因在于,浸没式液冷用液体取代空气进行换热,和风冷技术相比,是革命性的变化,不只是散热方式的变化,涉及到数据中心的整体设计和如何高效利用液冷,怎样才能最大限度释放技术红利,无论是技术还是产业生态都面临非常多的挑战。
“要真正规模化应用液冷技术有诸多问题要解决。比如,不导电的液体有很多种,哪种液体合适长期使用呢?IT设备放到液体中是否能长期稳定的工作?甚至如何运维等,都需要我们长期的测试和研究。”阿里巴巴基础设施事业部资深技术专家钟杨帆在接受采访时表示。
为了让这项技术落地,阿里巴巴做了大量工作。“这其中最大挑战就是这个领域几乎空白,没有标准可以借鉴。”钟杨帆表示。
由于没有任何标准,也就没有生态,市场上就没有能浸没液冷环境下的IT设备出售,包括服务器、网络设备、存储、光模块以及电源等无一不需要阿里巴巴和供应商们一起共同摸索,中间经历很多波折。
“我们踩过的坑希望其他人就不要踩了。”钟杨帆说。如今这些经验都汇集在向社会开源的《浸没式液冷数据中心规范》之中,可供参考和借鉴。该规范涵盖了浸没式液冷数据中心的设计、施工、部署、运维等各个环节,包括机柜接口标准、出线方式、电源标准、冷却液的安全、稳定性、电性能要求等,甚至用于运维的移动吊臂也在其中。参考阿里巴巴的这个规范,通过一体化设计和合理规划,能有效降低部署成本,提升稳定性,从而早日让数据中心走上高效、清洁、集约的绿色发展道路。
“对阿里巴巴来说这是把我们的看家本领开放给业界,我们希望大家一起共建生态,让企业能够更大规模去部署,让整个社会享受到科技普惠的力量,来共同促进绿色数据中心产业壮大,最终实现整个社会的绿色发展。”高山渊表示。
他说,这是阿里巴巴的责任,阿里巴巴有条件、有资源、有责任成为IT创新的担当,向社会分享技术红利。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。