当前,算力需求推高数据中心规模,在耗电量近乎于IT设备的制冷环节,随着芯片功率的不断提高,风冷散热已经触及天花板,液冷技术成为新型数据中心的重要选择。

我们知道,液冷技术有浸没式液冷和冷板式液冷,而冷板式液冷对现有服务器芯片组件及附属部件改动量较小,可操作性更强,已成为目前成熟度最高、应用最广泛的液冷散热方案。
01 液环式真空CDU杜绝漏液问题
对于液冷系统而言,冷却液泄漏是一个必须重视的技术痛点,要知道冷却液具有导电性,如果出现漏液问题,那后果是不可想象的。
目前,针对漏液问题,业界普遍采用的应对方案是安装漏液检测系统。这种解决方法是采用被动方式,也就是当漏液出现时,我们能感知到,然后采取相应的举措。
当小型泄露发生时,这种处理办法尚为有效,但当出现液柱大口喷射情况时,突发且短时间内扩散可导致系统宕机,漏液检测系统无法规避事故损害。
从第一性原理出发,我们需要追问为什么会出现漏液问题。常规冷板式液冷系统内部为正压,即系统内部流体压力大于外部大气压,这样当系统某处管路发生破裂、松动或冷板腐蚀后,冷却液便会泄漏。

于是负压冷板式液冷技术应运而生,化被动为主动。针对正压液冷技术存在的漏液痛点,负压液冷系统内压强低于外部大气压,因此当管路发生破损时,能够确保冷却液不会泄漏至服务器。
浪潮信息首创的液环式真空CDU是一种液冷系统二次侧均为负压的动力单元,能够实现液冷系统的低风险、高可靠,一方面由于管路内均为负压,因此彻底杜绝了漏液隐患,无需漏液监测设备;另一方面其运用真空泵制造的压差小于1个大气压,因此也降低了对液冷管路、流体连接器耐压性的要求,提升系统可靠性。
02 液环式真空CDU的再创新
液环式真空CDU在解决漏液方面有着立竿见影的效果,但是浪潮信息并没有止步于此,而是在液环式真空CDU基础上进行了多个层面的技术创新,包括对理论设计和实现可行性等进行评估,并进行方案的迭代设计。
负压冷板式液冷技术也并不是一劳永逸,现有负压液冷循环系统必须同时依靠真空泵和水泵来实现液体的循环流动,利用真空泵实现负压,利用水泵实现低压腔室到高压腔室的冷却液流动,需要真空泵和水泵的协同配合,二者缺一不可。
浪潮信息进而设计出一种多腔室切换的负压液冷系统,仅利用真空泵提供动力,让冷却液在系统中“流起来”且“流得稳”。
浪潮信息还将保障系统稳定运行落实在系统设计过程中的方方面面,例如在部件选型方面,采用水环真空泵,真空度高,吸气可少量带液,并选择分离效率高且体积小的气旋式气液分离方案,最大限度解决真泵排气带液问题,减少补液,便于维护。
在开发过程,浪潮信息自研液环式真空CDU进行了适应性设计并已全部实现,例如防凝露、故障定位等。同时,浪潮信息自研液环式真空CDU还攻克了很多涉及到负压可靠性和稳定性的技术难点,包含系统局部汽化、漏气、排气含湿量过大、单真空泵运行可靠性较低等。
针对上述技术难点,浪潮信息进行了液环式真空CDU自研技术创新开发,包含防汽化功能开发、节点侧漏气检测、排气除湿功能开发、泵冗余设计等,已输出7篇专利,其中2篇PCT(国际专利),1篇已国内授权。
03 低流阻冷板设计让负压液冷系统冷却液顺畅流动
当前最常见的冷板类型是铲齿型液冷板,由若干直通道组成,通道尺寸较小、密度较高,散热面积较大,具有较好的散热效果,但同时,该类冷板的流阻相对较大。浪潮信息创新研发了低流阻冷板,流阻更小,且又能较好地维持冷板的散热性能。
冷却液流速越高,换热面积越大,换热性能越好,但与此同时,流阻也随流速的增大而增大。低流阻冷板设计的关键在于平衡流动性能和换热性能之间的矛盾。
对此,浪潮信息把握两条设计原则:(1)通过增大通道尺寸的方式,降低流阻,并设计特殊通道结构,通过扰流的方式来提高换热效率;(2)采用精准散热策略,在散热重点区域强化散热,非重点区域降低流阻。
通过仿真分析研究,浪潮信息对比了多种技术路线,最终优选出疏密疏通道、减翅增肋这两种低流阻冷板设计方案。与直通道相比,采用疏密疏通道以及减翅增肋方案均可将温差控制在大约1℃以内,且均可有效降低冷板的流阻。
使用低流阻冷板不仅可以为冷却液流动提供更充足的动力,还可以使CDU距离末端冷板的距离由最大15m延伸到20m,更方便部署,作用于更多机柜,大幅提高CDU利用率。
04 结语
常规CDU分为机架式CDU和机柜式CDU,分别面向小规模的液冷数据中心和中大型的液冷数据中心。
目前浪潮信息液环式真空CDU是机架级别,未来还会推出机柜级别的液环式真空CDU,以适配特大型、中大型的或者微模块级别的冷板液冷数据中心。
在冷板设计与制造工艺方面,浪潮信息也在持续创新探索。例如,针对流量控制,传统的液冷方案是将总流量平均分配给每一台服务器,但是在实际情况中,服务器的功耗负载是不一样,负载大,芯片发热量比较大,则需要更大的流量。如何进行流量分配是一个比较大的技术难题,对此浪潮信息通过研究精准的能耗管理技术,根据负载情况合理进行流量分配,达到最节能的设计效果。
未来,浪潮信息将继续践行“All in 液冷”战略,坚持液冷技术创新,依托其在绿色数据中心领域强大的研发储备、丰富的产品体系、出色的液冷智造供应与交付能力以及构建完善生态的格局,引领产业实践,推动数据中心产业转型升级,助力企业绿色高质量发展。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。