AI算力“热潮”下,尼得科在液冷赛道的“新坐标” 原创

当液冷还只是少数高密度场景的选择时,人们更关注冷板、换热器和散热能力本身。而随着液冷逐渐走向规模化部署,系统可靠性、长期运行能力以及运维效率开始变得越来越重要。

过去两年,如果要找一个在黄仁勋演讲中出现频率越来越高的词,除了GPU,大概就是基础设施。

从AI Factory到GB300,再到下一代AI集群,NVIDIA不断描绘着同一个趋势:算力规模仍在持续扩大。而每一次算力密度提升的背后,都伴随着另一个数字同步增长——功耗。当单机柜功耗向百千瓦迈进,散热开始从数据中心后台的工程问题,变成影响算力部署规模的重要变量。

液冷因此走到了产业舞台中央。

围绕液冷展开的新投资、新项目和新技术不断涌现,服务器厂商、数据中心运营商、暖通企业和设备供应商都在重新寻找自己的位置。

尼得科也是其中之一。

不过,与许多从制冷或热管理领域切入液冷的企业不同,这家以电机起家的制造企业看到的,是另一条技术路径。

“我们是以电机起家的企业,泵技术才是液冷的重要基础之一。”在上海IDCExpo期间,尼得科株式会社小型马达事业本部本部长,AI & IT事业部 部长,商品开发第二统括部部长 田中裕司这样解释道。AI算力“热潮”下,尼得科在液冷赛道的“新坐标”

尼得科株式会社小型马达事业本部本部长

AI & IT事业部 部长商品开发第二统括部部长  田中裕司

这句话背后,其实对应着AI基础设施建设正在发生的变化。

过去,当液冷还只是少数高密度场景的选择时,人们更关注冷板、换热器和散热能力本身。而随着液冷逐渐走向规模化部署,系统可靠性、长期运行能力以及运维效率开始变得越来越重要。

对于拥有数千块GPU的AI集群来说,把热量带走只是第一步。真正的挑战在于,如何让整个液冷系统在长期运行过程中始终保持稳定的流量、压力和冷却效率。

这恰恰是泵发挥作用的地方,也是尼得科最见长的领域。更是尼得科看待液冷市场的出发点。

对于一家长期从事电机和泵产品研发制造的企业来说,AI基础设施带来的液冷需求,并非全新的技术命题,而是原有能力在新应用场景下的一次释放。

01 入局液冷赛道,尼得科的“两张底牌”

对于尼得科而言,液冷并非“从零开始”的跨界。电机、泵、精密制造,以及长达20余年的服务器散热领域经验,这些能力早已存在。随着AI基础设施全面进入液冷时代,这些能力在同一场景下汇聚,而汇聚的第一个载体,正是CDU(冷量分配单元)。

尼得科的第一张牌,是把“车规级”泵,放进数据中心。CDU的核心部件是泵,而泵的本质又离不开马达,这恰好是尼得科最擅长的领域。

田中裕司透露,尼得科CDU中的核心泵体,沿用了车载零部件领域积累的车规级泵技术

这背后的逻辑在于,汽车长期面对震动、高低温变化以及持续运行等复杂工况,对零部件可靠性和寿命的要求往往高于恒温恒湿的数据中心环境。换句话说,把原本为汽车场景设计的产品应用到机房,本身就是一种“能力降维”,经历过更严苛考验的系统,在相对稳定的环境中往往能够获得更大的可靠性余量。

基于这一思路,尼得科将车规级无密封泵引入CDU,并结合自主开发的电机驱动与泵控技术,构建起液冷系统最核心的循环能力。相比单纯采购标准水泵再进行系统集成,这种方案的优势在于,泵体、驱动和控制系统从底层开始协同设计,能够在长期运行中保持更稳定的流量控制和更高的系统可靠性。

而这种底层可靠性,最终会体现在整个液冷系统的设计余量上。

以第二代In-Rack CDU为例,其4U机型最高可提供250kW散热能力,单台设备即可覆盖一整套NVIDIA HGX B300系统,而GB300机柜实际冷却需求也只有约144kW。也就是说,在满足当前需求之外,系统仍保留了相当可观的散热空间,以应对未来硬件升级、负载波动,以及长期运行过程中可能出现的性能衰减。

AI算力“热潮”下,尼得科在液冷赛道的“新坐标”

同样的高可用设计理念也体现在系统架构层面。尼得科在泵体、电源和控制板等关键部件上均采用冗余设计,并支持热插拔维护,从而在产品架构设计阶段就实现了“不停机维护”的目标。

从车规级泵技术到系统级冗余设计,尼得科将汽车产业积累数十年的可靠性工程经验,迁移到AI数据中心液冷基础设施之中。

第二张牌把精密制造经验搬进液冷系统泵是液冷的心脏,决定系统能否运转;而快接头则是命门,它直接决定了机柜里动辄数千万的GPU算力资产,会不会毁于渗液风险。

其实,液冷大规模部署的除了是散热瓶颈,还有漏液风险。在这一环节,工程容错率趋近于零,一旦快接头出现问题,冷却链路瘫痪,会将导致底层AI服务器直接烧毁。

尼得科的解法是,利用自己最核心的硬盘马达经验。作为精密制造的“金字塔尖”,硬盘主轴马达对微米级加工、极限密封与洁净度有着严苛要求。尼得科将这套沉淀了数十年的重资产体系平移,Class 100级无尘车间、油压密封工艺、高精度数控机床,被悉数导入快接头的产线。

结果上,数据也构成了有力的回应。目前,尼得科UQD和MQD系列快接头累计出货超 75 万对,至今保持零漏液。

在生产上,为了让零漏液的加工精度不出现任何批次误差,尼得科选择直接收购日本老牌机床企业泷泽(TAKISAWA)。用自己的车床加工,才敢保证零泄漏。”田中裕司表达了尼得科的战略思路。与其满世界采购通用设备去死磕良率,不如直接把微米级加工的标尺牢牢捏在自己手里。

当车规级电机的底座、硬盘产业的精密加工,与自研机床托底的品控体系形成闭环时,一条高壁垒的护城河就此成型。

AI算力“热潮”下,尼得科在液冷赛道的“新坐标”

02 可堆叠CDU破解制冷“两难”

理解了这些技术积累,再看尼得科首秀的重磅产品:STC 1.0样机,不觉顺理成章。

在液冷领域,数据中心运营商长期面对两难的局面。一方面,AI芯片迭代太快,今天部署200kW的CDU,明年新一代GPU上架后制冷能力可能就开始吃紧。可是,如果一步到位上1MW级别设备,又容易出现过度配置情况。

STC 1.0解决的正是这个问题。

STC 1.0给出的思路是把CDU做成可堆叠的模块化架构。这款CDU符合OCP标准、最多支持5层堆叠的In-Rack CDU。用户可以先部署单层模块满足当前需求,随着算力规模增长,再逐步增加新的制冷单元。

AI算力“热潮”下,尼得科在液冷赛道的“新坐标”

“我们的设计允许客户按热负荷灵活扩展。”田中裕司解释。初期只需运行1层200kW模块,未来算力扩大,再通过热插拔方式增加第2层、第3层,最高可堆叠至5层,实现1MW冷却能力。通过定制机架规范,甚至能够扩展至8层、1.6MW。

每层单元结构独立,单层故障可单独隔离而不影响其他模块;趋近温度做到4℃,适配OCP ORV3标准机架,系统运行期间即可完成CDU单元更换。对于运营商来说,这意味着扩容和维护都不必再以停机为代价。

事实上,STC 1.0是尼得科In-Rack路线持续演进后的成果。

往前回看整条产品线,节奏其实非常清晰。EIA规格的Gen 1.0(200kW,对应NVIDIA HGX B200)、Gen 2.0(250kW,对应B300);OCP规格的Gen 2.5(250kW/160LPM,对应GB300 NVL72,支持51VDC母线输入、兼容NVIDIA MGX);再到Gen 3.0(300kW/280LPM,适配OCP ORV3,支持最新GPU平台);最终发展到可堆叠扩展至1MW的STC 1.0。

AI算力“热潮”下,尼得科在液冷赛道的“新坐标”

一代接一代产品升级,对应的是GPU功耗不断上升后,液冷系统在制冷能力和流量上的持续提升。

而当机架功率继续向上时,仅靠In-Rack已经无法覆盖所有场景,于是尼得科又把能力延伸到了In-Row产品。

尼得科NIR 2.5和Project Deschutes 5,都属于2MW级列间CDU。前者达到2MW/2250LPM,后者达到2MW/1890LPM,并已经通过Google认证。换算到实际部署场景,一台设备就足以支撑10台NVIDIA NVL72机柜,或者6台下一代超高密度Vera Rubin,NVL72机柜的散热需求。

AI算力“热潮”下,尼得科在液冷赛道的“新坐标”

AI算力“热潮”下,尼得科在液冷赛道的“新坐标”

某种程度上说,这一台CDU已经能够承担起一个小型AI算力集群的冷却任务。

除了功率规模,两款产品在运维设计上也延续了尼得科一贯的思路。

NIR2.5机身高度1.9米,占地面积相对紧凑,可适配集装箱数据中心部署,最多支持10台CDU集群联控,无密封结构泵体支持运行过程中完成滤网清洁和核心部件热插拔。

Project Deschutes 5则进一步强化了系统稳定性。该产品配备符合IEEE 519标准的ULHD(超低谐波失真)VFD,用于保障供电质量,同时通过0.2μm旁路过滤系统持续维持冷却液洁净度。

03从“陪出海”到押注中国液冷市场

田中裕司展示的一张全球售后体系地图,透露出了尼得科在全球市场的现状。地图中,蓝色代表已经投入运营的服务网点,绿色代表规划建设中的网点。中国区域目前仍显示为绿色。

AI算力“热潮”下,尼得科在液冷赛道的“新坐标”

这并不意味着尼得科缺席中国市场。

事实上,尼得科已经与不少中国互联网企业和服务器厂商建立合作。只是现阶段,这些合作更多发生在数据中心的出海项目中。甚至,尼得科很早就参与了中国企业的出海进程。

对于液冷行业而言,这样的路径并不难理解。

数据中心客户采购的除了设备本身,还包括备件供应、故障响应、现场维护,以及长期运维能力。相比已经建立起成熟服务体系的海外市场,中国本土服务网络的建设显然还有不少工作要完成。

不过,服务体系仍在建设,并不意味着尼得科在中国缺乏基础。

依托原有小型马达业务积累下来的制造能力,尼得科已经在中国建立了1个技术开发中心(大连技术开发中心)和 3个制造基地(尼得科电机浙江、尼得科电机韶关、尼得科电机东莞)

相比服务网络,更值得关注的是尼得科对中国算力市场变化的判断。

过去几年,全球液冷产业的发展路径,很大程度上是围绕NVIDIA GPU演进展开的。从H100到B200,再到GB300,服务器架构和散热需求虽然持续变化,但整体技术路线相对一致。

“而中国市场是另一种情况。”田中裕司如是说

随着国产GPU逐步进入训练和推理场景,越来越多本土厂商开始探索新的集群架构。而面对机柜内部的管路设计、流量分配、压力控制,以及热点管理的变化,对液冷系统也提出了不同要求。

按照田中裕司的介绍,高密度冷板设计和±1℃级别的精准控温能力,都是围绕高密度GPU集群开发的。当一个节点里堆叠的GPU越来越多,其挑战便不只是产生了多少热量,而是如何让冷却液均匀流经每一个节点,把热量稳定带走。

对于数据中心运营商来说,散热能力是第一道门槛,运行成本同样重要。

田中裕司提到,过去数据中心的一、二次侧热循环大量依赖冷水机组,虽然能够提供稳定制冷能力,但能耗并不低。随着液冷逐步普及,越来越多数据中心开始尝试引入干冷却器等自然冷却方案,希望进一步降低能源消耗。

但自然冷却并不只是把冷水机组换掉这么简单。

当外部环境变化更大、系统调节空间变小时,CDU对于流量控制和温度控制的要求反而会进一步提高。换句话说,越想降低能耗,越考验液冷系统本身的稳定性。

按照尼得科提供的数据,传统风冷数据中心的PUE通常在1.6至2.0之间,而液冷方案已经能够做到1.1至1.2,整体能耗降幅约为40%。

当AI数据中心开始以数十兆瓦甚至上百兆瓦的规模部署时,PUE每下降0.1,最终都会体现在运营成本上。

除了降低能耗,尼得科也在尝试解决液冷落地过程中的另一个现实问题:客户如何验证效果。

田中裕司分享了已经在日本落地的合作模式。具体来说,项目由尼得科提供CDU和液冷基础设施,联想日本提供服务器平台,第三方数据中心运营商MC Digital提供真实机房环境。客户可以直接在实际运行的数据中心里观察服务器与液冷系统协同工作的状态,并不仅仅依赖实验室测试数据。

对于仍处于快速发展阶段的液冷市场来说,这样的验证往往比参数表更有说服力。

按照尼得科的规划,类似合作未来也将逐步扩展至中国及其他地区。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2026

06/10

12:56

分享

点赞

邮件订阅