戴尔科技持续“以科技创新推动人类进步”的过程中,亦有障碍拖慢新的解决方案的应用。在数据中心层面,人工智能(AI)工作负载便是其中的最典型代表。AI和其他高要求的工作负载须使用最新的GPU和CPU来提供所需的应用性能,这意味着在部署规划过程中散热和功耗问题时常出现。为解决这些问题,戴尔科技的服务器散热工程团队多年如一,坚持提供以客户为中心的戴尔科技智能冷却(Dell Smart Cooling)创新解决方案,曾于2016年推出早期液冷服务器产品Triton。到2024年,戴尔科技提供的服务器冷却解决方案包括Verne Global正在使用的Dell DLC3000直接液冷机架、单机架功率高达115千瓦的戴尔科技模块化数据中心等。
当前的冷却选择
最新的CPU和GPU对冷却技术提出了新的要求,戴尔科技的PowerEdge产品组合支持不同的冷却方式。传统风冷在应对最新高功率服务器每个机架所产生的热量时颇显吃力,客户也正寻求以更加可持续且低功耗的方式运营数据中心。因此,如今的数据中心冷却方式和策略应能满足客户日益增长的多种冷却需求。
在构建数据中心冷却环境时最常用的技术包含以下几种:
每种冷却技术支持的机架热密度和效率不同,为客户提供了多样的冷却方案匹配实际需求。这些解决方案的部署位置从单机架到多通道不等。结合行或机架封闭结构,行内冷却器可100%捕获机架上IT设备所产生的热量。如此一来,数据大厅内的空调部署就只需照顾到工作人员即可。RDHx同样也能捕获IT设备所产生的全部热量,用于机架上的设施水,并同时调节空间内的空气。由于这种空调式的功能,RDHx中设施水的水温必须比使用行内冷却器时更低,前者最高约为20℃,而后者最高可达32℃。采取较高的设施水温,能够降低冷却器的运行能耗,这一点虽然可喜,但冷却方案的整体效率并不止于此。
通过将这些热量捕获率可达100%的技术与DLC相结合,IT设备冷却所需的风扇功率得以降低,进一步提高了效率。
客户需求与戴尔科技建议的冷却解决方案
服务器冷却效率
不同的解决方案和方式在冷却过程中所消耗的功率也不同。下图显示了在冷却典型的双CPU服务器机架时不同冷却方式的年能耗,分别包含了每种冷却方式的IT能耗和冷却能耗。IT能耗即包含内部风扇在内的服务器内部能耗总和;冷却能耗则代表服务器外部的冷却装置(如冷却剂分配单元,CDU和机房空气处理器,CRAH)和数据中心外部的风冷冷却器的能耗。
不同冷却方式的能耗
柱状图中第一根柱图表示的是典型数据中心的能耗情况,这种数据中心使用安装在数据大厅四周的空气处理器将空气吹向服务器。接下来,通过采用DLC来冷却每台服务器的CPU,可比仅使用周边空气处理器进行空气冷却节省约11%的总能耗。而如果用部署于每个机架上的RDHx取代周边冷却,则每年可减少16%的能耗,在此基础上再增加DLC可进一步减少2%的能耗。如上所述,如果将IT部署在带有行内冷却器的封闭式机柜内,则可使用温度较高的水,这也使得其能耗较周边空气处理器减少19%。最后,通过将封闭式冷却与DLC相结合,相较传统冷却机架可降低23%的能耗。
戴尔科技解决方案的优势
市场上有许多可供选择的冷却方式。例如一些厂商选择在其他内部服务器组件(如内存、网络接口、存储等)上使用直接液冷,让DLC解决方案触及服务器内部的几乎所有发热组件。通常情况下,这类解决方案需要定制化的铜制冷板并在服务器内部铺设额外的管道,使所有组件都与液体接触。在戴尔科技,昂贵且复杂的铜冷板冷却方式绝非最佳解决之道,将液体冷却和空气冷却同时加入到混合式服务器冷却解决方案中则可以给企业带来诸多优势:
戴尔科技的混合式冷却方式复杂性较低,能够在出现新的和不同的处理器和服务器平台时更加灵活迅速地为其提供冷却。
戴尔科技的内部模型分析表明,如果低水温解决方案的设计合理且管理完善,那么“风冷+DLC”混合冷却部署方式的冷却能耗仅比其他一些厂商使用的“全冷板冷却方式”高出3%-4%,并能够带来上述优势¹。
充分利用新一代智能冷却技术
戴尔科技延续其开放灵活的冷却策略,为客户提供具有多种选择,而非“一刀切”的冷却方式。目前,这些先进的数据中心冷却方式正在从高性能计算集群向主流部署发展,为支持AI和其他高强度工作负载的下一代顶尖性能服务器提供助力。戴尔科技的智能冷却解决方案已帮助许多PowerEdge客户提高了服务器的整体冷却能力、能效和可持续性。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。