冷却数据中心似乎很简单。你安装了传统的HVAC设备,把空气吹过数据中心,然后就到此为止了,对吗?
嗯,不一定。数据中心冷却是一个复杂的话题,很容易犯错,会降低冷却系统的效率和有效性。
考虑到这一事实,我们来看看以下几个数据中心冷却过程中常见的错误,以及如何避免这些错误的技巧。
1、只考虑风冷
空气冷却是指在数据中心内循环空气以散发服务器和其他设备的热量,这是冷却数据中心的一种传统方法,也是最简单的方法,就前期成本而言是最便宜的方法,因为空气循环设备的安装相对便宜。
但你还应该考虑空气冷却的另一种选择:液体冷却,也就是使用液体进行散热。事实上,液体冷却在帮助数据中心设备散热方面的效率,要比空气冷却高10倍,缺点是液体冷却系统的安装成本要高得多,维护起来也更复杂。
因此,在确定液体冷却是否适合你的时候,需要考虑预算、数据中心硬件产生的热量、以及消散热量的速度。
关键是,认为空气冷却是唯一可用的解决方案,这种想法本身是错误的。在规划如何冷却数据中心时,也请务必考虑液体冷却系统。
2、每个机架放置了过多的服务器
如果使用空气冷却,空气在服务器机架内循环的能力对于有效散热来说,将是至关重要的。每个机架中如果塞入太多的服务器,则有可能阻碍空气的流通。
因此,请考虑如果每个机架装满了会给冷却带来怎样的影响。尽管你想确保不会浪费太多机架空间,但保留一些开放空间(特别是分布在机架中的开放空间)有助于防止可能使空气难以流动的问题,85%或者90%的机架空间利用率是一个比较合理的目标。
3、机架放置不理想
数据中心地板上服务器机架的布置,也会在很大程度上影响空气冷却的效率。有多种方法可以优化机架布局以实现冷却目的,哪种方法最适合你,取决于数据中心设施可以容纳气流的程度。
优化冷却效率的传统策略称为热通道/冷通道。在这种方法下,服务器机架的前部彼此相对,以便从服务器机架后部排出的热空气消散到机架之间的过道中。
如果热空气被简单地吸收到整个数据中心设施中,那么热通道/冷通道通常是最好的冷却方法,但如果你在设施中内置了空气遏制系统,则可以让服务器的背面彼此相对,并将热空气引导到封闭的空间,然后在那里消散。
这里的要点是,你必须考虑整个数据中心设施的设计,以确定如何放置机架。如果你有宽敞的开放空间,热通道/冷通道机架布局是管理冷却的最佳方式,但更先进的数据中心提供了空气遏制方法,为热通道/冷通道布置提供了更有效的替代方案。
4、缺乏散热数据
你在设计冷却系统时期望的性能,可能与实际性能是不一致的。但除非你持续追踪冷却性能,否则你是不会了解这一点的。
这就是为什么监控整个数据中心的温度很重要。通过从设施内的多个位置收集温度数据,你可以知道散热瓶颈在哪——例如,如果服务器机架内空间的收缩导致热空气聚集在不应聚集的地方,则可能会发生这种情况。温度监控还有助于识别设备故障(如风扇损坏)导致冷却效率低下的情况。
5、忘记了屋顶
数据中心的屋顶可能看起来不是数据中心冷却的重要考虑因素,但事实确实如此。屋顶的颜色和材料会影响冷却效率,尤其是在室外温度和阳光照射较高的地区。
出于冷却目的而优化屋顶,并不像优化服务器机架布局等措施那么重要,但在规划冷却策略时,屋顶仍然应该被列入你要考虑的项目清单之中。
结论
数据中心冷却比通常看起来的要复杂。为了正确实施,你必须考虑多种因素,例如使用哪种类型的冷却系统、如何在数据中心内布置设备、以及如何收集有关冷却性能的数据。简单地吹空气来冷却设备可能就能冷却,但这可能并不是最具成本效益、或者最具能源效率的方式。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。