冷却数据中心似乎很简单。你安装了传统的HVAC设备,把空气吹过数据中心,然后就到此为止了,对吗?
嗯,不一定。数据中心冷却是一个复杂的话题,很容易犯错,会降低冷却系统的效率和有效性。
考虑到这一事实,我们来看看以下几个数据中心冷却过程中常见的错误,以及如何避免这些错误的技巧。
1、只考虑风冷
空气冷却是指在数据中心内循环空气以散发服务器和其他设备的热量,这是冷却数据中心的一种传统方法,也是最简单的方法,就前期成本而言是最便宜的方法,因为空气循环设备的安装相对便宜。
但你还应该考虑空气冷却的另一种选择:液体冷却,也就是使用液体进行散热。事实上,液体冷却在帮助数据中心设备散热方面的效率,要比空气冷却高10倍,缺点是液体冷却系统的安装成本要高得多,维护起来也更复杂。
因此,在确定液体冷却是否适合你的时候,需要考虑预算、数据中心硬件产生的热量、以及消散热量的速度。
关键是,认为空气冷却是唯一可用的解决方案,这种想法本身是错误的。在规划如何冷却数据中心时,也请务必考虑液体冷却系统。
2、每个机架放置了过多的服务器
如果使用空气冷却,空气在服务器机架内循环的能力对于有效散热来说,将是至关重要的。每个机架中如果塞入太多的服务器,则有可能阻碍空气的流通。
因此,请考虑如果每个机架装满了会给冷却带来怎样的影响。尽管你想确保不会浪费太多机架空间,但保留一些开放空间(特别是分布在机架中的开放空间)有助于防止可能使空气难以流动的问题,85%或者90%的机架空间利用率是一个比较合理的目标。
3、机架放置不理想
数据中心地板上服务器机架的布置,也会在很大程度上影响空气冷却的效率。有多种方法可以优化机架布局以实现冷却目的,哪种方法最适合你,取决于数据中心设施可以容纳气流的程度。
优化冷却效率的传统策略称为热通道/冷通道。在这种方法下,服务器机架的前部彼此相对,以便从服务器机架后部排出的热空气消散到机架之间的过道中。
如果热空气被简单地吸收到整个数据中心设施中,那么热通道/冷通道通常是最好的冷却方法,但如果你在设施中内置了空气遏制系统,则可以让服务器的背面彼此相对,并将热空气引导到封闭的空间,然后在那里消散。
这里的要点是,你必须考虑整个数据中心设施的设计,以确定如何放置机架。如果你有宽敞的开放空间,热通道/冷通道机架布局是管理冷却的最佳方式,但更先进的数据中心提供了空气遏制方法,为热通道/冷通道布置提供了更有效的替代方案。
4、缺乏散热数据
你在设计冷却系统时期望的性能,可能与实际性能是不一致的。但除非你持续追踪冷却性能,否则你是不会了解这一点的。
这就是为什么监控整个数据中心的温度很重要。通过从设施内的多个位置收集温度数据,你可以知道散热瓶颈在哪——例如,如果服务器机架内空间的收缩导致热空气聚集在不应聚集的地方,则可能会发生这种情况。温度监控还有助于识别设备故障(如风扇损坏)导致冷却效率低下的情况。
5、忘记了屋顶
数据中心的屋顶可能看起来不是数据中心冷却的重要考虑因素,但事实确实如此。屋顶的颜色和材料会影响冷却效率,尤其是在室外温度和阳光照射较高的地区。
出于冷却目的而优化屋顶,并不像优化服务器机架布局等措施那么重要,但在规划冷却策略时,屋顶仍然应该被列入你要考虑的项目清单之中。
结论
数据中心冷却比通常看起来的要复杂。为了正确实施,你必须考虑多种因素,例如使用哪种类型的冷却系统、如何在数据中心内布置设备、以及如何收集有关冷却性能的数据。简单地吹空气来冷却设备可能就能冷却,但这可能并不是最具成本效益、或者最具能源效率的方式。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。