众所周知,数据中心需要消耗大量电力,将数据中心连接到能够提供足够电力的能源是当今行业面临的最大挑战之一。
然而,获取充足的电力供应只是成功的一半。同样重要的是确保数据中心可用的能源能够得到充分利用。
当无法充分利用时,数据中心就会受到滞留电力的困扰——这可以说是数据中心设计师和运营商为维持IT基础设施持续扩张而必须克服的最大但却被忽视的挑战之一。
什么是滞留电力
在数据中心中,滞留电力是指设施可用但未使用的能源。换句话说,滞留电力代表总分配电力与实际消耗之间的差距。
例如,假设一个数据中心的电网连接设计为供应100兆瓦的电力。然而,由于运营效率低下,它只使用了80兆瓦。在这种情况下,该数据中心有20兆瓦的滞留电力。
滞留电力的成因
各种情况都可能导致数据中心消耗的电力少于为其配置的电力量。滞留电力的常见原因包括:
空闲IT设备:服务器在空闲时通常消耗较少的能源。因此,如果服务器托管的工作负载大部分时间都不活跃,服务器可能不会消耗分配给它们的所有能源。
IT基础设施规模不足:数据中心包含的服务器可能少于设计支持的数量——要么是因为企业选择不部署数据中心设计师预期的那么多服务器,要么是因为机架设计或布局效率低下等问题限制了设施能够支持的服务器总数。在这两种情况下,结果都是数据中心使用的能源少于分配的数量。
冷却能力有限:如果数据中心没有足够的冷却能力,它能够支持的总基础设施规模和工作负载将受到限制,导致能源可用性超过使用量的情况。
过度配置的备用容量:数据中心设计师通常会提供一定量的备用能源容量,以确保设施在峰值需求期间不会耗尽电力。如果他们设计的余量过高——例如,他们计划比预期数据中心需要的电力多30%——数据中心最终会有大量滞留电力。
为什么滞留电力是个问题
滞留电力对数据中心行业构成挑战,因为现有数据中心中滞留的能源越多,可用于支持数据中心扩张的能源就越少。
这是因为滞留电力不能轻易重新分配给另一个设施。
如果能源提供商承诺向一个数据中心供应100兆瓦的电力,它不能简单地将该容量的未使用部分重新分配给不同的数据中心,因为存在第一个设施在其实际能源使用增加回100兆瓦时会遇到问题的风险。
滞留电力也可能造成经济浪费。它迫使数据中心运营商为他们不需要的能源容量付费。
识别和缓解滞留电力
确定数据中心是否存在滞留电力问题相当简单。运营商可以将流经设施中央电表(假设有的话)的总能源与配置容量进行比较。
然而,挑战在于弄清楚滞留电力的确切原因。来自中央电表的数据在这方面不是很有用,因为它没有显示哪些设备使用了多少电力,也没有解释为什么服务器级或机架级的电力消耗低于预期。
获得这种类型的可见性需要通过个别配电单元(PDU)、分支电路、基板管理控制器(BMC)或其他提供数据中心能源使用精细视图的设备来监控能源使用。有了这些洞察,数据中心运营商可以确定需要进行哪些更改来使能源消耗与可用性保持一致。
因此,对精细电力监控的投资是值得的。这不仅仅是跟踪和优化单个服务器或工作负载的电力消耗。这也关乎避免整个数据中心的滞留电力。
跟踪数据中心的冷却能力也有助于缓解滞留电力问题,特别是在冷却系统的设计容量低于实际输出的数据中心中。
如果服务器机房运行温度高于预期,并且因此限制了服务器总数,这表明提高冷却系统效率——或扩展冷却系统——将有助于解决整体滞留电力问题。
Q&A
Q1:什么是数据中心滞留电力?
A:滞留电力是指数据中心设施可用但未使用的能源,代表总分配电力与实际消耗之间的差距。例如,数据中心电网连接设计为供应100兆瓦电力,但实际只使用80兆瓦,那么就有20兆瓦的滞留电力。
Q2:滞留电力会带来什么问题?
A:滞留电力限制了数据中心的扩张能力,因为这些未使用的能源不能轻易重新分配给其他设施。同时也造成经济浪费,迫使数据中心运营商为不需要的能源容量付费。
Q3:如何识别和解决数据中心滞留电力问题?
A:运营商可以通过比较中央电表的总能源流量与配置容量来识别问题。解决方法包括通过配电单元、分支电路等设备进行精细电力监控,跟踪冷却能力,以及优化服务器利用率和基础设施配置。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。