传统数据中心设计已经发生根本性变化,以满足AI数据中心不断增长的电力需求。AI还带来了传统基础设施无法处理的电气挑战。其中一个问题已被确定为建设时间表和满足公用事业/现场发电要求的主要风险:AI训练负载极不稳定的功耗。现有解决方案,包括基于电池或飞轮的UPS系统以及其他频率稳定技术,可能并不总是能提供充分解决这些问题所需的速度或灵活性。为了弥合这一差距,EPC Power开发了一种创新的敏捷电网成形方法,专门针对AI设施快速变化的需求而设计。
管理极端负载变化
现代AI训练集群产生的功率特征比传统计算负载波动更加剧烈。高密度GPU服务器可以在毫秒内改变其功耗水平,造成不稳定性,这种不稳定性会传播到配电系统并影响周围电网。这些快速功率波动不仅会降低电能质量,还可能对现场发电资源(如燃气轮机和往复式发动机)造成有害的机械应力。
这些功率波动可以在多个点得到缓解。机架级缓冲(通常基于超级电容器)可以吸收最快的波动,但可能成本昂贵并占用宝贵的数据大厅空间。由于这些技术只覆盖极短的持续时间,通常需要额外的储能来将剩余的波动性降低到发电设备和公用事业标准可接受的水平。这种短持续时间的限制对于其他技术,如飞轮、UPS或其他电压/频率稳定系统,也是一个挑战。
在考虑较长持续时间的解决方案时,电池储能系统(BESS)可以集成到3MW块到100MW+系统中,提供数据中心所需的可扩展性。更先进的电网成形BESS能够在毫秒内对负载变化引起的电压和频率偏差做出响应。传统电网成形BESS的挑战在于其有效性很大程度上取决于电网强度和其他可能承担部分负载瞬态的现场发电资源。在最好的情况下,它们可能只缓解部分干扰,留下显著的波动性未得到解决。
为了更快上线,几个数据中心站点在最初几年将仅由现场发电供电,然后在设施生命周期的其余时间过渡到电网互连。部署用于缓解AI负载斜坡的任何解决方案都需要在两种情况下都有效。
EPC Power的敏捷电网成形技术代表了这些系统更具响应性的演进。它保留了毫秒级电网成形响应的优势,而不仅仅依赖电压和频率偏差来调节其功率输出以抵消数据中心电力互连处的波动。它设计用于平滑比传统电网成形控制更大部分的负载,但无论数据中心是由现场发电机供电还是连接到强大的公用电网,都能够工作。
为AI时代准备基础设施
随着AI增长将电力系统推向未知领域,行业需要能够快速反应、提供强大电网支持并集成到现场发电和公用电网网络中的解决方案。EPC Power的敏捷电网成形BESS通过提供精确的负载平滑和干扰穿越能力,为前进道路提供了一条路径,这些能力超越了许多传统方法所能提供的。随着数据中心项目应对大型数字基础设施不断变化的要求,像这样的技术将在实现下一代AI驱动的数据中心方面发挥关键作用。
Q&A
Q1:敏捷电网成形BESS与传统电池储能系统有什么区别?
A:敏捷电网成形BESS不仅依赖电压和频率偏差来调节功率输出,而是能够主动响应负载变化。它可以平滑更大部分的负载波动,无论数据中心是由现场发电机供电还是连接到公用电网,都能有效工作,响应速度达到毫秒级别。
Q2:为什么AI数据中心需要特殊的电力管理解决方案?
A:AI训练集群中的高密度GPU服务器功耗变化极其剧烈,可以在毫秒内大幅改变功耗水平,这种快速功率波动会传播到配电系统和电网中,不仅降低电能质量,还可能对现场发电设备造成机械应力,传统的UPS和频率稳定技术无法充分解决这些问题。
Q3:机架级缓冲技术有什么局限性?
A:机架级缓冲通常基于超级电容器,虽然能够吸收最快的功率波动,但存在成本昂贵和占用宝贵数据大厅空间的问题。更重要的是,这些技术只能覆盖极短的持续时间,无法解决较长时间的负载变化,因此通常需要配合其他储能技术使用。
好文章,需要你的鼓励
前FBI网络安全部门副助理局长、现Halcyon勒索软件研究中心高级副总裁辛西娅·凯泽指出,勒索软件已成为当今最大网络威胁。研究发现,与伊朗政府相关的Pay2Key组织仅用3小时即完成加密攻击,而Akira组织从入侵到加密全程不超过4小时。更值得警惕的是,借助AI工具的"业余黑客"正大幅提升攻击频率,尽管技术粗糙,但海量低质攻击可能掩盖更隐蔽的高级威胁,给企业安全防御带来严峻挑战。
Alaya Studio联合多所顶级大学开发的"生成式世界渲染器"实现了虚拟游戏画面与真实视频间的双向转换。该系统通过从《赛博朋克2077》和《黑神话:悟空》收集400万帧高质量数据,训练AI理解材质、光照等视觉要素。创新的ReShade数据采集技术和VLM评估方法解决了传统合成数据的局限性,在材质识别和场景编辑方面取得突破性进展,为游戏开发、影视制作和创意设计提供了强大工具。
Nvidia收购Slurm工作负载管理器开发商SchedMD后,业界担忧这家芯片巨头可能借此优待自家硬件,削弱AMD、Intel等竞争对手的性能表现。Slurm运行于全球约60%的超级计算机上,Meta、Mistral、Anthropic等公司均在使用。分析师指出,尽管Nvidia承诺保持开源中立,但其对开发路线图的掌控仍构成"战略依赖风险"。专家建议企业多元化采购GPU,并在合同中争取硬件平等支持条款。
北京大学等机构联合发布DataFlex框架,这是首个统一的数据中心化动态训练系统。该框架让AI训练从"填鸭式学习"升级为"智能化学习",通过动态数据选择、配比调整和权重分配,显著提升模型性能和训练效率,同时保持与现有训练流程的完全兼容性。