从DC到IDC,再到AIDC,数据中心的演进仿佛一场算力的飞跃。
截至2024年6月,中国在用算力总规模达246EFLOPS(指每秒进行百亿亿次浮点运算的能力),算力应用项目超过1.3万个,在用算力中心机架总规模超过830万标准机架。
其中,智能算力规模在2024年6月底突破76EFLOPS,同比增长65%,中国已建和正在建设的智算中心超250个。预计到2025年,中国算力总规模将超过300EFLOPS,智能算力占比将达到35%。
然而,每一次升级,不仅带来了计算能力和效率的飞速提升,同时也伴随着功耗的剧增。
根据国际能源署数据,2022年,全球数据中心用电总量为460太瓦时(TWh),而到2026年,这个数字将达到1000TWh,是 2022 年的两倍多,相当于“大约相当于日本的电力消耗量”。
中国的情况也不容忽视,预计到2025年,数据中心的电力消耗将接近4000亿千瓦时(KWh),占全国总电力消耗的5%以上。而随着生成式AI的崛起,这一预测可能会提前到来。
最近,中科曙光与曙光数创联合编写发布了《新型绿电融合“风液混冷”智算数据中心解决方案》白皮书,提出了一种创新的“算电融合”+“风液混冷”架构的智算中心解决方案,解决智算中心的散热问题和用电“焦虑”。
“风液混冷”未来数据中心的冷却之道
液冷技术的发展本质上是芯片需要更高效的散热形式,随着功耗不断上升,散热遇到瓶颈后,液冷可能就不再是一道选择题。
2000年到2020年,CPU作为主要算力核心,功率基本保持在150至200瓦之间。但随着2020年AI的逐渐崛起,GPU逐渐成为主流算力单元,功率开始大幅上升,达到450瓦、750瓦,甚至突破1000瓦。
当芯片TDP超过350W时,风冷逼近极限,液冷成为最佳解决方案。然而,目前冷板式液冷数据中心普遍采用两套冷却系统独立部署的形式,无法满足弹性部署,更不用说未来液冷数据中心的能效优化。
能否用一套冷源,来解决整个数据中心的风冷和液冷的所有冷却需求?
这也是一体化“风液混冷”解决方案的优势之处,通过液冷+风冷混合散热形式,即CPU、内存等主要发热部件利用液冷冷板套件进行冷却,其余少部分热量采用风冷形式冷却。
“风液混冷服务器可能会是未来5到10年的一个趋势。“曙光数创副总裁兼CTO张鹏博士说,随着算力需求激增和散热挑战的日益严峻,曙光数创通过持续投入研发,推出了高能效的液冷解决方案,为解决高密度计算带来的散热难题提供了新的途径。
该解决方案结合风冷与液冷系统,共享一次侧管路和室外散热冷源,简化了系统结构,同时实现了风液冷却的弹性调节。通过“风液混冷”模式,不仅降低了建设和运维成本,还能根据不同场景和需求灵活调整冷却方式,从而大幅提升能源利用效率。
自去年发布以来,曙光数创与某互联网企业合作成立了一个示范项目,并且曙光数创已有两个在建项目。
解决方案还提供了风冷系统和液冷系统的弹性调节能力,能够满足现有风冷机房及未来液冷机房的灵活扩容需求。张鹏表示,系统调优本质上是针对服务器以外的能耗进行优化,包括风扇、水泵和空调末端的风机等循环设备,通过灵活调整这些辅助系统,可以实现能效提升。
“源网荷储”数据中心与可再生能源的协同之道
数据中心是“耗能大户”,也是节能降碳的核心发力领域之一,新建数据中心与可再生能源发电的协同布局已成为亟待解决的重要课题。
《数据中心绿色低碳发展专项行动计划》指出,到2025年底,全国数据中心布局更加合理,整体上架率不低于60%,平均电能利用效率降至1.5以下,可再生能源利用率年均增长10%,平均单位算力能效和碳效显著提高。
传统数据中心的电力系统通常由高可靠的电源(电网供应+UPS+柴发)+相对稳定的用电负荷+不可或缺的储能(UPS)组成。
随着能源需求的增加和可再生能源比例的提升,解决方案还引入了“源网荷储”一体化的概念。“源”指电源侧,“网”指电力输送,“荷”指负载,“储”指配储能。通过将能源的生成、电网、电力负荷与储能系统有机整合,旨在实现能源的高效利用并优化供需平衡。
“目前,电网存在像闪断、跌落等问题,数据中心需要配备UPS保证可靠性,‘源网荷储’通过将新能源并入电网,有效补充电力供应,提升系统稳定性。同时由于绿电的引入,降低了整体数据中心的用电成本,推动双碳目标的实现。”曙光数创产品部高级总监黄元峰博士解释称,新能源发电存在随机性和不稳定性挑战,而数据中心“源网荷储”一体化则有效解决了两个关键性问题。
通过源源互补、源网协调、网荷互动、网储互动和源荷互动等多种交互形式,“源网荷储”一体化能够显著提升电力系统的功率动态平衡能力,为智算中心提供经济、高效、安全的能源解决方案。
此外,智能化预测与调度能够大幅减少储能系统的建设规模,合理的分配风电光伏、储能系统、电网之间的电力采用比例,同时决策对本地的算力设备、制冷设备、辅助设备的功率如何调节,实现“源、网、荷、储”的精准匹配。
“随着智算中心建设的加速,电力消耗将不断攀升,PUE和双碳目标的实现面临挑战。“源网荷储”这一高效节能方案,可以有效化解两者之间的矛盾,推动绿色低碳发展的落实。”黄元峰说。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。