从DC到IDC,再到AIDC,数据中心的演进仿佛一场算力的飞跃。
截至2024年6月,中国在用算力总规模达246EFLOPS(指每秒进行百亿亿次浮点运算的能力),算力应用项目超过1.3万个,在用算力中心机架总规模超过830万标准机架。
其中,智能算力规模在2024年6月底突破76EFLOPS,同比增长65%,中国已建和正在建设的智算中心超250个。预计到2025年,中国算力总规模将超过300EFLOPS,智能算力占比将达到35%。
然而,每一次升级,不仅带来了计算能力和效率的飞速提升,同时也伴随着功耗的剧增。
根据国际能源署数据,2022年,全球数据中心用电总量为460太瓦时(TWh),而到2026年,这个数字将达到1000TWh,是 2022 年的两倍多,相当于“大约相当于日本的电力消耗量”。
中国的情况也不容忽视,预计到2025年,数据中心的电力消耗将接近4000亿千瓦时(KWh),占全国总电力消耗的5%以上。而随着生成式AI的崛起,这一预测可能会提前到来。
最近,中科曙光与曙光数创联合编写发布了《新型绿电融合“风液混冷”智算数据中心解决方案》白皮书,提出了一种创新的“算电融合”+“风液混冷”架构的智算中心解决方案,解决智算中心的散热问题和用电“焦虑”。
“风液混冷”未来数据中心的冷却之道
液冷技术的发展本质上是芯片需要更高效的散热形式,随着功耗不断上升,散热遇到瓶颈后,液冷可能就不再是一道选择题。
2000年到2020年,CPU作为主要算力核心,功率基本保持在150至200瓦之间。但随着2020年AI的逐渐崛起,GPU逐渐成为主流算力单元,功率开始大幅上升,达到450瓦、750瓦,甚至突破1000瓦。
当芯片TDP超过350W时,风冷逼近极限,液冷成为最佳解决方案。然而,目前冷板式液冷数据中心普遍采用两套冷却系统独立部署的形式,无法满足弹性部署,更不用说未来液冷数据中心的能效优化。
能否用一套冷源,来解决整个数据中心的风冷和液冷的所有冷却需求?
这也是一体化“风液混冷”解决方案的优势之处,通过液冷+风冷混合散热形式,即CPU、内存等主要发热部件利用液冷冷板套件进行冷却,其余少部分热量采用风冷形式冷却。
“风液混冷服务器可能会是未来5到10年的一个趋势。“曙光数创副总裁兼CTO张鹏博士说,随着算力需求激增和散热挑战的日益严峻,曙光数创通过持续投入研发,推出了高能效的液冷解决方案,为解决高密度计算带来的散热难题提供了新的途径。
该解决方案结合风冷与液冷系统,共享一次侧管路和室外散热冷源,简化了系统结构,同时实现了风液冷却的弹性调节。通过“风液混冷”模式,不仅降低了建设和运维成本,还能根据不同场景和需求灵活调整冷却方式,从而大幅提升能源利用效率。
自去年发布以来,曙光数创与某互联网企业合作成立了一个示范项目,并且曙光数创已有两个在建项目。
解决方案还提供了风冷系统和液冷系统的弹性调节能力,能够满足现有风冷机房及未来液冷机房的灵活扩容需求。张鹏表示,系统调优本质上是针对服务器以外的能耗进行优化,包括风扇、水泵和空调末端的风机等循环设备,通过灵活调整这些辅助系统,可以实现能效提升。
“源网荷储”数据中心与可再生能源的协同之道
数据中心是“耗能大户”,也是节能降碳的核心发力领域之一,新建数据中心与可再生能源发电的协同布局已成为亟待解决的重要课题。
《数据中心绿色低碳发展专项行动计划》指出,到2025年底,全国数据中心布局更加合理,整体上架率不低于60%,平均电能利用效率降至1.5以下,可再生能源利用率年均增长10%,平均单位算力能效和碳效显著提高。
传统数据中心的电力系统通常由高可靠的电源(电网供应+UPS+柴发)+相对稳定的用电负荷+不可或缺的储能(UPS)组成。
随着能源需求的增加和可再生能源比例的提升,解决方案还引入了“源网荷储”一体化的概念。“源”指电源侧,“网”指电力输送,“荷”指负载,“储”指配储能。通过将能源的生成、电网、电力负荷与储能系统有机整合,旨在实现能源的高效利用并优化供需平衡。
“目前,电网存在像闪断、跌落等问题,数据中心需要配备UPS保证可靠性,‘源网荷储’通过将新能源并入电网,有效补充电力供应,提升系统稳定性。同时由于绿电的引入,降低了整体数据中心的用电成本,推动双碳目标的实现。”曙光数创产品部高级总监黄元峰博士解释称,新能源发电存在随机性和不稳定性挑战,而数据中心“源网荷储”一体化则有效解决了两个关键性问题。
通过源源互补、源网协调、网荷互动、网储互动和源荷互动等多种交互形式,“源网荷储”一体化能够显著提升电力系统的功率动态平衡能力,为智算中心提供经济、高效、安全的能源解决方案。
此外,智能化预测与调度能够大幅减少储能系统的建设规模,合理的分配风电光伏、储能系统、电网之间的电力采用比例,同时决策对本地的算力设备、制冷设备、辅助设备的功率如何调节,实现“源、网、荷、储”的精准匹配。
“随着智算中心建设的加速,电力消耗将不断攀升,PUE和双碳目标的实现面临挑战。“源网荷储”这一高效节能方案,可以有效化解两者之间的矛盾,推动绿色低碳发展的落实。”黄元峰说。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。