
随着摩尔定律逐步放缓,打造更加强大的HPC及AI集群的唯一方式,似乎就只剩下构建更大、更耗电的基础设施。
犹他大学教授Daniel Reed在最近于丹佛召开的SC23超级计算大会上解释称,“现在如果想要更强的性能,就必须购买更多硬件,即构建起更庞大的系统,自然也会带来更大的电力消耗和更高的冷却需求。”
如今,Top 500超算榜单中的各位超级计算集群选手功耗普遍超过20兆瓦,相当一部分数据中心园区(特别是针对AI训练和推理需求而构建的数据中心园区)甚至更加夸张。有预测表明到2027年,顶尖超级计算机的运行功耗很可能将来到120兆瓦左右。
在关于高性能计算(HPC)与碳中和及可持续性小组会议上,来自芝加哥大学、施耐德电气、洛斯阿拉莫斯国家实验室、HPE以及芬兰IT科学中心的专家们对这些趋势进行了权衡,并就应如何规划、部署、报告和运营这些设施给出了自己的见解。
此番讨论的核心主题之一就是电力使用效率(PUE)。作为参考,行业标准是以计算、存储或网络设备所使用的实际电量,与总利用率进行比较来衡量数据中心的运行效率。PUE越接近1.0,则代表该处设施的能效越高。
来自HPE的Nicolas Dubé解释道,虽然PUE是优化数据中心运营功耗的有效工具,但也会导致超大规模企业及其他大型数据中心运营商养成很多坏习惯。
“不少超大规模企业——这里我就不具体点名了——在亚利桑那州、新墨西哥州及其他非常干旱的国家和地区建立起数据中心。在这些地方兴建的数据中心在配合蒸发系统之后可以实现相当惊人的PUE成绩。然而,这实际上是在用当地极为宝贵的水资源来换取那一丁点电耗优势。我认为这纯属犯罪行为,甚至应该把这帮家伙送进监狱。”
有些朋友可能不太熟悉,这里所说的蒸发冷却(也被称为沼泽冷却器)属于能效最高的冷却技术之一。这些系统在干燥环境下的工作效果特别好,但也需要消耗巨量的水资源。
来自洛斯阿拉莫斯国家实验室的Genna Waldvogel也指出,对于已经采用蒸发冷却设计的设施,例如能源部下辖的该处实验室设施,也有办法可以缓解相应的环境影响。
“我们的数据中心几乎100%依靠可再生水运转。我们拥有一套非常先进的系统……能够从废水处理厂中提取污水,对其进行处理之后再泵送至超级计算机以实现冷却。”
Reed教授也表示,蒸发冷却需要消耗大量的水,因此设施运营商必须选择系统的安装位置。
Dubé还强调了地理选址的重要意义。在他看来,通过将数据中心部署在绿色能源供应充足的位置,能够在一定程度上减轻生成式AI对于环境的负面影响。
Dubé举例指出,加拿大数据中心运营商QScale正在魁北克省开发一处运行功率100兆瓦的数据中心,该设施消耗的电力几乎100%来自水力和风能等可再生能源。尽管推理等工作负载对于延迟非常敏感,需要与用户群体保持较近的距离且不太可能轻易搬迁,但大规模训练负载却恰恰相反。他强调,“只要理解了这一点,就会意识到大规模训练工作负载实际上应该被重新定位或者迁移到资源可持续性最好的区域之内。”
Dubé还提到,除了在可再生能源附近部署数据中心之外,还应当考虑如何利用这些设施产生的热量,避免像过去那样直接将其排放到大气当中。
QScale公司就在尝试将计算设施部署在邻近农业温室的位置,利用前者产生的肩垫在加拿大漫长的冬季为温室供暖。
为了进一步做出解释,Dubé还提出了一个非常有趣的问题:计算对GPT-3进行一轮训练所产生的热量,能够种出多少个西红柿。按照他的估计,这个数字将相当可观。
假设一处占地500平米的温室每年供暖需要消耗1000吉焦(1吉焦等于10亿焦耳),而训练GPT-3耗电为1287兆瓦,则可换算为4.6个温室。Dubé按每年每平方米能够产出75公斤西红柿计算,并认为有85%的废热可用于温室生产,那么最终产量将为14.7677万公斤、即略高于100万个西红柿。
都做成番茄酱,这可够配不少薯条。
对热量的再利用在HPC和AI领域已经不是什么新鲜概念。欧洲最大的超级计算机LUMI系统就是典型案例,CSC科学IT中心的Esa Heiskanen就表示,“我们地处高纬度严寒之地,气温长期保持低位,几乎全年可以使用干式冷却器运行。”而除自然冷却之外,该设施还配备废热捕捉系统,能够满足卡亚尼市20%区域的供暖需求。
除了从技术方案和设施选址的角度考虑问题外,芝加哥大学CERES计算中心负责人Andrew Chien还打算采取更富动态的运营方式,借此探索数据中心的可持续性空间。
其思路并不复杂:运营商不再永远以恒定的容量来运行HPC集群或者数据中心,而会根据给定时间内电网上的可用电力或能源组合,灵活调整系统的容量利用率。
例如,在一天中的特定时段,风能或太阳能的输出功率可能会更高,这就允许设施以更高的负载保持运行,同时又不致增加相应的碳排放。
Chien预计,如果将这些技术应用于日本RIKEN实验室的“Fugaku Next”超算项目(预计将在2030年至2040年之间上线),则可将电力成本降低达90%,同时将碳排放(按当前运行方式计算)缩减40%。
他解释道,“每个人都觉得电力是问题的核心,但我认为碳排放才是真正的重点。”在他看来,未来电网中涌动的大部分电力都将属于可再生能源。
可以想见,要想真正控制住规模日增的HPC与AI集群所产生的碳排放,对报告质量与一致性的改善也将是重要一环。施耐德电气CTO办公室的创新产品负责人Robert Bunger就此做出了具体阐述。
“在我看来,HPC社区应该努力保持领先地位。过去的成绩已经证明该社区发掘技术潜力的聪明才智,但未来他们需要把可持续发展的报告和量化机制也纳入考核体系。”
Bunger解释称,目前的问题之一,在于数据中心运营商往往很难在如何上报可持续指标方面达成一致。超大规模运营商普遍不愿具体讨论电力或水资源消耗等问题,这无疑会让可持续发展成为一句空话。
为了解决这个问题,施耐德电气提出了数据中心运营商应当跟踪的28项指标,其中包括总耗电量、能源利用率(PUE)、可再生能源总消耗量、总耗水量、水资源利用率等常见内容。此外,清单还建议跟踪其他一些关键指标,例如可再生能源指标、能源再利用率、服务利用率,甚至包括产生的噪声和土地利用率等。
Bunger承认对于大部分计算基础设施来说,对这28类数据进行全面追踪确实是项艰巨的任务。但他还是建议各数据中心运营商可以先从最核心的6大指标入手,逐步扩大监控范围、增强优化能力,从当下开始为全人类的未来做好打算。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。