在美国,exascale(百亿亿次)高性能计算系统的第一步始于2007年的一系列专题研讨。直到15年后,橡树岭国家实验室才真正上线1686 petaflops的“Frontier”系统。今年,阿贡国家实验室正准备为“Aurora”启动上线仪式,这将是美国第二或第三台百亿亿级超算设备——究竟位次如何,还要看劳伦斯利弗莫尔国家实验室的“El Capitan”何时通电。
这些百亿亿级超算的诞生之路充满了延误和挫折,期间还遭遇过技术变革、中国的竞争压力及其他挑战。阿贡国家实验室环境与生命科学计算实验室副主任Rick Stevens则表示,更进一步的zettascale、甚至是量子计算目标可能落地更慢,二者很可能都需要15到20年、甚至是更加漫长的开发周期。
而这,正是高性能计算的本质所在。
Stevens在最近一场网络研讨会会上这样描述HPC计算的近期和远期发展态势,“这将是一场持久战。如果大家只关注明年会发生什么,那HPC明显不适合你。如果你想着眼于10年甚至20年的中长周期,那HPC才是最佳选择。至于向着其他恒星系探索,那就是超远期的千年大计了。总之,我们目前才刚刚起步,之前还能沿着摩尔定律前进,但现在最重要的问题是思考10年后的高性能计算会是什么样子?20年后呢?可能到时候情况已经完全不同的,我们当下就需要做好准备。”
Stevens此次演讲的主题在于AI。不只是HPC应用程序和研究工作能够从AI技术中受益2,AI管理的模拟与智能体、专用AI加速器乃至AI在大型系统开发中的作用都有巨大的想象空间。他指出,2019年至2022年间既是COVID-19突然爆发的危机时刻,也是AI大事频发的历史性阶段。
随着大语言模型(广受欢迎的ChatGPT及其他生成式AI聊天机器人都以此为基础)和Stable Diffusion文本到图像深度学习的起飞,AI技术已经被纳入蛋白质结构预测、开放式数学问题和各类HPC开发场景。也正是在此期间,百亿亿次超算系统开始真正落地。
Stevens表示,“越来越多的机构开始构建自己的大语言模型,这波爆发式增长仍在继续,而且几乎所有模型都集中在私营部门。其中只有少数是由非营利性组织完成的,且以GPT-4为代表的最强模型大多采取闭源模式。由此可见,AI模型的发展趋势并未走向种类繁多的小体量模型,而是数量有限的超大模型。这也是当前阶段内最重要的元事件。”
所有这一切——模拟与智能体、新兴AI应用和AI用例——都将在未来几年内消耗更多算力。伊利诺伊州的阿贡国家实验室的领导级计算设施(ALCF)项目考虑的正是这个问题,规划Aurora及之后的超算设计方向。Stevens和他的同事们正在构想一套比Aurora强大8倍以上的系统,征求建议书将于2024年秋季发布,实际装机计划在2028年或2029年。“对于机器学习这类低精度运算需求,这套系统预计将拥有近0.5 zettaflop,相当于当前系统的2到3倍。”
目前一大关键挑战,就是此类系统到底要搭载怎样的加速器。究竟是现有通用GPU的后续版本(针对AI模拟用例提供增强支持),还是面向AI优化的其他全新引擎?
“这是最根本的问题。我们知道模拟将继续发挥重要作用,也需要性能和精度更上一层楼的技术规范,但这项技术在AI中到底占比多少仍没有明确的答案。世界各国都在考虑下一代超算系统要如何权衡,特别是要以怎样的态度侧重于AI市场或AI应用基础。”
ALCF使用来自Cerebras Systems、SambaNova Systems、GraphCOre、英特尔Habana Labs和Groq的系统构建起AI测试环境,其中将采用专为AI工作负载设计的加速器,探索这些技术能否快速发展成熟并作为大规模超算系统的基础,以更高效率运行HPC机器学习应用。
“问题在于,通用GPU在未来的用例下能否提供充足的性能支持并与CPU紧密耦合,证明其仍然是正确的解决方案。或者说,未来会很快出现其他更好的替代方案。”其中多租户支持可能成为判断的关键。“如果某套引擎正使用节点内的一个子集,那要如何同时支持子集内的其他应用?如何使用补充资源支持节点上应用程序的具体占用?这类需求中仍有很多悬而未决的现实挑战。”
目前值得考量的几个现实问题:
此外,新的大系统该如何构建也是件麻烦事。一般来讲,新的技术浪潮(例如冷却或供电系统的变化)要求对整个基础设施做出重大升级。Stevens表示,更加模块化的设计理念(即更换组件但保留系统的整体架构)当然更具意义。系统内的模块可能比目前的节点还更大,能够定期更换且无需升级整个基础设施。
“我们要构想一个包含供电、冷却,也许还有无源光学器件的基础设施,之后就是可以频繁更换的模块,它们要具备简单接口来跟晶圆厂的制程节点对齐。另外还有电源连接器、光学连接器和冷却连接器。我们正在认真与供应商开展讨论,考虑如何开发这种模块化设计,争取在未来两年、而不是五年内实现系统内的组件升级。”
考虑到能源部各科学实验室目前拥有的资产,包括百亿亿级超算系统和数据基础设施、大型实验设施和用于科学模拟的大型代码库,ALCF正在加紧关注这些现实问题。另外,原本为百亿亿级系统组建的跨领域、跨学科实验室团队也要利用起来;Stevens介绍称,之前的团队规模达到千人级别。
再来看自动化因素。阿贡和其他实验室都掌握着超算系统和海量应用程序。于是问题来了:他们能不能找到覆盖大部分工作的自动化方法,例如创建和管理AI智能体,从而高流程更快、更轻松、更高效?这个问题目前同样没有明确的答案。
以上研究工作都在不断推进,zettascale和量子系统发展也在按自己的节奏同步进行。Stevens预计这两类系统在未来15年到20年内都没有广泛落地的可能性。Zettascale恐怕要到这个十年末才能实现低精度部署,而64位精度的系统也许要到2035年才能出现。(英特尔则认为这个时间节点可能是2027年。)
在量子计算方面,成本的重要性与技术本身同样重要。在exascale百亿亿次设备上运行应用程序两周,大概要烧掉约700万美元。而在拥有1000万量子比特(目前尚不存在)的大规模量子设备上运行相同的作业,可能要花掉50亿至2000亿美元(参见下图)。因此,这个成本必须再降几个数量级,才能以物有所值的方式真正帮助人们解决大规模问题。
“也就是说, 我们需要在发展量子计算的同时,在经典计算方面也取得持续进展,利用经典计算解决期间出现的现实问题。虽然预计zettascale的开发同样需要15到20年的时间,但这是更可以把握的发展节奏,也是我们真正触手可及的技术选项。”
所有这一切都将回归最初的主题:HPC创新需要大量时间,量子加经典的混合系统可能才是最终解决之道。未来的计算基板可能会以分子、光子甚至是其他未知的形式,工程师和科学家们距离正确答案还非常非常遥远。
Stevens总结道,“目前对技术格局影响最大的仍然是AI,而且我们对于AI技术如何重构系统、真正为大规模AI计算打造理想平台也只是略知皮毛。但游戏规则已经有所改变,如果我们在10年后重新讨论这个话题,可能思路都将完全不同。也许我们的猜测是对的,也许并不成立。总之这将是一场漫长的竞赛,期间会有很多颠覆性因素,我们要做的就是驾驭这些颠覆因素、而不是强行与之对抗。事实上,颠覆是我们的朋友,它们能让我们在既有思路之外获得新的启发和能力,所以我们应当主动寻求颠覆、拥抱颠覆。”
好文章,需要你的鼓励
Dell’Oro Group的一份新报告显示,在对AI-ready硬件需求的推动下,数据中心在2024年第二季度的资本支出增长了接近50%。
英特尔和谷歌云宣布在多个服务区域全面推出基于第4代英特尔至强处理器的新型机密计算实例。
自2022年底生成式AI革命爆发以来,服务器支出也存在类似的态势。一旦企业发现自己必须投资购置或者租用搭载GPU加速器的设备,往往会选择扩展现有服务器机群,被用于投资新设备的支出则自然随之下降。英特尔正在加大对其“Sapphire Rapids”至强SP的投入,AMD在其“Genoa”Epyc 9004处理器上也采取了同样的做法。
生成式人工智能在企业中的一个突出用例就是客户服务和支持。大多数读者可能都曾作为客户经历过与传统自动客服系统打交道的沮丧。但这种情况正在发生变化,这要归功于时下强大的大型语言模型和自然语言聊天机器人。虽然有报告显示,我们在处理复杂或敏感的咨询时仍然更愿意与人类交谈,但在提供简单的帮助时,机器人的能力已经越来越强了。