近年来,世界各国的HPC大师们正纷纷转向超大规模与云设施领域。但不同于在供应商处任职,他们往往更倾向在自己熟悉的岗位上不断深耕。劳伦斯利弗莫尔国家实验室计算部门的首席技术官Bronis de Supinski就是其中之一。
他于1987年在芝加哥大学获得数学学士学位,在经历五年平平淡淡的普通工作之后,又于1998年继续在弗吉尼亚大学拿下计算机科学博士学位。Supinski随后加入了劳伦斯利弗莫尔国家实验室,并一直工作至今。他领导的团队在2005年和2006年两次获得戈登·贝尔奖(国际高性能计算应用领域的最高奖项),自己也成为HPC开发环境方面的专家,负责管理美国能源部高级科学计算(ASC)项目的应用程序开发环境与性能团队。2012年,他被任命为利弗莫尔计算部门的首席技术官,与全球各计算引擎、网络和系统制造商共同设计大型HPC系统,同时统领实施和运行这些性能巨兽的技术团队。
在ISC23大会期间,我们与de Supinski探讨了如何部署创新架构的AI设备,也了解到El Capitan这套百亿亿级CPU-GPU混合系统的最新消息。就在今年晚些时候,这台有望冲击全球最强宝座的HPC超算设备即将在利弗莫尔实验室安装落地。
主持人:我听说宣传新架构的从业者都想跟利弗莫尔实验室牵上线,而您的部分工作内容就是尝试各种新事物,看看哪些新玩具有潜力、哪些没搞头。
Bronis de Supinski: 我觉得这种说法并不太准确。
ASC项目在桑迪亚国家实验室已经试验了很长时间。但我们之所以要做尝试,是因为我们认定这些成果对我们把握未来的技术发展方向非常重要,或者认为它们在当下就能立刻创造价值。因此,我们现在之所以部署的这些创新架构,是因为相信它们将来会在更大规模的系统中真正为我们带来回报。当然,在具体选择技术成果时,我们会挑选那些目前看起来有趣、而将来可能真正有用的方案。
比如说市面上现在有50甚至不止100家供应商,可以说是真正的百家争鸣、百花齐放。而我们从这么多AI加速器厂商中选择了两家,分别是SambaNova Systems和Cerebras Systems,原因就是看中了他们做出的有趣探索。
主持人:那利弗莫尔实验室是怎么逐步确定关注对象的?您会把这些创新架构和设备用于哪些工作负载?毕竟除了最直观的大规模混合精度矩阵数学运算之外,我们实在想不到它们还能干什么。
Bronis de Supinski: 对于任何一套给定系统,都得具体问题具体分析。首先,我们会以开放的心态看待每一家供应商,当然最初肯定会先做一波筛选。毕竟大家都知道我担任利弗莫尔实验室计算部门的CTO,所以我的邮箱里每天都充斥着各种宣传邮件。不过对于那些以严肃态度认真研究大规模计算技术的从业者,我们也会同样认真倾听他们的意见,关注他们在做些什么。
大部分公司其实有点乏善可陈,或者说至少在我们看来有点乏善可陈。在AI领域,90%厂商所追求的其实是既节能又具备一定性能的嵌入式AI处理器。换言之,他们只需要考虑推理阶段,并不关注模型训练。功率和性能间的关系属于帕累托式曲线——各项因素在曲线上都有体现,但进行整体拉高或降低时,总有某些部分升得更高、某些部分降得更低。
主持人:像利弗莫尔这样的国家实验室,肯定愿意在帕累托曲线上做出取舍,比如承受更高的发热量来换取更强的性能。
Bronis de Supinski: 当然会的。我们在国家实验室构建的也不是嵌入式系统。但请不要误会,我不会主观抗拒某些技术,唯一的考核标准就是更好地处理我们的工作负载。
在AI领域,核心关键就是实现认知模拟,也就是寻求用表征替代模型的方法。具体来讲,AI模型会计算我们在某种特定类型的物理、多物理模块或多物理应用场景下能做什么。因此用代码团队的行话来说,这是把传统意义上的软件包替换成AI模型。我们模拟的每一种物理现实都对应一个包。为此,我们需要首先为这个包建立模型。也许GPT-4能够在快速训练之后掌握这种能力,但我们还没有掌握建立模型所需要的全部数据。
主持人:考虑到您的工作内容,特别是核武器管理对于国家安全的影响,我宁愿永远不把这些数据交给GPT-4。
Bronis de Supinski: 确实。我们终究得认真思考哪些东西可以交给AI去训练,哪些不行。在进行认知模拟时,我们还面临另一个悬而未决的问题:要不要做动态训练?
目前困扰我们的问题可以总结成这样的形式:我们的某些成果已经能够为应用运行所在的空间构建起非常好的模型,所以我们就用这个替代模型就能满足模拟需求。但如果着眼于长远,未来我们还需要模拟更复杂的东西,甚至无法确切描述输入的包究竟是个什么样子。换言之,我们可能没有丰富的训练数据,甚至根本没有可供训练的数据。在这种情况下,我们也许会在实际物理模型中运行一段时间的详尽模拟,再依靠生成的数据开展训练。总之,我们先占据空间中的一部分,之后再慢慢填充其他部分。
主持人:这听起来有点像在纯虚拟场景下训练自动驾驶汽车。虚拟环境中的运行速度比现实世界快好几个数量级,涉及的变量也更多。
Bronis de Supinski: 没错,确实有点这个意思。最重要的是加快替代模型的获取速度,所以我们特别重视有望显著加快训练速度的方案。
主持人:那在使用这些创新架构训练AI模型时,您会在同样的设施之上运行AI推理,还是倾向于把推理任务交给目前的“Sierra”和今年晚些时候即将落地的“El Capitan”等系统?
Bronis de Supinski: 有可能会交给它们,但具体还是要看情况。我们目前正在进行的大部分实验中,训练和推理实际是彼此独立的,推理大多由AI加速器承载。但我们也可以假想一种在HPC系统上能轻松运行AI模型的情况——我们实际上也正在研究这两种架构,发现HPC中确实有不少适合推理运行的特性。总之,HPC系统也许能够轻松加载整个模型并快速运行推理。这样我们就能随时调用该模型,而后将任务发送至加速器,由此实现模型推理和系统其他软件包间的无冲突运行。只要能把整个设想的延迟水平控制在合理范围内,也就是实现了并行性。
主持人:我看到谷歌在TPU上做过的一些实验,Cerebras在自己的晶圆级处理器上也做过探索。他们都希望在这类设备上运行某些HPC式模拟和建模数学计算,并努力把精度控制在FP64以下。您有没有探索过这方面可能性?也许目前CPU和GPU上运行的某些计算,完全可以在Cerebras或SambaNova设备上完成?
Bronis de Supinski: 我们讨论过这些思路,也正在与两家公司开展合作。目前,这两个系统都属于单精度引擎。比方说,分子动力学研究中的很多问题靠单精度计算就足够了,但也有一些问题必须依赖双精度。不久之前,我还跟同事交流说到底有多少代码真正需要以双精度浮点运算进行。我们一直在努力为此寻找答案。
但最重要的总体思路,是考虑这些数据流架构如何工作。它们不像内存那样把数据存放进来,而是任由数据流过。它们不断移动数据,借此完成一轮又一轮的计算,而我们则为其建立起了庞大的管道。除非后面还要用到,否则我们不会把数据存储起来,正因为这样我们的架构才拥有这么理想的整体功耗和每瓦性能。众所周知,往内存里存数据是个既费时又费电的过程。
主持人:如果能把精度提升到FP64,会让系统的实用性更进一步吗?您又能否说服这些合作方?
Bronis de Supinski: 我们正在努力说服他们,但之前提到的问题仍然悬而未决,就是到底有多少任务需要64位浮点运算。毕竟相较于32位或16位数学运算,支持64位运算器需要更多的晶体管。按我目前的想法,也许在充分理解这个问题的实质之后,我们可以找到一种以可变精度对应用程序进行高效编码的方式。
可能本周之内,我就会做一点初步尝试。假定我正以某一精度处理一项任务,而在该精度上遇到了巨大的舍入误差。那我能不能立即转向更高的精度?这样会不会影响我的回答质量?之后则自然接续另一个问题:我还能再返回之前较低的精度吗?
所以在El Capitan之后,我们的下一个大项目预计将在2029至2030年间落地。ASC方面正在努力控制预算,所以这个时间节点也比常规的每五年一次稍晚些许。对于下一台超级计算机,我们会非常明确地将AI加速和对整体工作流程的作用纳入考量。比如说它在整体系统中将扮演怎样的角色?我们如何在采购期间发布征求意见书,吸引更多人积极投标?我们不想给供应商强加一个答案,而是希望大家能向我们提出更多有趣的建议和方案。因此,我们先明确表达自己正在做什么,再由供应商提出最能高效满足工作需求的系统,而这就是我们所需要的最佳答案。
我们当然希望自己的系统能在超算Top500中表现出色,毕竟这既是理想的考查标准、也是很好的宣传渠道。但必须承认,我们的用户并不关心什么超算排名。这最多也就是有利于我们招聘技术人员,而内部整个应用团队都认为如果没法顺畅承载相应的软件,那在Top500里排名多少根本没有意义。
主持人:那能不能透露一点关于El Capitan的新消息?
Bronis de Supinski: 你尽可以提问,但我不一定回答。
主持人:怎么老是故作神秘?El Capitan的机架已经在安装当中了吗?如果是,那里面的组件部署好了没有?
Bronis de Supinski: 我只能说,El Capitan的部署设备已经在进行交付和验收。
主持人:那部署时间是在第三季度,还是更晚一点?如果我没记错,El Capitan宣称今年年底安装完毕,明年正式投入使用。
Bronis de Supinski: 安装会在今年晚些时候开始进行。
主持人:所以不会延误喽,那挺好的。
顺带一问,只有你和我会将El Capitan中计算引擎称为MI300A,而且我严重怀疑咱们猜对了。这里的A,应该是指该GPU的APU版本。
Bronis de Supinski: 我跟AMD的合作方聊过,发现他们在讨论这东西时有时带A、有时又不带A。
主持人:A代表的应该是APU,就是说他们从中取掉了几个GPU小芯片,改换成了2块CPU小芯片。反正我非常坚信这一点。另外,我觉得还会有另一个MI300变体,上面装有8个GPU小芯片,但没有任何CPU小芯片。这些主要是面向离散用例设计的,所以CPU跟GPU的比例可以灵活改变。
Bronis de Supinski: 你的猜测很有道理,但我无法对AMD的产品路线图做出评论。我只能说,纵观目前的市场态势,肯定会有部分潜在客户拥有这方面需求。其中的权衡,将集中在建立这部分业务需要投入多少成本、和这部分业务能带来多少收入之间。
主持人:看来您还真是身经百战,那只有等El Capitan揭开面纱之后我们再就架构做深入讨论了。另外,我怀疑您拿到的Instinct MI300A跟最初的计划不同,比如获得了高于最初设想的集成化高带宽内存。当然,这只是我的怀疑,您可以不发表任何评论。
在我看来,你们正帮助AMD将一些有趣的技术成果推向商业应用,这当然也是国家实验室的重要职责所在。反正作为纳税人,我支持你们把预算用在这个方面。
Bronis de Supinski: 谢谢你的理解,我一直觉得自己在这方面的责任,也把它当成了自己工作的一部分。技术只有被真正转化成产品,才会吸引到人们的关注和支持,并最终发挥自己的全部潜力。
我们最近经常谈到的Rabbit存储模块就是其中一例,我们对此感到非常兴奋。
主持人:知道知道吧,我们最近两年一直在关注。
Bronis de Supinski: 到目前为止,HPE还没有将其打造成实际产品,甚至有可能永远不会正式推出。但我还是希望HPE能为这项技术找到相应的客户,我自己就知道有企业对此抱有兴趣。
主持人:确实,也许我们可以给HPE点支持,帮他们建立信心。
Bronis de Supinski: 老实说,我听说HPE接下来会销售搭载MI300A的其他系统,那就不如同时引入Rabbit模块。我们也积极期待能为自己的商用Linux系统开发出类似Rabbit模块的技术。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。