就在刚刚过去这一周,劳伦斯利弗莫尔国家实验室正在紧锣密鼓地为其“El Capitan”超级计算机安装组件。如今的问题已经不在于El Capitan能否成为全球最强大的新一代超算系统(已经有照片证明了这一点),而是这顶桂冠在它头顶能保持多久。
也许答案是相当长一段时间。毕竟每当谈到由AI初创公司资助的大规模AI超级计算机时,一句用来描述1990年代IBM系统的老话似乎恰如其分:“性能仍有空间,但预算限制了想象。”
就目前来看,全球各国家实验室的主要HPC中心都不会部署持久设备——就是说不会出现长期稳定运行,能够在Linpack双精度浮点性能测试方面冲击Top500榜单、甚至一举击败El Capitan的云实例。根据我们的简单计算,El Capitan的FP64峰值性能可能达到2.3百亿亿次左右,约比橡树岭国家实验室FP64性能为1.68百亿亿次的“Frontier”超级计算机高出37%。事实上,Frontiner自2022年6月上线以来,就一直把持着超算Top500榜单的头把交椅。
而早在2018年签订CORAL-2合同之后,我们就预计Frontier采用定制版AMD CPU与GPU后的FP64峰值性能将达到1.3百亿亿次,建设成本约为5亿美元;而El Capitan将采用现成的商用AMD CPU与GPU,同样以5亿美元成本带来1.3百亿亿次峰值性能。与此同时,改进后的“Aurora A21”设备在落地后的性能约为1百亿亿次,价格则在4亿美元左右。全部这三台设备的安装时间都比人们预期中更晚,而且各家HPC实验室从2015年起就开始认真规划百亿亿次超算系统。就Frontier和El Capitan两个项目来看,我们认为AMD的性价比要高于IBM和英伟达;因此尽管后两家公司分别在橡树岭和劳伦斯利弗莫尔实验室打造了上一代“Summit”和“Sierra”超算系统,新合同恐怕还是会落入AMD手中。当然,这一切都仅仅只是猜测。
但2023年及未来几年中,发展重点即将迎来变化:超大规模数据中心运营商、云服务商以及AI初创企业都将成为超算榜单上的主力军。他们正在构建体量庞大的设备,而英伟达和CoreWeave正在为Inflectin AI开发的设备、还有微软Azure给OpenAI打造的机器,在低精度AI训练性能方面将超越以往的大型HPC系统。
下面,我们就做点简单的性能比较,同时看看劳伦斯利弗莫尔实验室分享的El Capitan系统装机照。
牵引拖车正向劳伦斯利弗莫尔国家实验室运送El Capitan机架。
作为此番比较的起点,我们先从Inflection AI那套尚未最终定名的系统开始。
Inflection AI的机器看似采用了2.2万个英伟达H100 SXM5 GPU加速器。根据我们掌握的H100和InfiniBand Quantum 2网络产品定价,如果全部DGX H100节点均配备2 TB内存、3.45 TB闪存、8个400 Gb/秒ConnectX-7网络接口与配套的三层InfiniBand交换结构,那么系统的整体价格应该在13.5亿美元左右。该系统的FP64峰值性能将达到748千万亿次,在目前的超算Top500榜单中能够排在第二——落后于FP64峰值性能达1.68百亿亿次的Frontier,但领先于FP64峰值性能为537.2千万亿次、位于RIKEN实验室的“富岳”系统。
有些朋友可能觉得采购量这么大,Inflection AI的系统应该能享受到不少折扣。但在我们看来,目前市场上的需求远远超过供给,所以英伟达或者AMD应该不太会给GPU计算引擎多少价格优惠。毕竟他们的服务器OEM和ODM合作伙伴都没享受到这样的政策。所以跟同在美国的百亿亿次高性能前辈相比,Inflection AI的系统确实非常昂贵、性能水平也相对低了一截。
向劳伦斯利弗莫尔国家实验室运送El Capitan机架。
但如果从FP16半精度性能入手,那Inflection AI机器就能达到21.8百亿亿次,似乎足以驱动那些极为庞大的大语言模型(LLM)和深度学习推荐模型(DLRM)。
目前,还没人知道为El Capitan提供动力的“Antares”AMD Instinct Mi300A CPU-GPU混合芯片的FP16矩阵数学性能究竟如何。但我们曾在6月时做出过猜测,认为劳伦斯利弗莫尔实验室使用的芯片不仅在单一封装内提供2个CPU块(取代2个GPU块)加6个GPU块,同时还将包含一个超算计算引擎,用以提供超越8个GPU MI300的更高计算性能。(从实际负载来看,劳伦斯利弗莫尔实验室确实需要这样的设计。)如果猜测属实,那么在未开启稀疏数学支持的情况下(Inflection AI在讨论自己这台由CoreWeave和英伟达联合打造的机器时,并没有提到这点),每个MI300A预计可在2.32 GHz的时钟频率下提供1.567千万亿次性能(相比之下,常规MI300部件的时钟频率约为1.7 GHz)。
我们希望HPE能在EL Capitan系统的每个底座上安装8个MI300A。如果真能办到,那El Capitan的计算部规模将达到约2931个节点、46个机柜以及8行排列。实际情况是否如此,我们将拭目以待。
而且如果我们对MI300A的猜测是正确的,那么El Capitan大致将拥有2.35万个MI300 GPU,对应的FP16矩阵数学峰值性能约为36.7百亿亿次——相当于Inflection AI用风险投资构建的AI系统的1.7倍。
El Capitan机房内的地板需要架高设计,即必须加固地板才能将HPE的“Shasta”Cray XE机架推入并安装到位。
现在,让我们来看看传说中微软为OpenAI打造的、专用于训练GPT-5模型的2.5万个GPU集群。从之前的情况看,微软Azure HPC与AI总经理Nidhi Chappell曾在3月向我们证实,Azure在其HPC和AI集群中使用的是PCI-Express版本的英伟达加速器,并使用InfiniBand网络将其连接起来。我们假设集群中使用的是英伟达H100 PCI-Express卡,单卡售价为2万美元,那么总建设价格就是5亿美元。再配备上两块英特尔“Sapphire Rapids”至强SP主机服务器、2 TB主内存和一定数量的本地存储,那每个节点就再增加15万美元。按照容纳这2.5万个GPU需要3125个节点来计算,相当于额外再花掉4.69亿美元。如果英伟达提出的20%原则仍然成立,那么InfiniBand网络互连带来的成本就是20%,约为2.42亿美元。计算下来,微软Azure的这套超算系统总成本已经来到12.1亿美元。虽然大家也可以给服务器节点稍微打点折,但按照目前的市场行情来看,38.7455万美元的单节点成本不会有太多折扣空间,毕竟AI系统正处于热度最高的上升期。
在关闭稀疏性的情况下,这套微软/OpenAI集群的FP16矩阵数学峰值性能仅为19.2百亿亿次。这是因为H100 PCI-Express版本上的流式多处理器较少、只有114个,而SXM4版本则有132个;另外,PCI-Express版的时钟速率也更低些。总体比较,PCI-Express版的价格要低出11.4%,而性能则缩水11.9%。
与各美国国家实验室相比,商用超算系统的价格堪称疯狂。这是因为世界各地的HPC中心能够追求更新颖的架构,将自身定位成最终端商业化产品的消费者。但超大规模数据中心运营商和云服务商则不同,亚马逊云科技、谷歌、百度和Facebook虽然也都在构建自己的计算引擎,但其需求主体仍然要靠市场上的现成产品来满足。所以即使是以50%的夸张折扣来计算,Inflection AI和OpenAI这些超算系统的单位计算成本仍然远远高于国家实验室那边的水平。
一列El Capitan部署完成,可能还有七列有待安装。
El Capitan的占地面积与IBM为劳伦斯利弗莫尔实验室打造的、现已退役的“ASCI Purple”和“Sequoia”超级计算机相同,都在630平方米左右。预计El Capitan在峰值运转时,自身消耗的电力加冷却功耗将达到30至35兆瓦。另外,劳伦斯利弗莫尔实验室还计划在2029年左右安装下一台百亿亿次超级计算机,届时二者将并行运行。为此,实验室已经将数据中心的供电和冷却容量增加了一倍,预先为两台性能怪兽的到来做好准备。
相比之下,2005年由IBM制造并在劳伦斯利弗莫尔安装的ASCI Purple,在FP64精度下的峰值性能为100千万亿次、功耗约为5兆瓦,预计耗资1.28亿美元。El Capitan的性能相当于提高了2.3万倍,而单位功耗只相当于ASCI Purple的六分之一到七分之一,成本也仅为1/3.9。虽然不一定能保持住这几十年来超级计算领域所期望的指数级增长,但这仍然是一项了不起的壮举,继续证明摩尔定律、大规模封装、网络、电源和冷却技术中仍有不少潜力空间可挖。
我们已经迫不及待想要看看El Capitan和阿贡国家实验室的Aurora A21的真实性能数据。如果正如传闻所言,英特尔大手一挥、直接将阿贡实验室5亿美元的合同应付款砍掉了3亿,那Aurora A21恐怕就是世界上成本最低的AI与高性能计算系统了。但如今最重要的当然不是钱,而是Aurora机器已经全面安装到位,抓紧时间让它运转起来、处理实际HPC和AI负载才是正经。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。