全球所有主要高性能计算中心,无论是直接由科研经费资助、还是靠军方补贴,都凭借明确的需求和充裕的资金在两类超级计算机系统中选择其一。要么拥有极高性能扩展上限,要么能够承载起成百上千只需运行小规模作业的用户。
得克萨斯大学奥斯汀分校的得州高级计算中心,负责运营美国国家科学基金会的旗舰系统。该中心目前正升级其高容量系统,并开始展望下一代代号“Horizon”的超算新方案。
2018年夏天,美国国家科学基金会(NSF)向戴尔授予一份价值6000万美元的合同,由戴尔与英特尔合作建立这套6000万美元的“Rontera”全CPU系统。该系统共拥有8008个节点,采用英特尔“Cascade Lake”至强SP CPU加英伟达的100 GB/秒HDR InfiniBand互连,可在FP64双精度下提供31.8千万万次峰值性能。这是迄今为止全球最大的学术超级计算机,而其继任者Horizon应该也将延续这样的设计思路。
UT研究副总裁兼TACC执行董事Dan Stanzione不想过多谈论之前的Frontera和如今的Horizon,而是更关注Stampede2的后继者。Stampede2是其系统中的高容量机器,全球数千名研究人员一直在用它运行自己的HPC代码。而继任系统Stampede3将是一台由多代不同英特尔CPU组成的机器。从这个角度看,这将是一台混合型超算,与之前的Stampede和Stampede2一样。不过Stampede3还将配备“Ponte Vecchio”Max系列GPU加速器节点,这对Stampede系列机器来说尚属首次。
Stampede2随着时间推移也进行了扩展和升级,有着多种不同类型的计算资源,包括基于英特尔“Knights Landing”至强Phi多核处理器、“Skylake”至强SP与“Ice Lake”至强SP处理器的节点。Stampede2合同的初始阶段耗资3000万美元,之后随着容量提升和运行周期的推进,又额外增加了2400万美元的运营与维护成本。至强Phi处理器代表Stampede2的第一阶段,于2017年底正式组装,拥有4200个单槽节点和来自英特尔的100 Gb/秒Omni-Path互连,并借助MPI实现工作共享。几个月后的2017年初,1736个双路Skylake节点投入使用,Omni-Path网络也进行了扩展以支持这批新节点。Stampede2原本预计于2022年9月停止使用,但去年2月时,NSF决定延长Stampede2的使用寿命。为此,他们专门更换了448个至强Phi节点,并使用Ice Lake处理器替换了224个原有节点。与旧至强Phi节点相比,这款处理器将性能提高了2倍以上,内存容量则提升至3倍。在最终实例中,Stampede2凭借367024个核心在FP64精度上实现了18.3千万亿次性能。
在上一轮对Stampede2的升级过程中,该机器的容量依照极限科学与工程发现环境(XSEDE)计划进行分配。这项计划已经于2022年8月结束,现已被NSF的高级网络基础设施协议生态:服务与支持(ACCESS)计划所取代。自2016年底到2022年初,Stampede2已经运行超900万次模拟与数据分析作业,机器的正常运行时间为98%,核心利用率超过96%。截至本周,Stampede2已经为3000多个资助项目的超1.1万用户运行了1080万项作业。根据Stanzione的介绍,相比之下,Frontera系统运行过的作业数量为110多万个,任意时段均有约60个项目在其中运行,总项目处理量约为150个。
Stampede3的合同金额仅为1000万美元,看起来虽然周期被拉得越来越长,但摩尔定律的力量仍然能发挥作用。而且幸运的是,出于预算和技术这两方面原因,超级计算机如今的运行周期也有所增加,因此服役时间和升级节奏仍然保持匹配。
正如Stempede2曾有多轮子升级周期,一边替换陈旧节点一边保留相对较新的节点,Stampede3也将采取现有节点加新节点的组合来构建高容量系统。而且Stampede3偶尔也会像Frontera那样执行大规模整体作业。Stanzione介绍称,就在Stampede2中比较陈旧的Knights Landing节点被关闭之前,它们还在运行一个跨越2000节点的巨型作业。无论用哪种标准衡量,这都是一项相当艰巨的任务。
7月15日,全部Knights Landing均已被关闭,并安装了560个带有HBM内存的“Sapphire Rapids”处理器(英特尔称其为Max系列CPU)的新节点。这个新分区的双槽节点采用56核Max CPU,运行频率为1.9 GHz,且每112个核心配备128 GB超高速(1.2 TB/秒)HBM2e内存。这一容量比每核心1 GB的原有配置稍好一点,虽然提升并不算大,但相当于常规DDR5主内存4倍的极高传输速度确实弥补了不足。据Stanzione介绍,Max CPU节点没有附加任何DDR5主内存来显著扩展容量并小幅增加带宽,因为这样会让每个节点的成本再额外增加约4000美元。
Stampede3保留了1064个Skylake至强SP节点,其中有两个运行频率为2.5 GHz、各拥有24个核心的CPU,这48个核心对应192 GB主内存,符合HPC领域每核心对应4 GB内存的比例。但其内存带宽仅有HBM2e内存选项的四分之一。Stampede3还将保留2021年添加的224个Ice Lake节点,这些节点采用两个运行频率为2.3 GHz的40核CPU,每节点配备256 GB内存,分配到每个核心有3 GB内存。我们也将进一步关注Stampede3机器上不同分区的内存容量、内存带宽和浮点性能间的组合差异。
Stanzione在采访中解释道,“我们将采用DDR5内存的Sapphire Rapids与采用HBM2e的Sapphire Rapids进行了直接比较。根据运行代码的不同,我们发现单凭内存技术的升级,其性能就实现了1.2倍至2倍的提升空间。与普通Sapphire Rapids相比,HBM2e版本的平均性能提高了60%到70%。这意味着与Frontera上的Cascade Lake CPU或Stapmede2上的Skylake CPU相比,每插槽的性能可以提升5倍。”
从理论上讲,这可能意味着TACC能够通过该机器运行更多作业,将FP64的峰值性能拉升至接近4千万亿次。Stampede3机器中近半数聚合核心(45.5%)位于配备HBM2e内存的节点当中,其本身就具备4千万亿次的性能。而且这个性能指标可能更接近持续性能,而非峰值性能,所以实用性大大增加。
Stanzione解释道,“如果我们将两个Sapphire Rapids CPU并行部署,而带有HBM的CPU能实现2倍的处理速度,那么60核与56核芯片间的峰值浮点运算水平不会有太大变化,但稳定浮点运算性能却会显著提升。使用高带宽内存时,峰值性能中可以稳定实现的部分将大大改善。因此,对于很多对传输带宽比较敏感的大型MPI代码来说,Sapphire Rapids HBM将成为最佳选择。而如果用户需要的是更高的内存容量,我们也将继续保留Ice Lake和Skylake节点。尽管Skylake CPU确实有点过时了,但其时钟频率仍然高达2.5 GHz,时至今日也有一战之力;加上每节点48个核心,性能表现也不算太差。”
如此算来,如果有十台各配备四个Ponte Vecchio GPU的服务器,同时假设各服务器拥有两个Sapphire Rapids HBM处理器加Xe Link互连,且全部接入共享内存系统。那么只要TACC能够在节点中选择最高端的52万亿次CPU型号,则该机器在这个分区上的总算力将达到约2.1千万亿次。通过简单的数学计算,Skylake分区的峰值性能约为2.8千万亿次,Ice Lake分区的峰值性能约为1.1千万亿次,而整个Stampede系统将拥有137952个核心(每个Ponte Vecchio GPU提供128个核心)加330 TB的主内存,带来接近10千万亿次的总FP64性能。
在网络方面,TACC将继续使用Omni-Path。但在新系统中,新的Sapphire Rapids HBM节点和Ponte Vecchio GPU节点将使用Cornelis Networks即将推出的400 Gb/秒Omni-Path进行部署。Cornelis Networks于2021年7月从英特尔手中买下Omni-Path业务,并跳过200 Gb/秒的升级周期,直接计划推出400 Gb/秒互连。现有Skyklake和Ice Lake节点则将继续使用100 Gb/秒Omni-Path。
在存储方面,TACC也邀请到全闪存、高性能存储厂商Vast Data的参与,对于这家初创公司来说无疑代表着巨大的商业收益。
“我们的Stampede2上的很多磁盘已经老化。虽然原本的文件系统很棒,但连续六年的满负荷运行已经令其不堪重负,临时文件系统在运行这1080个作业时也有所损耗。因此,我们将尝试使用Vast Data作为临时文件系统。我们将把它接入Frontera结构,看看是否真的可以支撑起下一代系统的8000到10000家客户。我们联合Vast Data进行了一波小规模测试,并对结果非常非常满意。因此接下来我们会进一步扩大规模,打破长久以来对Lustre的依赖,尝试采用全NVMe闪存新方案。”
Vast Data文件系统的容量为13 PB,而在内置数据压缩的情况下,其实际可用容量约为20 PB。该存储系统将提供50 GB/秒的定稿带宽和450 GB/秒的读取带宽。
新的Vast Data文件系统将于今年9月底正式安装。Stanzione表示,戴尔的新机架则计划于10月份交付,并在11月到12月期间组装数百个Sapphire Rapids HBM节点。他们的目标是在2024年第一季度装好所有节点,TACC目前希望在明年1月之内完成。经过前期测试,完整的Stampede3机器有望在明年3月投入生产。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。