日本国家先进工业科学与技术研究所(AIST)计划安装其第三代AI桥接云基础设施3.0(AI Bridging Cloud Infrastructure 3.0)超级计算机。而且正如大家所想象,这套系统将包含数千张英伟达最新一代“Hopper”H200 GPU加速器。
但有趣的是,拿下ABCI 3.0系统交易订单的是HPE,而非日本自己的富士通公司。之所以这一点非常重要,是因为自2018年ABCI设施系列首次部署以来,AIST一直选择NEC和富士通作为其高端系统的本地设备供应商。
日本服务器制造商NEC于2017年3月交付了第一台ABCI原型,其功能定位是帮助AIST为人工智能和数据分析类工作负载提供对计算及存储容量的云访问能力,从而解决在云环境下实现AI大规模应用的需求。但当时的初代设备体量相当普通,只有50台双插槽“Broadwell”至强E5服务器以及每服务器8张“Pascal”P100 GPU加速器。该原型机配备来自DataDirect Networks的4 PB集群磁盘存储,运行有IBM的GPFS文件系统,并采用100 Gb/秒EDR InfiniBand导向器交换机将这些硬件连接在一起。
2017年秋季,富士通拿下了生产级ABCI 1.0系统的合同,实际成品由1088个富士通Primergy CX2570服务器节点组成。这些节点采用半宽服务器托架,可滑入Primergy CX400 2U机柜。每个托架可容纳2个英特尔“Skylake”至强SP处理器加4张更加强大的英伟达“Volta”GPU加速器。
这套ABCI 1.0设备拥有2176个CPU插槽加4352个GPU插槽,总计提供476 TB内存与4.19 PB/秒传输带宽,可实现37.2千万亿次的64位双精度浮点(FP64)性能与550千万亿次的16位FP16半精度性能。节点还配备有内部闪存驱动器,可以访问20 PB GPFS文件系统。整个系统依靠InfiniBand实现连接。
原型系统成本加ABCI 1.0生产系统的总成本为1.72亿美元,其中还包括建造数据中心以容纳该套设备的投入。数据中心设施在其中约占1000万美元,包括72台计算机架以及18个存储机架。数据中心配备有温水冷却系统,可支持最高3.25兆瓦功耗并提供3.2兆瓦的冷却容量。
ABCI设备的核心用途,就是将Linux、Kubernetes容器、AI框架以及AI研究人员可能需要的任何HPC及AI库加载到该集群当中,以供他们自由运行相关应用程序容器。AIST选择了Singularity容器系统来管理容器及其软件镜像。
2021年5月,ABCI 2.0系统正式诞生,增加了120个基于富士通Primergy GX2570-M6服务器的新节点。这些服务器节点采用英特尔“Icelake”至强SP处理器,并使用200 Gb/秒HDR InfiniBand互连将各节点及每节点中的8张“Ampere”A100 GPU相互连接。虽然仅包含区区120个节点,但其在Ampere GPU张量核心的加持下仍可提供19.3千万亿次的FP64性能与151千万亿次的FP16性能;这部分新系统的内存容量为97.5 TB,传输带宽为1.54 PB/秒。ABCI 1.0及ABCI 2.0共同链接进同一台设备,具体情况如下图所示:
ABCI 1.0加上ABCI 2.0扩展的完整复合体通常直接被称为ABCI 2.0,最高运行功率可达2.3兆瓦。整个系统在FP64精度下可提供56.6千万亿次算力,在FP16精度下则可提供851.5千万亿次算力。
随着ABCI 3.0系统订单花落HPE,看起来AIST掌握的性能规模将迎来巨大飞跃,特别是AI性能将超过6百亿亿次。但至少从目前来看,这一性能数字很可能是采用英伟达GPU中2:1稀疏压缩之后的结果,毕竟供应商永远只引用他们拿得出手的最大数字。HPE在公布ABCI系统的新闻稿中表示,其FP16精度下的浮点运算性能“约为6.2百亿亿次”——请注意,这里选择的并不是H100和H200同样支持的FP8精度。英伟达在关于此次交易的声明中指出,这套系统在不采用稀疏配置的情况下,拥有“6百亿亿次AI浮点运算性能”,并补充称其“双精度性能为410千万亿次”。
基于以上结论,再加上H100和H200 GPU的理论峰值性能相同这一事实,我们认为ABCI 3.0设备搭载有6144张GPU,分布有768个节点之上,也就是每节点对应8线GPU。如果以这样的配置进行计算,就能得到在无稀疏性F16精度下的6.08百亿亿次峰值性能,而在张量核心上则可实现FP64精度下的411.6千万亿次峰值。(H100和H200上的FP64模式不支持稀疏性。)英伟达表示,这些节点拥有200 GB/秒的双向InfiniBand传输带宽,就是说每个节点对应8个InfiniBand卡(每张GPU对应1个)。
2022年3月推出的H100 GPU拥有80 GB HBM3内存与3.35 TB/秒的传输带宽,随后又被升级为86 GB HBM3内存与3.9 TB/秒传输带宽。而于2023年11月发布并批量出货的H200则更上一层楼,HBM3E内存容量达到141 GB,传输带宽也来到4.8 TB/秒。如果计算一下,就会发现ABCI 3.0系统将拥有846 TB的HBM3E内存容量与28.8 PB/秒的总传输带宽。
因此与ABCI 1.0加ABCI 2.0两代系统的加和相比,ABCI 3.0的FP64性能仍可达到其7.3倍,FP16性能则是其7.1倍,内存带宽是其5倍,GPU内存容量是其1.5倍。于是现代系统架构的老大难问题再次出现——内存容量与内存带宽的提升跟不上算力增长。
简单来讲,就是增强算力很容易,但扩大内存很困难。
ABCI 3.0系统将于今年晚些时候正式上线。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。