日本国家先进工业科学与技术研究所(AIST)计划安装其第三代AI桥接云基础设施3.0(AI Bridging Cloud Infrastructure 3.0)超级计算机。而且正如大家所想象,这套系统将包含数千张英伟达最新一代“Hopper”H200 GPU加速器。
但有趣的是,拿下ABCI 3.0系统交易订单的是HPE,而非日本自己的富士通公司。之所以这一点非常重要,是因为自2018年ABCI设施系列首次部署以来,AIST一直选择NEC和富士通作为其高端系统的本地设备供应商。
日本服务器制造商NEC于2017年3月交付了第一台ABCI原型,其功能定位是帮助AIST为人工智能和数据分析类工作负载提供对计算及存储容量的云访问能力,从而解决在云环境下实现AI大规模应用的需求。但当时的初代设备体量相当普通,只有50台双插槽“Broadwell”至强E5服务器以及每服务器8张“Pascal”P100 GPU加速器。该原型机配备来自DataDirect Networks的4 PB集群磁盘存储,运行有IBM的GPFS文件系统,并采用100 Gb/秒EDR InfiniBand导向器交换机将这些硬件连接在一起。
2017年秋季,富士通拿下了生产级ABCI 1.0系统的合同,实际成品由1088个富士通Primergy CX2570服务器节点组成。这些节点采用半宽服务器托架,可滑入Primergy CX400 2U机柜。每个托架可容纳2个英特尔“Skylake”至强SP处理器加4张更加强大的英伟达“Volta”GPU加速器。
这套ABCI 1.0设备拥有2176个CPU插槽加4352个GPU插槽,总计提供476 TB内存与4.19 PB/秒传输带宽,可实现37.2千万亿次的64位双精度浮点(FP64)性能与550千万亿次的16位FP16半精度性能。节点还配备有内部闪存驱动器,可以访问20 PB GPFS文件系统。整个系统依靠InfiniBand实现连接。
原型系统成本加ABCI 1.0生产系统的总成本为1.72亿美元,其中还包括建造数据中心以容纳该套设备的投入。数据中心设施在其中约占1000万美元,包括72台计算机架以及18个存储机架。数据中心配备有温水冷却系统,可支持最高3.25兆瓦功耗并提供3.2兆瓦的冷却容量。
ABCI设备的核心用途,就是将Linux、Kubernetes容器、AI框架以及AI研究人员可能需要的任何HPC及AI库加载到该集群当中,以供他们自由运行相关应用程序容器。AIST选择了Singularity容器系统来管理容器及其软件镜像。
2021年5月,ABCI 2.0系统正式诞生,增加了120个基于富士通Primergy GX2570-M6服务器的新节点。这些服务器节点采用英特尔“Icelake”至强SP处理器,并使用200 Gb/秒HDR InfiniBand互连将各节点及每节点中的8张“Ampere”A100 GPU相互连接。虽然仅包含区区120个节点,但其在Ampere GPU张量核心的加持下仍可提供19.3千万亿次的FP64性能与151千万亿次的FP16性能;这部分新系统的内存容量为97.5 TB,传输带宽为1.54 PB/秒。ABCI 1.0及ABCI 2.0共同链接进同一台设备,具体情况如下图所示:
ABCI 1.0加上ABCI 2.0扩展的完整复合体通常直接被称为ABCI 2.0,最高运行功率可达2.3兆瓦。整个系统在FP64精度下可提供56.6千万亿次算力,在FP16精度下则可提供851.5千万亿次算力。
随着ABCI 3.0系统订单花落HPE,看起来AIST掌握的性能规模将迎来巨大飞跃,特别是AI性能将超过6百亿亿次。但至少从目前来看,这一性能数字很可能是采用英伟达GPU中2:1稀疏压缩之后的结果,毕竟供应商永远只引用他们拿得出手的最大数字。HPE在公布ABCI系统的新闻稿中表示,其FP16精度下的浮点运算性能“约为6.2百亿亿次”——请注意,这里选择的并不是H100和H200同样支持的FP8精度。英伟达在关于此次交易的声明中指出,这套系统在不采用稀疏配置的情况下,拥有“6百亿亿次AI浮点运算性能”,并补充称其“双精度性能为410千万亿次”。
基于以上结论,再加上H100和H200 GPU的理论峰值性能相同这一事实,我们认为ABCI 3.0设备搭载有6144张GPU,分布有768个节点之上,也就是每节点对应8线GPU。如果以这样的配置进行计算,就能得到在无稀疏性F16精度下的6.08百亿亿次峰值性能,而在张量核心上则可实现FP64精度下的411.6千万亿次峰值。(H100和H200上的FP64模式不支持稀疏性。)英伟达表示,这些节点拥有200 GB/秒的双向InfiniBand传输带宽,就是说每个节点对应8个InfiniBand卡(每张GPU对应1个)。
2022年3月推出的H100 GPU拥有80 GB HBM3内存与3.35 TB/秒的传输带宽,随后又被升级为86 GB HBM3内存与3.9 TB/秒传输带宽。而于2023年11月发布并批量出货的H200则更上一层楼,HBM3E内存容量达到141 GB,传输带宽也来到4.8 TB/秒。如果计算一下,就会发现ABCI 3.0系统将拥有846 TB的HBM3E内存容量与28.8 PB/秒的总传输带宽。
因此与ABCI 1.0加ABCI 2.0两代系统的加和相比,ABCI 3.0的FP64性能仍可达到其7.3倍,FP16性能则是其7.1倍,内存带宽是其5倍,GPU内存容量是其1.5倍。于是现代系统架构的老大难问题再次出现——内存容量与内存带宽的提升跟不上算力增长。
简单来讲,就是增强算力很容易,但扩大内存很困难。
ABCI 3.0系统将于今年晚些时候正式上线。
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。