日本国家先进工业科学与技术研究所(AIST)计划安装其第三代AI桥接云基础设施3.0(AI Bridging Cloud Infrastructure 3.0)超级计算机。而且正如大家所想象,这套系统将包含数千张英伟达最新一代“Hopper”H200 GPU加速器。

但有趣的是,拿下ABCI 3.0系统交易订单的是HPE,而非日本自己的富士通公司。之所以这一点非常重要,是因为自2018年ABCI设施系列首次部署以来,AIST一直选择NEC和富士通作为其高端系统的本地设备供应商。
日本服务器制造商NEC于2017年3月交付了第一台ABCI原型,其功能定位是帮助AIST为人工智能和数据分析类工作负载提供对计算及存储容量的云访问能力,从而解决在云环境下实现AI大规模应用的需求。但当时的初代设备体量相当普通,只有50台双插槽“Broadwell”至强E5服务器以及每服务器8张“Pascal”P100 GPU加速器。该原型机配备来自DataDirect Networks的4 PB集群磁盘存储,运行有IBM的GPFS文件系统,并采用100 Gb/秒EDR InfiniBand导向器交换机将这些硬件连接在一起。
2017年秋季,富士通拿下了生产级ABCI 1.0系统的合同,实际成品由1088个富士通Primergy CX2570服务器节点组成。这些节点采用半宽服务器托架,可滑入Primergy CX400 2U机柜。每个托架可容纳2个英特尔“Skylake”至强SP处理器加4张更加强大的英伟达“Volta”GPU加速器。
这套ABCI 1.0设备拥有2176个CPU插槽加4352个GPU插槽,总计提供476 TB内存与4.19 PB/秒传输带宽,可实现37.2千万亿次的64位双精度浮点(FP64)性能与550千万亿次的16位FP16半精度性能。节点还配备有内部闪存驱动器,可以访问20 PB GPFS文件系统。整个系统依靠InfiniBand实现连接。
原型系统成本加ABCI 1.0生产系统的总成本为1.72亿美元,其中还包括建造数据中心以容纳该套设备的投入。数据中心设施在其中约占1000万美元,包括72台计算机架以及18个存储机架。数据中心配备有温水冷却系统,可支持最高3.25兆瓦功耗并提供3.2兆瓦的冷却容量。
ABCI设备的核心用途,就是将Linux、Kubernetes容器、AI框架以及AI研究人员可能需要的任何HPC及AI库加载到该集群当中,以供他们自由运行相关应用程序容器。AIST选择了Singularity容器系统来管理容器及其软件镜像。
2021年5月,ABCI 2.0系统正式诞生,增加了120个基于富士通Primergy GX2570-M6服务器的新节点。这些服务器节点采用英特尔“Icelake”至强SP处理器,并使用200 Gb/秒HDR InfiniBand互连将各节点及每节点中的8张“Ampere”A100 GPU相互连接。虽然仅包含区区120个节点,但其在Ampere GPU张量核心的加持下仍可提供19.3千万亿次的FP64性能与151千万亿次的FP16性能;这部分新系统的内存容量为97.5 TB,传输带宽为1.54 PB/秒。ABCI 1.0及ABCI 2.0共同链接进同一台设备,具体情况如下图所示:

ABCI 1.0加上ABCI 2.0扩展的完整复合体通常直接被称为ABCI 2.0,最高运行功率可达2.3兆瓦。整个系统在FP64精度下可提供56.6千万亿次算力,在FP16精度下则可提供851.5千万亿次算力。
随着ABCI 3.0系统订单花落HPE,看起来AIST掌握的性能规模将迎来巨大飞跃,特别是AI性能将超过6百亿亿次。但至少从目前来看,这一性能数字很可能是采用英伟达GPU中2:1稀疏压缩之后的结果,毕竟供应商永远只引用他们拿得出手的最大数字。HPE在公布ABCI系统的新闻稿中表示,其FP16精度下的浮点运算性能“约为6.2百亿亿次”——请注意,这里选择的并不是H100和H200同样支持的FP8精度。英伟达在关于此次交易的声明中指出,这套系统在不采用稀疏配置的情况下,拥有“6百亿亿次AI浮点运算性能”,并补充称其“双精度性能为410千万亿次”。
基于以上结论,再加上H100和H200 GPU的理论峰值性能相同这一事实,我们认为ABCI 3.0设备搭载有6144张GPU,分布有768个节点之上,也就是每节点对应8线GPU。如果以这样的配置进行计算,就能得到在无稀疏性F16精度下的6.08百亿亿次峰值性能,而在张量核心上则可实现FP64精度下的411.6千万亿次峰值。(H100和H200上的FP64模式不支持稀疏性。)英伟达表示,这些节点拥有200 GB/秒的双向InfiniBand传输带宽,就是说每个节点对应8个InfiniBand卡(每张GPU对应1个)。
2022年3月推出的H100 GPU拥有80 GB HBM3内存与3.35 TB/秒的传输带宽,随后又被升级为86 GB HBM3内存与3.9 TB/秒传输带宽。而于2023年11月发布并批量出货的H200则更上一层楼,HBM3E内存容量达到141 GB,传输带宽也来到4.8 TB/秒。如果计算一下,就会发现ABCI 3.0系统将拥有846 TB的HBM3E内存容量与28.8 PB/秒的总传输带宽。
因此与ABCI 1.0加ABCI 2.0两代系统的加和相比,ABCI 3.0的FP64性能仍可达到其7.3倍,FP16性能则是其7.1倍,内存带宽是其5倍,GPU内存容量是其1.5倍。于是现代系统架构的老大难问题再次出现——内存容量与内存带宽的提升跟不上算力增长。
简单来讲,就是增强算力很容易,但扩大内存很困难。
ABCI 3.0系统将于今年晚些时候正式上线。
好文章,需要你的鼓励
Google Cloud产品管理副总裁Michael Gerstenhaber近日接受采访,详解企业部署AI智能体面临的核心治理难题。他指出,智能体的安全管控须借鉴人类员工管理逻辑,实现"默认安全"。Google Cloud通过智能体网关、身份权限管理、分布式追踪及Model Armor等工具构建纵深防御体系。Gerstenhaber还提出"弹性智能"概念,认为持续学习的智能体无需退役,可在运行时动态优化行为,从而帮助企业实现运营能力的弹性扩展。
OpenSkill是一套让AI代理无需人工监督即可自主成长的框架,通过从互联网获取知识、自建虚拟考题反复练习,实现真正的开放世界自我演化。
根据Ookla发布的全球Wi-Fi状态报告,Wi-Fi 7正在全球范围内逐步推进,但整体渗透率仍不足2%。新加坡以25%的Wi-Fi 7用户占比位居全球首位,得益于政府与运营商的联合推动。5 GHz频段依然是全球主流,6 GHz频段全球占比仅1.7%。欧洲6 GHz利用率更低至1.6%,各国间存在显著差异。AI基础设施需求推高半导体成本,也对CPE和智能手机制造商形成压力。
论文研究了AI评委同时优化多个评判维度时的两大失败原因:梯度稀释与指令干扰,为多目标提示词优化提供了系统性诊断框架。