AIST联手HPE与英伟达，合作开发下一代AI云计算设备

日本国家先进工业科学与技术研究所（AIST）计划安装其第三代AI桥接云基础设施3.0（AI Bridging Cloud Infrastructure 3.0）超级计算机。而且正如大家所想象，这套系统将包含数千张英伟达最新一代“Hopper”H200 GPU加速器。

但有趣的是，拿下ABCI 3.0系统交易订单的是HPE，而非日本自己的富士通公司。之所以这一点非常重要，是因为自2018年ABCI设施系列首次部署以来，AIST一直选择NEC和富士通作为其高端系统的本地设备供应商。

日本服务器制造商NEC于2017年3月交付了第一台ABCI原型，其功能定位是帮助AIST为人工智能和数据分析类工作负载提供对计算及存储容量的云访问能力，从而解决在云环境下实现AI大规模应用的需求。但当时的初代设备体量相当普通，只有50台双插槽“Broadwell”至强E5服务器以及每服务器8张“Pascal”P100 GPU加速器。该原型机配备来自DataDirect Networks的4 PB集群磁盘存储，运行有IBM的GPFS文件系统，并采用100 Gb/秒EDR InfiniBand导向器交换机将这些硬件连接在一起。

2017年秋季，富士通拿下了生产级ABCI 1.0系统的合同，实际成品由1088个富士通Primergy CX2570服务器节点组成。这些节点采用半宽服务器托架，可滑入Primergy CX400 2U机柜。每个托架可容纳2个英特尔“Skylake”至强SP处理器加4张更加强大的英伟达“Volta”GPU加速器。

这套ABCI 1.0设备拥有2176个CPU插槽加4352个GPU插槽，总计提供476 TB内存与4.19 PB/秒传输带宽，可实现37.2千万亿次的64位双精度浮点（FP64）性能与550千万亿次的16位FP16半精度性能。节点还配备有内部闪存驱动器，可以访问20 PB GPFS文件系统。整个系统依靠InfiniBand实现连接。

原型系统成本加ABCI 1.0生产系统的总成本为1.72亿美元，其中还包括建造数据中心以容纳该套设备的投入。数据中心设施在其中约占1000万美元，包括72台计算机架以及18个存储机架。数据中心配备有温水冷却系统，可支持最高3.25兆瓦功耗并提供3.2兆瓦的冷却容量。

ABCI设备的核心用途，就是将Linux、Kubernetes容器、AI框架以及AI研究人员可能需要的任何HPC及AI库加载到该集群当中，以供他们自由运行相关应用程序容器。AIST选择了Singularity容器系统来管理容器及其软件镜像。

2021年5月，ABCI 2.0系统正式诞生，增加了120个基于富士通Primergy GX2570-M6服务器的新节点。这些服务器节点采用英特尔“Icelake”至强SP处理器，并使用200 Gb/秒HDR InfiniBand互连将各节点及每节点中的8张“Ampere”A100 GPU相互连接。虽然仅包含区区120个节点，但其在Ampere GPU张量核心的加持下仍可提供19.3千万亿次的FP64性能与151千万亿次的FP16性能；这部分新系统的内存容量为97.5 TB，传输带宽为1.54 PB/秒。ABCI 1.0及ABCI 2.0共同链接进同一台设备，具体情况如下图所示：

AIST联手HPE与英伟达，合作开发下一代AI云计算设备

ABCI 1.0加上ABCI 2.0扩展的完整复合体通常直接被称为ABCI 2.0，最高运行功率可达2.3兆瓦。整个系统在FP64精度下可提供56.6千万亿次算力，在FP16精度下则可提供851.5千万亿次算力。

随着ABCI 3.0系统订单花落HPE，看起来AIST掌握的性能规模将迎来巨大飞跃，特别是AI性能将超过6百亿亿次。但至少从目前来看，这一性能数字很可能是采用英伟达GPU中2：1稀疏压缩之后的结果，毕竟供应商永远只引用他们拿得出手的最大数字。HPE在公布ABCI系统的新闻稿中表示，其FP16精度下的浮点运算性能“约为6.2百亿亿次”——请注意，这里选择的并不是H100和H200同样支持的FP8精度。英伟达在关于此次交易的声明中指出，这套系统在不采用稀疏配置的情况下，拥有“6百亿亿次AI浮点运算性能”，并补充称其“双精度性能为410千万亿次”。

基于以上结论，再加上H100和H200 GPU的理论峰值性能相同这一事实，我们认为ABCI 3.0设备搭载有6144张GPU，分布有768个节点之上，也就是每节点对应8线GPU。如果以这样的配置进行计算，就能得到在无稀疏性F16精度下的6.08百亿亿次峰值性能，而在张量核心上则可实现FP64精度下的411.6千万亿次峰值。（H100和H200上的FP64模式不支持稀疏性。）英伟达表示，这些节点拥有200 GB/秒的双向InfiniBand传输带宽，就是说每个节点对应8个InfiniBand卡（每张GPU对应1个）。

2022年3月推出的H100 GPU拥有80 GB HBM3内存与3.35 TB/秒的传输带宽，随后又被升级为86 GB HBM3内存与3.9 TB/秒传输带宽。而于2023年11月发布并批量出货的H200则更上一层楼，HBM3E内存容量达到141 GB，传输带宽也来到4.8 TB/秒。如果计算一下，就会发现ABCI 3.0系统将拥有846 TB的HBM3E内存容量与28.8 PB/秒的总传输带宽。

因此与ABCI 1.0加ABCI 2.0两代系统的加和相比，ABCI 3.0的FP64性能仍可达到其7.3倍，FP16性能则是其7.1倍，内存带宽是其5倍，GPU内存容量是其1.5倍。于是现代系统架构的老大难问题再次出现——内存容量与内存带宽的提升跟不上算力增长。

简单来讲，就是增强算力很容易，但扩大内存很困难。

ABCI 3.0系统将于今年晚些时候正式上线。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

AIST联手HPE与英伟达，合作开发下一代AI云计算设备

来源：至顶网计算频道

2024

07/15

10:34

分享

点赞

AWS强化基础设施战略，全面升级SageMaker应对AI竞争

BigQuery如何融合数据与AI实现业务转型

智能时代，同球共济！2025世界人工智能大会将于7月26日启幕

AI催生下的价值迁徙，神州数码与阿里云合作的“生态位”再定义

铠侠UFS 4.1闪存承诺提升AI应用性能表现

Google Firebase Studio推出智能体模式实现自动化编程

谷歌为Veo 3增加图像转视频生成功能

英伟达计划推出专为中国市场设计的AI芯片

YouTube新政策旨在减少AI生成的低质量视频内容

Citrix重返主流虚拟化市场，但承认产品尚未就绪

Docker推出新功能支持AI智能体开发

欧盟AI新规让科技巨头深恶痛绝的条款

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

HPE Gen12：英特尔至强6加持，数据中心和边缘计算的“新宠”

专访DeepMind CEO：我们距离实现AGI只需5-10年

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: