EOS只能半速运行：就连英伟达也无法为自家超级计算机提供充足H100 GPU

要说当下最困难的挑战，就是如何为计算系统采购充足的英伟达“Hopper”H100 GPU。哪怕是作为供应商的英伟达自己，也只能在有限的配额之下谨慎规划、调拨给内部使用。

要说当下最困难的挑战，就是如何为计算系统采购充足的英伟达“Hopper”H100 GPU。哪怕是作为供应商的英伟达自己，也只能在有限的配额之下谨慎规划、调拨给内部使用。正因为如此，英伟达去年11月用于展示MLPerf基准测试运行能力的Eos超级计算机有半数设备被分配给了其他系统。如今的Eos虽仍是英伟达的当家招牌，但性能储备相较于峰值水平已遭腰斩。

当下的AI数据中心领域，正经历一段堪称荒谬的复杂时期。

首先是英伟达突然发布一篇博文外加一段视频，以颇为详尽且硬核的方式介绍了Eos系统——整体设备采用黑色、绿色加黄色搭配，颇有几分儿童故事书中的风格。

Eos设备早在2022年3月就已公开亮相，当时被作为Hopper GPU加速器的宣传素材，并于当年晚些时候进行了实装。随着11月在高性能LINPAKC基准测试中跑出认证成绩，Eos系统成功在2023年的Top500超级计算机榜单中名列第九。

用于数据中心训练和推理性能测试的最新MLPerf机器学习基准也在此时正式揭晓，英伟达对自家Eos同样信心满满——这是一套拥有10752张H100 GPU的满配系统，全部通过4000 Gb/秒的Quantum-2 NDR InfiniBand实现互连。

援引英伟达当时的介绍，“生成式AI领域又一颗新星伴随着众多新记录和里程碑冉冉升起——这就是英伟达Eos，一台AI超级计算机，拥有多达10752张英伟达H100 Tensor Core GPU并搭配英伟达Quantum-2 InfiniBand网络。在基准训练测试当中，Eos只需3.9分钟就能在拥有1750亿参数的GPT-3模型上完成10亿token的训练任务。”

这里透露一点背景信息：Eos系统的原始设计其实只搭载4608张H100 GPU，也就是目前英伟达实际维持的Eos配置。当初运行LINPACK测试并拿下Top500超算名次的Eos使用的正是这套配备。可短短几个月过去，MLPerf测试中这6144张H100加速器到底去哪了？

另外：2022年3月公布的Eos原始设计能够在4608张H100的FP64双精度运算下提供275千万亿次的理论峰值性能，但在LINPACK性能测试中，该系统的FP64峰值测试性能仅为188.65千万亿次，就是说只有约3160张H100 GPU被用于驱动LINPACK基准测试。为什么LINPACK测试中不要说10752张GPU满员配置，就连4608张GPU的基础配置都没能保住？这实在令人感到费解。而从MLPerf测试结果来看，在配置上齐装满圆的Eos一举带来约642千万亿次的峰值性能，持续LINPACK性能则略高于400千万亿次，按这个成绩计算Eos完全可以在11月的Top500超算榜单中挤进前五。

有意思，所以真相究竟是什么？

据我们所知，Eos系统的初始架构如下所示：

2022年3月公布的这台Eos设备建立了一套由32个DGX H100系统组成的SuperPOD，每个系统均包含8张H100 GPU，并通过NVSwitch内存结构为总计256张GPU提供共享内存空间。为了在FP64双精度运算下获得275千万亿次的峰值性能，或者在FP8四分之一精度下获得18百亿亿次的峰值性能，则需要使用大型Quantum-2 InfiniBand交换机复合体将18个DGX H100 SuperPOD互连起来。

根据我们的计算，DGX服务器内部使用了2304个NVSwitch 3 ASIC，18个SuperPOD中还各使用360个NVSwitch叶/脊交换机，即总计720个NVSwitch 3 ASIC。双层InfiniBand网络共包含500个InifniBand交换机，对应着另外500个交换机ASIC。有趣的是，这总计3524个交换机ASIC负责将4608张H100 GPU互连起来。（对于原始FP64运算，Eos设备上DGX节点中1152个至强SP主机CPU所贡献的算力几乎没有统计学意义。）当时就有文章评价称，这属于典型的网络密集型配置，跟超大规模基础设施运营商和云服务商的主流配置思路大相径庭。而且据我们所知，还没有哪家超大规模基础设施运营商和云服务商会使用NVSwitch结构建立SuperPOD——虽然这种方法性能更好，但对应的溢价实在过于夸张。

我们还联系了英伟达想了解Eos设备的参考架构，希望从细节入手探寻真相。我们不清楚Eos采用的H100拥有80 GB显存还是96 GB显存，也不清楚该系统为什么相较去年11月的MLPerf测试版本在配置上缩水了57.1%。

这里我们提出一种可能的猜测。目前一张H100 GPU的重量约为3磅（接近1.5公斤），售价则高达3万美元，折合每克22美元。截至本文发稿时，黄金的价格约为每克71美元，就是说英伟达旗舰GPU的同质量价格已经逼近黄金的三分之一。更重要的是，H100的实用价值远高于黄金。面对旺盛的市场需求与雪片般飞来的客户订单，把这6144张H100 GPU及时变现对英伟达来说无疑才是正确的选择。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

EOS只能半速运行：就连英伟达也无法为自家超级计算机提供充足H100 GPU

来源：至顶网计算频道

2024

02/16

13:49

分享

点赞

Qorvo推出宽带高效功率放大器QPA9510，助力简化Sub-1GHz射频设计

关于现代化，我们真正需要讨论的是什么？

微软质量控制问题愈演愈烈

开源 AI 及其在当今世界中的重要作用

OpenAI Sora与谷歌Veo 3 AI视频生成对比测试结果出炉

iPhone卫星连接技术五大升级方向曝光

AI助力阿尔茨海默病治疗突破

测试智算性能！新一期国际排行榜AIPerf发布

ChinaSC 2025：产学研聚力，解锁智能算力经济新未来！

联想再登中国HPC TOP100第一，多元算力加速超智融合新进程 斩获多奖！联想多元算力布局引领产业新征程

Gartner：趋势不是终点，而是通往下一个时代的坐标

异构CPU时代来临：多架构协同成为计算新趋势

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

联想再登中国HPC TOP100第一，多元算力加速超智融合新进程斩获多奖！联想多元算力布局引领产业新征程