英伟达继续高歌猛进,AMD与英特尔的AI计划恐难招架

对于过去几代产品而言,两年一更新的速度足以保持竞争优势。但根据本月早些时候投资者们看到的演示文稿,英伟达手中除了B100这张王牌,还有将Arm核心与Blackwell架构匹配打造的全新“超级芯片”,外加L40及L40S的迭代产品。

但若CPU双雄能够用好自己手中的渠道网络,胜负仍在未定之天。

在疯狂发掘生成式AI潜能的过程当中,英伟达仍是一马当先的头号玩家,仅今年第二季度的收入就较去年同期增长了一倍还多。为了确保这一领先地位,这位GPU巨头显然打算继续加快新款加速器的开发速度。

对于过去几代产品而言,两年一更新的速度足以保持竞争优势。但根据本月早些时候投资者们看到的演示文稿,英伟达手中除了B100这张王牌,还有将Arm核心与Blackwell架构匹配打造的全新“超级芯片”,外加L40及L40S的迭代产品。

这倒也不令人意外,毕竟整个行业都期待着英伟达能在2024年年内公布下一代架构及B100的各个型号。

可接下来的情况还是出乎所有人的预料。

英伟达继续高歌猛进,AMD与英特尔的AI计划恐难招架

根据本月发布的投资者演示文稿,英伟达计划将新品发布节奏从两年调整为一年。

从资料来看,英伟达即将转向一年发布一次的新节奏。具体来讲,基于Blackwell的B100及相关型号将于2025年替换为“X100”系列。这里我们姑且认为“X”只是个占位符,黄仁勋可能仍在考虑具体要用哪位数学家、计算机科学家或者工程师来命名新架构。但重点在于:英伟达打算加快新GPU的迭代速度。

攻势加快之下,英特尔与AMD该如何自处?

这种转变无疑给AMD和英特尔等厂商带来了潜在挑战,毕竟他们的GPU和AI加速器发布周期仍然是两年。

例如,AMD在英伟达A100推出的约一年之后发布了Instinct MI200系列加速器,声称除了英伟达的稀疏性支持优势之外,Instinct MI200的双精度性能其实更强、FP16 FLOPS则基本相当。

与A100相比,Instinct MI200让AMD在高性能计算应用方面获得了明显优势,也因此成为欧洲Lumi及美国能源部Frontier超级计算机等大型系统中的核心组成部件。

如今,随着市场对于生成式AI的需求不断增长,AMD希望针对较低精度工作负载进行进一步调整,借此在GPU和APU两条战线上挑战英伟达的AI主导地位。但是,如果技术媒体The Next Platform汇总的MI300A/X性能评估结果属实,那么AMD的最新芯片最终可无法在FLOPS上与H100直接竞争,只是在内存容量上略胜一筹。具体来讲,该芯片预计将提供128 GB至192 GB的HBM3内存,相较于H100具有微弱优势。

英特尔在今年9月的Innovation大会上着力宣传了一波AI计划,其处境也与AMD基本相当。芯片巨头此前曾决定加快CPU和GPU的发布节奏,但经过部门重组和成本削减规划之后,最终决定放弃GPU业务。

这一决定直接导致XPU CPU-GPU架构和Rialto Bridge胎死腹中。顺带一提,Rialto Bridge原本作为阿贡国家实验室Aurora超级计算机所采用的Ponte Vecchio加速器的后续产品。随后,英特尔公司又重新将Falcon Shores设计的发布时间从2024年推迟至2025年,理由是此举“符合客户对新产品的发布期望,并为开发生态系统留出时间”。

后面这条消息非常有趣,这意味着英特尔会将其GPU Max和Habana Labs架构统一至同一平台之下。也就是说,此前Gaudi2和GPU Max分属两个产品家族,但从Gaudi3开始将正式合兵一处。

与A100相比,Gaudi2表现出可观的性能表现。但在其去年推出时,英伟达更加强大的H100已经发布,距离正式出货也只有几个月时间。

Habana的下一代加速器Gaudi3看起来倒是很有前途,但它不仅需要超越H100和AMD MI300等同类竞品,还得跟即将推出的英伟达B100加速器相抗衡。

SemiAnalysis创始人Dylan Patel是最早意识到这个问题的观察者之一。这倒不是说MI300或者Gaudi3甫一面世就已过时,但从加速技术的发展路线图来看,它们的机会窗口恐怕会比过去短得多。

在他看来,“在特定的窗口期内,MI300仍会是市场上最好的芯片。”他还补充道,虽然我们对英特尔Gaudi3所知甚少,但如果继续保持以往的扩展速度,那它应该会比英伟达H100更强大。

从长远来看,他预计英特尔和AMD将不得不跟上英伟达的节奏,加快自己的CPU和加速器开发路线图。

正如我们之前所指出,即使英特尔和AMD的下一代加速器无法击败英伟达,它们最终也仍有望凭借更成熟的渠道网络获得市场认可。据报道,英伟达的H100受到台积电先进封装技术的限制,这种产能短缺预计要到2024年才能得到解决。虽然AMD的MI300系列产品可能也会遇到类似的挑战(其同样采用这些先进的封装技术),但英特尔自身也拥有封装能力,只是还没有明确公示Gaudi3是否会使用这项技术,或者打算继续像英伟达和AMD那样依赖外部代工服务。

加快脚步的不只有加速器

更值得注意的是,英伟达加快的并不仅仅是加速器产品的发布节奏,同时也加快了Quantum Infiniband和Spectrum以太网交换产品组合的开发速度。

虽然单个GPU也能承载,但AI训练和HPC应用程序往往需要在大型加速器集群上才能高效运行,因此网络功能也必须紧紧跟上其发展步伐。

随着2020年收购长期合作伙伴Mellanox,英伟达目前也掌握了自己的网络技术栈,包括Mellanox的交换与网卡产品组合。

目前,英伟达最快的交换机Infiniband最高可达25.6 Tbps,以太网最高则可达51.2 Tbps。这些带宽被分配给多个200至400 Gbps端口。但在新的发布节奏之下,英伟达的目标是在2024年将端口速度提高至800 Gbps,在2025年将端口速度提高至1600 Gbps。

这不仅需要通过更强大的交换机芯片将带宽提供至51.2至102.4 Tbps区间,还需要更快的200 Gbps串行器/解串器(SerDes)以支持1600 Gbps QSFP-DD模块。

实现这种网络性能的必要技术已经存在,博通就演示了其200 Gbps SerDes。但我们还没有在英伟达的宣传内容中看到它的身影。Patel指出,理想情况下,英伟达必须得依靠Infiniband和以太网达到102.4 Tbps传输带宽,才能真正实现800 Gbps网卡。

PCIe的问题

这恐怕就是英伟达总体规划中的最大软肋,或者说技术难关。受到PCIe的限制,使用现有网卡恐怕无法及时提供如此恐怖的传输速率。目前,网卡的实际限制是单个端口400 Gbps。PCIe 6.0倒是有希望实现800 Gbps,但要想让1600 Gbps这个恐怖的数字成为现实,我们恐怕需要的是PCIe 7.0。

我们已经知道,英特尔的下一代至强在2024年推出时将不支持PCIe 6.0;至于 AMD即将推出的Turing Epycs,我们掌握的情报还不充分,无法判断其是否支持PCIe 6.0。但乐观的一面是,AMD在过去几代产品中对PCIe新标准的支持一直领先于英特尔。

然而,x86也并不是英伟达的唯一选择。该公司现在已经拥有自己基于Arm的CPU。因此,英伟达可能计划在Grace的后继产品上支持PCIe 6.0。Arm处理器曾经是首批在2022年初添加PCIe 5.0支持的处理器之一,所以我们同样有理由相信类似的情况未来会再发生一次。

考虑到这个问题,Patel预计B100实际上将分为两个版本。其一将采用PCIe 5.0,并具有与H100相同的700瓦热设计功率(TDP),这样客户就能将新的HGX主板直接接入现有机箱设计当中。在他看来,第二个版本将拥有更高的功率、需要配合水冷设计,并能够支持PCIe 6.0。

但对于英伟达打算在2025年实现的1600 Gbps端口传输带宽,首选答案恐怕将是PCIe 7.0,但此项技术还未最终确定。Patel表示,“根据标准机构透露的消息,搭载PCIe 7.0的产品最早也要到2026年才能落地。所以英伟达提出的这个时间表根本无法实现。”

而另一个选项则是绕过PCIe总线。正如Patel指出,英伟达其实并不需要在GPU和CPU之间实现PCIe 6.0或PCIe 7.0级别的带宽,保证网卡和GPU间有此带宽就足够了。因此,他预计英伟达稻有可能会直接绕过CPU这个传输瓶颈。

事实上,英伟达已经在某种程度上做到了这一点。在最近几代产品中,英伟达通过使用PCIe交换机有效将GPU与ConnectX网卡连接了起来。Patel表示,英伟达可能会进一步扩展这种方法,从而实现比单个PCIe 5.0或PCIe 6.0 x16插槽更高的端口传输速度。

他表示,对于X100这代产品,有传闻称英伟达可能会在2025年放弃用PCIe在X100的网卡和GPU间进行通信,转而采用其他专有互连技术。

说到这里,一直关注英伟达AI技术发展的朋友可能会好奇,这家芯片制造商手中的超高带宽NVLinks结构为什么不赶紧顶上。此项技术主要用于将多个GPU网格连接起来,使其在实效层面成为一个大型GPU。通过添加NVLink交换机,跨多节点扩展应该不是什么难事。

然而,NVLink也存在一些重大局限,特别是在覆盖范围和可扩展性方面。虽然NVLink比之前提到的方案都快得多,但最多只能支持256个设备。要扩展到此范围之外,就只能使用Infiniband或以太网将各个集群拼接在一起。

NVLink网格还只适用于GPU到GPU间的通信,而无法处理GPU系统上的数据传入/传出和工作负载协调需求。

因此,英伟达能否成功加快产品迭代速度,将在很大程度上取决于网络传输速度跟不跟得上。如果不行,那么传输阻塞将大拖后腿、芯片性能升级也将无从谈起。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2023

10/16

09:09

分享

点赞

邮件订阅