但若CPU双雄能够用好自己手中的渠道网络,胜负仍在未定之天。
在疯狂发掘生成式AI潜能的过程当中,英伟达仍是一马当先的头号玩家,仅今年第二季度的收入就较去年同期增长了一倍还多。为了确保这一领先地位,这位GPU巨头显然打算继续加快新款加速器的开发速度。
对于过去几代产品而言,两年一更新的速度足以保持竞争优势。但根据本月早些时候投资者们看到的演示文稿,英伟达手中除了B100这张王牌,还有将Arm核心与Blackwell架构匹配打造的全新“超级芯片”,外加L40及L40S的迭代产品。
这倒也不令人意外,毕竟整个行业都期待着英伟达能在2024年年内公布下一代架构及B100的各个型号。
可接下来的情况还是出乎所有人的预料。
根据本月发布的投资者演示文稿,英伟达计划将新品发布节奏从两年调整为一年。
从资料来看,英伟达即将转向一年发布一次的新节奏。具体来讲,基于Blackwell的B100及相关型号将于2025年替换为“X100”系列。这里我们姑且认为“X”只是个占位符,黄仁勋可能仍在考虑具体要用哪位数学家、计算机科学家或者工程师来命名新架构。但重点在于:英伟达打算加快新GPU的迭代速度。
这种转变无疑给AMD和英特尔等厂商带来了潜在挑战,毕竟他们的GPU和AI加速器发布周期仍然是两年。
例如,AMD在英伟达A100推出的约一年之后发布了Instinct MI200系列加速器,声称除了英伟达的稀疏性支持优势之外,Instinct MI200的双精度性能其实更强、FP16 FLOPS则基本相当。
与A100相比,Instinct MI200让AMD在高性能计算应用方面获得了明显优势,也因此成为欧洲Lumi及美国能源部Frontier超级计算机等大型系统中的核心组成部件。
如今,随着市场对于生成式AI的需求不断增长,AMD希望针对较低精度工作负载进行进一步调整,借此在GPU和APU两条战线上挑战英伟达的AI主导地位。但是,如果技术媒体The Next Platform汇总的MI300A/X性能评估结果属实,那么AMD的最新芯片最终可无法在FLOPS上与H100直接竞争,只是在内存容量上略胜一筹。具体来讲,该芯片预计将提供128 GB至192 GB的HBM3内存,相较于H100具有微弱优势。
英特尔在今年9月的Innovation大会上着力宣传了一波AI计划,其处境也与AMD基本相当。芯片巨头此前曾决定加快CPU和GPU的发布节奏,但经过部门重组和成本削减规划之后,最终决定放弃GPU业务。
这一决定直接导致XPU CPU-GPU架构和Rialto Bridge胎死腹中。顺带一提,Rialto Bridge原本作为阿贡国家实验室Aurora超级计算机所采用的Ponte Vecchio加速器的后续产品。随后,英特尔公司又重新将Falcon Shores设计的发布时间从2024年推迟至2025年,理由是此举“符合客户对新产品的发布期望,并为开发生态系统留出时间”。
后面这条消息非常有趣,这意味着英特尔会将其GPU Max和Habana Labs架构统一至同一平台之下。也就是说,此前Gaudi2和GPU Max分属两个产品家族,但从Gaudi3开始将正式合兵一处。
与A100相比,Gaudi2表现出可观的性能表现。但在其去年推出时,英伟达更加强大的H100已经发布,距离正式出货也只有几个月时间。
Habana的下一代加速器Gaudi3看起来倒是很有前途,但它不仅需要超越H100和AMD MI300等同类竞品,还得跟即将推出的英伟达B100加速器相抗衡。
SemiAnalysis创始人Dylan Patel是最早意识到这个问题的观察者之一。这倒不是说MI300或者Gaudi3甫一面世就已过时,但从加速技术的发展路线图来看,它们的机会窗口恐怕会比过去短得多。
在他看来,“在特定的窗口期内,MI300仍会是市场上最好的芯片。”他还补充道,虽然我们对英特尔Gaudi3所知甚少,但如果继续保持以往的扩展速度,那它应该会比英伟达H100更强大。
从长远来看,他预计英特尔和AMD将不得不跟上英伟达的节奏,加快自己的CPU和加速器开发路线图。
正如我们之前所指出,即使英特尔和AMD的下一代加速器无法击败英伟达,它们最终也仍有望凭借更成熟的渠道网络获得市场认可。据报道,英伟达的H100受到台积电先进封装技术的限制,这种产能短缺预计要到2024年才能得到解决。虽然AMD的MI300系列产品可能也会遇到类似的挑战(其同样采用这些先进的封装技术),但英特尔自身也拥有封装能力,只是还没有明确公示Gaudi3是否会使用这项技术,或者打算继续像英伟达和AMD那样依赖外部代工服务。
更值得注意的是,英伟达加快的并不仅仅是加速器产品的发布节奏,同时也加快了Quantum Infiniband和Spectrum以太网交换产品组合的开发速度。
虽然单个GPU也能承载,但AI训练和HPC应用程序往往需要在大型加速器集群上才能高效运行,因此网络功能也必须紧紧跟上其发展步伐。
随着2020年收购长期合作伙伴Mellanox,英伟达目前也掌握了自己的网络技术栈,包括Mellanox的交换与网卡产品组合。
目前,英伟达最快的交换机Infiniband最高可达25.6 Tbps,以太网最高则可达51.2 Tbps。这些带宽被分配给多个200至400 Gbps端口。但在新的发布节奏之下,英伟达的目标是在2024年将端口速度提高至800 Gbps,在2025年将端口速度提高至1600 Gbps。
这不仅需要通过更强大的交换机芯片将带宽提供至51.2至102.4 Tbps区间,还需要更快的200 Gbps串行器/解串器(SerDes)以支持1600 Gbps QSFP-DD模块。
实现这种网络性能的必要技术已经存在,博通就演示了其200 Gbps SerDes。但我们还没有在英伟达的宣传内容中看到它的身影。Patel指出,理想情况下,英伟达必须得依靠Infiniband和以太网达到102.4 Tbps传输带宽,才能真正实现800 Gbps网卡。
这恐怕就是英伟达总体规划中的最大软肋,或者说技术难关。受到PCIe的限制,使用现有网卡恐怕无法及时提供如此恐怖的传输速率。目前,网卡的实际限制是单个端口400 Gbps。PCIe 6.0倒是有希望实现800 Gbps,但要想让1600 Gbps这个恐怖的数字成为现实,我们恐怕需要的是PCIe 7.0。
我们已经知道,英特尔的下一代至强在2024年推出时将不支持PCIe 6.0;至于 AMD即将推出的Turing Epycs,我们掌握的情报还不充分,无法判断其是否支持PCIe 6.0。但乐观的一面是,AMD在过去几代产品中对PCIe新标准的支持一直领先于英特尔。
然而,x86也并不是英伟达的唯一选择。该公司现在已经拥有自己基于Arm的CPU。因此,英伟达可能计划在Grace的后继产品上支持PCIe 6.0。Arm处理器曾经是首批在2022年初添加PCIe 5.0支持的处理器之一,所以我们同样有理由相信类似的情况未来会再发生一次。
考虑到这个问题,Patel预计B100实际上将分为两个版本。其一将采用PCIe 5.0,并具有与H100相同的700瓦热设计功率(TDP),这样客户就能将新的HGX主板直接接入现有机箱设计当中。在他看来,第二个版本将拥有更高的功率、需要配合水冷设计,并能够支持PCIe 6.0。
但对于英伟达打算在2025年实现的1600 Gbps端口传输带宽,首选答案恐怕将是PCIe 7.0,但此项技术还未最终确定。Patel表示,“根据标准机构透露的消息,搭载PCIe 7.0的产品最早也要到2026年才能落地。所以英伟达提出的这个时间表根本无法实现。”
而另一个选项则是绕过PCIe总线。正如Patel指出,英伟达其实并不需要在GPU和CPU之间实现PCIe 6.0或PCIe 7.0级别的带宽,保证网卡和GPU间有此带宽就足够了。因此,他预计英伟达稻有可能会直接绕过CPU这个传输瓶颈。
事实上,英伟达已经在某种程度上做到了这一点。在最近几代产品中,英伟达通过使用PCIe交换机有效将GPU与ConnectX网卡连接了起来。Patel表示,英伟达可能会进一步扩展这种方法,从而实现比单个PCIe 5.0或PCIe 6.0 x16插槽更高的端口传输速度。
他表示,对于X100这代产品,有传闻称英伟达可能会在2025年放弃用PCIe在X100的网卡和GPU间进行通信,转而采用其他专有互连技术。
说到这里,一直关注英伟达AI技术发展的朋友可能会好奇,这家芯片制造商手中的超高带宽NVLinks结构为什么不赶紧顶上。此项技术主要用于将多个GPU网格连接起来,使其在实效层面成为一个大型GPU。通过添加NVLink交换机,跨多节点扩展应该不是什么难事。
然而,NVLink也存在一些重大局限,特别是在覆盖范围和可扩展性方面。虽然NVLink比之前提到的方案都快得多,但最多只能支持256个设备。要扩展到此范围之外,就只能使用Infiniband或以太网将各个集群拼接在一起。
NVLink网格还只适用于GPU到GPU间的通信,而无法处理GPU系统上的数据传入/传出和工作负载协调需求。
因此,英伟达能否成功加快产品迭代速度,将在很大程度上取决于网络传输速度跟不跟得上。如果不行,那么传输阻塞将大拖后腿、芯片性能升级也将无从谈起。
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。