OCP| Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形 原创

Spectrum-X为AI Factory延展 “感知中枢”。

如果说GPU是AI的“肌肉”,模型是“意识”,那么网络就是让其产生协同与感知的“神经”。

过去几十年,以太网一直是非常成熟可靠的网络,也是应用最广泛的选择。但随着AI的出现,这一共识出现了“松动”。

如今,AI的演进之下,微软、Meta、特斯拉、字节跳动等行业巨头纷纷以“模型生产线”的思路重构基础设施,从算力调度、数据流转,到模型训练与部署,形成了一条端到端的体系。

而这,正是“AI Factory”理念的具象化实践。

OCP|  Meta与Oracle“押注”Spectrum-X  “AI Factory” 感知中枢成形

这一理念下,随之而来的问题是,以太网的核心设计逻辑强调通用性与成本效率,而AI训练要求的则是:高带宽、低延迟、确定性通信。

试想,在数千张GPU并行计算的场景中,任何流量抖动(jitter)或带宽竞争(bandwidth contention),都将拖慢整个训练流程,使GPU无法满负荷计算,造成算力浪费。

AI的高负载之下,以太网的弱点被逐渐放大,带宽、延迟、隔离、跨域扩展等问题,将传统以太网一次次拉到“边界”。

01  传统以太网“四重边界”

具体而言,在超高并发、海量数据交换的场景下,以太网的“边界”体现在四个层面。

其一是带宽利用率低下。分布式训练中的通信操作(如用All-reduce来实现数据聚合与分发),会产生大规模、高并发的“多对一”流量,即“Incast”(拥塞)。而传统网络依赖的等价多路径(ECMP)负载均衡机制,常常基于静态Hash算法分配流量,无法感知网络的瞬时状态,极易导致部分路径拥塞,但其他路径闲置的情况。

这种流量分配的不均衡性,造成了交换机内部缓冲区的极大压力,导致丢包和重传,最终将端到端的网络吞吐效率限制在较低水平,形成“宽路窄用”的局面。

其二是性能缺乏确定性。在AI训练过程中,对网络延迟及其稳定性(不稳定会出现Jitter)极为敏感。然而,不可预测的网络延迟、Jitter,都会拖慢整个计算集群的进度,从而影响模型的收敛速度和训练总成本。

所以,追求鲁棒性和通用性的以太网,并不能提供可预测、确定性的性能保障。而这种不确定性,无法满足 AI训练和推理对精确控制和高效调度的要求。

其三,多租户环境下的性能隔离问题。在云原生环境,多个AI任务或租户共享网络基础设施是常态。一个高强度的训练任务,其突发流量很容易对其他任务造成干扰,形成“嘈杂邻居”效应(“嘈杂邻居”即在共享托管条件下,一方使用比最初分配更多的资源,另一方则受到暂时限制)。

而传统的QoS机制,虽然能提供一定的优先级划分,但在应对AI任务流量复杂的动态特性时,往往颗粒度过粗,难以实现精细化、无损的性能隔离。

其四是规模化扩展下的限制。随着AI模型参数规模的指数级增长,单一数据中心已无法满足算力需求。将分散的多个数据中心整合成一个逻辑统一的“超级计算机”,成为必然趋势。

然而,跨地域的长距离链路带来了显著的延迟增加和不稳定性,传统的RDMA(远程直接内存访问)协议和拥塞控制算法在这一环境下性能急剧下降,构建统一、高效的跨域AI网络成为艰巨的技术挑战。

这些挑战共同指向一个结论——对网络的优化,不能再停留在修补式的改良,而必须进行一场自下而上的、系统性的重构。

02  Spectrum-X重写“连接秩序”跨越以太网“临界点”

OCP|  Meta与Oracle“押注”Spectrum-X  “AI Factory” 感知中枢成形

截取自NVIDIA官网

与传统以太网相比,Spectrum-X可提供卓越的NCCL(NVIDIA集合通信库)。

作为业界首款专为满足AI云需求而打造的高性能以太网网络平台。旨在为万亿参数级别的大规模生成式AI模型提供性能、效率和可扩展性,通过将数百万个GPU高效互联,为AI工作负载提供前所未有的加速。

Spectrum-X通过软硬件协同设计,使得传统的以太网在AI应用场景下的性能实现了质的飞跃。根据NVIDIA官方数据显示,其可将AI网络性能提升高达1.6倍,并在多租户云环境中实现一致且可预测的性能。

OCP|  Meta与Oracle“押注”Spectrum-X  “AI Factory” 感知中枢成形

截取自NVIDIA官网

目前,Spectrum-X已经获得了业界的广泛认可。在近期的2025 OCP APAC Summit科技巨头 Meta 已宣布将采用基于NVIDIA Spectrum-X以太网的交换机,用于其Facebook开放交换系统(FBOSS)平台。

同时,甲骨文(Oracle)也计划采用Spectrum-X以太网交换机构建十亿瓦级(Giga-Scale)AI 超级计算机。

先聚焦于Spectrum-X本身,其真正革命性创新,在于开放的RoCEv2 (RDMA over Converged Ethernet) 标准,通过创新的软件和协议层增强,实现了对AI工作负载的深度优化。

具体来看,针对带宽利用率低下的拥塞问题,利用Spectrum-X的“ROCE动态路由”可使得大型 AI流远离拥塞点,从而避免发生拥塞。其通过Spectrum-4 交换机采用的细颗粒度负载均衡和动态重新路由等技术以消除拥塞,主动地将流量引导至非拥塞路径。同时,Spectrum-X平台的BlueField-3 SuperNIC 协同处理可能产生的乱序数据包。

OCP|  Meta与Oracle“押注”Spectrum-X  “AI Factory” 感知中枢成形

NVIDIA Spectrum-4(截取自NVIDIA官网)

OCP|  Meta与Oracle“押注”Spectrum-X  “AI Factory” 感知中枢成形

NVIDIA BlueField-3(截取自NVIDIA官网)

这一方案可提高网络资源的利用率、叶/脊节点的效率和性能,从根本上解决了“宽路窄用”的局面。

目前Spectrum-X 以太网网络已经展现出创纪录的效率,以其先进的拥塞控制技术,助力全球最大的 AI 超级计算机实现了95% 的数据吞吐量。相比之下,通用以太网在规模部署中,会发生不计其数的流量冲突,导致吞吐量降低至大约 60% 的水平。

针对AI训练带来的网络延迟和抖动等性能缺失确定性问题,Spectrum-X通过提供深度的网络可视性,为实现性能确定性提供了基础。

Spectrum-X平台拥有更好的AI网络架构可视性,可通过实时监控和识别潜在的性能瓶颈(如即将发生拥塞的队列),网络可以进行主动干预和优化(如通过动态路由和拥塞控制),从而避免了不可预测的延迟和抖动,保障了AI训练所需的性能确定性。

面对多租户环境下的性能隔离问题在共享的云环境中“嘈杂邻居”效应,Spectrum-X也提供了直接且明确的解决方案。

一方面是Spectrum-X增强多租户性能可确保每个租户的工作负载以最佳方式持续执行,从而提高客户满意度和服务质量。

另一方面,借助Spectrum-X的BlueField-3 SuperNIC,可为每个租户的安全虚拟私有云 (VPC) 提供增强的工作负载隔离,在保障隔离的彻底性和高效性前提下,确保不同租户间互不干扰。

而对于规模化扩展下的限制问题,NVIDIA也针对 Spectrum-X以太网平台的进行了全新拓展,推出Spectrum-XGS,旨在解决跨数据中心的超大规模AI集群互联问题,其能够将Spectrum-X以太网的超高性能与弹性,延伸至多个分布式数据中心,并整合为具备“十亿瓦级”的超级AI Factory。

OCP|  Meta与Oracle“押注”Spectrum-X  “AI Factory” 感知中枢成形

截取自NVIDIA官网

03  Meta与Oracle同时押注 开启“AI Factory”“神经觉醒

说回到Meta 与Oracle均宣布将采用NVIDIA Spectrum-X平台,作为其AI数据中心网络升级的核心技术。

具体来说,Oracle将构建由 NVIDIA Vera Rubin 架构提供加速并通过Spectrum-X以太网进行互连的十亿瓦级(Giga-Scale)AI 工厂。

Oracle云基础设施(OCI)执行副总裁Mahesh Thiagarajan指出,通过采用Spectrum-X,他们能够“以突破性的效率实现数百万块GPU的互联”,从而让其云客户能够更快地训练和部署新一代生成式AI模型,这充分体现了其将AI能力作为核心服务的战略。

与此同时,Meta将把Spectrum-X以太网平台集成至其Facebook开放交换系统(FBOSS)的网络基础设施中。

Meta网络工程副总裁Gaya Nagarajan表示,此举既能延续Meta的开放网络战略,又能获得训练更大规模模型、向数十亿用户提供生成式AI应用所需的“效率与稳定性”。

这也表明,Spectrum-X不仅性能强大,其开放性也足以融入并增强行业领先的、定制化的网络环境。

这一举措的背后,其实也标志着行业头部正将Spectrum-X视为构建未来AI基础设施的标准化、开放式网络架构。是行业巨头对“AI Factory”理念的认同。

随着万亿参数大模型的普及,数据中心正在从传统的计算中心演变为能够高效、大规模生产智能的“AI Factory”。

正如NVIDIA创始人兼首席执行官黄仁勋所言:“Spectrum-X不仅是更快的以太网,更是AI 工厂的神经系统,帮助超大规模企业将数百万个GPU连接到一起,构建成一台巨型计算机,从而训练有史以来规模最大的模型。”

Meta与甲骨文的战略决策,代表了AI行业发展的清晰方向。无论是为公有云客户构建强大的AI基础设施,还是为支撑全球最大社交平台的AI应用,他们都选择了Spectrum-X作为实现其“AI Factory”愿景的关键一环。

而这些重量级的合作,连同越来越多加入该生态系统的合作伙伴,共同印证了Spectrum-X已成为推动这场变革的核心技术力量。

OCP|  Meta与Oracle“押注”Spectrum-X  “AI Factory” 感知中枢成形

Spectrum-X有关合作伙伴(截取自NVIDIA官网)

04  写在最后

NVIDIA Spectrum-X平台的技术创新,以及其和Meta、Oracle等顶级伙伴中的成功合作实践,其实也预示着数据中心网络正进入下一个阶段的开端。这场变革的核心,是网络范式的转变。

具体来看,在三个层面:

从“通用”,转向“专用”。网络不再是对上层应用一无所知的通用管道,而是为特定关键应用(如AI)深度定制、能够提供可预测性能保障的精密架构。

从“组件各自为政”,转向“系统协同智能”。网络的性能不再仅仅取决于单个硬件的指标,而更多地依赖于从终端到交换机、从硬件到软件的全局协同和闭环智能控制。

从“被动传输”,转向“主动感知与调度”。基于实时、全面的遥测数据,网络具备了自我感知和自我调节的能力,能够主动规避拥塞、优化路径,实现资源的最佳利用。

在下一个以AI作为第一生产力的时代,对极致计算效率的追求,将不可避免地推动基础设施向着更专业化、更智能化的方向演进。

而Spectrum-X正成为这场演进的“先行者”。其所开启的,更是一个关乎未来“AI Factory”如何构建其“神经中枢”的深刻命题。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2025

10/14

07:39

分享

点赞