OCP｜ Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形原创

作者：毛烁

Spectrum-X为AI Factory延展 “感知中枢”。

如果说GPU是AI的“肌肉”，模型是“意识”，那么网络就是让其产生协同与感知的“神经”。

过去几十年，以太网一直是非常成熟可靠的网络，也是应用最广泛的选择。但随着AI的出现，这一共识出现了“松动”。

如今，AI的演进之下，微软、Meta、特斯拉、字节跳动等行业巨头纷纷以“模型生产线”的思路重构基础设施，从算力调度、数据流转，到模型训练与部署，形成了一条端到端的体系。

而这，正是“AI Factory”理念的具象化实践。

OCP｜ Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形

这一理念下，随之而来的问题是，以太网的核心设计逻辑强调通用性与成本效率，而AI训练要求的则是：高带宽、低延迟、确定性通信。

试想，在数千张GPU并行计算的场景中，任何流量抖动（jitter）或带宽竞争（bandwidth contention），都将拖慢整个训练流程，使GPU无法满负荷计算，造成算力浪费。

AI的高负载之下，以太网的弱点被逐渐放大，带宽、延迟、隔离、跨域扩展等问题，将传统以太网一次次拉到“边界”。

01 传统以太网的“四重边界”

具体而言，在超高并发、海量数据交换的场景下，以太网的“边界”体现在四个层面。

其一是带宽利用率低下。分布式训练中的通信操作（如用All-reduce来实现数据聚合与分发），会产生大规模、高并发的“多对一”流量，即“Incast”（拥塞）。而传统网络依赖的等价多路径（ECMP）负载均衡机制，常常基于静态Hash算法分配流量，无法感知网络的瞬时状态，极易导致部分路径拥塞，但其他路径闲置的情况。

这种流量分配的不均衡性，造成了交换机内部缓冲区的极大压力，导致丢包和重传，最终将端到端的网络吞吐效率限制在较低水平，形成“宽路窄用”的局面。

其二是性能缺乏确定性。在AI训练过程中，对网络延迟及其稳定性（不稳定会出现Jitter）极为敏感。然而，不可预测的网络延迟、Jitter，都会拖慢整个计算集群的进度，从而影响模型的收敛速度和训练总成本。

所以，追求鲁棒性和通用性的以太网，并不能提供可预测、确定性的性能保障。而这种不确定性，无法满足 AI训练和推理对精确控制和高效调度的要求。

其三，多租户环境下的性能隔离问题。在云原生环境，多个AI任务或租户共享网络基础设施是常态。一个高强度的训练任务，其突发流量很容易对其他任务造成干扰，形成“嘈杂邻居”效应（“嘈杂邻居”即在共享托管条件下，一方使用比最初分配更多的资源，另一方则受到暂时限制）。

而传统的QoS机制，虽然能提供一定的优先级划分，但在应对AI任务流量复杂的动态特性时，往往颗粒度过粗，难以实现精细化、无损的性能隔离。

其四是规模化扩展下的限制。随着AI模型参数规模的指数级增长，单一数据中心已无法满足算力需求。将分散的多个数据中心整合成一个逻辑统一的“超级计算机”，成为必然趋势。

然而，跨地域的长距离链路带来了显著的延迟增加和不稳定性，传统的RDMA（远程直接内存访问）协议和拥塞控制算法在这一环境下性能急剧下降，构建统一、高效的跨域AI网络成为艰巨的技术挑战。

这些挑战共同指向一个结论——对网络的优化，不能再停留在修补式的改良，而必须进行一场自下而上的、系统性的重构。

02 Spectrum-X重写“连接秩序”跨越以太网“临界点”

OCP｜ Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形

截取自NVIDIA官网

与传统以太网相比，Spectrum-X可提供卓越的NCCL（NVIDIA集合通信库)。

作为业界首款专为满足AI云需求而打造的高性能以太网网络平台。旨在为万亿参数级别的大规模生成式AI模型提供性能、效率和可扩展性，通过将数百万个GPU高效互联，为AI工作负载提供前所未有的加速。

Spectrum-X通过软硬件协同设计，使得传统的以太网在AI应用场景下的性能实现了质的飞跃。根据NVIDIA官方数据显示，其可将AI网络性能提升高达1.6倍，并在多租户云环境中实现一致且可预测的性能。

OCP｜ Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形

截取自NVIDIA官网

目前，Spectrum-X已经获得了业界的广泛认可。在近期的2025 OCP APAC Summit上，科技巨头 Meta 已宣布将采用基于NVIDIA Spectrum-X以太网的交换机，用于其Facebook开放交换系统（FBOSS）平台。

同时，甲骨文（Oracle）也计划采用Spectrum-X以太网交换机构建十亿瓦级（Giga-Scale）AI 超级计算机。

先聚焦于Spectrum-X本身，其真正革命性创新，在于开放的RoCEv2 (RDMA over Converged Ethernet) 标准，通过创新的软件和协议层增强，实现了对AI工作负载的深度优化。

具体来看，针对带宽利用率低下的拥塞问题，利用Spectrum-X的“ROCE动态路由”可使得大型 AI流远离拥塞点，从而避免发生拥塞。其通过Spectrum-4 交换机采用的细颗粒度负载均衡和动态重新路由等技术以消除拥塞，主动地将流量引导至非拥塞路径。同时，Spectrum-X平台的BlueField-3 SuperNIC 协同处理可能产生的乱序数据包。

OCP｜ Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形

NVIDIA Spectrum-4（截取自NVIDIA官网）

OCP｜ Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形

NVIDIA BlueField-3（截取自NVIDIA官网）

这一方案可提高网络资源的利用率、叶/脊节点的效率和性能，从根本上解决了“宽路窄用”的局面。

目前Spectrum-X 以太网网络已经展现出创纪录的效率，以其先进的拥塞控制技术，助力全球最大的 AI 超级计算机实现了95% 的数据吞吐量。相比之下，通用以太网在规模部署中，会发生不计其数的流量冲突，导致吞吐量降低至大约 60% 的水平。

针对AI训练带来的网络延迟和抖动等性能缺失确定性问题，Spectrum-X通过提供深度的网络可视性，为实现性能确定性提供了基础。

Spectrum-X平台拥有更好的AI网络架构可视性，可通过实时监控和识别潜在的性能瓶颈（如即将发生拥塞的队列），网络可以进行主动干预和优化（如通过动态路由和拥塞控制），从而避免了不可预测的延迟和抖动，保障了AI训练所需的性能确定性。

面对多租户环境下的性能隔离问题和在共享的云环境中的“嘈杂邻居”效应，Spectrum-X也提供了直接且明确的解决方案。

一方面是Spectrum-X增强了多租户性能，可确保每个租户的工作负载以最佳方式持续执行，从而提高客户满意度和服务质量。

另一方面，借助Spectrum-X的BlueField-3 SuperNIC，可为每个租户的安全虚拟私有云 (VPC) 提供增强的工作负载隔离，在保障隔离的彻底性和高效性前提下，确保不同租户间互不干扰。

而对于规模化扩展下的限制问题，NVIDIA也针对 Spectrum-X以太网平台的进行了全新拓展，推出Spectrum-XGS，旨在解决跨数据中心的超大规模AI集群互联问题，其能够将Spectrum-X以太网的超高性能与弹性，延伸至多个分布式数据中心，并整合为具备“十亿瓦级”的超级AI Factory。

OCP｜ Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形

截取自NVIDIA官网

03 Meta与Oracle同时押注 开启“AI Factory”“神经觉醒”

说回到Meta 与Oracle均宣布将采用NVIDIA Spectrum-X平台，作为其AI数据中心网络升级的核心技术。

具体来说，Oracle将构建由 NVIDIA Vera Rubin 架构提供加速并通过Spectrum-X以太网进行互连的十亿瓦级（Giga-Scale）AI 工厂。

Oracle云基础设施（OCI）执行副总裁Mahesh Thiagarajan指出，通过采用Spectrum-X，他们能够“以突破性的效率实现数百万块GPU的互联”，从而让其云客户能够更快地训练和部署新一代生成式AI模型，这充分体现了其将AI能力作为核心服务的战略。

与此同时，Meta将把Spectrum-X以太网平台集成至其Facebook开放交换系统（FBOSS）的网络基础设施中。

Meta网络工程副总裁Gaya Nagarajan表示，此举既能延续Meta的开放网络战略，又能获得训练更大规模模型、向数十亿用户提供生成式AI应用所需的“效率与稳定性”。

这也表明，Spectrum-X不仅性能强大，其开放性也足以融入并增强行业领先的、定制化的网络环境。

这一举措的背后，其实也标志着行业头部正将Spectrum-X视为构建未来AI基础设施的标准化、开放式网络架构。更是行业巨头对“AI Factory”理念的认同。

随着万亿参数大模型的普及，数据中心正在从传统的计算中心演变为能够高效、大规模生产智能的“AI Factory”。

正如NVIDIA创始人兼首席执行官黄仁勋所言：“Spectrum-X不仅是更快的以太网，更是AI 工厂的神经系统，帮助超大规模企业将数百万个GPU连接到一起，构建成一台巨型计算机，从而训练有史以来规模最大的模型。”

Meta与甲骨文的战略决策，代表了AI行业发展的清晰方向。无论是为公有云客户构建强大的AI基础设施，还是为支撑全球最大社交平台的AI应用，他们都选择了Spectrum-X作为实现其“AI Factory”愿景的关键一环。

而这些重量级的合作，连同越来越多加入该生态系统的合作伙伴，共同印证了Spectrum-X已成为推动这场变革的核心技术力量。

OCP｜ Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形

Spectrum-X有关合作伙伴（截取自NVIDIA官网）

04 写在最后

NVIDIA Spectrum-X平台的技术创新，以及其和Meta、Oracle等顶级伙伴中的成功合作实践，其实也预示着数据中心网络正进入下一个阶段的开端。这场变革的核心，是网络范式的转变。

具体来看，在三个层面：

从“通用”，转向“专用”。网络不再是对上层应用一无所知的通用管道，而是为特定关键应用（如AI）深度定制、能够提供可预测性能保障的精密架构。

从“组件各自为政”，转向“系统协同智能”。网络的性能不再仅仅取决于单个硬件的指标，而更多地依赖于从终端到交换机、从硬件到软件的全局协同和闭环智能控制。

从“被动传输”，转向“主动感知与调度”。基于实时、全面的遥测数据，网络具备了自我感知和自我调节的能力，能够主动规避拥塞、优化路径，实现资源的最佳利用。

在下一个以AI作为第一生产力的时代，对极致计算效率的追求，将不可避免地推动基础设施向着更专业化、更智能化的方向演进。

而Spectrum-X正成为这场演进的“先行者”。其所开启的，更是一个关乎未来“AI Factory”如何构建其“神经中枢”的深刻命题。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

OCP｜ Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形 原创

来源：至顶网计算频道

2025

10/14

07:39

分享

点赞

iOS 18新增游戏应用正式上线，专为iPhone游戏体验而生

Sleepbuds制造商Ozlo如何构建睡眠数据平台

CES 2026推出AI伴侣机器人Emily

苹果2026年将发布四款新iPhone机型预览

AGI-Next峰会全记录解读：Kimi、Qwen、智谱、腾讯同台，2026年有新范式是共识，中国引领AI概率最低预测2成

Anthropic推出医疗健康功能助力患者理解病历记录

Google推出通用商务协议，推动智能体购物自动化

核电初创公司携小型反应堆回归，面临重大挑战

谷歌针对部分医疗查询移除AI概览功能

Motional采用AI优先策略重启无人驾驶出租车计划

新年存储升级：三星SSD优惠最高减免100美元

OpenAI与软银联手投资10亿美元，助力星门项目能源伙伴发展

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

OCP｜ Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形原创