如果说GPU是AI的“肌肉”,模型是“意识”,那么网络就是让其产生协同与感知的“神经”。
过去几十年,以太网一直是非常成熟可靠的网络,也是应用最广泛的选择。但随着AI的出现,这一共识出现了“松动”。
如今,AI的演进之下,微软、Meta、特斯拉、字节跳动等行业巨头纷纷以“模型生产线”的思路重构基础设施,从算力调度、数据流转,到模型训练与部署,形成了一条端到端的体系。
而这,正是“AI Factory”理念的具象化实践。
这一理念下,随之而来的问题是,以太网的核心设计逻辑强调通用性与成本效率,而AI训练要求的则是:高带宽、低延迟、确定性通信。
试想,在数千张GPU并行计算的场景中,任何流量抖动(jitter)或带宽竞争(bandwidth contention),都将拖慢整个训练流程,使GPU无法满负荷计算,造成算力浪费。
AI的高负载之下,以太网的弱点被逐渐放大,带宽、延迟、隔离、跨域扩展等问题,将传统以太网一次次拉到“边界”。
01 传统以太网的“四重边界”
具体而言,在超高并发、海量数据交换的场景下,以太网的“边界”体现在四个层面。
其一是带宽利用率低下。分布式训练中的通信操作(如用All-reduce来实现数据聚合与分发),会产生大规模、高并发的“多对一”流量,即“Incast”(拥塞)。而传统网络依赖的等价多路径(ECMP)负载均衡机制,常常基于静态Hash算法分配流量,无法感知网络的瞬时状态,极易导致部分路径拥塞,但其他路径闲置的情况。
这种流量分配的不均衡性,造成了交换机内部缓冲区的极大压力,导致丢包和重传,最终将端到端的网络吞吐效率限制在较低水平,形成“宽路窄用”的局面。
其二是性能缺乏确定性。在AI训练过程中,对网络延迟及其稳定性(不稳定会出现Jitter)极为敏感。然而,不可预测的网络延迟、Jitter,都会拖慢整个计算集群的进度,从而影响模型的收敛速度和训练总成本。
所以,追求鲁棒性和通用性的以太网,并不能提供可预测、确定性的性能保障。而这种不确定性,无法满足 AI训练和推理对精确控制和高效调度的要求。
其三,多租户环境下的性能隔离问题。在云原生环境,多个AI任务或租户共享网络基础设施是常态。一个高强度的训练任务,其突发流量很容易对其他任务造成干扰,形成“嘈杂邻居”效应(“嘈杂邻居”即在共享托管条件下,一方使用比最初分配更多的资源,另一方则受到暂时限制)。
而传统的QoS机制,虽然能提供一定的优先级划分,但在应对AI任务流量复杂的动态特性时,往往颗粒度过粗,难以实现精细化、无损的性能隔离。
其四是规模化扩展下的限制。随着AI模型参数规模的指数级增长,单一数据中心已无法满足算力需求。将分散的多个数据中心整合成一个逻辑统一的“超级计算机”,成为必然趋势。
然而,跨地域的长距离链路带来了显著的延迟增加和不稳定性,传统的RDMA(远程直接内存访问)协议和拥塞控制算法在这一环境下性能急剧下降,构建统一、高效的跨域AI网络成为艰巨的技术挑战。
这些挑战共同指向一个结论——对网络的优化,不能再停留在修补式的改良,而必须进行一场自下而上的、系统性的重构。
02 Spectrum-X重写“连接秩序”跨越以太网“临界点”
截取自NVIDIA官网
与传统以太网相比,Spectrum-X可提供卓越的NCCL(NVIDIA集合通信库)。
作为业界首款专为满足AI云需求而打造的高性能以太网网络平台。旨在为万亿参数级别的大规模生成式AI模型提供性能、效率和可扩展性,通过将数百万个GPU高效互联,为AI工作负载提供前所未有的加速。
Spectrum-X通过软硬件协同设计,使得传统的以太网在AI应用场景下的性能实现了质的飞跃。根据NVIDIA官方数据显示,其可将AI网络性能提升高达1.6倍,并在多租户云环境中实现一致且可预测的性能。
截取自NVIDIA官网
目前,Spectrum-X已经获得了业界的广泛认可。在近期的2025 OCP APAC Summit上,科技巨头 Meta 已宣布将采用基于NVIDIA Spectrum-X以太网的交换机,用于其Facebook开放交换系统(FBOSS)平台。
同时,甲骨文(Oracle)也计划采用Spectrum-X以太网交换机构建十亿瓦级(Giga-Scale)AI 超级计算机。
先聚焦于Spectrum-X本身,其真正革命性创新,在于开放的RoCEv2 (RDMA over Converged Ethernet) 标准,通过创新的软件和协议层增强,实现了对AI工作负载的深度优化。
具体来看,针对带宽利用率低下的拥塞问题,利用Spectrum-X的“ROCE动态路由”可使得大型 AI流远离拥塞点,从而避免发生拥塞。其通过Spectrum-4 交换机采用的细颗粒度负载均衡和动态重新路由等技术以消除拥塞,主动地将流量引导至非拥塞路径。同时,Spectrum-X平台的BlueField-3 SuperNIC 协同处理可能产生的乱序数据包。
NVIDIA Spectrum-4(截取自NVIDIA官网)
NVIDIA BlueField-3(截取自NVIDIA官网)
这一方案可提高网络资源的利用率、叶/脊节点的效率和性能,从根本上解决了“宽路窄用”的局面。
目前Spectrum-X 以太网网络已经展现出创纪录的效率,以其先进的拥塞控制技术,助力全球最大的 AI 超级计算机实现了95% 的数据吞吐量。相比之下,通用以太网在规模部署中,会发生不计其数的流量冲突,导致吞吐量降低至大约 60% 的水平。
针对AI训练带来的网络延迟和抖动等性能缺失确定性问题,Spectrum-X通过提供深度的网络可视性,为实现性能确定性提供了基础。
Spectrum-X平台拥有更好的AI网络架构可视性,可通过实时监控和识别潜在的性能瓶颈(如即将发生拥塞的队列),网络可以进行主动干预和优化(如通过动态路由和拥塞控制),从而避免了不可预测的延迟和抖动,保障了AI训练所需的性能确定性。
面对多租户环境下的性能隔离问题和在共享的云环境中的“嘈杂邻居”效应,Spectrum-X也提供了直接且明确的解决方案。
一方面是Spectrum-X增强了多租户性能,可确保每个租户的工作负载以最佳方式持续执行,从而提高客户满意度和服务质量。
另一方面,借助Spectrum-X的BlueField-3 SuperNIC,可为每个租户的安全虚拟私有云 (VPC) 提供增强的工作负载隔离,在保障隔离的彻底性和高效性前提下,确保不同租户间互不干扰。
而对于规模化扩展下的限制问题,NVIDIA也针对 Spectrum-X以太网平台的进行了全新拓展,推出Spectrum-XGS,旨在解决跨数据中心的超大规模AI集群互联问题,其能够将Spectrum-X以太网的超高性能与弹性,延伸至多个分布式数据中心,并整合为具备“十亿瓦级”的超级AI Factory。
截取自NVIDIA官网
03 Meta与Oracle同时押注 开启“AI Factory”“神经觉醒”
说回到Meta 与Oracle均宣布将采用NVIDIA Spectrum-X平台,作为其AI数据中心网络升级的核心技术。
具体来说,Oracle将构建由 NVIDIA Vera Rubin 架构提供加速并通过Spectrum-X以太网进行互连的十亿瓦级(Giga-Scale)AI 工厂。
Oracle云基础设施(OCI)执行副总裁Mahesh Thiagarajan指出,通过采用Spectrum-X,他们能够“以突破性的效率实现数百万块GPU的互联”,从而让其云客户能够更快地训练和部署新一代生成式AI模型,这充分体现了其将AI能力作为核心服务的战略。
与此同时,Meta将把Spectrum-X以太网平台集成至其Facebook开放交换系统(FBOSS)的网络基础设施中。
Meta网络工程副总裁Gaya Nagarajan表示,此举既能延续Meta的开放网络战略,又能获得训练更大规模模型、向数十亿用户提供生成式AI应用所需的“效率与稳定性”。
这也表明,Spectrum-X不仅性能强大,其开放性也足以融入并增强行业领先的、定制化的网络环境。
这一举措的背后,其实也标志着行业头部正将Spectrum-X视为构建未来AI基础设施的标准化、开放式网络架构。更是行业巨头对“AI Factory”理念的认同。
随着万亿参数大模型的普及,数据中心正在从传统的计算中心演变为能够高效、大规模生产智能的“AI Factory”。
正如NVIDIA创始人兼首席执行官黄仁勋所言:“Spectrum-X不仅是更快的以太网,更是AI 工厂的神经系统,帮助超大规模企业将数百万个GPU连接到一起,构建成一台巨型计算机,从而训练有史以来规模最大的模型。”
Meta与甲骨文的战略决策,代表了AI行业发展的清晰方向。无论是为公有云客户构建强大的AI基础设施,还是为支撑全球最大社交平台的AI应用,他们都选择了Spectrum-X作为实现其“AI Factory”愿景的关键一环。
而这些重量级的合作,连同越来越多加入该生态系统的合作伙伴,共同印证了Spectrum-X已成为推动这场变革的核心技术力量。
Spectrum-X有关合作伙伴(截取自NVIDIA官网)
04 写在最后
NVIDIA Spectrum-X平台的技术创新,以及其和Meta、Oracle等顶级伙伴中的成功合作实践,其实也预示着数据中心网络正进入下一个阶段的开端。这场变革的核心,是网络范式的转变。
具体来看,在三个层面:
从“通用”,转向“专用”。网络不再是对上层应用一无所知的通用管道,而是为特定关键应用(如AI)深度定制、能够提供可预测性能保障的精密架构。
从“组件各自为政”,转向“系统协同智能”。网络的性能不再仅仅取决于单个硬件的指标,而更多地依赖于从终端到交换机、从硬件到软件的全局协同和闭环智能控制。
从“被动传输”,转向“主动感知与调度”。基于实时、全面的遥测数据,网络具备了自我感知和自我调节的能力,能够主动规避拥塞、优化路径,实现资源的最佳利用。
在下一个以AI作为第一生产力的时代,对极致计算效率的追求,将不可避免地推动基础设施向着更专业化、更智能化的方向演进。
而Spectrum-X正成为这场演进的“先行者”。其所开启的,更是一个关乎未来“AI Factory”如何构建其“神经中枢”的深刻命题。
好文章,需要你的鼓励
当前软件工程团队正在试验基于AI代理的编码工具和大语言模型,以提高开发速度和质量。然而,AI编码工具的效果很大程度上取决于使用方式。开发者需要提供结构化的问题描述、明确的执行要求和相关上下文,同时建立适当的防护机制。AI不仅能处理重复性任务,还能识别和评估替代方案,从被动助手演进为工作流程推进器。成功的关键在于将AI视为合作伙伴而非快捷工具,并将其整合到软件交付的全生命周期中。
NVIDIA研究团队开发出名为Lyra的AI系统,能够仅凭单张照片生成完整3D场景,用户可自由切换观察角度。该技术采用创新的"自蒸馏"学习方法,让视频生成模型指导3D重建模块工作。系统还支持动态4D场景生成,在多项测试中表现优异。这项技术将大大降低3D内容创作门槛,为游戏开发、电影制作、VR/AR应用等领域带来重大突破。
Salesforce发布企业级AI智能体平台Agentforce 360,将AI智能体融入几乎所有应用中。该平台采用混合推理引擎Atlas,结合大语言模型的概率思维和业务规则的精确性,支持语音交互和深度集成。以Slack为主要界面,提供Agentforce Builder开发环境,能将非结构化文档转换为可查询记录。Salesforce内部已部署该系统,每周处理180万次对话,主动服务活动增长40%。
谷歌DeepMind团队创新性地让Gemini 2.5模型在无需训练的情况下学会理解卫星多光谱图像。他们将复杂的12波段卫星数据转换为6张可理解的伪彩色图像,配以详细文字说明,使通用AI模型能够准确分析遥感数据。在多个基准测试中超越现有模型,为遥感领域AI应用开辟了全新道路。