网络行业热衷于谈论技术拐点。多年来,每一次全新的计算模式出现,都会倒逼网络技术随之演进。长期以来,InfiniBand与以太网之间的"圣战"在一个相对简单的战场上展开:吞吐量与通用性之间的博弈。
然而,随着AI工作负载从数万个处理器扩展到接近百万个GPU的大规模集群,网络的本质正在发生根本性转变。它不再是一个独立的基础设施层,而是紧密集成的AI超级系统中的关键主干。
InfiniBand与以太网之间的争论由来已久,数据中心工程师若在同等条件下,历来倾向于选择以太网,但事实并非如此,因为InfiniBand在性能上持续领先。不过,过去几年间,两者之间的差距正不断缩小,在大多数使用场景下,性能差异已微乎其微。
近日,Arista Networks宣布推出基于博通Tomahawk 6芯片的Arista 7060XE7系列交换机。这款1.6Tb产品组合提供高达每秒100太比特的交换容量,并采用224G SerDes技术。然而,尽管速度与规格参数往往抢占头条,真正的创新在于其向机架级集成的架构转型、开放标准的落地实施,以及这些信号对企业级和二线市场所释放出的战略意义。
超越单体设备:机架级系统的现实意义
过去,网络厂商销售的交换机是独立的固定设备或单体机箱,客户若需要扩展,通常采用传统的叶脊拓扑架构。然而,生成式AI带来的物理约束,特别是功率密度高企和极端散热需求,使得单台交换机已不再是理想的扩展单元。
在7060XE7系列上,Arista大力押注全面的机架级系统设计。这一转变最直观地体现在其专用液冷平台7060XE7-64PRS-RV3-L上。该2U系统针对Open Rack v3(ORv3)规范进行了优化,内部无风扇,直接从机架母线获取直流供电,并专为嵌入液冷XPU服务器环境而设计,通过匹配进出液体的流体动力学特性,最大化每千瓦算力密度。
去除内部风扇可显著降低功耗开销。在标准风冷环境中,电能使用效率(PUE)的散热开销可能占总用电量的30%至50%。而转向统一的液冷机架架构后,运营开销可降至5%至15%。在数据中心容量受到严重电力约束的当下,节省下来的这部分能耗不仅是环保层面的胜利,更意味着客户可以将这些电力重新分配给能创造收益的GPU。
线性可插拔光模块的经济账
在高性能网络领域,共封装光学(CPO)与可插拔光模块之间的争议由来已久。CPO支持者认为,将光学引擎靠近芯片是在超高速环境中管控功耗的唯一途径。然而,CPO存在严重的可维护性问题:一旦单条光学通道发生故障,整个100太比特系统可能面临宕机风险。
在这一代1.6T产品中,Arista选择加码线性可插拔光模块(LPO)。通过先进的信号完整性工程设计,并从光学模块中移除高功耗的DSP,Arista声称LPO可将互连功耗降低约60%。
这一举措从两个维度直接影响总体拥有成本:
热量级联效应
光模块功耗降低,意味着交换机整体运行温度更低,风扇转速随之下降,各组件的平均故障间隔时间也大幅提升。
资产运营优化
在大型AI集群中,组件故障频发。可插拔光模块保留了运营灵活性,使运维人员可以单独更换故障端口,而非冒险引发机架级整体宕机。
每一个百分点的网络停机时间都会中断高成本的训练任务。Arista通过工程设计将CPO的低功耗优势与可插拔模块的可维护性相结合,有效保障了数据中心中最昂贵资产的利用率。
在LPO与CPO的选择上,各有利弊,并无绝对优劣之分,用户应结合自身环境做好评估,选择最适合的配置方案。
拆解"纵向扩展"与"横向扩展"的架构护城河
要理解市场走向,必须厘清Arista如何在这些平台上划分横向扩展(连接数千个节点的传统后端网络)与纵向扩展(计算单元内部的紧密互联)的架构职责。
此次发布中一个值得关注的重要信号,是Arista正式进军纵向扩展领域。在专有架构中,这一领域长期由英伟达的NVLink主导。然而,随着非英伟达生态系统(涵盖AMD、英特尔及定制超大规模云厂商芯片)持续壮大,市场对基于以太网开放标准的纵向扩展架构的需求也在不断升温。
Arista的纵向扩展方案由其与生态系统合作伙伴联合开发,并针对特定GPU刀片的特性与机械布局进行定制化工程适配。借助博通Tomahawk 6芯片所释放的芯片级大型连接基数,Arista为专有计算网络提供了一套统一的开放标准替代方案。
在横向扩展架构方面,Arista正在突破物理层级数量的极限。通过将高密度7060XE7叶交换机与深度缓冲的7800 AI脊交换机机箱结合,可构建一个支持多达标准固定设备配置4.5倍GPU规模的两层网络,同时保持扁平化的低延迟拓扑。这种架构灵活性对于缓解AI集体通信模式中固有的"数据包微突发"问题至关重要。
解读企业市场的风向标
尽管超大规模云厂商和前沿AI实验室仍是1.6T带宽的主要消费者,但更广泛的市场转型迹象已初现端倪。Arista历来深耕高端企业市场,其典型客户涵盖金融对冲基金、汽车仿真、生物技术研究和政府主权云。
这些垂直行业正在扮演主流企业AI普及的先行指标角色。它们虽无需构建百万GPU集群,但其工作负载正在迅速扩展至数千节点规模。这些组织缺乏Meta或微软那样庞大的内部工程团队,无力从零开始构建自定义网络传输协议。
这正是软件执行力的价值所在。动态负载均衡、多路径可靠连接网络弹性以及硬件级拥塞信令等功能已直接内置于Arista EOS操作系统之中。通过将与云计算巨头共同开发的性能优化成果打包成经过验证的企业设计方案,Arista大幅降低了部署高性能AI网络的运维复杂度。
结语:以太网的必然进化之路
InfiniBand凭借出色的性能在AI网络系统中得到广泛应用,同时也演变为一套捆绑式的交钥匙系统。而以太网是一项久经考验的成熟技术,历经时间检验。以太网共同发明人鲍勃·梅特卡夫曾有一句名言:"以太网之后是什么?还是以太网。"这说明以太网并非一成不变的技术,而是不断进化以应对时代挑战。
InfiniBand在未来相当长一段时间内仍会存在,但其应用场景将主要集中在高性能计算环境;而以太网才是增速更快的网络技术。客户越来越多地部署混合环境,将不同厂商的XPU用于训练与推理场景,他们需要的是一种对底层计算芯片完全保持中立的网络架构。
在网络领域,开放标准历来是最终的赢家。Arista此次1.6T产品发布表明,以太网不仅仅是在追赶差距,它正在主动构建支撑下一代基础设施时代所需的密度、能效与运营软件能力。
Q&A
Q1:Arista 7060XE7系列交换机有哪些核心技术参数?
A:Arista 7060XE7系列交换机基于博通Tomahawk 6芯片,提供高达每秒100太比特的交换容量,并采用224G SerDes技术。其液冷版本7060XE7-64PRS-RV3-L针对Open Rack v3规范优化,采用无风扇设计,直接从机架母线取电,专为嵌入液冷XPU服务器环境而设计,可将运营功耗开销从传统风冷环境的30%至50%降低至5%至15%。
Q2:线性可插拔光模块(LPO)相比共封装光学(CPO)有哪些优势?
A:LPO通过先进的信号完整性工程设计并移除高功耗DSP,可将互连功耗降低约60%。相比CPO,LPO最大的优势在于可维护性:当单个端口发生故障时,运维人员只需更换对应的可插拔光模块,而CPO一旦出现单条光学通道故障,可能导致整个系统宕机。LPO同时兼顾了低功耗与高可用性,有效保障AI训练任务的连续性。
Q3:以太网与InfiniBand在AI网络领域的竞争格局如何?
A:过去InfiniBand凭借性能优势长期领先,但近年来以太网与InfiniBand之间的性能差距已大幅缩小,在大多数场景下差异微乎其微。以太网具备开放标准、厂商中立的优势,越来越受到需要混合部署多品牌XPU的客户青睐。业界预测InfiniBand将长期存在于高性能计算环境,而以太网将成为更高增速的主流网络技术,并在企业级市场持续扩大份额。
好文章,需要你的鼓励
谷歌宣布将在今夏世界杯期间免费开放AI Mode的交互式视觉功能。用户可通过搜索应用和Gemini获取实时比分、赛程及战术分析,Gemini 3 Pro模型支持生成交互式战术图解,帮助球迷更直观理解比赛。Gemini应用同步升级,可呈现含实时数据的动态赛事信息。此外,谷歌还推出世界杯主题的Nano Banana模板,让用户化身球队球员。
上海交大团队构建了包含1638个场景的医疗AI动态评测系统MedSP1000,让AI扮演医生与虚拟病人交互,发现最强模型GPT-5.5完成率仅60%,医疗专用模型反而垫底。
谷歌宣布与帕丽斯·希尔顿达成合作,任命其为Android"驻场偶像",重点展示Android新AI工具的实际应用潜力。希尔顿自称"低调的技术宅",是多年Android用户。双方合作推出了基于Gemini Canvas的"Iconic Ideas"项目,用户可通过AI创建个性化粉色风格工具应用。此次合作还展示了Circle to Search、Gemini Canvas及Gemini创意工具等功能,意在呈现创意与技术结合的无限可能。
研究发现,让AI主动查阅法规文件(而非被动接收全文)可使顶级模型准确率提升15-30%,但同样框架会让开源模型性能严重下滑,揭示框架增强效果存在明显的模型能力门槛。