伴随着智算时代的到来,生成式AI的发展对算力的需求爆发增长。随着模型参数量越来越大,大规模AI计算进入万卡时代,面临计算能力不足、训练成本高等问题。原因之一就是传统网络效率低下,导致多节点间的通信效率低。在训练基础模型中,网络通信往往占到20%到40%的时间,在进行梯度和参数同步时,浪费了宝贵的算力资源。
为了提升大规模AI计算的通信效率,诞生了全新的超级以太网产品。此前,浪潮信息发布了面向生成式AI的「X400超级AI以太网」交换机,国内首款支持NVIDIA Spectrum-X平台技术,并基于X400和BlueField-3 SuperNICs打造端网协同的X400超级AI以太网(X400 AI Fabric)方案,大幅提升万卡GPU训练性能至1.6倍,实现了与专用网络架构媲美的网络性能,确保客户能以最理想的方式构建网络基础设施,从而显著加速AI模型的迭代和业务创新进程。
ChatGPT的发布掀起生成式AI的发展热潮,大模型的参数量从千亿提升至万亿,能力得到质的飞跃,大模型作为新型的生产工具,推动着千行百业的快速创新。随着大模型时代的竞争愈发激烈,大模型的迭代能力已经成为市场竞争力的核心,所以国内外的AI大模型厂商纷纷投资构建超大规模的算力资源,压缩大模型训练周期,以快速迭代,灵活应对市场变化。
但随着算力规模的不断上涨,单颗芯片的性能不再是决定性的关键,AI系统的效率成为用户关注的焦点。目前在AI大模型用户的训练过程中,网络通信占训练时长可达20~40%。例如之前 Meta的统计数据显示,在 AI 训练中网络通信时长占比平均占据了 35% 的时间(最高时 57%),这等于花费数百万或数十亿美元购买的 GPU 有 35% 的时间是空闲的。
为提高GPU资源利用率,网络通信效率亟待提升。但传统RoCE网络ECMP的HASH不均问题,导致整体链路负载利用率低,难以应对生成式AI场景下GPU之间会突发超高吞吐的独特通信模式,直接影响训练完成时间。而专用网络方案虽然可以满足性能需求,却无法兼顾已经构建完善的以太网生态系统。客户不仅需要高带宽、低时延、零丢包的基本网络性能,还需关注多租户、多业务并发隔离、缩短业务部署时间。
如何为AI大模型训练建设高性能网络,成为当下网络技术研究的新焦点。
不久前,浪潮信息「X400超级AI以太网」基于Spectrum-X平台,通过领先的端网协同技术,为AI大模型训练网络建设开辟了一条新道路,从性能、可扩展性、稳定性和用户体验四个方面完美应对客户面临的挑战,实现 AI 业务的最佳效率,将客户在纠结采用以太还是专用网络的状态中拯救出来。与此同时,超级AI以太网交换机X400采用开放架构,遵循S3IP-UNP规范设计,实现软硬件分层解耦,通过构建网络开放生态,加速客户业务创新。16K张GPU卡计算规模下的GPT3模型训练实测中,超级AI以太网实现性能突破,达到传统RoCE的1.6倍。
超高性能 带宽利用率提升至95%并降低长尾时延
网络性能是核心,也是满足AI大模型训练的基础。X 400超级AI以太网方案采用了X400加智能网卡的协同调度,通过自适应路由、报文保序、可编程CC等技术,实现交换机和网卡更加紧密的配合,为AI大模型提供零丢包、无阻塞的全链路交换网络,机间互联性能400G,有效带宽从传统的60%提升到95%,性能达到传统RoCE的1.6倍。
同时,浪潮信息凭借独有的Auto ECN拥塞控制技术,降低长尾时延。创新性的将人工智能技术引入到ECN调优算法里,采用两百万组的流量模型,覆盖主流的大模型训练流量特征,来对ECN神经网络算法进行训练。Auto ECN技术可以结合链路的拥塞状态,网络拓扑和长短流的实时状态进行动态的参数调整,提供拥塞控制最优解,整体缩短30%的FCT,最大化GPU的利用率。
此外,AI大模型训练的网络优化离不开NCCL通信库支持,X400和IB一样,天然的与NCCL无缝衔接,能够为大模型提供最高的性能,而其他交换方案需要对NCCL通信库进行修改和优化。
基于以上核心技术,X 400超级AI以太网方案通过在256卡GPU的训练场景下实测,在多项核心指标上显著优于传统RoCE:
总的来说,X 400超级AI以太网不仅在带宽和延迟上远超传统以太网,更是在大规模算力群和复杂的多租户场景中保持了卓越的性能表现,大大加速了AI模型的训练过程,充分释放客户构建的算力系统价值。
超大规模 算力资源灵活拓展支持数十万卡
伴随着生成式AI的迅猛发展,模型参数量急速膨胀,单个CPU、GPU甚至多个GPU上无法完成模型训练的挑战。为此,智算中心通常会采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式训练,通过构建数以万计的GPU系统来提升算力,大幅缩短训练周期,这就需要智算网络能够具备支持大规模GPU 服务器系统的能力,提供高性能、灵活可拓展的网络服务,以满足未来不断变化的GPU通信负载需求。
X400超级AI以太网在超高的端口密度以及弹性可拓展的能力加持下,具备超高性能的同时,可以满足数十万卡级别的算力规模,在二层组网下,GPU服务器数量可达1024台,支持8K张GPU卡,可根据算力规模灵活拓展到三层组网,GPU服务器规模可达64000台,最大支持GPU卡的数量可以达到512K张,满足各种规模的组网要求,灵活的弹性组网成为业务创新的强大助力。
超高可靠 确保业务极致稳定
大模型训练的稳定性至关重要,根据专业分析机构semianalysis显示,超十万卡的 GPU因网络链路故障导致的模型训练重启所花费的时间,将比模型训练本身所花费的时间更多,因此企业难以接受网络导致的业务中断,只有稳定可靠的网络才能满足AI场景的苛刻要求。为此,浪潮信息集成了系统级的高可用技术,全方位保障AI网络的极致稳定。
极致体验 提升整体运营效率
随着算力资源的不断投入,需要管理和配置的网元设备不断增加,基于传统RoCE方案的网络建设,涉及一系列繁杂多样的配置,错误的配置导致的训练性能下降,意味着业务上线以及运营维护的难度陡增,而且省心的方案往往带来成本飙升,业务尚未开展就困难重重。
为此,浪潮信息X400超级AI以太网方案延续了以太方案的兼容性和性价比,确保敏捷运维和超高性能的同时,大幅降低网络建设TCO,并为客户打造一键式自动化的部署模式,实现模型特征自适应的网络配置,将部署周期从数周缩短至数天,加速业务上线,结合全面可视的智能运维平台,直观发现潜在风险与故障,保证业务的连续性。
浪潮信息基于Spectrum-X平台打造的X400超级AI以太网解决方案,为智算中心客户带来三大核心价值:速度、效率和经济性,全面优化业务体验。该方案凭借其超高性能,支持万卡超大规模无损网络,实现算力资源的最大化利用,并具备多重可靠技术,确保算力资源高可用保障大规模模型训练和推理业务能够高效稳定不间断地运行。此外,该方案通过其卓越的成本效益,助力客户大幅提升投资回报,实现成本与效益的完美平衡,为智算中心客户打造更快、更好、更省的网络业务体验。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。