从Open AI的ChatGPT的兴起,到Google的Bard,生成式AI产业正在稳步前行。“生成式人工智能市场报告”预测表明,到2031年,该市场将达到惊人的1265亿美元,从2022年到2031年的复合年增长率为32%。
这其中,生成式AI所需的基础设施——数据中心正发挥着至关重要的作用。加速计算和生成式AI的需求正在推动数据中心的根本性变革。
AI时代 数据中心如何破解复杂的网络挑战?
人工智能应用导致的大规模算力环境下的网络问题是当今数据中心所面临的“紧箍咒”之一。大模型AI场景下海量的参数分布于多个个服务器的多个GPU之上,需要用到成千上万个GPU来训练数十TB级甚至更大的数据集,大量的GPU之间的通信容易出现由于网络HASH负载分担不均而导致的网络吞吐下降,从而引发AI训练性能整体下降等问题。
IDC报告显示,当前主流数据中心以太网占比超过95%,但传统以太网在AI算力训练等应用下,吞吐量、时延及避免丢包等方面的表现并不出色。
众所周知,由于人工智能应用程序的通信方式会对网络造成很大负担,这给 CPU 和 GPU 服务器以及将这些系统连接到一起的现有底层网络基础设施带来了新的挑战。在如今的AI时代,AI训练过程中不能出现任何数据的丢失,而标准以太网络具有“天然丢包”的特性,采用软件的方式来解决丢包问题将会极大程度影响训练结果。因此,传统以太网已经不适应AI时代数据中心的需求。
那么,AI时代,数据中心网络面对如此复杂的挑战,是否有合适的解决之道?
NVIDIA Spectrum-X 网络平台是为了解决传统以太网网络的局限性而开发的。它是一种全新的以太网网络架构,旨在满足要求苛刻的人工智能应用程序的需求,用于满足紧耦合通信对于网络的需求。这种经过 NVIDIA 认证和测试的端到端解决方案结合了一流的人工智能优化网络硬件和软件,可提供人工智能工作负载所需的可预测的、一致的和毫不妥协的性能水平。
NVIDIA DPU 和 DOCA 技术专家 崔岩
“在加速计算和生成式人工智能结合的新方式下,我们需要重塑数据中心的计算和通信。”NVIDIA DPU 和 DOCA 技术专家崔岩在如是说。
NVIDIA Spectrum-X 网络平台是一种端到端解决方案,专为满足人工智能应用程序的性能需求而全新设计,并针对高速网络性能、低延迟和大规模可扩展进行了优化。
官方发布的参数显示,具体而言,NVIDIA Spectrum-X 可以在以下用例中显著提高 AI 集群的性能和效率:
“NVIDIA Spectrum-4 + NVIDIA BlueField-3 DPU”让AI性能“更上一层楼”
Spectrum-X 通过NVIDIA BlueField-3 DPU 和 Spectrum-4 交换机的端到端联合设计和优化,对于实现AI 网络架构的最高性能和可靠性至关重要。
作为世界上第一款专为 AI 构建的以太网架构,NVIDIA Spectrum-X基于网络创新的新成果而构建——将 NVIDIA Spectrum-4以太网交换机与NVIDIA BlueField-3 DPU紧密结合,取得了1.7倍的整体AI性能和能效提升,同时可在多租户环境中提供一致、可预测的性能。
具体而言,NVIDIA Spectrum-4以太网交换机专为人工智能工作负载而设计,将专用的高性能架构与标准以太网连接相结合,为基于标准的以太网构建的AI集群提供了前所未有的应用程序性能。要充分发挥 NVIDIA Spectrum-4 的潜力,需要端到端的、专门构建的网络架构。而NVIDIA Spectrum-X 平台能提供支持大规模人工智能计算所需的硬件加速和卸载引擎。
崔岩介绍道,NVIDIA Spectrum-X以太网网络平台拥有四个主要特性——优化的无损网络、动态路由、流量拥塞控制、性能隔离。与传统的以太网不同,采用这种方式以后在云上部署人工智能或者生成式人工智能的工作负载,完全可以满足对网络性能的要求。
在面对网络层面的拥塞时,Spectrum-4 交换机提供代表实时拥塞状况的网络遥测信息。这些遥测信息被传递到主机的 BlueField-3 DPU 进行处理,从而管理和控制数据发送方的数据发送速率,实现网络共享的最大效率。
在谈及无损网络方面时,NVIDIA网络亚太区高级总监宋庆春表示,Spectrum-X 实现了端到端的高性能无损以太网RDMA传输,从网络的物理层、链路层和传输层对数据进行多重保护,在最极端的数据丢失情况下,依旧能做到很快发现数据丢失,并予以修正措施,让应用得到正确的数据。
NVIDIA网络亚太区高级总监 宋庆春
“无损网络对生成式AI非常重要。”宋庆春说。
重视性能提升 更重视降低能耗
由于Spectrum-X 平台面向数据中心,NVIDIA在设计时自然也考虑到了其功耗对PUE的影响。
Spectrum-X 通过端到端的联合设计,实现了更低的功耗。其中,Spcectrum-4交换机芯片中集成了上千亿颗晶体管,性能强悍。而当BlueField-3 DPU的强大基础设施卸载功能被应用于主机后,不仅可以卸载CPU工作负载,释放CPU的核心用于其它的业务,从而降低整个服务器的工作负载。同时,由于主机性能提升,使其可以承载更多业务应用。
这意味着,更少的服务器完成了更多的工作量,从而使能耗大幅下降。
“买的越多,省的越多。”崔岩引用英伟达CEO黄仁勋的观点说道。
好文章,需要你的鼓励
OpenAI 按用户需求在 ChatGPT 推出全新 GPT-4.1 及其 mini 与 nano 版本,专注提升编程、指令理解与长文本处理能力,免费及付费用户均可体验。
谷歌 DeepMind 推出的 AlphaEvolve AI 智能体,利用多轮反馈机制优化编程和数学任务,已在数据中心与芯片设计中提效,并重现数学问题的先进解法。
DeepMind 推出的 AI 系统 AlphaEvolve 利用自动评估机制解决数学与科学问题,在数学测试和 Google 数据中心优化中提升效率。虽非颠覆性革新,却能帮助专家腾出精力应对更重要任务。
科技公司 Stability AI 同芯片厂 Arm 合作推出“Stable Audio Open Small”,这是一款基于无版权音库训练、可在智能手机上迅速生成短音频样本的立体声音频 AI 模型,虽仅支持英文提示并存在部分局限,但对研究者和小型企业免费开放。