从Open AI的ChatGPT的兴起,到Google的Bard,生成式AI产业正在稳步前行。“生成式人工智能市场报告”预测表明,到2031年,该市场将达到惊人的1265亿美元,从2022年到2031年的复合年增长率为32%。
这其中,生成式AI所需的基础设施——数据中心正发挥着至关重要的作用。加速计算和生成式AI的需求正在推动数据中心的根本性变革。
AI时代 数据中心如何破解复杂的网络挑战?
人工智能应用导致的大规模算力环境下的网络问题是当今数据中心所面临的“紧箍咒”之一。大模型AI场景下海量的参数分布于多个个服务器的多个GPU之上,需要用到成千上万个GPU来训练数十TB级甚至更大的数据集,大量的GPU之间的通信容易出现由于网络HASH负载分担不均而导致的网络吞吐下降,从而引发AI训练性能整体下降等问题。
IDC报告显示,当前主流数据中心以太网占比超过95%,但传统以太网在AI算力训练等应用下,吞吐量、时延及避免丢包等方面的表现并不出色。
众所周知,由于人工智能应用程序的通信方式会对网络造成很大负担,这给 CPU 和 GPU 服务器以及将这些系统连接到一起的现有底层网络基础设施带来了新的挑战。在如今的AI时代,AI训练过程中不能出现任何数据的丢失,而标准以太网络具有“天然丢包”的特性,采用软件的方式来解决丢包问题将会极大程度影响训练结果。因此,传统以太网已经不适应AI时代数据中心的需求。
那么,AI时代,数据中心网络面对如此复杂的挑战,是否有合适的解决之道?
NVIDIA Spectrum-X 网络平台是为了解决传统以太网网络的局限性而开发的。它是一种全新的以太网网络架构,旨在满足要求苛刻的人工智能应用程序的需求,用于满足紧耦合通信对于网络的需求。这种经过 NVIDIA 认证和测试的端到端解决方案结合了一流的人工智能优化网络硬件和软件,可提供人工智能工作负载所需的可预测的、一致的和毫不妥协的性能水平。
NVIDIA DPU 和 DOCA 技术专家 崔岩
“在加速计算和生成式人工智能结合的新方式下,我们需要重塑数据中心的计算和通信。”NVIDIA DPU 和 DOCA 技术专家崔岩在如是说。
NVIDIA Spectrum-X 网络平台是一种端到端解决方案,专为满足人工智能应用程序的性能需求而全新设计,并针对高速网络性能、低延迟和大规模可扩展进行了优化。
官方发布的参数显示,具体而言,NVIDIA Spectrum-X 可以在以下用例中显著提高 AI 集群的性能和效率:
“NVIDIA Spectrum-4 + NVIDIA BlueField-3 DPU”让AI性能“更上一层楼”
Spectrum-X 通过NVIDIA BlueField-3 DPU 和 Spectrum-4 交换机的端到端联合设计和优化,对于实现AI 网络架构的最高性能和可靠性至关重要。
作为世界上第一款专为 AI 构建的以太网架构,NVIDIA Spectrum-X基于网络创新的新成果而构建——将 NVIDIA Spectrum-4以太网交换机与NVIDIA BlueField-3 DPU紧密结合,取得了1.7倍的整体AI性能和能效提升,同时可在多租户环境中提供一致、可预测的性能。
具体而言,NVIDIA Spectrum-4以太网交换机专为人工智能工作负载而设计,将专用的高性能架构与标准以太网连接相结合,为基于标准的以太网构建的AI集群提供了前所未有的应用程序性能。要充分发挥 NVIDIA Spectrum-4 的潜力,需要端到端的、专门构建的网络架构。而NVIDIA Spectrum-X 平台能提供支持大规模人工智能计算所需的硬件加速和卸载引擎。
崔岩介绍道,NVIDIA Spectrum-X以太网网络平台拥有四个主要特性——优化的无损网络、动态路由、流量拥塞控制、性能隔离。与传统的以太网不同,采用这种方式以后在云上部署人工智能或者生成式人工智能的工作负载,完全可以满足对网络性能的要求。
在面对网络层面的拥塞时,Spectrum-4 交换机提供代表实时拥塞状况的网络遥测信息。这些遥测信息被传递到主机的 BlueField-3 DPU 进行处理,从而管理和控制数据发送方的数据发送速率,实现网络共享的最大效率。
在谈及无损网络方面时,NVIDIA网络亚太区高级总监宋庆春表示,Spectrum-X 实现了端到端的高性能无损以太网RDMA传输,从网络的物理层、链路层和传输层对数据进行多重保护,在最极端的数据丢失情况下,依旧能做到很快发现数据丢失,并予以修正措施,让应用得到正确的数据。
NVIDIA网络亚太区高级总监 宋庆春
“无损网络对生成式AI非常重要。”宋庆春说。
重视性能提升 更重视降低能耗
由于Spectrum-X 平台面向数据中心,NVIDIA在设计时自然也考虑到了其功耗对PUE的影响。
Spectrum-X 通过端到端的联合设计,实现了更低的功耗。其中,Spcectrum-4交换机芯片中集成了上千亿颗晶体管,性能强悍。而当BlueField-3 DPU的强大基础设施卸载功能被应用于主机后,不仅可以卸载CPU工作负载,释放CPU的核心用于其它的业务,从而降低整个服务器的工作负载。同时,由于主机性能提升,使其可以承载更多业务应用。
这意味着,更少的服务器完成了更多的工作量,从而使能耗大幅下降。
“买的越多,省的越多。”崔岩引用英伟达CEO黄仁勋的观点说道。
好文章,需要你的鼓励
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。