这才是AI时代需要的数据中心网络！原创

作者：毛烁

AI时代，数据中心网络面对如此复杂的挑战，是否有合适的解决之道？

从Open AI的ChatGPT的兴起，到Google的Bard，生成式AI产业正在稳步前行。“生成式人工智能市场报告”预测表明，到2031年，该市场将达到惊人的1265亿美元，从2022年到2031年的复合年增长率为32%。

这其中，生成式AI所需的基础设施——数据中心正发挥着至关重要的作用。加速计算和生成式AI的需求正在推动数据中心的根本性变革。

AI时代数据中心如何破解复杂的网络挑战？

人工智能应用导致的大规模算力环境下的网络问题是当今数据中心所面临的“紧箍咒”之一。大模型AI场景下海量的参数分布于多个个服务器的多个GPU之上，需要用到成千上万个GPU来训练数十TB级甚至更大的数据集，大量的GPU之间的通信容易出现由于网络HASH负载分担不均而导致的网络吞吐下降，从而引发AI训练性能整体下降等问题。

IDC报告显示，当前主流数据中心以太网占比超过95%，但传统以太网在AI算力训练等应用下，吞吐量、时延及避免丢包等方面的表现并不出色。

众所周知，由于人工智能应用程序的通信方式会对网络造成很大负担，这给 CPU 和 GPU 服务器以及将这些系统连接到一起的现有底层网络基础设施带来了新的挑战。在如今的AI时代，AI训练过程中不能出现任何数据的丢失，而标准以太网络具有“天然丢包”的特性，采用软件的方式来解决丢包问题将会极大程度影响训练结果。因此，传统以太网已经不适应AI时代数据中心的需求。

那么，AI时代，数据中心网络面对如此复杂的挑战，是否有合适的解决之道？

NVIDIA Spectrum-X 网络平台是为了解决传统以太网网络的局限性而开发的。它是一种全新的以太网网络架构，旨在满足要求苛刻的人工智能应用程序的需求，用于满足紧耦合通信对于网络的需求。这种经过 NVIDIA 认证和测试的端到端解决方案结合了一流的人工智能优化网络硬件和软件，可提供人工智能工作负载所需的可预测的、一致的和毫不妥协的性能水平。

NVIDIA DPU 和 DOCA 技术专家崔岩

“在加速计算和生成式人工智能结合的新方式下，我们需要重塑数据中心的计算和通信。”NVIDIA DPU 和 DOCA 技术专家崔岩在如是说。

NVIDIA Spectrum-X 网络平台是一种端到端解决方案，专为满足人工智能应用程序的性能需求而全新设计，并针对高速网络性能、低延迟和大规模可扩展进行了优化。

官方发布的参数显示，具体而言，NVIDIA Spectrum-X 可以在以下用例中显著提高 AI 集群的性能和效率：

GPT 和 BERT 等大型语言模型
分布式训练和并行处理
自然语言处理（NLP）
计算机视觉
高性能模拟（NVIDIA Omniverse 和 NVIDIA OVX）
高性能数据分析（Spark）
推理应用程序

“NVIDIA Spectrum-4 + NVIDIA BlueField-3 DPU”让AI性能“更上一层楼”

Spectrum-X 通过NVIDIA BlueField-3 DPU 和 Spectrum-4 交换机的端到端联合设计和优化，对于实现AI 网络架构的最高性能和可靠性至关重要。

作为世界上第一款专为 AI 构建的以太网架构，NVIDIA Spectrum-X基于网络创新的新成果而构建——将 NVIDIA Spectrum-4以太网交换机与NVIDIA BlueField-3 DPU紧密结合，取得了1.7倍的整体AI性能和能效提升，同时可在多租户环境中提供一致、可预测的性能。

具体而言，NVIDIA Spectrum-4以太网交换机专为人工智能工作负载而设计，将专用的高性能架构与标准以太网连接相结合，为基于标准的以太网构建的AI集群提供了前所未有的应用程序性能。要充分发挥 NVIDIA Spectrum-4 的潜力，需要端到端的、专门构建的网络架构。而NVIDIA Spectrum-X 平台能提供支持大规模人工智能计算所需的硬件加速和卸载引擎。

崔岩介绍道，NVIDIA Spectrum-X以太网网络平台拥有四个主要特性——优化的无损网络、动态路由、流量拥塞控制、性能隔离。与传统的以太网不同，采用这种方式以后在云上部署人工智能或者生成式人工智能的工作负载，完全可以满足对网络性能的要求。

在面对网络层面的拥塞时，Spectrum-4 交换机提供代表实时拥塞状况的网络遥测信息。这些遥测信息被传递到主机的 BlueField-3 DPU 进行处理，从而管理和控制数据发送方的数据发送速率，实现网络共享的最大效率。

在谈及无损网络方面时，NVIDIA网络亚太区高级总监宋庆春表示，Spectrum-X 实现了端到端的高性能无损以太网RDMA传输，从网络的物理层、链路层和传输层对数据进行多重保护，在最极端的数据丢失情况下，依旧能做到很快发现数据丢失，并予以修正措施，让应用得到正确的数据。

NVIDIA网络亚太区高级总监宋庆春

“无损网络对生成式AI非常重要。”宋庆春说。

重视性能提升更重视降低能耗

由于Spectrum-X 平台面向数据中心，NVIDIA在设计时自然也考虑到了其功耗对PUE的影响。

Spectrum-X 通过端到端的联合设计，实现了更低的功耗。其中，Spcectrum-4交换机芯片中集成了上千亿颗晶体管，性能强悍。而当BlueField-3 DPU的强大基础设施卸载功能被应用于主机后，不仅可以卸载CPU工作负载，释放CPU的核心用于其它的业务，从而降低整个服务器的工作负载。同时，由于主机性能提升，使其可以承载更多业务应用。

这意味着，更少的服务器完成了更多的工作量，从而使能耗大幅下降。

“买的越多，省的越多。”崔岩引用英伟达CEO黄仁勋的观点说道。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

这才是AI时代需要的数据中心网络！ 原创

来源：至顶网计算频道

2023

06/19

15:11

分享

点赞

自写互联网：Dfinity的Caffeine AI是否为应用开发者敲响警钟

Meta利用AI创造低碳混凝土并用于数据中心地板浇筑

Slack宣称其AI能够理解公司的专业术语和行话

Adobe新AI工具将搞怪噪音转换成逼真音效

AI是新的Android恶意软件吗？手机厂商争夺用户注意力的战争

NetBox Labs获得3500万美元融资推动基础设施运营现代化

边缘计算趋势：采用现状、挑战与未来展望

Liqid发布支持CXL 2.0内存池的可组合GPU服务器

Uber携手Lucid和Nuro部署2万辆自动驾驶出租车

Mistral的Le Chat聊天机器人推出"深度研究"模式，生产力大幅提升

AWS为S3新增向量存储桶以降低RAG存储成本

谷歌计划重塑安卓与ChromeOS：双平台融合之路

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

这才是AI时代需要的数据中心网络！原创