NVLink和NVSwitch是Nvidia在AI战争中的秘密武器

自互联网诞生以来，还没有出现过像人工智能这样强劲的技术顺风趋势，许多公司都在争夺AI战场上的王者地位，而Nvidia占据了先机。

Nvidia通过采用AI的系统方法来保持领先地位。其中，一个关键差异化因素就是NVLink和NVSwitch，它们使GPU之间能够实现更好、更快地进行连接，从而为推理等任务提供帮助。

大型语言模型的规模和复杂性不断增长，因此市场对高效且高性能计算系统的需求也在增长。在最近的一篇博客文章中，Nvidia研究了NVLink和NVSwitch技术在实现大型语言模型推理所需的可扩展性和性能方面（特别是在多GPU环境中）所发挥的作用。

Nvidia公司加速计算产品总监Dave Salvator、AI平台推理产品经理Nick Comly和AI网络高级产品营销经理Taylor Allison跟我们更深入地介绍了NVLink和NVSwitch是如何显著加快推理过程的。

NVLink和NVSwitch架构

Salvator表示，NVLink和NVSwitch的架构至关重要。“这个架构如今正在帮助我们，未来还将为我们提供更多帮助，为市场提供生成式AI推理，”他说。

实际上，这源自于我们从未在硅层应用过的基本网络原则。例如，如果我们用点对点连接几台计算机，性能会很糟糕，但通过交换机，性能则会大大提高。

“这是思考该问题的一个好方法，我的意思是，点对点有很多限制，我们在博客中谈到了计算与通信时间的概念。通信成为性能方程的其中一部分越多，你最终从NVSwitch和NVLink中看到的好处就越多。”

多GPU推理带来的挑战

Nvidia在博客中指出，大型语言模型是计算密集型的，通常需要多个GPU的强大功能才能有效处理工作负载。在多GPU环境中，每个模型层的处理分布在不同的GPU上。

但是，在每个GPU处理完自己的部分之后，还必须与其他GPU共享结果，然后才能继续下一层。这一步至关重要，需要GPU之间极快的通信，以避免可能减慢整个推理过程的瓶颈。

传统的GPU通信方法（例如点对点连接）是有限制的，因为要在多个GPU之间分配可用带宽。随着系统中GPU的数量不断增加，这些连接可能会成为瓶颈，导致延迟增加和整体性能下降。

Nvidia NVLink：解决GPU到GPU的通信问题

NVLink是Nvidia针对大规模模型中GPU到GPU通信挑战的一个解决方案。在Hopper这一代平台中，它提供了GPU之间每秒900Gb的通信带宽，远远超过了传统连接的能力。NVLink确保数据可以在GPU之间快速高效地传输，同时最大限度地减少延迟并保持GPU得到充分利用。Blackwell平台将带宽提高到每秒1.8 Tb，NVIDIA NVLink交换芯片将在一个72 GPU NVLink域(NVL72)中实现每秒130 TB的GPU带宽。

Taylor Allison分享了有关NVLink的更多细节。他说：“NVLink是一种不同于InfiniBand的技术，我们能够利用我们在InfiniBand方面的一些知识和最佳实践来设计这种架构——特别是我们在InfiniBand中已经做了很长时间的网络内计算，已经能够将其移植到NVLink，但两者是不同的。”

他快速比较了InfiniBand和以太网，然后描述了NVLink的适用情况。他说：“InfiniBand和以太网一样，使用的是传统的交换/路由协议——NVLink中没有的OSI模型。NVLink是一种计算结构，使用不同的语义。”

他告诉我，NVLink是一种高速互连技术，可以实现共享内存池。以太网和InfiniBand有不同的范例。Nvidia设计了NVLink的架构，使其能够随着GPU数量的增加而扩展，确保即使将GPU添加到系统中，通信速度也能保持一致。这种可扩展性对于大型语言模型至关重要的，因为大型语言模型的计算需求是不断增加的。

NVSwitch：实现无阻塞通信

为了进一步增强多GPU通信，Nvidia推出了NVSwitch，一种网络交换机，可使系统中的所有GPU以NVLink总带宽同时进行通信。与点对点连接不同，点对点连接中多个GPU必须分割带宽，而NVSwitch可以确保每个GPU都能以最大速度传输数据，而不会受到其他GPU的干扰。

Salvator说：“Blackwell拥有我们第四代的NVSwitch，这项技术一直在发展中。这不是我们第一次在我们的平台上开发交换芯片。第一个NVSwitch是在Volta架构中的。”他补充说，NVSwitch在推理和训练方面都具有优势。

训练和推理

Salvator说：“训练是你投资AI的一个方面，当你进行推理和部署时，组织就会开始看到这项投资的回报。因此，如果你能在两方面都获得性能优势，那么NVSwitch和NVLink结构的存在就会带来价值。”

NVSwitch的非阻塞架构可以实现GPU之间更快速的数据共享，这对于在模型推理期间保持高吞吐量至关重要，尤其有利于Llama 3.1 70B等具有大量通信需求的模型。在这些场景中使用NVSwitch可以使吞吐量提高1.5倍，从而提高系统的整体效率和性能。

案例研究：对Llama 3.1 70B模型的影响

这篇博文探讨了NVLink和NVSwitch对使用Llama 3.1 70B模型的影响。在Nvidia的测试中，结果显示，配备NVSwitch的系统优于使用传统点对点连接的系统，尤其是在处理较大批量任务时。

据Nvidia称，NVSwitch缩短了GPU到GPU通信所需的时间，提高了整体推理吞吐量。这种改进意味着实际应用中的响应时间更快，这对于在AI驱动的产品和服务中保持无缝的用户体验来说，是至关重要的。

展望未来：Blackwell架构

Nvidia的Blackwell架构引入了第五代NVLink和新的NVSwitch芯片。这些升级将带宽提高了2倍，达到每GPU每秒1800 GB，并提高了GPU到GPU的通信效率，从而能够实时处理更大的、更复杂的模型。不过，只有时间才能证明这一点。

最后的一些想法

Nvidia的NVLink和NVSwitch技术是大型语言模型持续发展的关键组成部分。在思考这些技术和快速的发展速度时，有三个关键点需要牢记：

增强的GPU通信即将到来：Nvidia的NVLink和NVSwitch将改善GPU到GPU的数据传输，并减少大型语言模型推理中的延迟。
可以实现更大模型的可扩展性：这些技术可以在多GPU系统中实现高效扩展，同时在模型规模增加时保持高性能。
Nvidia已经准备好迎接Blackwell：即将推出的Blackwell架构将带来更多改进，提升更复杂AI模型的性能。

这些发展进步令人兴奋，看看行业和客户对此会有怎样的反应吧。Nvidia继续推动AI的发展，并保持领先地位，但竞争还远未结束。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

NVLink和NVSwitch是Nvidia在AI战争中的秘密武器

来源：至顶网计算频道

2024

08/20

10:07

分享

点赞

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

Confluent Cloud为智能体提供实时数据流处理能力

数字化转型失败的6个警示信号

OpenAI CEO阿尔特曼承认当前处于AI泡沫期

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

NVIDIA Blackwell 现已在云端全面可用

为“代理式AI”装上“护栏” NVIDIA打造“三重防线”

黄仁勋现身北京致辞：60年后，计算机正被重新定义

该需要多少 NVIDIA CUDA Cores ？

CES 2025 | NVIDIA Isaac GR00T Blueprint 让人形机器人“加速进化”

未来，就在我们手中

CES 2025 | 代理式AI崛起：NVIDIA定义下一代“代理式 AI Blueprint”

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

深度学习最佳 GPU，知多少？

NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: