NVLink和NVSwitch是Nvidia在AI战争中的秘密武器

自互联网诞生以来,还没有出现过像人工智能这样强劲的技术顺风趋势,许多公司都在争夺AI战场上的王者地位,而Nvidia占据了先机。

Nvidia通过采用AI的系统方法来保持领先地位。其中,一个关键差异化因素就是NVLink和NVSwitch,它们使GPU之间能够实现更好、更快地进行连接,从而为推理等任务提供帮助。

NVLink和NVSwitch是Nvidia在AI战争中的秘密武器

大型语言模型的规模和复杂性不断增长,因此市场对高效且高性能计算系统的需求也在增长。在最近的一篇博客文章中,Nvidia研究了NVLink和NVSwitch技术在实现大型语言模型推理所需的可扩展性和性能方面(特别是在多GPU环境中)所发挥的作用。

Nvidia公司加速计算产品总监Dave Salvator、AI平台推理产品经理Nick Comly和AI网络高级产品营销经理Taylor Allison跟我们更深入地介绍了NVLink和NVSwitch是如何显著加快推理过程的。

NVLink和NVSwitch架构

Salvator表示,NVLink和NVSwitch的架构至关重要。“这个架构如今正在帮助我们,未来还将为我们提供更多帮助,为市场提供生成式AI推理,”他说。

实际上,这源自于我们从未在硅层应用过的基本网络原则。例如,如果我们用点对点连接几台计算机,性能会很糟糕,但通过交换机,性能则会大大提高。

“这是思考该问题的一个好方法,我的意思是,点对点有很多限制,我们在博客中谈到了计算与通信时间的概念。通信成为性能方程的其中一部分越多,你最终从NVSwitch和NVLink中看到的好处就越多。”

多GPU推理带来的挑战

Nvidia在博客中指出,大型语言模型是计算密集型的,通常需要多个GPU的强大功能才能有效处理工作负载。在多GPU环境中,每个模型层的处理分布在不同的GPU上。

但是,在每个GPU处理完自己的部分之后,还必须与其他GPU共享结果,然后才能继续下一层。这一步至关重要,需要GPU之间极快的通信,以避免可能减慢整个推理过程的瓶颈。

传统的GPU通信方法(例如点对点连接)是有限制的,因为要在多个GPU之间分配可用带宽。随着系统中GPU的数量不断增加,这些连接可能会成为瓶颈,导致延迟增加和整体性能下降。

Nvidia NVLink:解决GPU到GPU的通信问题

NVLink是Nvidia针对大规模模型中GPU到GPU通信挑战的一个解决方案。在Hopper这一代平台中,它提供了GPU之间每秒900Gb的通信带宽,远远超过了传统连接的能力。NVLink确保数据可以在GPU之间快速高效地传输,同时最大限度地减少延迟并保持GPU得到充分利用。Blackwell平台将带宽提高到每秒1.8 Tb,NVIDIA NVLink交换芯片将在一个72 GPU NVLink域(NVL72)中实现每秒130 TB的GPU带宽。

Taylor Allison分享了有关NVLink的更多细节。他说:“NVLink是一种不同于InfiniBand的技术,我们能够利用我们在InfiniBand方面的一些知识和最佳实践来设计这种架构——特别是我们在InfiniBand中已经做了很长时间的网络内计算,已经能够将其移植到NVLink,但两者是不同的。”

他快速比较了InfiniBand和以太网,然后描述了NVLink的适用情况。他说:“InfiniBand和以太网一样,使用的是传统的交换/路由协议——NVLink中没有的OSI模型。NVLink是一种计算结构,使用不同的语义。”

他告诉我,NVLink是一种高速互连技术,可以实现共享内存池。以太网和InfiniBand有不同的范例。Nvidia设计了NVLink的架构,使其能够随着GPU数量的增加而扩展,确保即使将GPU添加到系统中,通信速度也能保持一致。这种可扩展性对于大型语言模型至关重要的,因为大型语言模型的计算需求是不断增加的。

NVSwitch:实现无阻塞通信

为了进一步增强多GPU通信,Nvidia推出了NVSwitch,一种网络交换机,可使系统中的所有GPU以NVLink总带宽同时进行通信。与点对点连接不同,点对点连接中多个GPU必须分割带宽,而NVSwitch可以确保每个GPU都能以最大速度传输数据,而不会受到其他GPU的干扰。

Salvator说:“Blackwell拥有我们第四代的NVSwitch,这项技术一直在发展中。这不是我们第一次在我们的平台上开发交换芯片。第一个NVSwitch是在Volta架构中的。”他补充说,NVSwitch在推理和训练方面都具有优势。

训练和推理

Salvator说:“训练是你投资AI的一个方面,当你进行推理和部署时,组织就会开始看到这项投资的回报。因此,如果你能在两方面都获得性能优势,那么NVSwitch和NVLink结构的存在就会带来价值。”

NVSwitch的非阻塞架构可以实现GPU之间更快速的数据共享,这对于在模型推理期间保持高吞吐量至关重要,尤其有利于Llama 3.1 70B等具有大量通信需求的模型。在这些场景中使用NVSwitch可以使吞吐量提高1.5倍,从而提高系统的整体效率和性能。

案例研究:对Llama 3.1 70B模型的影响

这篇博文探讨了NVLink和NVSwitch对使用Llama 3.1 70B模型的影响。在Nvidia的测试中,结果显示,配备NVSwitch的系统优于使用传统点对点连接的系统,尤其是在处理较大批量任务时。

据Nvidia称,NVSwitch缩短了GPU到GPU通信所需的时间,提高了整体推理吞吐量。这种改进意味着实际应用中的响应时间更快,这对于在AI驱动的产品和服务中保持无缝的用户体验来说,是至关重要的。

展望未来:Blackwell架构

Nvidia的Blackwell架构引入了第五代NVLink和新的NVSwitch芯片。这些升级将带宽提高了2倍,达到每GPU每秒1800 GB,并提高了GPU到GPU的通信效率,从而能够实时处理更大的、更复杂的模型。不过,只有时间才能证明这一点。

最后的一些想法

Nvidia的NVLink和NVSwitch技术是大型语言模型持续发展的关键组成部分。在思考这些技术和快速的发展速度时,有三个关键点需要牢记:

  • 增强的GPU通信即将到来:Nvidia的NVLink和NVSwitch将改善GPU到GPU的数据传输,并减少大型语言模型推理中的延迟。
  • 可以实现更大模型的可扩展性:这些技术可以在多GPU系统中实现高效扩展,同时在模型规模增加时保持高性能。
  • Nvidia已经准备好迎接Blackwell:即将推出的Blackwell架构将带来更多改进,提升更复杂AI模型的性能。

这些发展进步令人兴奋,看看行业和客户对此会有怎样的反应吧。Nvidia继续推动AI的发展,并保持领先地位,但竞争还远未结束。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2024

08/20

10:07

分享

点赞

邮件订阅