Nvidia通过采用AI的系统方法来保持领先地位。其中,一个关键差异化因素就是NVLink和NVSwitch,它们使GPU之间能够实现更好、更快地进行连接,从而为推理等任务提供帮助。
大型语言模型的规模和复杂性不断增长,因此市场对高效且高性能计算系统的需求也在增长。在最近的一篇博客文章中,Nvidia研究了NVLink和NVSwitch技术在实现大型语言模型推理所需的可扩展性和性能方面(特别是在多GPU环境中)所发挥的作用。
Nvidia公司加速计算产品总监Dave Salvator、AI平台推理产品经理Nick Comly和AI网络高级产品营销经理Taylor Allison跟我们更深入地介绍了NVLink和NVSwitch是如何显著加快推理过程的。
NVLink和NVSwitch架构
Salvator表示,NVLink和NVSwitch的架构至关重要。“这个架构如今正在帮助我们,未来还将为我们提供更多帮助,为市场提供生成式AI推理,”他说。
实际上,这源自于我们从未在硅层应用过的基本网络原则。例如,如果我们用点对点连接几台计算机,性能会很糟糕,但通过交换机,性能则会大大提高。
“这是思考该问题的一个好方法,我的意思是,点对点有很多限制,我们在博客中谈到了计算与通信时间的概念。通信成为性能方程的其中一部分越多,你最终从NVSwitch和NVLink中看到的好处就越多。”
多GPU推理带来的挑战
Nvidia在博客中指出,大型语言模型是计算密集型的,通常需要多个GPU的强大功能才能有效处理工作负载。在多GPU环境中,每个模型层的处理分布在不同的GPU上。
但是,在每个GPU处理完自己的部分之后,还必须与其他GPU共享结果,然后才能继续下一层。这一步至关重要,需要GPU之间极快的通信,以避免可能减慢整个推理过程的瓶颈。
传统的GPU通信方法(例如点对点连接)是有限制的,因为要在多个GPU之间分配可用带宽。随着系统中GPU的数量不断增加,这些连接可能会成为瓶颈,导致延迟增加和整体性能下降。
Nvidia NVLink:解决GPU到GPU的通信问题
NVLink是Nvidia针对大规模模型中GPU到GPU通信挑战的一个解决方案。在Hopper这一代平台中,它提供了GPU之间每秒900Gb的通信带宽,远远超过了传统连接的能力。NVLink确保数据可以在GPU之间快速高效地传输,同时最大限度地减少延迟并保持GPU得到充分利用。Blackwell平台将带宽提高到每秒1.8 Tb,NVIDIA NVLink交换芯片将在一个72 GPU NVLink域(NVL72)中实现每秒130 TB的GPU带宽。
Taylor Allison分享了有关NVLink的更多细节。他说:“NVLink是一种不同于InfiniBand的技术,我们能够利用我们在InfiniBand方面的一些知识和最佳实践来设计这种架构——特别是我们在InfiniBand中已经做了很长时间的网络内计算,已经能够将其移植到NVLink,但两者是不同的。”
他快速比较了InfiniBand和以太网,然后描述了NVLink的适用情况。他说:“InfiniBand和以太网一样,使用的是传统的交换/路由协议——NVLink中没有的OSI模型。NVLink是一种计算结构,使用不同的语义。”
他告诉我,NVLink是一种高速互连技术,可以实现共享内存池。以太网和InfiniBand有不同的范例。Nvidia设计了NVLink的架构,使其能够随着GPU数量的增加而扩展,确保即使将GPU添加到系统中,通信速度也能保持一致。这种可扩展性对于大型语言模型至关重要的,因为大型语言模型的计算需求是不断增加的。
NVSwitch:实现无阻塞通信
为了进一步增强多GPU通信,Nvidia推出了NVSwitch,一种网络交换机,可使系统中的所有GPU以NVLink总带宽同时进行通信。与点对点连接不同,点对点连接中多个GPU必须分割带宽,而NVSwitch可以确保每个GPU都能以最大速度传输数据,而不会受到其他GPU的干扰。
Salvator说:“Blackwell拥有我们第四代的NVSwitch,这项技术一直在发展中。这不是我们第一次在我们的平台上开发交换芯片。第一个NVSwitch是在Volta架构中的。”他补充说,NVSwitch在推理和训练方面都具有优势。
训练和推理
Salvator说:“训练是你投资AI的一个方面,当你进行推理和部署时,组织就会开始看到这项投资的回报。因此,如果你能在两方面都获得性能优势,那么NVSwitch和NVLink结构的存在就会带来价值。”
NVSwitch的非阻塞架构可以实现GPU之间更快速的数据共享,这对于在模型推理期间保持高吞吐量至关重要,尤其有利于Llama 3.1 70B等具有大量通信需求的模型。在这些场景中使用NVSwitch可以使吞吐量提高1.5倍,从而提高系统的整体效率和性能。
案例研究:对Llama 3.1 70B模型的影响
这篇博文探讨了NVLink和NVSwitch对使用Llama 3.1 70B模型的影响。在Nvidia的测试中,结果显示,配备NVSwitch的系统优于使用传统点对点连接的系统,尤其是在处理较大批量任务时。
据Nvidia称,NVSwitch缩短了GPU到GPU通信所需的时间,提高了整体推理吞吐量。这种改进意味着实际应用中的响应时间更快,这对于在AI驱动的产品和服务中保持无缝的用户体验来说,是至关重要的。
展望未来:Blackwell架构
Nvidia的Blackwell架构引入了第五代NVLink和新的NVSwitch芯片。这些升级将带宽提高了2倍,达到每GPU每秒1800 GB,并提高了GPU到GPU的通信效率,从而能够实时处理更大的、更复杂的模型。不过,只有时间才能证明这一点。
最后的一些想法
Nvidia的NVLink和NVSwitch技术是大型语言模型持续发展的关键组成部分。在思考这些技术和快速的发展速度时,有三个关键点需要牢记:
这些发展进步令人兴奋,看看行业和客户对此会有怎样的反应吧。Nvidia继续推动AI的发展,并保持领先地位,但竞争还远未结束。
好文章,需要你的鼓励
OpenAI明确表示要成为互联网一切事物的主导界面。AI智能体正在改变用户的数字习惯,从健康记录分析到购物指导,ChatGPT已经在多个领域扩展影响力。用户快速采用AI工具,但企业和生态系统的适应速度滞后。电商领域的权力分配尚不明确,用户偏好AI驱动的答案优先体验,品牌则推动生成式引擎优化。研究旨在了解用户与企业在AI变革中的适应差异。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。