Nvidia通过采用AI的系统方法来保持领先地位。其中,一个关键差异化因素就是NVLink和NVSwitch,它们使GPU之间能够实现更好、更快地进行连接,从而为推理等任务提供帮助。
大型语言模型的规模和复杂性不断增长,因此市场对高效且高性能计算系统的需求也在增长。在最近的一篇博客文章中,Nvidia研究了NVLink和NVSwitch技术在实现大型语言模型推理所需的可扩展性和性能方面(特别是在多GPU环境中)所发挥的作用。
Nvidia公司加速计算产品总监Dave Salvator、AI平台推理产品经理Nick Comly和AI网络高级产品营销经理Taylor Allison跟我们更深入地介绍了NVLink和NVSwitch是如何显著加快推理过程的。
NVLink和NVSwitch架构
Salvator表示,NVLink和NVSwitch的架构至关重要。“这个架构如今正在帮助我们,未来还将为我们提供更多帮助,为市场提供生成式AI推理,”他说。
实际上,这源自于我们从未在硅层应用过的基本网络原则。例如,如果我们用点对点连接几台计算机,性能会很糟糕,但通过交换机,性能则会大大提高。
“这是思考该问题的一个好方法,我的意思是,点对点有很多限制,我们在博客中谈到了计算与通信时间的概念。通信成为性能方程的其中一部分越多,你最终从NVSwitch和NVLink中看到的好处就越多。”
多GPU推理带来的挑战
Nvidia在博客中指出,大型语言模型是计算密集型的,通常需要多个GPU的强大功能才能有效处理工作负载。在多GPU环境中,每个模型层的处理分布在不同的GPU上。
但是,在每个GPU处理完自己的部分之后,还必须与其他GPU共享结果,然后才能继续下一层。这一步至关重要,需要GPU之间极快的通信,以避免可能减慢整个推理过程的瓶颈。
传统的GPU通信方法(例如点对点连接)是有限制的,因为要在多个GPU之间分配可用带宽。随着系统中GPU的数量不断增加,这些连接可能会成为瓶颈,导致延迟增加和整体性能下降。
Nvidia NVLink:解决GPU到GPU的通信问题
NVLink是Nvidia针对大规模模型中GPU到GPU通信挑战的一个解决方案。在Hopper这一代平台中,它提供了GPU之间每秒900Gb的通信带宽,远远超过了传统连接的能力。NVLink确保数据可以在GPU之间快速高效地传输,同时最大限度地减少延迟并保持GPU得到充分利用。Blackwell平台将带宽提高到每秒1.8 Tb,NVIDIA NVLink交换芯片将在一个72 GPU NVLink域(NVL72)中实现每秒130 TB的GPU带宽。
Taylor Allison分享了有关NVLink的更多细节。他说:“NVLink是一种不同于InfiniBand的技术,我们能够利用我们在InfiniBand方面的一些知识和最佳实践来设计这种架构——特别是我们在InfiniBand中已经做了很长时间的网络内计算,已经能够将其移植到NVLink,但两者是不同的。”
他快速比较了InfiniBand和以太网,然后描述了NVLink的适用情况。他说:“InfiniBand和以太网一样,使用的是传统的交换/路由协议——NVLink中没有的OSI模型。NVLink是一种计算结构,使用不同的语义。”
他告诉我,NVLink是一种高速互连技术,可以实现共享内存池。以太网和InfiniBand有不同的范例。Nvidia设计了NVLink的架构,使其能够随着GPU数量的增加而扩展,确保即使将GPU添加到系统中,通信速度也能保持一致。这种可扩展性对于大型语言模型至关重要的,因为大型语言模型的计算需求是不断增加的。
NVSwitch:实现无阻塞通信
为了进一步增强多GPU通信,Nvidia推出了NVSwitch,一种网络交换机,可使系统中的所有GPU以NVLink总带宽同时进行通信。与点对点连接不同,点对点连接中多个GPU必须分割带宽,而NVSwitch可以确保每个GPU都能以最大速度传输数据,而不会受到其他GPU的干扰。
Salvator说:“Blackwell拥有我们第四代的NVSwitch,这项技术一直在发展中。这不是我们第一次在我们的平台上开发交换芯片。第一个NVSwitch是在Volta架构中的。”他补充说,NVSwitch在推理和训练方面都具有优势。
训练和推理
Salvator说:“训练是你投资AI的一个方面,当你进行推理和部署时,组织就会开始看到这项投资的回报。因此,如果你能在两方面都获得性能优势,那么NVSwitch和NVLink结构的存在就会带来价值。”
NVSwitch的非阻塞架构可以实现GPU之间更快速的数据共享,这对于在模型推理期间保持高吞吐量至关重要,尤其有利于Llama 3.1 70B等具有大量通信需求的模型。在这些场景中使用NVSwitch可以使吞吐量提高1.5倍,从而提高系统的整体效率和性能。
案例研究:对Llama 3.1 70B模型的影响
这篇博文探讨了NVLink和NVSwitch对使用Llama 3.1 70B模型的影响。在Nvidia的测试中,结果显示,配备NVSwitch的系统优于使用传统点对点连接的系统,尤其是在处理较大批量任务时。
据Nvidia称,NVSwitch缩短了GPU到GPU通信所需的时间,提高了整体推理吞吐量。这种改进意味着实际应用中的响应时间更快,这对于在AI驱动的产品和服务中保持无缝的用户体验来说,是至关重要的。
展望未来:Blackwell架构
Nvidia的Blackwell架构引入了第五代NVLink和新的NVSwitch芯片。这些升级将带宽提高了2倍,达到每GPU每秒1800 GB,并提高了GPU到GPU的通信效率,从而能够实时处理更大的、更复杂的模型。不过,只有时间才能证明这一点。
最后的一些想法
Nvidia的NVLink和NVSwitch技术是大型语言模型持续发展的关键组成部分。在思考这些技术和快速的发展速度时,有三个关键点需要牢记:
这些发展进步令人兴奋,看看行业和客户对此会有怎样的反应吧。Nvidia继续推动AI的发展,并保持领先地位,但竞争还远未结束。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。