Nvidia通过采用AI的系统方法来保持领先地位。其中,一个关键差异化因素就是NVLink和NVSwitch,它们使GPU之间能够实现更好、更快地进行连接,从而为推理等任务提供帮助。
大型语言模型的规模和复杂性不断增长,因此市场对高效且高性能计算系统的需求也在增长。在最近的一篇博客文章中,Nvidia研究了NVLink和NVSwitch技术在实现大型语言模型推理所需的可扩展性和性能方面(特别是在多GPU环境中)所发挥的作用。
Nvidia公司加速计算产品总监Dave Salvator、AI平台推理产品经理Nick Comly和AI网络高级产品营销经理Taylor Allison跟我们更深入地介绍了NVLink和NVSwitch是如何显著加快推理过程的。
NVLink和NVSwitch架构
Salvator表示,NVLink和NVSwitch的架构至关重要。“这个架构如今正在帮助我们,未来还将为我们提供更多帮助,为市场提供生成式AI推理,”他说。
实际上,这源自于我们从未在硅层应用过的基本网络原则。例如,如果我们用点对点连接几台计算机,性能会很糟糕,但通过交换机,性能则会大大提高。
“这是思考该问题的一个好方法,我的意思是,点对点有很多限制,我们在博客中谈到了计算与通信时间的概念。通信成为性能方程的其中一部分越多,你最终从NVSwitch和NVLink中看到的好处就越多。”
多GPU推理带来的挑战
Nvidia在博客中指出,大型语言模型是计算密集型的,通常需要多个GPU的强大功能才能有效处理工作负载。在多GPU环境中,每个模型层的处理分布在不同的GPU上。
但是,在每个GPU处理完自己的部分之后,还必须与其他GPU共享结果,然后才能继续下一层。这一步至关重要,需要GPU之间极快的通信,以避免可能减慢整个推理过程的瓶颈。
传统的GPU通信方法(例如点对点连接)是有限制的,因为要在多个GPU之间分配可用带宽。随着系统中GPU的数量不断增加,这些连接可能会成为瓶颈,导致延迟增加和整体性能下降。
Nvidia NVLink:解决GPU到GPU的通信问题
NVLink是Nvidia针对大规模模型中GPU到GPU通信挑战的一个解决方案。在Hopper这一代平台中,它提供了GPU之间每秒900Gb的通信带宽,远远超过了传统连接的能力。NVLink确保数据可以在GPU之间快速高效地传输,同时最大限度地减少延迟并保持GPU得到充分利用。Blackwell平台将带宽提高到每秒1.8 Tb,NVIDIA NVLink交换芯片将在一个72 GPU NVLink域(NVL72)中实现每秒130 TB的GPU带宽。
Taylor Allison分享了有关NVLink的更多细节。他说:“NVLink是一种不同于InfiniBand的技术,我们能够利用我们在InfiniBand方面的一些知识和最佳实践来设计这种架构——特别是我们在InfiniBand中已经做了很长时间的网络内计算,已经能够将其移植到NVLink,但两者是不同的。”
他快速比较了InfiniBand和以太网,然后描述了NVLink的适用情况。他说:“InfiniBand和以太网一样,使用的是传统的交换/路由协议——NVLink中没有的OSI模型。NVLink是一种计算结构,使用不同的语义。”
他告诉我,NVLink是一种高速互连技术,可以实现共享内存池。以太网和InfiniBand有不同的范例。Nvidia设计了NVLink的架构,使其能够随着GPU数量的增加而扩展,确保即使将GPU添加到系统中,通信速度也能保持一致。这种可扩展性对于大型语言模型至关重要的,因为大型语言模型的计算需求是不断增加的。
NVSwitch:实现无阻塞通信
为了进一步增强多GPU通信,Nvidia推出了NVSwitch,一种网络交换机,可使系统中的所有GPU以NVLink总带宽同时进行通信。与点对点连接不同,点对点连接中多个GPU必须分割带宽,而NVSwitch可以确保每个GPU都能以最大速度传输数据,而不会受到其他GPU的干扰。
Salvator说:“Blackwell拥有我们第四代的NVSwitch,这项技术一直在发展中。这不是我们第一次在我们的平台上开发交换芯片。第一个NVSwitch是在Volta架构中的。”他补充说,NVSwitch在推理和训练方面都具有优势。
训练和推理
Salvator说:“训练是你投资AI的一个方面,当你进行推理和部署时,组织就会开始看到这项投资的回报。因此,如果你能在两方面都获得性能优势,那么NVSwitch和NVLink结构的存在就会带来价值。”
NVSwitch的非阻塞架构可以实现GPU之间更快速的数据共享,这对于在模型推理期间保持高吞吐量至关重要,尤其有利于Llama 3.1 70B等具有大量通信需求的模型。在这些场景中使用NVSwitch可以使吞吐量提高1.5倍,从而提高系统的整体效率和性能。
案例研究:对Llama 3.1 70B模型的影响
这篇博文探讨了NVLink和NVSwitch对使用Llama 3.1 70B模型的影响。在Nvidia的测试中,结果显示,配备NVSwitch的系统优于使用传统点对点连接的系统,尤其是在处理较大批量任务时。
据Nvidia称,NVSwitch缩短了GPU到GPU通信所需的时间,提高了整体推理吞吐量。这种改进意味着实际应用中的响应时间更快,这对于在AI驱动的产品和服务中保持无缝的用户体验来说,是至关重要的。
展望未来:Blackwell架构
Nvidia的Blackwell架构引入了第五代NVLink和新的NVSwitch芯片。这些升级将带宽提高了2倍,达到每GPU每秒1800 GB,并提高了GPU到GPU的通信效率,从而能够实时处理更大的、更复杂的模型。不过,只有时间才能证明这一点。
最后的一些想法
Nvidia的NVLink和NVSwitch技术是大型语言模型持续发展的关键组成部分。在思考这些技术和快速的发展速度时,有三个关键点需要牢记:
这些发展进步令人兴奋,看看行业和客户对此会有怎样的反应吧。Nvidia继续推动AI的发展,并保持领先地位,但竞争还远未结束。
好文章,需要你的鼓励
今天讲的出海案例是三星医疗,一家从宁波起家做智能电表的A股公司,旗下子公司三星瑞典签下荷兰最大区域电网运营商Enexis的变压器框架合同,金额1.17亿欧元,约合9.49亿元人民币。
香港大学团队开发的Utonia首次实现了跨领域3D点云数据的统一处理,通过因果模态屏蔽、感知粒度重定标和RoPE增强位置编码三大创新,让一个AI模型就能理解室内扫描、户外雷达、工业设计等各种3D数据。该方法不仅在多个基准测试中超越专门模型,还在机器人操作、空间推理等应用中展现出色性能,为未来空间智能技术发展奠定重要基础。
人工智能正推动计算需求激增,但电信运营商面临结构性障碍:专有技术控制着其无线接入网络。开放RAN旨在打破这种控制,为创新开门。Stackpane首席执行官指出,推理工作负载更加计算密集,代理AI框架需要更严格的策略控制。RAN智能控制器仍被诺基亚等少数供应商垄断。电信运营商规模有限且监管严格,难以实现技术部门的规模经济和快速创新。
Physical Intelligence团队发布了FAST技术,这是一种全新的机器人动作学习方法。该技术通过频域压缩解决了传统方法在高频精细动作上的训练难题,将训练效率提升5倍。FAST首次实现了机器人在未见环境中的零样本操作,能够完成衣物折叠等复杂任务,为通用服务机器人的发展奠定了重要基础。