Nvidia近日宣布推出一款名为TensorRT-LLM的新开源软件套件,扩展了Nvidia GPU上大型语言模型优化的功能,并突破了部署之后人工智能推理性能的极限。
生成式AI大语言模型因其令人印象深刻的功能而变得流行,而且扩大了人工智能的可能性,被广泛应用于众多行业,让用户能够通过聊天机器人“与数据对话”、总结大型文档、编写软件代码、以及发现理解信息的新方法。
Nvidia公司超大规模和高性能计算副总裁Ian Buck表示:“大型语言模型推理变得越来越难。模型的复杂性不断增加,模型变得越来越智能,也变得越来越大,这是很自然的,但当模型扩展到单个GPU之外并且必须在多个GPU上运行的时候,就成了一大难题。”
在人工智能方面,推理是模型处理那些前所未见的新数据的一个过程,例如用于总结、生成代码、提供建议或者回答问题,是大型语言模型的主力。
随着模型生态系统的迅速扩展,模型也变得越来越大,功能越来越多,这也意味着模型变得如此之大以至于无法同时运行在单个GPU上,而必须将其分开。开发人员和工程师必须手动将工作负载分开或分段,协调执行,以便实时获得响应。TensorRT-LLM就是通过“张量并行性”帮助解决这个问题的,允许跨多个GPU进行大规模的高效推理。
除此之外,由于当今市场中有各种各样的大型语言模型,所以Nvidia针对目前主流的大型语言模型对核心进行了优化。该软件套件包括了完全优化的、可立即运行的大型语言模型版本,包括Meta Platform的Llama 2、OpenAI的GPT-2和GPT-3、Falcon、MosaicMPT和BLOOM。
应对动态工作负载的“运行中批处理”机制
由于大型语言模型本身的性质,模型的工作负载可能是高度动态的,工作负载的需求和任务使用情况也可能会随着时间的推移而发生变化,单个模型可以同时用作聊天机器人来提问和回答,也可以用于总结大型文档和简短文档。因此,输出大小可能会出现完全不同的数量级。
为了应对这些不同的工作负载,TensorRT-LLM引入了一种称为“运行中批处理”的机制,这是一个优化调度的过程,把文本生成过程分解为多个片段,以便可以将移入或者移出GPU,这样在开始新一批之前就不需要完成整批工作负载了。
以前,如果有大型请求的话,例如对非常大的文档进行摘要提取,那么后面所有的内容都必须等待该过程完成才能使队列继续前进。
Nvidia一直在与众多厂商合作优化TensorRT-LLM,包括Meta、Cohere、Grammarly、Databricks和Tabnine。在他们的帮助下,Nvidia不断简化软件套件中的功能和工具集,包括开源Python应用用户界面,用于定义和优化新架构以定制大型语言模型。
例如,MosaicML在将TensorRT-LLM与其现有软件堆栈集成时在TensorRT-LLM之上添加额外的功能。Databricks公司工程副总裁Naveen Rao表示,这是一个简单的过程。
“TensorRT-LLM易于使用,功能丰富,包括令牌流、动态批处理、分页注意力、量化等,而且效率很高,为使用 NVIDIA GPU的大型语言模型服务提供了最佳性能,并使我们能够将节省的成本回馈给我们的客户。”
Nvidia称,TensorRT-LLM及其带来的好处(包括运行中批处理功能)可以让使用Nvidia H100提取文章摘要的推理性能提高1倍多。在使用GPT-J-6B模型进行对CNN/每日邮报文章摘要的A100测试中,仅H100就要比A100快4倍,启用TensorRT-LLM优化后,速度快了8倍。
TensorRT-LLM为开发人员和工程师提供了深度学习编译器、优化的大型语言模型内核、预处理和后处理、多GPU/多节点通信功能、以及简单的开源API,使他们能够快速优化和执行大型语言模型生产的推理。随着大型语言模型继续重塑数据中心,企业需要更高的性能就意味着开发人员比以往任何时候都更需要能够为他们提供具备功能和访问权限的工具,以提供更高性能的结果。
TensorRT-LLM软件套件现已可供Nvidia开发人员计划中的开发人员抢先体验,并将于下个月集成到用于生产型AI端到端软件平台Nvidia AI Enterprise的NeMo框架中。
好文章,需要你的鼓励
上海交通大学研究团队开发出革命性AI癌症诊断系统,通过深度学习技术分析50万张细胞图像,实现94.2%的诊断准确率,诊断时间从30分钟缩短至2分钟。该系统不仅能识别多种癌症类型,还具备解释性功能,已在多家医院试点应用。研究成果发表于《Nature Communications》,展示了AI在精准医疗领域的巨大潜力。
南华理工大学等机构提出3DFlowAction方法,让机器人通过预测物体3D运动轨迹来学习操作技能。该研究创建了包含11万个实例的ManiFlow-110k数据集,构建了能预测三维光流的世界模型,实现了跨机器人平台的技能迁移。在四个复杂操作任务上成功率达70%,无需特定硬件训练即可在不同机器人上部署,为通用机器人操作技术发展开辟新路径。
这是首个系统性探索跨视角协作智能的综合性研究,由南京大学、东京大学等顶尖机构联合完成。研究团队首次将"第一人称视角"与"第三人称视角"的协作应用进行了全面梳理,提出了三大技术方向和十三个关键任务,涵盖从智能厨房到手术机器人的八大应用场景。这项突破性工作为人工智能向人类认知迈进提供了重要的技术路径和理论基础。
这项由台湾大学与微软研究团队合作的研究探索了使用音频感知大语言模型(ALLMs)作为自动评判员来评估语音生成模型的说话风格。研究设计了"语音风格指令跟随"和"角色扮演"两个任务,测试了四种语音模型的表现,并比较了人类与AI评判的一致性。结果表明,特别是Gemini-2.5-pro模型,其评判结果与人类评判的一致性甚至超过了人类评判者之间的一致性,证明ALLMs可以作为可靠的自动评估工具。同时研究也发现,即使是最先进的语音模型在说话风格控制方面仍有显著改进空间。