Nvidia发布TensorRT-LLM开源软件提升高端GPU芯片上的AI模型性能

Nvidia近日宣布推出一款名为TensorRT-LLM的新开源软件套件，扩展了Nvidia GPU上大型语言模型优化的功能，并突破了部署之后人工智能推理性能的极限。

生成式AI大语言模型因其令人印象深刻的功能而变得流行，而且扩大了人工智能的可能性，被广泛应用于众多行业，让用户能够通过聊天机器人“与数据对话”、总结大型文档、编写软件代码、以及发现理解信息的新方法。

Nvidia公司超大规模和高性能计算副总裁Ian Buck表示：“大型语言模型推理变得越来越难。模型的复杂性不断增加，模型变得越来越智能，也变得越来越大，这是很自然的，但当模型扩展到单个GPU之外并且必须在多个GPU上运行的时候，就成了一大难题。”

在人工智能方面，推理是模型处理那些前所未见的新数据的一个过程，例如用于总结、生成代码、提供建议或者回答问题，是大型语言模型的主力。

随着模型生态系统的迅速扩展，模型也变得越来越大，功能越来越多，这也意味着模型变得如此之大以至于无法同时运行在单个GPU上，而必须将其分开。开发人员和工程师必须手动将工作负载分开或分段，协调执行，以便实时获得响应。TensorRT-LLM就是通过“张量并行性”帮助解决这个问题的，允许跨多个GPU进行大规模的高效推理。

除此之外，由于当今市场中有各种各样的大型语言模型，所以Nvidia针对目前主流的大型语言模型对核心进行了优化。该软件套件包括了完全优化的、可立即运行的大型语言模型版本，包括Meta Platform的Llama 2、OpenAI的GPT-2和GPT-3、Falcon、MosaicMPT和BLOOM。

应对动态工作负载的“运行中批处理”机制

由于大型语言模型本身的性质，模型的工作负载可能是高度动态的，工作负载的需求和任务使用情况也可能会随着时间的推移而发生变化，单个模型可以同时用作聊天机器人来提问和回答，也可以用于总结大型文档和简短文档。因此，输出大小可能会出现完全不同的数量级。

为了应对这些不同的工作负载，TensorRT-LLM引入了一种称为“运行中批处理”的机制，这是一个优化调度的过程，把文本生成过程分解为多个片段，以便可以将移入或者移出GPU，这样在开始新一批之前就不需要完成整批工作负载了。

以前，如果有大型请求的话，例如对非常大的文档进行摘要提取，那么后面所有的内容都必须等待该过程完成才能使队列继续前进。

Nvidia一直在与众多厂商合作优化TensorRT-LLM，包括Meta、Cohere、Grammarly、Databricks和Tabnine。在他们的帮助下，Nvidia不断简化软件套件中的功能和工具集，包括开源Python应用用户界面，用于定义和优化新架构以定制大型语言模型。

例如，MosaicML在将TensorRT-LLM与其现有软件堆栈集成时在TensorRT-LLM之上添加额外的功能。Databricks公司工程副总裁Naveen Rao表示，这是一个简单的过程。

“TensorRT-LLM易于使用，功能丰富，包括令牌流、动态批处理、分页注意力、量化等，而且效率很高，为使用 NVIDIA GPU的大型语言模型服务提供了最佳性能，并使我们能够将节省的成本回馈给我们的客户。”

Nvidia称，TensorRT-LLM及其带来的好处（包括运行中批处理功能）可以让使用Nvidia H100提取文章摘要的推理性能提高1倍多。在使用GPT-J-6B模型进行对CNN/每日邮报文章摘要的A100测试中，仅H100就要比A100快4倍，启用TensorRT-LLM优化后，速度快了8倍。

TensorRT-LLM为开发人员和工程师提供了深度学习编译器、优化的大型语言模型内核、预处理和后处理、多GPU/多节点通信功能、以及简单的开源API，使他们能够快速优化和执行大型语言模型生产的推理。随着大型语言模型继续重塑数据中心，企业需要更高的性能就意味着开发人员比以往任何时候都更需要能够为他们提供具备功能和访问权限的工具，以提供更高性能的结果。

TensorRT-LLM软件套件现已可供Nvidia开发人员计划中的开发人员抢先体验，并将于下个月集成到用于生产型AI端到端软件平台Nvidia AI Enterprise的NeMo框架中。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

Nvidia发布TensorRT-LLM开源软件 提升高端GPU芯片上的AI模型性能

来源：至顶网计算频道

2023

09/11

09:00

分享

点赞

AI智能宠物健康监测站：竟说我是生病的猫

CES 2026最佳科技产品盘点：三折手机与超薄电视

亚马逊Alexa+向公众开放早期体验网站

Infinidat创始人破产问题影响联想收购进程

苹果Journal应用登陆iPadOS 26，iPad用户迎来完整日记体验

MacBook Pro即将迎来重大改版，超薄设计引发争议

AWS悄然上调GPU价格15%，云计算定价逻辑生变

六成美国成年人用ChatGPT问诊，OpenAI嗅到商机

第三代英特尔酷睿Ultra处理器，CES 2026正式发布

CES 2026 | 撕碎“显存墙”，重塑“光追梦”，打通“生态路” AMD开启全新“统治力”

英伟达推出Alpamayo开源AI模型，让自动驾驶汽车"像人类一样思考"

HPE Unix系统HP-UX正式终结42年历史

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

NVIDIA Blackwell 现已在云端全面可用

专访DeepMind CEO：我们距离实现AGI只需5-10年

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Nvidia发布TensorRT-LLM开源软件提升高端GPU芯片上的AI模型性能