Triton推理服务器01-应用概论

NVIDIA Triton推理服务器的最大价值，便是为服务类智能应用提供一个完整的解决方案，因此首先需要解决以下的三大关键问题。

推理识别是人工智能最重要的落地应用，其他与深度学习相关的数据收集、标注、模型训练等工作，都是为了得到更好的最终推理性能与效果。

几乎每一种深度学习框架都能执行个别的推理工作，包括Tensorflow、Pytorch、MXNet等通用型框架与YOLO专属的Darknet框架，此外还有ONNX开发推理平台、NVIDIA TensorRT加速推理引擎，也提供推理相关的C/C++与Python开发接口，这是大部分技术人员所熟悉的方法。

在垂直应用方面，NVIDIA的DeepStream智能分析工具是非常适合用在种类固定且需要长期统计分析的场景，包括各种交通场景的人/车流量分析、工业流水线质量检测等应用，并且在早期视觉（Visualization）类推理功能之上，再添加对话（Conversation）类推理功能，让使用范围更加完整。

上述的推理方式通常适合在识别固定种类与固定输入源的使用场景，在交通、工业自动化领域、无人设备等领域的使用是比较普及。

但是这种方式并不适合在网络相关的服务类应用中使用，包括在线的产品推荐、图像分类、聊天机器人等应用，因为在线服务需要同时面对未知数量与类型的数据源，并且透过HTTP协议进行数据传输的延迟问题，也是严重影响用户体验感的因素，这是绝大部分网路服务供应商要导入AI智能识别技术所面临的共同难题。

NVIDIA Triton推理服务器的最大价值，便是为服务类智能应用提供一个完整的解决方案，因此首先需要解决以下的三大关键问题：

高通用性：
1. 广泛支持多种计算处理器：包括具备NVIDIA GPU的x86与ARM CPU设备，也支持纯CPU设备的推理计算；
2. 广泛支持各种训练框架的文件格式：包括TensorFlow 1.x/2.x、PyTorch、ONNX、TensorRT、RAPIDS FIL（用于XGBoost、Scikit-learn Random Forest、LightGBM）、OpenVINO、Python等；
3. 广泛支持各种模型种类：包括卷积神经网络 (CNN)、循环神经网络 (RNN)、决策树、随机森林和图神经网络等算法；
部署便利：
1. 可在横向扩展的云或数据中心、企业边缘，甚至 NVIDIA Jetson 等嵌入式设备上运行；
2. 支持用于AI推理的裸机和虚拟化环境，包括VMware vSphere与基于Docker技术的Kubernetes管理机制；
3. 可托管于多种人工智能云平台，包括Amazon SageMaker、Azure ML、Google Vertex AI、阿里巴巴AI、腾讯TI-EMS等平台；
性能优化：
1. 动态批量处理：推理优化的一个因素是批量大小，或者您一次处理多少个样本，GPU以更高的批量提供高吞吐量。然而，对于实时应用程序，服务的真正限制不是批量大小甚至吞吐量，而是为最终客户提供出色体验所需的延迟。
2. 模型并发执行：GPU是能够同时执行多个工作负载的计算设备，NVIDIA Triton 推理服务器通过在GPU上同时运行多个模型来最大限度地提高性能并减少端到端延迟，这些模型可以是相同的，也可以是来自不同框架的不同模型。GPU 内存大小是同时运行模型数量的唯一限制，这会影响GPU利用率和吞吐量。

以上是NVIDIA Triton推理服务器的基本特性说明，要满足上面所列的特性，是具备相对复杂的内容，这是本系列文章所要为读者逐一探索的内容，不过在讲解技术内容之前，我们可以先看看有哪些比较具有代表性成功案例，能让大家对于Triton推理服务器的使用场景有更进一步的了解。

案例1：微软Teams会议系统使用Triton提升生成的实时字幕和转录性能

微软Teams是全球沟通和协作的重要工具，每月有近2.5亿活跃用户，其Azure认知服务提供28种语言的字幕和转录，实时字幕功能帮助与会者实时跟踪对话，转录功能方便与会者在日后回顾当时的创意或回看未能参与的会议，实时字幕对聋哑人、听力障碍者，或者异国与会者特别有用。

底层语音识别技术作为认知服务中的一个API，开发人员可以使用它定制和运行自己的应用程序，例如客服电话转录、智能家居控制或为急救人员提供AI助手。认知服务会生成Teams的转录和字幕，将语音转换为文本，并识别说话人。同时也能够识别专业术语、姓名和其他会议背景，提高字幕的准确性。

微软Teams首席项目经理Shalendra Chhabra表示：“这样的AI模型非常复杂，需要数千万个神经网络参数才能识别几十种不同的语言。但模型越大，就越难以经济高效地实时运行。”

为了提高服务质量，微软使用NVIDIA Triton开源推理服务软件，来帮助Teams使用认知服务优化语音识别模型，以及认知服务所支持的高度先进语言模型，在极低的延迟状态下提供高度准确、个性化的语音转文本结果，同时可以保证运行这些语音转文本模型的NVIDIA GPU充分发挥计算资源，在消耗更少计算资源的同时为客户提供更高的吞吐量，进而降低成本。

NVIDIA GPU和Triton软件能够帮助微软，在不牺牲低延迟的情况下，通过强大的神经网络，实现高准确性，确保语音-文本的实时转换，当启用转录功能时，与会者可以在会议结束后轻松补上错过的内容。

Triton推理服务器有助于简化AI模型部署并解锁高性能推理，用户甚至可以为自己的应用开发自定义后端。下面三种关键功能，是协助微软将Teams的字幕和转录功能扩展到更多会议和用户的效能：

流推理：新型流推理功能—通过跟踪语音上下语境，提高延迟、敏感性字幕的准确度，协助Azure认知服务合作定制语音转文本的应用程序。
动态批量处理：批量大小指神经网络同时处理的输入样本数量，通过Triton的动态批量处理功能，单项推理请求被自动组合成一个批次，因此能够在不影响模型延迟的情况下更好地利用GPU资源。
并发模型执行：实时字幕和转录需要同时运行多个深度学习模型，Triton使开发人员能够在单个GPU上同时完成这些工作，包括使用不同深度学习框架的模型。

案例2：Triton助力微信加速视觉应用，提高可靠性

本案例中，通过NVIDIA的GPU执行Triton推理服务器与TensorRT推理加速引擎，帮助微信的二维码光学识别（OCR）计算降低46%时间，并将系统的失败率降低81%，同时减少78%的服务器使用数量。

腾讯微信是一款跨平台的通讯工具，支持通过手机网络发送语音、图片、视频和文字等。截至2021年6月，微信在全球拥有超过12亿活跃用户，是国内活跃用户最多的社交软件。

微信识物是一款主打物品识别的AI产品，通过相机拍摄物品，更高效、更智能地获取信息。2020年微信识物拓展了更多识别场景，上线了微信版的图片搜索，打开微信扫一扫，左滑切换到“识物”功能，对准想要了解的物品正面，可以获取对应的物品信息，包括物品百科、相关资讯、相关商品。

2021年1月，微信发布的8.0版本更新支持图片文字提取的功能，用户在聊天界面和朋友圈中长按图片就可以提取图片中文字，然后一键转发、复制或收藏。

在识物的过程包含检测、图像召回、信息提炼等环节，其中二维码扫描的使用频率也是非常高，主要包括识别和检测，这两种应用都有非常大的计算量。但原本使用Pytorch进行模型的推理时，遇到以下三大问题：

请求的延迟很大，影响用户体验感；
显存占用很大，单张NVIDIA T4 GPU卡能部署的模型数比较少，导致推理请求的并发数上不去，请求失败的概率太高，只能通过增加机器的方式来提高并发能力，业务部署成本较高。
使用的模型经常变化，而业务需要更换后的模型需要能够快速地加速和上线部署。

为了解决上述问题，微信团队使用Triton推理服务器结合TensorRT加速推理器的综合方案，主要技术内容如下：

通过使用TensorRT对微信识物和OCR的模型进行加速，在都使用FP32的情况下，比Pytorch的延迟降低50%左右；
在OCR的识别和检测阶段，使用TensorRT结合NVIDIA T4 GPU 的FP16 Tensor Core，在保证精度的前提下，识别的延迟降低50%、检测的延迟降低20%；
在微信识物的分类和检测任务中，通过使用NVIDIA T4 GPU 的int8 Tensor Core并结合QAT，在满足精度要求的前提下，进一步大幅提升了性能；
通过使用FP16和int8 低精度模式，在大幅降低推理延迟的同时，大大减少了显存的占用，在FP16模式下，单模型显存占用仅占FP32模式的40%–50%，而在int8模式下，单模型显存占用仅占FP32模式的30%左右。在提高单张T4卡上部署的模型数量的同时，大幅提高了单GPU的推理请求并发能力；
Triton的动态批量处理（dynamic batch）和多实例等特性，帮助微信将在满足延迟要求的同时，提高了系统整体的并发能力，将系统失败降低了81%；
TensorRT对个别模型得到推理的快速，Triton则对加速后的模型进行快速的部署，满足了业务对修改后的模型进行快速部署的需求，也大大减少工程人员的工作量；

通过使用NVIDIA的TensorRT对微信识物和OCR的模型进行加速，在降低单次推理延迟50%以上的同时，节约了多达64%的显存。结合Triton的动态批量处理和多实例的功能，OCR的整体时延降低了46%，系统失败率降低了81%。大大提高了用户的体验，并且服务器的数量减少了多达78%，极大降低了服务的成本。

案例3：腾讯PCG使用Triton 加速在线推理，提高设备效能

腾讯平台与内容事业群（简称腾讯PCG）负责公司互联网平台和内容文化生态融合发展，整合QQ软件、QQ空间等社交平台，和应用宝、浏览器等流量平台，以及新闻资讯、视频、体育、直播、动漫、影业等内容业务，推动IP跨平台、多形态发展，为更多用户创造海量的优质数字内容体验。

腾讯PCG机器学习平台部旨在构建和持续优化符合PCG技术中台战略的机器学习平台和系统，提升PCG机器学习技术应用效率和价值，建设业务领先的模型训练系统和算法框架，提供涵盖数据标注、模型训练、评测、上线的全流程平台服务，实现高效率迭代，在内容理解和处理领域，输出业界领先的元能力和智能策略库。

这个机器学习平台服务于PCG所有业务产品，面对上述所提到的综合需求，有以下三大挑战：

业务繁多，场景复杂：
1. 业务开发语言包括C++与Python；
2. 模型格式繁多，包括ONNX、Pytorch、TensorFlow、TensorRT等；
3. 模型预处理涉及图片下载等网络io；
4. 多模型融合流程比教复杂，涉及循环调用；
5. 支持异构推理；
模型推理结果异常时，难以便利地调试定位问题；
需要与公司内现有协议/框架/平台进行融合。

基于以上挑战，腾讯PCG选择了采用NVIDIA 的Triton推理服务器，以解决新场景下模型推理引擎面临的挑战，在提升用户研效的同时，也大幅降低了服务成本。

NVIDIA的Triton推理服务器是一款开源软件，对于所有推理模式都可以简化在任一框架中以及任何GPU或CPU上的运行方式，从而在生产环境中使用推理计算，并且支持多模型ensemble，以及TensorFlow、PyTorch、ONNX等多种深度学习模型框架，可以很好的支持多模型联合推理的场景，构建起视频、图片、语音、文本整个推理服务过程，大大降低多个模型服务的开发和维护成本。

通过将Triton编译为动态链接库，可以方便地链入公司内部框架，对接公司的平台治理体系，符合C语言规范的API也极大降低了用户的接入成本，借助Python后端和自定义后端，用户可以自由选择使用C++或Python语言进行二次开发。

NVIDIA DALI是GPU加速的数据增强和图像加载库，使用Triton的DALI后端可以替换掉原来的图片解码、缩放等操作，Triton的FIL后端可以替代Python XGBoost模型推理，进一步提升服务端推理性能。

借助NVIDIA Triton推理框架，配合DALI/FIL/Python等后端与TensorRT，整体推理服务的吞吐能力最大提升 6 倍，延迟最大降低 40%。帮助腾讯PCG各业务场景中，以更低的成本构建了高性能的推理服务，同时更低的延迟降低了整条系统链路的响应时间，优化了用户体验，也降低了20%-66%总成本。

透过以上三个成功案例，就能很明显看出，Triton推理服务器在面对复杂的智能识别应用场景时，能发挥非常有效的整合功能，特别是模型来自不同训练平台时，以及面对不同前端开发语言时，更能体现其便利性。

在后面的文章会带着大家，先从宏观的角度来了解Triton推理服务器的应用架构以及所需要的配套资源，接着搭建Triton的使用环境，包括建立模型仓、安装服务端/用户端软件，然后执行一些实用性强的基础范例，以及结合NVIDIA的TensorRT与DeepStream等推理工具，让更多开发人员能利用Triton整合更多AI推理资源。【完】

来源：业界供稿

Triton

0赞

好文章，需要你的鼓励

Triton推理服务器01-应用概论

来源：业界供稿

2022

11/01

15:41

分享

点赞

Unity团结引擎发布三大战略 极速提升渲染效能

Unity开发者大会Unite2025点亮上海，团结引擎加速本土创新落地

阿里夸克“C计划”再曝新动向：一款AI浏览器或年底发布

英特尔复苏进行中，代工业务成为关注焦点

微软为Copilot推出Mico虚拟角色及新增自动化协作功能

Google与Anthropic签署百亿TPU合作协议推进AI发展

EA与Stable Diffusion背后公司合作，用AI制作游戏

英特尔称服务器CPU将重新火热：AI工作负载推动增长

提示工程正在深入探索最新发布的ChatGPT工作效率提升提示包

NRG能源如何通过技术创新重塑传统电力行业

CIO将承担业务主导AI项目失败的收拾责任

企业高管担忧公有云数据主权问题

Triton推理服务器11-模型类别与调度器(1)

Triton推理服务器10-模型并发执行

Triton推理服务器09-为服务器添加模型

Triton推理服务器08-用户端其他特性

Triton推理服务器07-image_client用户端参数

Triton推理服务器06-安装用户端软件

Triton推理服务器05-安装服务器软件

Triton推理服务器04-创建模型仓

Triton推理服务器02-功能与架构简介

Triton推理服务器01-应用概论

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Unity团结引擎发布三大战略极速提升渲染效能