GPU集群助力百度为行业提供高效定制化AI训练和推理平台

在赋能行业的平台的背后，EasyDL依托于NVIDIA的Tesla GPU深度学习平台，搭建了用于深度学习模型训练（Training）和服务（Inference）阶段的GPU集群。

在“百度Create 2018”百度开发者大会上，百度发布了升级版的开源深度学习框架PaddlePaddle，可谓深度学习模型设计的利器，让开发者只需关注模型的高层结构，而无需担心底层的搭建问题。同时，百度在2017年11月发布了以此框架为基础的，定制化训练和服务平台EasyDL（http://ai.baidu.com/easydl/），即使零机器学习算法基础，也能全程通过可视化操作获取定制化AI服务。

百度作为全球人工智能核心技术和研究的领军企业，通过搭建AI开放平台（ai.baidu.com）和PaddlePaddle深度学习框架将百度大脑中领先的核心能力赋能到更为广泛的行业生态、科研院所和开发者社区中，提供了全球领先的AI服务基础设施。在以平台化开放百度大脑中的核心基础能力的同时，百度也非常关注各个行业中对AI模型和服务的定制化需求。

百度AI开放平台团队基于PaddlePaddle打造了EasyDL这一全球领先的定制化模型训练和推理平台。目前EasyDL已经在图像分类（Image Classification），物体检测（Object Detection）等方向支持零算法基础的定制化模型训练与服务。除了云端服务（Cloud Computing），EasyDL还支持定制化模型在设备端的本地计算（Edge Computing），是一个端云一体的平台。用户通过将平台的定制能力与行业场景结合，实现了大量人工智能创新。自2017年上线以来，EasyDL已累计创建模型破万，已覆盖20多个行业。

在赋能行业的平台的背后，EasyDL依托于NVIDIA的Tesla GPU深度学习平台，搭建了用于深度学习模型训练（Training）和服务（Inference）阶段的GPU集群。该集群能支持高效的大规模深度神经网络模型并发训练，并大幅缩短模型训练周期，显著减少定制服务调用阶段的响应时间，从而为EasyDL提供了坚实的技术保障。

行业AI定制化需求对训练和推理算力提出高要求

满足不同行业对AI的定制化需求，其实存在诸多业务和技术上的挑战。首先，提出定制化AI需求的行业用户虽然是各自行业的领域专家但对于人工智能及深度学习的技术知之甚少，要求他们直接通过深度学习框架训练得到定制化模型是不切实际的。其次，这些用户也往往不具备用于模型训练和服务部署的大规模GPU集群，更没有资源投入到长期的服务升级和运维工作中。更为重要的是，定制化模型的训练和基于推理的服务都必须足够的快，用户才能及时得到反馈，调整训练数据和方案，优化训练效果；才能在服务调用时满足严苛的时效性要求；平台才能实现大规模并发训练和并发服务请求。

百度基于其开源深度学习框架PaddlePaddle实现EasyDL的核心训练和服务引擎，在计算视觉的图像分类和物体检测等定制化方向上，使用了基于Inception、SSD、ResNet、FasterRCNN等多个深度神经网络原型算法优化的模型。模型的训练和服务阶段采用了大规模的NVIDIA Tesla P4为主的GPU集群，通过数据比对可以看到，基于GPU集群性能远超CPU集群。

大规模NVIDIA Tesla P4 GPU集群加速AI训练与推理

目前，百度EasyDL团队基于单机4卡Tesla P4 GPU的服务器搭建了数十台深度神经网络模型训练和推理的GPU加速集群，能稳定承载每天数百个并发训练任务，以及数千个并发定制模型推理请求。

Tesla P4加速器的单精度浮点数（FP32）计算能力达到了5.5TFLOPS，集群单节点GPU的单精度浮点计算能力可达到22TFLOPS。Tesla P4可将任何超大规模基础架构的延迟降低15倍，并可以提供比CPU高60倍的能效，可助力实现许多过去由于延迟限制而无法实现的应用。

在典型业务场景下，对集群单节点的承载和时延性能进行压力测试，可以看到基于GPU集群的性能显著优于CPU集群。其中，图像分类上单节点每秒并发承载能力（QueryPerSecond）GPU节点是CPU节点的6倍多，响应时延则仅为CPU节点的58%左右；物体检测中更为明显，GPU单节点并发承载能力达到CPU节点的31倍，响应时延则仅为CPU节点的25%。由于基于GPU集群的训练和服务都足够快，因此，在用户体验方面，EasyDL的用户最快5分钟即可完成定制模型的训练并获得服务，对比同类需求通常需要数天的训练周期大幅提升了效率。这解决了定制化模型训练和服务中的核心挑战。同时，为EasyDL场景和行业覆盖的迅速规模化打下了扎实的基础。也确保了EasyDL更轻快、高精度等特性。

5分钟完成定制模型训练与推理，零基础也能快速上手

为降低行业用户的使用门槛，实现零机器学习基础，零代码获得定制化深度学习模型及接口服务，百度EasyDL提供了简单且完善的平台业务系统，用户只需上传数据、发起训练、验证效果、发布模型四个步骤，就能快速获得定制化接口服务。

为了使得模型训练、部署和推理对用户透明，百度EasyDL团队打造了结合大数据Spark系统和AI分布式训练Kubernetes工具的AI Workflow引擎，实现了从数据处理到推理上线的全自动流程。如此一来，就解决了业务人员不懂代码，程序员不懂业务的痛点难点，使得AI技术能够迅速被业务人员学习和掌握，从而专注于精进业务能力。

图像识别准确率大幅提高，人力成本显著降低

在NVIDIA Tesla P4加速器的强大算力助力下，百度EasyDL已经在多个行业落地应用。比如在制造业中，百度EasyDL平台也在帮越来越多的企业提升效率并节约人力。比如蝶鱼科技将百度EasyDL接口与工业摄像头、工业光源、激光测距仪、PLC控制气缸等设备组成综合检测系统，在制造和组装键盘流水线上，自动识别键盘组装后的合格性，包括缺件、错装、正常三类，通过3000+张图片的验证（每类1000张），识别准确率99%以上，远超蝶鱼科技的预期。同时，每条生产流水线每年可以节省12万人工检测员人力成本。

在GPU的助力下，包括百度EasyDL平台在内的诸多行业客户，获得了深度学习和推理应用的能力和智慧，进而定制出丰富、个性化、不断动态升级的AI行业解决方案，同时也对传统的行业应用提供了创新思路，随着基于行业的AI生态不断通过百度EasyDL这样的平台聚合与裂变，以AI为核心特征的新应用大爆发时代已经来临。

来源：业界供稿

0赞

好文章，需要你的鼓励

GPU集群助力百度为行业提供高效定制化AI训练和推理平台

行业AI定制化需求对训练和推理算力提出高要求

大规模NVIDIA Tesla P4 GPU集群加速AI训练与推理

5分钟完成定制模型训练与推理，零基础也能快速上手

图像识别准确率大幅提高，人力成本显著降低

来源：业界供稿

2018

07/06

08:04

分享

点赞

微软量子计算突破遭学界质疑，Majorana芯片成果存疑

联想乐享正式升级至4.0版本 全面进入“AI闭环执行任务”时代

开创电气越南基地形成80万台手持式电动工具年产能力

一次实验室意外或将彻底改变计算领域

借鉴生态学模型评估AI风险的新方法

苹果大幅上调硬件价格，AI内存需求是主因

Omen AI融资3100万美元，用微型光谱仪破解数据中心液冷难题

苹果涨价背后：AI军备竞赛让消费者买单

AI蔓延与Token消耗正在加剧企业IT超支问题

爆品之后：新消费品牌如何用数字化穿越增长瓶颈？

美国多源电子患者数据采集方法研究综述

RF MEMS技术如何最终实现"理想开关"

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

《AI启示录》新华三《数字化领航》AI系列专刊

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

联想乐享正式升级至4.0版本全面进入“AI闭环执行任务”时代