概述
凭借在挖掘数据丰富的内在信息、拟合能力、数据扩展性等方面的优势,深度学习正在成为大量企业用户部署人工智能 (AI) 应用的优先选择。但与此同时,深度学习相较普通的机器学习应用,在算法部署、模型设计、算力基础设施构建等方面有着更高的门槛。
为帮助企业用户降低深度学习部署与应用门槛,构建软硬一体的分布式全栈推理平台,宝德推出了基于 AI 推理服务器 PR2715P2,可支持 Analytics Zoo Cluster Serving 的自动分布式可扩展推理平台。宝德PR2715P2采用了全新设计,融合了第二代英特尔® 至强® 可扩展处理器和英特尔® 深度学习加速(英特尔® DL Boost)技术,在性能与功耗之间实现了有效平衡,为深度学习应用提供了一个高效能的基础平台。
挑战:如何加速深度学习部署与优化
随着深度学习算法的不断创新,越来越多的应用需要对深度学习模型进行大规模和实时的分布式推理服务。虽然已经有一些工具可用于模型优化、服务、集群调度、工作流管理等相关任务,但是对于许多深度学习的工程师和科学家而言,开发和部署能够透明地扩展到大型集群的分布式推理工作流仍然是一个严峻的挑战。
为了便于构建和生成面向大数据的深度学习应用程序,英特尔推出了 Analytics Zoo 平台。该平台提供了统一的数据分析+ AI平台,可将TensorFlow、Keras、Pytorch、BigDl Spark、Flink和 Ray 程序无缝集成到一个统一的数据分析流水线中,用于分布式训练或预测,方便用户构建深度学习应用。整个流水线可以透明地扩展到运行在由搭载英特尔® 至强® 处理器的服务器组成的 Hadoop/Spark 集群上,以进行分布式训练或推理。
Analytics Zoo 在较新的版本中还提供了对于 Cluster Serving 的支持,构建了轻量级、分布式、实时的模型服务解决方案。Analytics Zoo Cluster Serving 支持多种深度学习模型,提供了一个简单的发布/订阅 API,可支持用户可轻松地将他们的推理请求发送到输入队列。然后,Cluster Serving 将使用分布式流框架在大型集群中进行实时模型推理和自动扩展规模。

图1. Analytics Zoo Cluster Serving 解决方案总体框架
要部署基于 Analytics Zoo Cluster Serving 的深度学习算法与应用,企业需要进行硬件选型、优化与验证,以提供高性能的算力支撑,但在此过程中,企业也面临着艰巨的挑战。首先,传统的解决方案并非是全栈设计,需要在硬件选型、软硬件适配与优化等方面耗费大量的时间与精力,也容易带来总体拥有成本 (TCO) 的上升。
其次,深度学习算法与应用对于 AI 性能有着很高的要求,未针对 AI 进行性能优化的 CPU 在运行效率上存在明显瓶颈。GPU 服务器虽然能够提供充足的算力支持,但是成本相对较高,应用范围受到较多的局限,而且其需要专门的部署与调优,不利于深度学习应用的快速上市。
解决方案:基于宝德 PR2715P2 AI 推理服务器的自动分布式可扩展推理平台
搭载第二代英特尔至强可扩展处理器的宝德 PR2715P2 AI 推理服务器全面支持Analytics Zoo Cluster Serving分布式推理技术方案。该推理服务器是一款软硬一体的分布式全栈推理解决方案,专为高性能计算、高级人工智能分析任务而设计,具有出色的性能功耗比。

图2:宝德 PR2715P2 AI 推理服务器
第二代英特尔至强可扩展处理器专为数据中心现代化革新而设计,能够提高各种基础设施、企业应用及技术计算应用的运行效率,进而改善总体拥有成本(TCO),提升用户生产力。它拥有更高的单核性能,能够在计算、存储和网络应用中,为计算密集型工作负载提供高性能和可扩展性。得益于英特尔® 超级通道互联(英特尔® UPI)、英特尔® Infrastructure Management 技术(英特尔® IMT)、英特尔® 高级矢量扩展指令集512(英特尔® AVX-512)等领先功能,它可满足严苛的 I/O 密集型工作负载的需求。
此外,第二代英特尔至强可扩展处理器内置人工智能加速,并已针对工作负载进行优化,能够为各种高性能计算工作负载、AI应用以及高密度基础设施带来一流的性能和内存带宽。同时,采用矢量神经网络指令(VNNI)的英特尔® 深度学习加速(英特尔® DL Boost)显著提高了人工智能推理的表现,与上一代产品相比,性能提升高达 14 倍。这使其成为拓展 AI 应用的卓越基础设施。
在宝德 PR2715P2 AI 推理服务器搭建的平台上,用户只需要准备 Analytics Zoo Cluster Serving 的 Docker Image、配置文件、训练好的模型(当前支持的模型包括TensorFlow、PyTorch、Caffe、BigDL和OpenVINO™的模型)及推理数据,即可在几分钟内启动并运行推理应用。
通过加入对于 Analytics Zoo Cluster Serving 的支持,宝德一体化分布式可扩展人工智能推理方案显著降低了配置和流程的复杂程度,在提供高级定制化服务的同时,有效降低了 TCO。这种全新的集群模型服务支持有助于简化用户的分布式推理工作流,提高工作效率,并为深度学习场景带来领先的性能。
效果:自动分布式可扩展推理平台加速深度学习部署与应用
通过部署基于宝德 PR2715P2AI 推理服务器的自动分布式可扩展推理平台,用户能够实现如下价值:
展望:宝德与英特尔协力推动 AI 技术发展
人工智能技术与应用是数字化转型的关键技术方向。多年来,宝德与英特尔等合作伙伴构建了繁荣的 AI 生态,不断推动软硬一体化的 AI 方案的创新,为机器学习、深度学习等技术提供基础设施支撑。同时,双方还不断针对行业需求拓展 AI 解决方案落地场景,深化产品与产业的应用融合。
基于Analytics Zoo Cluster Servining和宝德 PR2715P2 AI推理服务器的自动分布式可扩展推理平台是宝德与英特尔合作的重要成果,不断证明着其在降低深度学习部署门槛、加速深度学习推理等方面的价值。双方还将进一步把高性能计算数据分析和人工智能加速整合到单一的计算环境中,并提供新的内存和存储模式,为计算引擎提供支持,进而解决高性能计算系统面临的独特挑战。
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。