至顶网服务器频道 06月06日 新闻消息: 随着深度学习带来AI的第三次浪潮,对AI的相关讨论层出不穷,算法是大家关注的重点。
算法固然重要,但想做好AI,还需要强大的底层支撑。谷歌在训练AlphaGo Zero时,用到2000块TPU,仅仅花费三天就完成训练。目前,企业AI化的需求不断加深,需要有非常强大的计算平台来有力支撑线上推理和线下训练。
AI计算平台涉及到GPU、CPU、TPU、FPGA等硬件,每类硬件背后都有代表企业。英伟达GPU以卓越的性能,在AI计算中占据了相当大的市场;英特尔在CPU上有得天独厚的优势,并擅长布局生态,譬如将CPU与FPGA相结合;谷歌瞄准深度学习场景,发布专用TPU加速器。
在4月的浪潮云数据中心合作伙伴大会(IPF2018)上,浪潮首发面向AI 云设计的弹性GPU服务器NF5468M5,可灵活支持AI模型的线下训练和线上推理。
浪潮弹性GPU服务器 NF5468M5
浪潮弹性GPU服务器NF5468M5具备以下功能:
• 面向线下训练对性能的需求,可支持8颗最高性能的Tesla Volta GPU以PCI-E或NVLink的高速互联。
• 面向在线推理对高能效比的需求,可支持16颗高能效比的Tesla P4 GPU,适用于语音、图片、视频场景。
• 在智能视频分析场景下,可同时处理300路以上1080p高清视频结构化。
• 在数据存储和通信性能方面,支持288TB大容量存储或32TB固态存储,能实现高达400Gbps的通信带宽和1us的超低延迟。
据浪潮介绍,AI云对基础架构的设计带来了新的挑战,要求AI服务器具备适合于不同AI训练场景的GPU灵活拓扑、AI 线上推理的高并发低延迟与高能效比、大规模AI数据的存储与通信能力。基于此,结合英伟达GPU芯片的良好性能以及稳健生态,浪潮做出一系列创新,推出 NF5468M5。
除了最新发布的GPU服务器 NF5468M5,浪潮的服务器还涉及CPU、FPGA。浪潮通过实测数据,分析不同场景下人工智能计算对服务器的性能要求,合理搭配以CPU、GPU和FPGA为核心的AI计算服务器。以下是两个典型案例。
适用于多个应用场景的FPGA加速设备F10A
F10A是一款 FPGA加速设备。基于FPGA具有可编程专用性,高性能及低功耗的特点,浪潮F10A AI线上推理加速方案针对CNN卷积神经网络的相关算法进行优化和固化,可加速ResNet等神经网络,能够应用于图片分类、对象检测和人脸识别等应用场景。
这一服务器的单芯片峰值运算能力为1.5 TFlops,每瓦特性能达到42 GFlops。同时,F10A具有灵活的板卡内存配置,最大支持32G双通道内存,能够寄存更多的并行任务数据。
最大支持64块GPU的SR-AI
SR-AI单机可实现支持16个GPU的超大扩展性节点,该方案最大支持64块GPU,峰值处理能力为512 TFlop,可支持千亿样本、万亿参数级别的模型训练。该服务器打破了传统服务器的GPU/CPU紧耦合架构,通过PCI-e Switch节点连接上行的CPU计算/调度节点和下行的GPU Box,实现CPU/GPU的独立扩容,避免传统架构升级带来的部件过度冗余,使得GPU扩展无需同步配置高成本的IT资源,可将成本优化5%以上,随着规模上升,成本优势更加明显。
浪潮表示,在计算平台的选择上,企业可以在适合线下训练的计算加速节点采用浪潮领先业界设计的浮点运算能力强、高扩展的GPU服务器,或KNM 计算加速器,而用于线上识别的计算加速节点采用浪潮低功耗、高能效比的GPU 服务器,或者低功耗定制优化推理程序的FPGA加速器。
2017 年,浪潮AI服务器在中国AI市场占有率超过57%,阿里巴巴、腾讯和百度三家运营商90%以上的AI服务器都来自浪潮。
对于浪潮在AI服务器上的成功,浪潮AI&HPC总经理刘军将其归功于三个方面,一是对GPU的布局早,二是对行业客户的把握--把互联网作为主航道,三是产品创新的能力和效果有保证。
日前,浪潮也公开了企业AI策略。
2018年4月26日,在浪潮云数据中心合作伙伴大会IPF2018上,浪潮发布全新AI品牌TensorServer,明确传递浪潮对AI业务的决心与愿景。浪潮集团副总裁彭震对TensorServer品牌予以了诠释:「Tensor是算法的基础元素,Server是计算力的基础架构。AI基础架构对于AI产业持续快速健康发展至关重要。TensorServer 意在成为AI的承载者与赋能者,整合创新AI基础架构系统,以计算开启可进化的智慧世界。」
这里的AI基础架构系统涵盖平台、管理、框架、应用多个方面。
在AI管理上,浪潮部署AIStation人工智能深度学习集群管理软件。AIStation主要面向深度学习计算集群,提供数据处理、模型开发、模型训练、推理服务全流程服务,支持多种深度学习框架,能够快速部署深度学习训练环境,全面管理深度学习训练任务,为深度学习用户提供高效易用的平台。此外,这一软件可以对计算集群的CPU及GPU资源进行统一的管理、调度及监控,有效的提高计算资源的利用率和生产率。
作为补充,浪潮还自研Teye应用特征分析系统。Teye主要用于分析AI应用程序在GPU集群上运行时对硬件及系统资源占用的情况,反映出应用程序的运行特征、热点及瓶颈,从而帮助用户最大限度的在现有平台挖掘应用的计算潜力,进而为应用程序的优化以及应用算法的调整改进提供科学的指引方向。
而在框架上,浪潮早在2015年就发布Caffe-MPI深度学习计算框架,他们在Caffe架构的基础上,针对并行扩展性做出一系列创新。
据记者了解,最新版本Caffe-MPI在4节点16块GPU卡集群系统上训练性能较单卡提升13倍,其每秒处理图片数量是同配置集群运行的TensorFlow 1.0的近2倍。
Caffe-MPI设计了两层通信模式:节点内的 GPU 卡间通信及节点间的 RDMA 全局通信,这极大降低了网络通信的压力,并克服了传统通信模式中 PCIE 与网络之间带宽不均衡的影响,同时Caffe-MPI还设计实现了计算和通信的重叠。此外,新版本 Caffe-MPI提供了更好的cuDNN兼容性,用户可以无缝调用最新的cuDNN版本实现更大的性能提升。
除了自研深度学习框架,浪潮将深度学习框架及其依赖的库统一进行资源封装成一个镜像,之后便可以在任何支持资源封装的浪潮平台上随时加载镜像,用户可以立刻开始工作,其工作环境与原始环境完全一致,这可以有效提升生产力。目前,浪潮可封装的框架资源基本涵盖了主流的深度学习框架,包括 Caffe/Cafee-MPI、TensorFlow、CNTK、MXNet以及PaddlePaddle等。
在应用加速上,记者了解到浪潮的解决方案如下:
• 应用场景咨询与系统方案设计
浪潮AI解决方案专家与客户商讨深度学习应用场景,共同分析计算热点和瓶颈,帮助设计适合客户应用场景的系统方案。
• 应用代码移植优化
浪潮异构应用专家可以帮助客户分析CPU代码特征,辨别是否适合迁移至异构加速部件,并共同将代码热点进行移植优化,提升应用的计算效率,时间更短。
• 计算加速部件性能横向评测
浪潮针对GPU/FPGA/KNM等主流异构加速部件拥有成熟的横向评测方法,可以帮助客户选择适合的部件。
目前,浪潮的解决方案为行业AI转型提供赋能支撑。
浪潮与百度合作推出ABC一体机,这一设备集合了百度自研的集群管理软件、优化引擎和浪潮AI计算硬件平台,支持PaddlePaddle、TensorFlow、Caffe等主流深度学习框架,内嵌成熟的算法模型和云管理技术。
据浪潮介绍,ABC人脸识别一体机支持百度人脸检测、1:1人脸对比和1:N人脸查找三大人脸识别核心能力,可以根据人脸面部的72个特征点识别多种人脸属性,如性别、年龄、表情等信息,并计算人脸相似度,可用于用户身份。
此外,浪潮很早就开始与科大讯飞合作训练语音神经网络模型,从将模型训练从CPU单机上扩展到多机,而后又开展如何在FPGA上运行语音神经网络模型的研究,实现更高的性能。
目前,浪潮在计算平台、管理套件、框架优化和应用加速上已经形成有机的AI生态。刘军表示,对于渴望AI转型的企业,从客观看,极其需要这四层能力,而浪潮作为赋能者,能将这四层能力赋予这些企业,让其更快速地实现 AI落地。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。