至顶网服务器频道 03月15日 新闻消息: 在GPU、FPGA、XPU等AI计算服务器层出不穷的今天,AI计算力得到大幅提升,算法框架的选择成为了优化AI运算效率的重要因素。同时,由于AI计算系统从单机单卡到单机多卡,再到后来的多机多卡并行计算发展,数据中心需要同时管理数量庞大的AI计算服务器来支持应用。如何更好地进行管理和监控,也将影响AI应用的产出效率和运转成本。近期,浪潮与美国某知名的互联网公司开展联合测试,对主流的深度学习框架进行了一次测评,希望在框架选择上给予大家一些经验和建议。
如何选择一款合适的深度学习框架?
随着人工智能的火热,目前开源出来的深度学习框架非常多,如Caffe、TensorFlow、MXNet、Torch等等。框架众多,如何选择?选择一种框架还是多种组合?针对不同的场景或者模型需要选择什么样的框架?面对多大数据量需要选择多机并行的框架?这些我们针对深度学习框架所面临的挑战,难免会让很多人犯难。
近期,浪潮与美国某知名的互联网公司开展联合测试,对主流的深度学习框架做了一个测评。把三个主流的框架Caffe、TensorFlow和MXNet部署到浪潮SR-AI整机柜服务器平台上(配置16块GPU卡),采用ImageNet数据集,测试AlexNet和GoogLeNet两种典型网络。
从测试结果来看,当运行AlexNet网络时,Caffe性能最好,每秒可以训练图片张数达到4675张,16个GPU比单个GPU的加速比达到14倍。其次是MXNet,最后是TensorFlow。
当运行GoogLeNet时,MXNet性能最好,每秒可以训练的图片张数达到2462张,16个GPU比单个GPU的加速比达到12.7倍。其次是Caffe,最后是TensorFlow。
从这个评测来看,基于不同的网络,所选择最优的框架是不一样的。
基本上可以有大致的一个原则来选择:我们会根据不同的场景和模型来选择至少一种深度学习框架,目前很难说一种框架能在所有的应用场景中表现最优。
如果是图像方面的应用,主要采用Caffe、TensorFlow和MXNET这三种框架;
如果是语音的话,可以选择CNTK;
自然语言处理的话可以采用PaddlePaddle。
针对大数据量的训练,采用单机训练的话时间会很长,有可能是几周或几个月训练出一个模型,需要采用分布式框架。浪潮自研的深度学习框架Caffe-MPI,就实现了多机多GPU卡的并行训练。通过实际测试,Caffe-MPI采用16个GPU卡同时训练时,每秒处理效率达到3061张,较单卡性能提升13倍,扩展效率达到81%,性能将近是TensorFlow的2倍。
目前,浪潮Caffe-MPI框架目前已在Github开源,如果有需要可以免费下载使用。
当机器越来越多,怎么管理才高效?
人工智能深度学习训练流程较长、开发环境较复杂,涉及数据准备和处理、特征工程、建模、调参等多个步骤及多个框架和模型,每个框架依赖环境不同且有可能交叉使用。同时,深度学习模型在训练时往往耗时较长,短则数小时长则数天,以往在训练完成后才意识到模型存在问题,大大耗费了用户的精力和时间。
浪潮AI管理软件AIStation可以提供从数据准备到分析训练结果的完整深度学习业务流程,支持Caffe、TensorFlow、CNTK等多种计算框架和GoogleNet、VGG、ResNet等多种模型。AIStation支持对训练过程实时监控并可视化训练过程,支持打印每一步的损失函数值的日志、训练误差或测试误差等;支持动态分配GPU资源实现资源合理共享,实现了"一键式"部署深度学习计算环境、快速启动训练任务;还可以实时监控集群的使用情况,合理安排训练任务,可及时发现运行中的问题,提高集群的可靠性。
除此以外,浪潮还可提供天眼高性能应用特征监控分析系统,量化超算软件特征,提取和记录应用软件在高性能计算机运行过程中实时产生的CPU、内存、磁盘、网络等系统信息和微架构信息,及时帮助使用者找到系统瓶颈,并能准确地分析出程序开发者的应用软件特征,帮助用户合理的划分集群使用资源、提高使用效率。
有了强劲的AI计算平台、适合的开发框架、高效的AI管理监控软件,一个AI基础平台就基本构建完成,剩下的就是靠优化的算法把你所拥有的数据,转化成更有价值的资源。2018年,AI仍将是一个巨大的风口,希望以上浪潮测试数据和选型攻略能够为大家带来一些启发。
好文章,需要你的鼓励
据报道,苹果公司高管已就收购Perplexity AI展开内部讨论。这家总部位于旧金山的公司运营着一款由人工智能驱动的消费者搜索引擎,能够生成自然语言回复而非传统网页列表。Perplexity在最近融资中获得140亿美元估值,月活跃用户超过1500万,每月查询量增长20%。苹果企业发展副总裁已与多位高管讨论此收购想法。
清华大学团队开发了CAMS智能框架,这是首个将城市知识大模型与智能体技术结合的人类移动模拟系统。该系统仅需用户基本信息就能在真实城市中生成逼真的日常轨迹,通过三个核心模块实现了个体行为模式提取、城市空间知识生成和轨迹优化。实验表明CAMS在多项指标上显著优于现有方法,为城市规划、交通管理等领域提供了强大工具。
数据中心防护涂层正成为应对能耗上升和温室气体排放的关键解决方案。随着行业快速扩张带来环境挑战,这些创新涂层技术为平衡数字化增长与环境责任提供重要工具。专业涂层可延长设施寿命、降低维护成本,同时通过隔热涂层、反射涂层等技术优化能效,减少冷却系统负担。未来涂层将与被动冷却技术结合,支持可持续发展目标实现。
MIT研究团队发现了一个颠覆性的AI训练方法:那些通常被丢弃的模糊、失真的"垃圾"图片,竟然能够训练出比传统方法更优秀的AI模型。他们开发的Ambient Diffusion Omni框架通过智能识别何时使用何种质量的数据,不仅在ImageNet等权威测试中创造新纪录,还为解决AI发展的数据瓶颈问题开辟了全新道路。