扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
与Altera联合发布FPGA语音深度学习系统
在I9000融合刀片系统发布后10分钟,浪潮又马不停蹄的发布另一个更时髦的解决方案:基于FPGA的语音深度学习系统,联合发布方则是Altera,解决方案的合作方则是著名的科大讯飞。
浪潮集团副总裁胡雷钧,与Altera公司服务器和存储事业部总经理David Gamba,联合发布新一代语音深度学习系统
FPGA,即现场可编程门阵列 (Field-Programmable Gate Array)诞生至今已经有30余年的历史,但真正进入IT应用领域,时间并不长。随着CPU面对着指数级增长的运算量,越来越力不从心之际,异构计算技术也随之兴起。FPGA也正是在这一历史时期,迅速进入主流IT领域,以其独特的可任意编程+硬逻辑组合的优势,成为了相关计算应用领域的加速利器,最近迅速升温的深度学习(机器学习的一种)即是其中之一,而它也是未来HPC的重要覆盖领域,也因此让FPGA在HPC市场有着广阔的应用空间。
HPC系统在向Exa(1000P,100亿亿次)运算等级迈进时,将面临能效、性能与编程三个领域的重大挑战,尤其是能效方面,目前排名第一的天河二号距离目标还有26倍多的差距
目前,HPC专家正绞尽脑汁向Exa级计算能力进军,但以现有的体系架构面临着三大挑战:
1、高能效——从TOP500的前10套系统的架构来看,采用目前的技术架构,性能功耗比较低,未来E级系统,功耗控制在20MW,计算能耗需达到50GFLOPS/W,能效面临着巨大的挑战。
2、高性能——随着大数据的发展,越多越多的应用将需要高性能,应用性能的提升将面临着新的计算架构适配和大规模计算并行效率的提高的挑战。
3、易编程——如何提高大规模超算系统的利用率,需要采用高级语言和通用编程方式,解决代码的快速迁移和软件的继承性,来提高软件的编程生成力。
基于Altera FPGA构建的加速卡,此次发布的解决方案专门为深度学习定制
现场展示台上,浪潮服务器中配备的Altera A10 FPGA加速卡,据悉该FPGA芯片采用英特尔14nm生产工艺,单精度浮点运算能力可达10TFLOPS,比目前英特尔的MIC加速卡还快
此次,浪潮与Altera联合发布的FPGA解决方案,就是在CPU、GPU、MIC(集成众核)等当前主流架构之外,提供了另外的异构选择,而基于FPGA的架构的主要优势是:
1、高性能功耗比,Altera FPGA性能功耗可达到50GFlops/W.
2、支持更多的并行计算模型,如数据并行、任务并行,FPGA将适用更多的应用
3、高密度,FPGA卡半长半高,且因功耗低,不需要庞大的散热器,1个机柜可以插更多的FPGA,实现高密度计算
4、支持高级语言OpenCL编程,软件方式编程,将长期以来困扰FPGA开发者的底层硬件编程透明化,提高软件生产力。
浪潮与Altera合作的一个重要的应用开发伙伴,也是典型的客户,就是中国著名的语音识别解决方案供应商科大讯飞,而科大讯飞的加入也大大加速了FPGA在语音深度学习领域的实践进程
在浪潮共同合作的Altera FPGA硬件平台基础上,科大讯飞的加入,最终完成了基于FPGA的语音深度学习识别应用方案。此应用是科大讯飞的在线语音识别深度神经网络(DNN,Deep Neural Networks)应用,属于典型数据中心级别的应用,节点需求规模大,对整机柜有低功耗要求。通过此次合作,三方实现了基于 FPGA的HPC与深度学习新异构加速模式:CPU+FPGA研究,创新地验证了基于FPGA采用OpenCL编程的可行性,在实际深度学习DNN应用的验证中,此方案在提升性能、节省功耗的同时,实现了OpenCL 易编程性的印证。
科大讯飞的DNN应用,FPGA加速与纯x86平台的对比测试结果
通过对基于FPGA平台的DNN应用版本测试,处理100 bound数据,基于Intel Xeon E5-2650 V2 双路CPU(启动16个线程),深度神经网络(DNN,Deep Neural Networks)运行时间为242.027s,而基于Altera A10 FPGA,DNN运行时间为84.312s,性能加速2.871倍;Altera A10 FPGA功耗为30W,Intel Xeon E5-2650 V2 双路CPU功耗为190W,FPGA功耗只有CPU的15.7%,FPGA的性能功耗比是CPU的18.18倍,是GPU的3倍,而且整个应用采用OpenCL编程模型,基于FPGA的DNN并行程序开发完全由软件工程师完成,仅仅耗费4个人月。若采用传统的Verilog、VHDL等底层语言,同样的开发工作至少需要12个人月,并且需要软件工程师和硬件工程师配合完成。 从整体应用效果来看,基于OpenCL的FPGA方案的确满足了高性能、低功耗、易编程的要求。
总之,这次成功的合作也再次证明了FPGA可适用于数据并行与任务并行应用,未来越来越多的HPC大应用、数据中心应用、互联网深度学习应用都可考虑采用FPGA方案。浪潮集团副总裁胡雷钧也表示,与Altera的合作仅仅是一个开始,鉴于FPGA独特的可编程特性,完全可以在一个统一的基准架构上,通过不断丰富的加速编程模块,来应对更多的应用场景,比如卷积神经网络(CNN,Convolutional Neural network)应用,以及海量数据库、存储、网络加速等应用,而这次联合推出的解决方案无疑是一次很好的实践和良好的开端。
综上所述,浪潮在SC15上的两个发布的份量不可谓不重,一个代表了浪潮在传统刀片市场的更新换代,另一个则代表了浪潮在新兴应用市场上的应对战略。如果说融合刀片系统是一种渐近的改良,那么FPGA异构方案对于浪潮来说则可算是某种意义上的创新了。事实上,基于GPU的深度学习方案,浪潮早已推出,此次又推出了FPGA解决方案,也可以看出浪潮在“与时俱进”方面的努力。而敢于在SC15大会上,与美国的合作伙伴联手发布可能近期并不会在美国上市的产品,并接受美国记者的开放式采访,在我看来,代表了浪潮的一种在IT发达市场展示实力的自信,当然也更透露出一种对于进军以美国为代表的,IT发达地区市场认真的态度!
我在此祝愿浪潮这样的态度能长期保持,并在不远的将来,在美国等市场上收获应有的回报!与此同时,也期待有更多的中国IT厂商勇敢的走出去!
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者