扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZD至顶网服务器频道 11月18日 评论分析(文/赵效民):已经在美国成立分公司,并展开销售业务的浪潮,似乎正在用一种实际的行动,来表达自己坚定的进军美国市场的态度,并希望以这种行动在国际上发出更大的声音,这就是在美国本土发布其最新的产品——即使这些产品可能并不会最先在美国上市。今天,浪潮在美国SC15大会自己的展位上,举行了简洁的发布会,在全球首次宣布了两款新的重量级产品。
与英特尔联合发布i9000融合刀片系统
今天的第一个发布是新一代的刀片系统,准确的说应该是基于融合架构设计的刀片系统——I9000,它将成为未来浪潮刀片服务器家族的中流砥柱。在发布会现场,浪潮请来了联合研发伙伴英特尔助阵。
浪潮集团副总裁胡雷钧与英特尔高性能计算产品营销总监Thor Sewell共同为I9000融合系统揭幕
英特尔高性能计算产品营销总监Thor Sewell现场发言,对于浪潮近年来所表现出的市场成绩和研发能力,给予了高度评价
必须承认,浪潮的I9000与早前的IBM FlexSystem(现属于联想)以及华为的E9000很像,尤其是后者,同样是12U/16节点的设计(FlexSystem是10U/14节点设计),不过如果细看,两者仍然有很大的不同。对于后来者的身份,浪潮方面并没有否认,浪潮相关的工作人员也非常坦诚的表示,这方面FlexSystem的确为后来者们提供了一个可行的发展方向,不过在细节方面,仍然体现出了浪潮自己的设计能力。
i9000系统的实体外观,它在12U的高度里提供了最高16节点的计算密度,而在现场展示的产品,最上端则是4路至强E7V3节点,它通过两个双路E7V3刀片级联而成(刀片中间的是QPI Link模块),其他的则是双路至强E5刀片,最下方是6个电源模块
I9000系统的前后示意图,刀片可选半宽或全宽规格,最高密度为16个半宽刀片。I9000的一大设计亮点在背面的IO BOX,它为每个计算节点(刀片)提供至少一个全尺寸的PCIe插槽,提供了更好的IO灵活性
FlexSystem与华为E9000均是后置电源模块,但I9000机箱则变为前置。而在机箱背面,在节省的电源空间里提供了4个网络互联模块与两组IO BOX。目前浪潮可提供的互联模块包括以太网、FC、Infiniband以及英特尔最新发布的Omni-Path等多种技术规格,而IO BOX则为每个刀片至少提供了一个全尺寸的PCIe插槽。这一点对于用户来说,无疑提供了很大灵活性,尤其是在新的网络技术出现,而相关的I9000互联模块没有Ready,又或者有特殊IO需求的情况下(比如外连SAS),用户可以通过PCIe插槽来及时获得相应的I/O能力。
目前I9000系统的刀片节点的种类,未来还会有更多用途的刀片出现
I9000融合系统的双路E7V3刀片,满配24DIMM,可通过QPI Link组件级联扩展至8路E7刀片
用于两个E7刀片互联进行Scale-Up扩展的QPI Link硬连接模块,比线缆连接方式更为可靠,4刀片的QPI Link模块与之类似,但要到明年一季度才会推出
在刀片节点方面,I9000目前提供了4大类刀片负载模式,第一类是应对主流应用的至强E5双路半宽刀片;第二类是面向关键业务或大容量应用需求的至强E7全宽刀片,可从2路垂直级联至8路刀片(最高单镜像8颗至强E7,12TB内存);第三类是主要面向存储应用的1个双路E5附带1个半宽存储刀片(12块2.5英寸硬盘/SSD),单机箱最大存储容量为112块硬盘/SSD(含E5刀片本身的存储),总容量可超过200TB;第四类则是全宽的异构计算刀片,由双路E5配以双GPU或双MIC组合而成,最终在12U的机架空间里提供16颗至强E5+16个GPU/MIC的计算密度,双精度浮点运算能力最高可达约17TFLOPS。未来,在计划中还会有纯粹的JBOD存储刀片(无需配备计算刀片,实现现有存储资源的在线扩容),以及基于FPGA的异构刀片。
I9000系统的主打市场是企业级IT应用,不过对于HPC系统来说,I9000较传统刀片系统提供了更好的集成性与基础设施的整合能力,在某些场景下可能是较机架服务器更好的选择
对于I9000的产品定位,浪潮明确的表示主要面向企业级IT领域,但对于部分HPC应用场景,I9000也将是很好的平台,它借鉴了当前融合基础设施的设计理念,为HPC平台提供了更好的集成性与可管理性,潜在的HPC应用需求不可小视。不过,现在业界似乎有一种普遍的观点,也正是因为新一代高密度,融合甚至是超融合基础设施的发展,让刀片服务器的前途变得渺茫。对此,浪潮有不同的看法。
市场调研机构IDC,对于高密度服务器(应该是多节点机架服务器和整机柜服务器的集合)与刀片服务器在北美市场上的出货量对比预测,可以看出高密度服务器的提升并没有造成刀片服务器出货量的下滑,也就意味着至少在2018年,刀片服务器绝大多数的应用场景仍然稳固,不会受到严重的影响
浪潮高性能产品总经理刘军表示,市场新的增长点在于类似于整机柜高密度服务器这样的产品,并不意味着刀片服务器市场的下滑,事实上作为传统企业级IT架构的一种主流形态,刀片服务器在很长一段时间里均会稳步发展。对于有一定应用规模,追求较高集成性,集中管理性与灵活配置的用户,尤其是刀片的长久使用者,刀片服务器仍然是理想的选择之一,他们后续的更新换代是一个很大的市场需求。另一方面,随着技术的进步,融合架构与刀片架构的结合,也为刀片服务器带来了新的活力。
与Altera联合发布FPGA语音深度学习系统
在I9000融合刀片系统发布后10分钟,浪潮又马不停蹄的发布另一个更时髦的解决方案:基于FPGA的语音深度学习系统,联合发布方则是Altera,解决方案的合作方则是著名的科大讯飞。
浪潮集团副总裁胡雷钧,与Altera公司服务器和存储事业部总经理David Gamba,联合发布新一代语音深度学习系统
FPGA,即现场可编程门阵列 (Field-Programmable Gate Array)诞生至今已经有30余年的历史,但真正进入IT应用领域,时间并不长。随着CPU面对着指数级增长的运算量,越来越力不从心之际,异构计算技术也随之兴起。FPGA也正是在这一历史时期,迅速进入主流IT领域,以其独特的可任意编程+硬逻辑组合的优势,成为了相关计算应用领域的加速利器,最近迅速升温的深度学习(机器学习的一种)即是其中之一,而它也是未来HPC的重要覆盖领域,也因此让FPGA在HPC市场有着广阔的应用空间。
HPC系统在向Exa(1000P,100亿亿次)运算等级迈进时,将面临能效、性能与编程三个领域的重大挑战,尤其是能效方面,目前排名第一的天河二号距离目标还有26倍多的差距
目前,HPC专家正绞尽脑汁向Exa级计算能力进军,但以现有的体系架构面临着三大挑战:
1、高能效——从TOP500的前10套系统的架构来看,采用目前的技术架构,性能功耗比较低,未来E级系统,功耗控制在20MW,计算能耗需达到50GFLOPS/W,能效面临着巨大的挑战。
2、高性能——随着大数据的发展,越多越多的应用将需要高性能,应用性能的提升将面临着新的计算架构适配和大规模计算并行效率的提高的挑战。
3、易编程——如何提高大规模超算系统的利用率,需要采用高级语言和通用编程方式,解决代码的快速迁移和软件的继承性,来提高软件的编程生成力。
基于Altera FPGA构建的加速卡,此次发布的解决方案专门为深度学习定制
现场展示台上,浪潮服务器中配备的Altera A10 FPGA加速卡,据悉该FPGA芯片采用英特尔14nm生产工艺,单精度浮点运算能力可达10TFLOPS,比目前英特尔的MIC加速卡还快
此次,浪潮与Altera联合发布的FPGA解决方案,就是在CPU、GPU、MIC(集成众核)等当前主流架构之外,提供了另外的异构选择,而基于FPGA的架构的主要优势是:
1、高性能功耗比,Altera FPGA性能功耗可达到50GFlops/W.
2、支持更多的并行计算模型,如数据并行、任务并行,FPGA将适用更多的应用
3、高密度,FPGA卡半长半高,且因功耗低,不需要庞大的散热器,1个机柜可以插更多的FPGA,实现高密度计算
4、支持高级语言OpenCL编程,软件方式编程,将长期以来困扰FPGA开发者的底层硬件编程透明化,提高软件生产力。
浪潮与Altera合作的一个重要的应用开发伙伴,也是典型的客户,就是中国著名的语音识别解决方案供应商科大讯飞,而科大讯飞的加入也大大加速了FPGA在语音深度学习领域的实践进程
在浪潮共同合作的Altera FPGA硬件平台基础上,科大讯飞的加入,最终完成了基于FPGA的语音深度学习识别应用方案。此应用是科大讯飞的在线语音识别深度神经网络(DNN,Deep Neural Networks)应用,属于典型数据中心级别的应用,节点需求规模大,对整机柜有低功耗要求。通过此次合作,三方实现了基于 FPGA的HPC与深度学习新异构加速模式:CPU+FPGA研究,创新地验证了基于FPGA采用OpenCL编程的可行性,在实际深度学习DNN应用的验证中,此方案在提升性能、节省功耗的同时,实现了OpenCL 易编程性的印证。
科大讯飞的DNN应用,FPGA加速与纯x86平台的对比测试结果
通过对基于FPGA平台的DNN应用版本测试,处理100 bound数据,基于Intel Xeon E5-2650 V2 双路CPU(启动16个线程),深度神经网络(DNN,Deep Neural Networks)运行时间为242.027s,而基于Altera A10 FPGA,DNN运行时间为84.312s,性能加速2.871倍;Altera A10 FPGA功耗为30W,Intel Xeon E5-2650 V2 双路CPU功耗为190W,FPGA功耗只有CPU的15.7%,FPGA的性能功耗比是CPU的18.18倍,是GPU的3倍,而且整个应用采用OpenCL编程模型,基于FPGA的DNN并行程序开发完全由软件工程师完成,仅仅耗费4个人月。若采用传统的Verilog、VHDL等底层语言,同样的开发工作至少需要12个人月,并且需要软件工程师和硬件工程师配合完成。 从整体应用效果来看,基于OpenCL的FPGA方案的确满足了高性能、低功耗、易编程的要求。
总之,这次成功的合作也再次证明了FPGA可适用于数据并行与任务并行应用,未来越来越多的HPC大应用、数据中心应用、互联网深度学习应用都可考虑采用FPGA方案。浪潮集团副总裁胡雷钧也表示,与Altera的合作仅仅是一个开始,鉴于FPGA独特的可编程特性,完全可以在一个统一的基准架构上,通过不断丰富的加速编程模块,来应对更多的应用场景,比如卷积神经网络(CNN,Convolutional Neural network)应用,以及海量数据库、存储、网络加速等应用,而这次联合推出的解决方案无疑是一次很好的实践和良好的开端。
综上所述,浪潮在SC15上的两个发布的份量不可谓不重,一个代表了浪潮在传统刀片市场的更新换代,另一个则代表了浪潮在新兴应用市场上的应对战略。如果说融合刀片系统是一种渐近的改良,那么FPGA异构方案对于浪潮来说则可算是某种意义上的创新了。事实上,基于GPU的深度学习方案,浪潮早已推出,此次又推出了FPGA解决方案,也可以看出浪潮在“与时俱进”方面的努力。而敢于在SC15大会上,与美国的合作伙伴联手发布可能近期并不会在美国上市的产品,并接受美国记者的开放式采访,在我看来,代表了浪潮的一种在IT发达市场展示实力的自信,当然也更透露出一种对于进军以美国为代表的,IT发达地区市场认真的态度!
我在此祝愿浪潮这样的态度能长期保持,并在不远的将来,在美国等市场上收获应有的回报!与此同时,也期待有更多的中国IT厂商勇敢的走出去!