扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZD至顶网服务器频道 11月20日 评论分析(文/赵效民):
中国在TOP500上的异军突起与专家质疑
在昨天的SC15大会的TOP500第46期榜单的发布会上,我又在现场见证了中国超算所取得的成就(上一次是在德国的ISC15大会上见证第45期榜单发布)。中国超级计算广州中心的天河二号,第6次获得冠军,打破了此前由日本NEC打造的“地球模拟器”在2002年6月至2004年6月保持的5连冠的纪录。
天河二号主任设计师,国防科技大学卢宇彤教授第6次登上TOP500冠军领奖台(点击放大)
除了天河二号6连冠,中国HPC系统在TOP500中的总数量也取得了重大突破,份额仅次于美国,超过了日本,位居第二。来自中国的HPC厂商也表现神勇,曙光、联想、浪潮均进入前十名,其中曙光更是以49套的数量排名第三。
(点击放大)中国以109套HPC系统上榜的成绩,仅次于美国的199套,而在上一期榜单中,中国还与德国并列第三,落后于日本
(点击放大)在HPC供应商排名中,中国三大HPC厂商均进入前10,曙光更是位列前三,而在上一期榜单中,只有曙光位列第9
不过,在为中国超算在TOP500上取得成绩而高兴的同时,我也听到了一些对中国成绩表示质疑的声音。在TOP500榜单发布会上,公布了各项主要排名之后,TOP500的一位主笔上台做了一个有关HPC系统测试的主题发言。他在讲演中就隐晦的表示对于一些系统的上榜并不是很爽,原因在于TOP500排名的唯一依据就是LINPACK测试成绩,而相关的系统虽然性能达到了入榜的水平,但体现出来的LINPACK效率太低了。不少HPC专家也表示,近期有大量的“不太纯正”的HPC系统上榜,让TOP500有点变质了,这些发言,都在暗指中国超算在TOP500上的异军突起,不太正常,甚至有人认为,中国作弊了!那么事实到底是怎样的呢?
TOP500榜单的“中国互联网力量”
在进入具体分析之前,我们可以先看一组数据,就能体会到相关专家所感觉到的不正常,说实话,即使是对照半年前的第45期榜单,也着实的吓我一跳。
在第45期TOP500榜单中,中国上榜系统共37套,与德国持平,落后于日本的40套,而仅隔半年之后,中国就有109套系统上榜,增幅达294%,估计没有一个国家会取得如此神速的进步。按照HPC发展的正常速度,中国显然超速太多了,而当我仔细查看TOP500的榜单时,也就明白了TOP500主笔与相关HPC专家们的微词所在,那就是互联网企业所部署的系统,被大量的划为HPC系统上报了。
在TOP500榜单的部署地(Site)分类中,可以明确查到“互联网服务”的类别,再将一些明显的互联网公司的名字(比如阿里巴巴)筛选出来,中国共有51套相关HPC系统上榜,占比46%。在TOP500排名前5的国家里,没有一个国家是这种比例。而在半年前的45期榜单中,只有10套这类的系统上榜。如果以整体的TOP500榜单来筛选,以“互联网”为关键字过滤出来的,也都是来自中国的系统,似乎这一类别就是为中国准备的。
在具体的厂商分布中,曙光有23套(在中国的总套数49,下同),联想11套(24), 浪潮14套(15),戴尔2套(2),华为1套(1),可以看出对于某些厂商来说,互联网类系统的比例是非常大的。
然而,从TOP500公布的成绩列表来看,这些系统的成绩都是不错的,按理算入TOP500正式的榜单,并没有问题,但正如前面提到的TOP500主笔所抱怨的,其不爽的养分在于,这些系统中,有很多LINPACK效率太低了,按传统的HPC的标准来说,完全不能算是HPC系统。
说到此,就要解释一下什么是LINPACK效率。在TOP500所公布的性能成绩中,主要就是两项,一个是Rmax,即实际LINPACK测试中所能取得的最高性能,另一个则是Rpeak,这是系统理论上的性能估值,即峰值性能。Rmax与Rpeak的比值就是LINPACK效率,一般以百分比表示,越高越好,说明系统的利用率越好。LINPACK效率理论的上限就是100%,但现实中是不可能的,必然的系统开销与互联延迟都会造成实际性能与理论性能的差距。由于LINPACK对于CPU性能、内存速度、互联带宽及延迟非常敏感,因此这些因素也是影响LINPACK效率的关键。
在HPC业界,对于LINPACK效率应该达到多少,并没有一个明确的要求,但在每个超算系统的设计者中,都会有一个基础的标准,就像考试及格一样。一般来说,按照当前的HPC技术水平,如果低于40%,就有点说不过去了,不能算是合格的HPC系统,作为设计者可能都不好意思和圈里人打招呼。反过来说,如果就是低于40%,那很可能原本就不是为HPC应用设计的。
举例来说,6连冠的天河二号的LINPACK效率为61.68%,属于中上等水平,而TOP500里的最高LINPACK效率来自2014年由IBM/联想建造的,部署于美国德州A&M大学的Ada系统,TOP500排名121,LINPACK效率居然会达到99.98%(我真怀疑数据有误),中国在TOP500上的最好水平是总排名481的,位于东北大学的超算系统(2015年,曙光建造),LINPACK效率达到了89%。
理论上所有的系统都是可以跑LINPACK测试的,所以按照TOP500的衡量标准,只要Rmax性能达标就可以入榜,拿上名次,这在以前似乎都是约定俗成,顺理成章的,大家都很自然的会用传统HPC的要求来设计和建造系统,并以此提交成绩。因为这些HPC用户基本上都是搞学术研究、理论探索与科学计算的,从历史角度来说可谓是纯正的HPC需求。但互联网,尤其是中国互联网公司的崛起,似乎给这一标准带来了新的考验。上文那位TOP500的主笔受刺激的最大原因就是某些互联网系统的LINPACK效率实在是太低了。甚至不到20%,如果真是为HPC设计的,那这个设计师应该去自杀了。
(点击放大)中国上榜的51套互联网系统,按LINPACK效率由低到高排名,我们以40%为界,低于此值的,暂且看作是并非以HPC为主要应用的系统,共有18套。表中配以加速器的系统,所使用的均是NVIDIA的GPU
由于HPC系统大多以集群(Cluster)形式组建,所以互联的带宽与延迟对于LINPACK效率有着明显的影响,相关的质疑也主要基于此——互联网的平台也都是集群形式的,但从互联架构的设计上,某些互联网系统显然就不是为HPC准备的,那些效率不到20%的系统都是千兆以太网互联,这对于HPC应用有些不可思议,对于LINPACK测试来说,影响无疑是致命的。虽然超过40%的系统也有用千兆以太网的,但相信要付出巨大的优化努力。然而,对于于传统的互联网应用服务,或者是普通的云服务平台来说,这类的互联配置再正常不过了,由此也能看出传统的HPC集群与主流的互联网应用集群之间巨大的差异。
关键的问题在于,互联网的IT平台都是以集群为主,这在总体架构上与HPC系统异曲同工,因此也很容易转变“身份”。但是,在规模庞大的互联网系统平台上,不顾效率明显的低下,单纯的以LINPACK成绩来进入TOP500,从严谨的HPC视角来说,的确有些说不过去。事实上,这些系统也的确不是为HPC准备的,真正的HPC用户也不会在其上跑HPC应用。但是,就TOP500本身的规则来说,相关中国厂商也的确没有违规,这可能是也让那位TOP500主笔以及相关专家最感郁闷的地方。
那么国外的厂商有没有用互联网系统平台来提交进入TOP500的呢?有,但很少,在2015年新入榜的系统里,有32套系统的LINPACK效率低于40%,其中除了一家日本系统(39.43%,排名135)和HP系统(35.51%,排名466)之外,都是中国的系统。但是,那套日本系统配备了大量的加速器,HPC用意明显,而HP系统的类别则是“Host Services”,明显也属于互联网服务。
需要强调的是,如果以LINPACK效率40%为界,对中国总上榜的系统进行过滤,共有29套,全部是2015年的新系统。除了互联网属性外,另外11套分别来自于电信、电力以及服务提供商领域,我有理由相信它们这些系统基本上不是以HPC为主要负载设计的。所以,按40%的LINPACK效率为底线,在我的标准中,中国真正面向HPC应用的上榜套数应该是80套。即便如此,也比上一期榜单的37套增加很多,排名第二实至名归。
互联网平台系统与HPC评选演进
分析至此,相信会有人问,是不是互联网平台就不能用于HPC呢,显然不是,在上文中,我们只是以40%的效率为界,来判断其设计者的本来用意,但超过40%的效率,也就意味着,即使原始设计不以HPC应用为主,但也能满足负载HPC应用的基本要求(具体表现还要看具体应用而定)。这方面一个最典型的例子就是AWS的一套EC2的系统,TOP500排名426,LINPACK效率达到了67.8%,对于一个虚拟化的云平台,这是相当不易的成绩。而除了对外提供服务外,近几年,随着大数据分析、人工智能、深度学习等技术的发展,越来多越多的大型互联网公司都会组建相应的处理平台,这些平台就应用特点来说,已经符合HPC的特征,其实在HPC领域,HPDA(高性能数据分析)早已成为重要的分支,在ISC与SC大会上,大数据、机器学习也已经是必备的课题,所以就这些应用系统来说,将它们纳入HPC系统范畴,没有任何问题,尤其是那10套配备了NIVIDA GPU加速器的系统,HPC应用的特征非常明显。
事实上,不光是TOP500,在中国自己的TOP100榜单中,“互联网的氛围”更盛,但除去必要的质疑之外,我觉得这反而代表了一种趋势,不能一棒打死。
随着互联网应用场景的越来越丰富,互联网在未来绝对将是HPC应用的大市场,只是因为商业运营与竞争的考虑,很多互联网公司不会主动上报自己的运算实力,这也是为什么像Google、Facebook这些如雷贯耳的名字并没有出现在TOP500中,或用“互联网服务”等类别名来代替公司名的原因。对于这种的确就是为了互联网公司自身业务需求而搭建的HPC系统,我们无需任何歧义,传统的“纯正HPC用户与专家”也要理性看待。而从另一个角度来看,最新的TOP500榜单也从侧面体现了中国互联网的威力,除了美国,其他国家的互联网公司即使想上榜,也大多很难如愿,这背后是中国近6亿网民和接近6亿手机网民的力量,也预示着中国互联网巨大的HPC应用潜力。
综上所论,指责中国超算在TOP500中作弊,有点言过其实,对于HPC应用来说,中国上榜的51套互联网系统中的64%可以认为基本够格。但我同样认为,厂商在某些系统的提交中,应该考虑更周全,否则很容易招来质疑。虽然从TOP500的评选规则上讲,厂商这么做也没有什么原则上的错误。但目前的现象,可能会让相关组织机构思考,如何更完善评选的标准,比如是不是要以LINPACK效率作为一个硬性过滤指标?又或者单独新建一个互联网平台的评选分类,以保证传统HPC评选的纯正?
总之,我相信包括TOP500、中国TOP100在内的评选机构肯定会与时俱进来,及时调整因互联网应用的崛起而带来的新变化,从而在未来的榜单中,最大限度减少郁闷感与质疑声,确保自身的权威。
让我们期待在下期榜单中,来自中国互联网的力量,迸发出更让人信服的威力吧!
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。