至顶网›服务器频道 ›高性能计算›让美国的限售见鬼去吧！天河二号A 100P性能达成！

让美国的限售见鬼去吧！天河二号A 100P性能达成！

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

在ISC 2015大会上发布的第45期全球超级计算机TOP500排名中，由中国国防科学技术大学（简称国防科大）研制，部署于中国广州超算中心的天河二号再次荣登榜首，连续第5次成为TOP500冠军。

来源：ZDNetserver频道【原创】 2015年7月15日

关键字：天河二号 ISC2015 高性能计算

ZDNet至顶网服务器频道 07月15日（文/赵效民）：在ISC 2015大会上发布的第45期全球超级计算机TOP500排名中，由中国国防科学技术大学（简称国防科大）研制，部署于中国广州超算中心的天河二号再次荣登榜首，连续第5次成为TOP500冠军。但我相信，任何一个关心中国超算事业的人，都在高兴之余有着隐隐的一丝不安，那就是始于今年4月的“中美超算风波”，总让感觉天河的未来布满阴云。

第45期 TOP500榜单，前10名中只有一台新系统（第7名），其余都是老面孔，天河二号第5次占据冠军位置

在4月底时，我曾写过一篇专文《走出中国超算的“凌波微步”》，详细介绍了这场风波的来龙去脉，以及它所产生的影响，并分析了中国应有的宏观对策。简单来说，由于美国点名对天河二号的限售，阻碍了天河二号今年既定的100PFLOPS（1P=千万亿次浮点运算，本文所指的浮点性能均指双精度）的升级计划，并可能长期影响中国超大规模超算系统的建设，这其中的关键就是英特尔公司的Xeon Phi加速器（或与之类同的产品），它对于天河二号的连续5次登顶有着决定性的意义。

我们先看天河二号的配置：16000个计算节点，32000颗英特尔至强（Xeon） E5-2692V2 2.2GHz/12核心CPU，48000颗Xeon Phi 31S1P加速器，其运算峰值速度约为55PFLOPS。这其中天河二号所采用的Xeon Phi 31S1P拥有57个核心，TDP功耗300W，单个Xeon Phi 31S1P的浮点运算性能约1TFLOPS（1T=万亿次）。48000颗Xeon Phi 31S1P就贡献出了48PFLOPS的浮点性能，对于天河二号55P的峰值性能来说，重要性不言而喻。

美国银售的重点对象——英特尔Xeon Phi计算加速器，今年将推出第二代Knights Landing

在今年，英特尔将推出代号为Knight Landing的第二代Xeon Phi，浮点性能达到3TFLOPS。假如全部替换掉天河二号现有的Xeon Phi，那么天河二号的性能就将超过150PFLOPS（加上32000颗E5的性能），绝对仍然是2015年，甚至是2016年的TOP500冠军。所以说，针对天河二号的Xeon Phi限售，的确影响到了天河后续的升级计划。

在那段风波期间，除了更多的中国超算专家表示要进一步自力更生，不惧封锁外，具体的产品与技术措施其实并不清晰。在2015年4月19日，在由中国计算机学会青年计算机科技论坛(CCF YOCSEF)在京举行 “芯片限售对我国超算的影响”特别论坛上，天河二号系统主任设计师、国防科大教授卢宇彤女士曾非常自信的强调，“按照原定计划，天河二号拟在今年将计算能力从55PFLOPS升级到100PFLOPS。尽管此次美方对天河二号升级所需Intel Xeon处理器的限售，对原定升级计划有一定影响，但我们早有准备，绝不会影响天河二号从55PFLOPS升级到100PFLOPS的既定目标。”

然而，很多人并不知道，国防科大到底会采用什么方法来实100P的目标，心里多少没底，甚至有人怀疑国防科大也只是在给大家打气，并没有实际的解决方案。但是，在ISC 2015的第二天——中美超算风波3个多月后，卢宇彤亲自给出了答案——这就是天河二号A，并明确表示将在2016年正式上线。

天河二号系统主任设计师、国防科大教授卢宇彤在ISC 2015大会上以英文做主题讲演，详细介绍了中国主要的超算应用在天河二号上的实践，并第一次在国外会议上详细介绍了天河二号A的概况

在讲演的开头部分，卢宇彤介绍了天河系统的发展历史与未来的规划，也表明了100P系统的计划，但没有透露具体的系统名称

卢宇彤的主题讲演是在ISC 2015第二天的下午5点15分开始，其讲演的主题是《Applications Leveraging Supercomputing Systems》，我起初以为就是以天河二号的应用视角来看超算系统的应用与价值，并没有想到会介绍到天河二号A，给了我一个大大的惊喜。

天河二号A的主要技术指标，与历代天河系统的对比，其运算峰值将达到100P，能实现的关键就在于“中国加速器”，请注意功耗与天河二号几乎相同

天河二号A的计算节点数量将从天河二号的16000个，增加到约18000个，处理器仍然没变，还是至强E5-2692 V2，而最引人关注的则是用“China Accelerator”（中国加速器）替代了Xeon Phi。

从上文可知，通用处理器在未来的HPC系统里的权重会越来越低，主要工作将逐渐向控制层面转移，计算任务则主要由加速器完成。也因此，要想实现100P的目标，没有类似于Xeon Phi这类产品是不可能实现的，所以关键点就在于China Accelerator是用什么方法来实现类似于Xeon Phi与NVIDIA GPGPU（同样在美国限售范围内）的加速效果。国防科大给出的方案并不算有多“高大上”，但对于中国自主研发来说足够亮眼，那就是通用计算数字信号处理器（GPDSP），并且有了明确的型号——Matrix2000。

Matrix2000的主要设计规格，预计为16核设计，可达到2.4T的浮点性能，虽然还比不上Knight Landing的3T，但对于白手起家的中国来说，已经相当不易，而且功耗比现有的Xeon Phi少了100W

从Matrix2000的设计规格上看，至少在理论上还是相当不错的，对于中国自主研发的加速器已经非常不容易了。如果还是按照天河二号计算节点的配置（2CPU+3加速器），我们就按18000个节点来计算，将有54000颗Matrix2000加速器，理论运算峰值可达130P（54000x2.4T），加上36000颗E5-2692 V2，总峰值可达137.6P，所以100P的目标也许还有些保守，100P是最大浮点性能（天河二号是33.86P）也说不准。

Matrix2000的内部设计，采用了标量与向量单元+超长指令字（VLIW）的架构

针对全新的Matrix2000所准备的软件堆栈，这也是Matrix2000能否被有效利用进而被应用开发者所接纳的关键，包括GPDPS驱动程序、操作系统、编译器、数学库等，这的确是项工程量巨大的工作

据国防科大的相关研发人员介绍，有关DSP的浮点计算应用，一直也是国防科大的研发重点，它与超算研究可谓是并行发展。也正是因为有了这样的积累，国防科大才能比较从容的面对美国的限售。但该研发人员也表示，美国的限售来得这么快还是有点出乎预料，而GPDSP的一个推广难点也就在于，在HPC应用领域几乎是从零起步，就像当初NVIDIA刚推出GPGPU时一样，直到CUDA的发布才迅速改善了GPGPU的应用生态环境。国防科大的GPDSP显然也要经历类似的过程，但国防科大在业界的知名度以及DSP在HPC里的应用平滑过渡性，较当初NVIDIA在图像处理领域以及GPU在浮点运算能力方面的名声，还有很大差距，因此其中的困难可想而知。

卢宇彤表示，目前Matrix2000正在进行验证。这意味着至少在国防科大的层面，已经为正式投入使用做着最后的准备，但具体时间还不能确定，所以只给出了2016年这一较为笼统的时间点。相关研发人员也透露，除了应用平台进一步配套完善之外，GPDSP芯片本身的生产与物理设备的调优还有很多工作要做。而且受限于当前中国半导体生产工艺水平，现在还是采用40nm工艺的GPDSP，也在很大程度上制约了Matrix2000的能力，“否则可以做到更多的核心，获得更多的性能”，相关研发人员感慨到。

当然，天河二号A在技术上的突破不仅仅是Matrix2000，卢宇彤也没有把这次天河二号A的亮相等同于Matrix2000的亮相，接下来她又介绍了天河二号A在互联与I/O方面的设计。

除了最关键的Matrix2000之外，天河二号A在其他方面也有着明显的升级，在互联层，采用了自主研发的TH-Express 2+架构（天河二号是TH-Express 2），从联网芯片至网络路由芯片均有较大提升，并进一步实现了自适应（Adaptive）互联架构

所谓的自适应互联架构，就从多个层面入手，通过自应用平台层至底层形成的智能互动，保证网络效率持续而稳定，比如自动规避质量不佳或拥挤的链路，进一步杜绝重复的通信，并在节点与网络故障时对路由重新配置等等

在存储层面，天河二号A仍然是以自主研发的H2FS文件系统(Hybrid Hierarchy File System)为核心，并采用大量闪存作为I/O突发缓冲，夹在节点本地存储与大容量的全局存储之间，实现了1TB/s的突发传输，100GB/s的持续传输，每秒100万次的元数据操作

最后，卢宇彤给出了天河系统未来的应用方向与愿景，其实天河二号就已经不是单纯的HPC系统，在云、Hadoop、Spark等方面均有尝试或实际的应用，而未来则更是如此，国防科大也将按这样的思路来构建未来的天河二号A，让它从出生之日就是一个强大的多面手

卢宇彤对天河二号A的介绍，引发了会场的热烈反响，在提问环节，大多数的问题都集中在了“中国加速器”身上，显然这对于国外的HPC人士来说，也是非常的“意外”。但是，除了Matrix2000外，对于互联与I/O的完整阐述，也让人感觉天河二号A的确有备而来，明年的正式发布也是相当的靠谱（毕竟是军人出身嘛），剩下的就看它是出现在第47期还是第48期的TOP500榜单上了。

当然，中国研制超大规模HPC系统的目的肯定不仅仅是为了跑个LINPACK争个名次，否则也不会引起美国的重视并引发限售。天河二号A的设计在某种角度上说，真正打开了中国自主HPC发展的向上之路，因为加速器很重要，也因为加速器被国外限售，所以天河二号A在这种环境下还能很快达到100P的性能，也许连美国相关人士也没有想到，但这绝对是件好事！

虽然我们都知道Matrix2000在未来很一长段时间里，将会面临严峻的应用生态的挑战，但是我们也非常清楚，当初的两弹一星的诞生历程又是何等艰苦，可换来的国家意义与战略价值则无法估量。中国HPC领域的很多专家其实都对美国限售保持乐观态度，因为中国的机会来了——只要是西方发达国家限制的产业，中国自主研发的实力与产品也就越强，也就越来越不需要外国的东西，反而确保了自身生态链的完整与环境安全，可能自主之路短期很痛苦，但长远来看肯定利远大于弊。

对于这些专家们的观点，我深表赞同，以HPC对于国家的国防与经济战略意义来说，在很大程度上，计算加速器在当今的作用已经不亚于当初的两弹一星。而天河二号A就是一个很好的开始，也许GPDSP的路很难走，也许它在实际应用中还有很多问题，但毕竟我们走出了第一步，没有这一步，后面的所有可能也就无从谈起，如果走得好走得稳，你敢说就不会出现一个与GPGPU和Xeon Phi平起平坐的GPDSP生态吗？

最后，我衷心祝愿天河二号A的研发最终获得圆满成功，早日上线，让美国的限售彻底见鬼去吧！

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

让美国的限售见鬼去吧！天河二号A 100P性能达成！

业界热点: