超级计算机生存实录

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

本期，我们将为大家解释，HPC系统的超强性能如何才能被感知？HPC的应用前景又将如何？

作者：中国计算机报 2007年11月15日

　　TOP100排行榜分析

　　在国内高性能计算市场，处于领先地位的是曙光、联想、IBM等厂商。其中曙光4000A取得了不错的成绩。

　　现在，我们给出对中国软件行业协会数学软件分会2004年11月15日发布的中国高性能计算机TOP100(www.samss.org.cn) 排行榜的分析。2004年TOP500高性能计算的总性能达到了1.127Petaflops，首次超过千万亿次（Petaflops）；而根据2004年中国TOP100排行榜的数据，中国目前高性能计算的总性能是53Tflops（2003年19.68Tflops），是2003年总性能的2.69倍。

　　TOP500中398个系统的Linpack性能超过了1Tflops；共有296个系统是机群，使得机群成为占据主导地位的体系结构；中国TOP100中，有26个系统的峰值达到了1TFlops，而2003年有10台；共有48个（2003年为26个）系统是机群，其中只有1个（2003年4个）系统是自己搭建的，自己搭建的大机群逐年减少。从这一点来看，机群仍然处在快速增长阶段，但尚未占主导地位。

　　突HPC破五大应用

　　→纳米技术

　　→燃烧模拟

　　→核聚变

　　→气候模拟

　　→空间物理

　　聚焦五大应用

　　目前，HPC主要面向纳米技术、燃烧模拟、核聚变、气候模拟和空间物理等五个领域。而为了达到这一目标，美国制定了三条路线……

　　美国DARPA在2002年启动了HPCS(High Productivity Computing Systems)计划，其主要目标是为了“填补当前基于80年代后期技术的HPC和未来的量子计算技术之间的高端计算”，提供一个经济可行的、整体设计的新一代系统，该系统的性能、编程效率、可靠性和便携性要有重大的突破。整个计划分为三个阶段，第一阶段为概念评估阶段，第二阶段到2006年为系统和关键技术评估阶段，第三阶段到2010年为研发和系统实现阶段。到2003年7月该计划第一阶段完成，Cray，IBM和Sun公司正式入选第二阶段。

　　目前，国际上除了在地球模拟器上的应用程序实际性能水平达到系统峰值的30%到50%，即十几万亿次的水平之外，在其它采用商业机器基础上搭建的高性能计算机的实际应用程序水平都在5%到10%徘徊。为此，美国成立了Leadership Computing Consortium(LCC),成员包括LBNL、SDSC、NCSA等国家实验室。其制定的近期目标是在2007年左右达到实际应用程序性能50万亿次的目标，并能在Petaflops平台上发挥出系统峰值的30%到40%，两套系统的名字分别为LCS-1和LCS-2，主要是和IBM公司合作。

　　目前确认的主要面向的应用领域包括纳米技术、燃烧模拟、核聚变、气候模拟和空间物理等五个领域。为了达到这一目标，美国制定了三条路线，分别如下:

　　1) 并行向量机(PVP)路线：最贵的专用机器，在体系结构的所有层次采用已知的对科学应用成功的专用部件。该计划的最初成果就是目前正在进行广泛评测的Cray X1系统；

　　2)虚拟向量机路线(Virtual Vector Architecture)：用第一路线的一半经费的高性价比机器。其处理器采用商用处理器，但却采用能够象向量机一样进行程序设计的新体系结构。IBM将会和Lawrence Berkeley 国家实验室合作实施该体系结构，并在2005年下半年发布160Tflops的Blue Planet机器；

　　3)片上系统路线（System-on-a-chip）：最便宜的机器。目前正在开发的蓝色基因工程是目前来看最有希望达到Petaflops峰值目标的机器。IBM公司将会和Argonne国家实验室合作，希望在2005年开发出180Tflops的系统。

　　分析算法是必经之路

　　当HPC已经明确了主要应用领域之后，接下来的任务就是如何去实现这些应用。

　　我们已经知道，目前HPC确认的主要应用领域包括纳米技术、燃烧模拟、核聚变、气候模拟和空间物理等五个领域。而满足这些应用领域需求的最有效的计算机体系结构设计方法是分析这些应用所采用的算法，然后和厂商一起设计为这些算法定制的系统。地球模拟器就是日本海洋科学技术中心的科学家和NEC公司长期合作的成功典范。通过分析发现，算法的如下方面驱动着对一个合适的大规模科学计算系统的选择：

　　1. 多物理，多尺度的计算；

　　2. 有限的并发性，需要更强大的单处理器性能；

　　3.对关键库子程序如ScaLAPACK和FFT的依赖；

　　4. 基于网格的方法和粒子方法的耦合，导致两种规则但未对齐的数据结构的大规模交互；

　　5. 有限差分的广泛使用，需要在多维规则数据访问上的高性能和高存储访问带宽；

　　6. 非规则稀疏和自适应网格(AMR)的大量使用，产生一些非规则的控制语句，使得在向量机器上性能不好；

　　7. 大量的数据并行为细粒度的并发操作提供了机会；

　　对上述应用，超标量和向量计算机都有各自的优点和缺点。超标量基于高速缓存的系统适合于有空间和时间局部性的问题。同时，这类系统也适合于非规则结构的算法和内循环有大量条件分支的代码。但是，很多基于高速缓存的系统由于其设计的首要目标不是科学计算，主存储带宽一般比较低。因此，非计算密集的代码通常在这类系统上性能不好。

　　高端标量和向量的结合

　　对于具有国家重要意义的HPC应用来说，最适合的体系结构倾向于能够结合高端标量和向量系统最好特点的体系结构。

　　Berkeley国家实验室和IBM的长期合作项目Blue Planet超级计算机的设计已经嵌入IBM的新一代Power处理器，并将作为LCS-1和LCS-2的设计基础部件，其对原来的IBM处理器设计蓝图的改进主要在如下几个关键方面：（1）存储带宽的大幅度改进；（2）存储访问延迟的70%减少；（3）每个处理器互联带宽提高8倍；（4）ViVA虚拟处理器扩展，允许一个节点里的八个处理器可以作为一个虚拟处理器使用。

　　ViVA和ViVA2是为了加速大范围科学应用程序的持续性能而对Power体系结构的特殊增强。ViVA是一种编译器支持的程序设计环境，通过使用在Power5和Power6处理器中已有的快速同步技术把多个强大的处理器整合成一个虚拟处理器。ViVA2是对Power6体系结构的扩展，将通过支持更深的存储访问流水隐藏存储访问延迟，加速科学应用的性能。这些扩展将改进可向量化和不可向量化代码的存储访问效率。与严格的向量设计相比，ViVA2的优点在于它在通过向量化高效处理数据并行代码段的同时，提供了通过利用最先进的超标量技术在非向量化代码上也达到高性能的灵活性。这些解决了由于数据访问模式的不规则所带来的各种标量存储性能下降问题，其中包括低效率的硬件预取、存取指令发送速度限制和部分利用的缓存浪费等。

　　对领袖级系统的关键科学需求可以提炼为三个主要系统特点：处理器性能、互联性能和软件。处理器应当对大范围的应用具有优秀的持续单节点性能；互联网络应该在提供包括延迟和带宽在内的链路高性能的同时，具有很高的对分带宽。高的系统利用效率需要经过验证的系统软件可扩展性和优化的数值数学库。

　　从目前的状况来看，在2007年前，能够满足上述目标的美国机器厂商只有IBM和Cray。而通过分析最新的体系结构和价格信息，最终能够在2007年提供所需的最好解决方案的厂商只能是IBM。目前提出的计划是通过两阶段计划在2007年达到持续应用性能50TFlops的目标：LCS-1和LCS-2。将在2005年6月安装LCS-1，而在2007年11月安装LCS-2。

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

超级计算机生存实录

业界热点: