扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:ZDNetserver频道 【编译】 2013年06月14日
关键字:
ZDNet至顶网服务器频道 06月14日 编译: 来自国防科技大学的教授廖湘科在本次于中国长沙举行的国际高性能计算论坛上,透露了天河二号大规模并行超级计算机的一系列细节,其中某些信息几乎立刻就被泄露至会场之外。
在Linpack基准测试领域享有盛名的美国田纳西大学教授Jack Dongarra也参与了此次会议,并根据廖先生的描述汇总出一篇天河二号设备的规格报告。在这份一周多之前公布的报告中,Dongarra表示天河二号将极有可能在此次超级计算机五百强评比中登顶。
天河二号设备之所以值得关注,原因有很多方面。首先,中国多次超越美国,雄居超算领域王者地位,并在超级计算领域把欧洲和日本击败——至少单从浮点运算能力角度看是这样。
天河二号超级计算机效果图
天河二号的出现也等于向全世界宣布,中国关注的绝不仅仅是大规模并行计算,更将目光放在千万亿次级别,并终将有一天会把惊人的运算能力融入军事、产业乃至气象模型等多个关键领域。
与其它超级大国一样,我们有时候很难分辨技术力量在军事与商业利益方面的区别,显然,中国现在有足够雄厚的财力进行超算研发,而且显然也乐于做出尝试。而从长远角度看,如果大家相信高性能计算有能力充当产业进步的推手,那么美国、日本与欧洲经济体系都将面临同一个难题:他们必须像当初宣传登月那样,将高性能计算上升到国计民生的高度,而且需要进行数十年的长期投入。
事实上,天河二号采用英特尔至强处理器与至强Phi协处理器的组合,这意味着尽管中国一直在努力开发拥有自主知识产权、基于MIPS的龙芯处理器以及Sprac衍生处理器,但目前其仍然无法完全依靠自有芯片将设备推向超算五百强顶峰——甚至连跻身榜单前列都有困难。毫无疑问,这个问题一直是中国政府乃至中国技术行业心中的痛处,也再度证明芯片创新产业绝非看起来那么简单。
由中国构建起的天河1A与天河二号设备确实采用了其自主设计并测试的“Arch”互连机制,由此积累的大规模并行应用程序经验将一步步引导中国最终推出完全本土化的高性能设备。随着中国的财富日益膨胀,技术行业能够通过向美国供应商采购处理器与协处理器产品推动自身的快速成长,并保持其与世界先进水平看齐的能力。也许这个过程要花很长时间,但美国最担心的无疑是中国利用其芯片产品组建起规模化超算方案,再反销至美国及欧洲等地。
天河二号值得关注的另一大理由在于,这是自ASCI Red设备被安装在美国桑迪亚国家实验室(归属于美国能源部)以来,英特尔第二次以完全独占的方式将自身的产品组建的超算平台推向五百强首位。虽然三年前曾经成功问鼎的天河1A也采用了至强处理器,但使用的加速器却是英伟达公司的Tesla。而且英伟达公司此次也参与了天河二号的项目投标,但很显然英特尔至强Phi协处理器在天河二号中处于主导地位。
当然,在一定程度上英特尔并不能只讲芯片销量而不考虑其它因素,毕竟要想在美国的超级计算中心内普及自己的CPU加协处理器组合,就不能与中国显得过分亲近——这其实是一种微妙的平衡关系,而且参与其中的各个方面都显得有些高深莫测。有传闻称天河二号的造价要远高于其它低成本竞争对手(某些设备的造价仅为1亿美元)。但英特尔公司本身显然无意向任何方面透露天河二号的构建成本,相信这是迫于中国政府的压力。大家普遍认为整套设备的成本约在二到三亿美元之间,不过中国政府对此未发表任何评论。
英特尔、Sparc与Arch共襄盛举
天河二号系统的具体配置与之前的一些披露传闻大致相同,我们当时认为英特尔公司会为这套设备提供一套尚未面世的高端至强Phi 7000系列协处理器,并会同3000及5000系列一同推出。但经过思考后,我们认为国防科技大学可能最终选择同样来自英特尔的“Ivy Bridge-EP”至强E5 v2处理器,并将其与嵌入式(意味着体积更小、价格更低)版本的3000系列至强Phi协处理器相结合。
事实证明了我们的后一种推测,效果拔群但不足以激动人心。至强Phi 3000无疑要比至强Phi 7000以及至强与安腾处理器便宜得多,历史上无数惨痛教训告诉我们、花高额价钱买顶级配置一直是非常大头的行为。与标准化组件相比,渴望峰值性能的用户往往要在芯片上大量投入。
根据Dongarra的汇总报告,天河二号目前已经在国防科技大学校园内组装完毕,但尚未调整至最佳布局状态。后续工作将在年底整体设备转移至广州国家超级计算机中心后进行。系统主板、系统安装与测试工作都由中国的服务器供应商浪潮公司负责。
处理器和加速器配置
在天河二号系统的x86组件部分,国防科技大学选择了顶级Ivy Bridge-EP方案。根据Dongarra的说法,这实际是一块十二核心至强E5 v2芯片,主频为2.2GHz,但目前英特尔公司并未正式公布新处理器的核心数量,英特尔本打算在今年秋季公布这些至强E5 v2处理器。
不过正如八核心“Sandy Bridge-EP”至强E5 v1芯片一样,英特尔公司已经在产品正式推出前大幅提高产能,并挑选某些大型高性能计算客户作为处理器的首批使用者。如果克雷公司还没有准备好将新处理器纳入其“Cascade”XC30以及XS300(即原先的Appro Xtreme-X)设备,那么国防科技大学也许将成为至强新产品唯一的一家早期使用客户。Appro曾被选为上一代处理器的首批试用平台,惠普最近则大谈Moonshot、且明显将精力放在了ARM服务器领域,思科则已经在四年前赶上过至强5600的早期选拔。IBM公司前几个月一直在张罗打包出售其x86服务器业务,虽然Power System与System z大型机产品线还不至于迅速消亡。
天河二号刀片计算机的布局颇具时代感,而且与三年前的天河1A系统相比容纳了更多计算元素。这些计算元素——包括至强CPU与至强Phi协处理器——在浮点运算能力方面得到显著增强。总体来看,在同样尺寸的机架中天河二号拥有更为丰富的计算资源。
天河1A系统采用Arch网卡与两块双插槽至强处理器,二者位于整体计算模块顶端,两块通过PCI-Express 2.0 x16与处理器对接的英伟达Tesla卡则位于模块底部。
在天河二号方面,Arch互连体系与两个Ivy Bridge-EP节点似乎被安置在同一块电路板上。计算节点与至强Phi协处理器共同瓜分了机架空间——左侧空间归计算节点、右侧则容纳五块至强Phi协处理器,且二者都可以单独抽出。
上图来自天津国家超级计算中心的天河1A机房,图中一位技术人员正尝试从机架中抽出一个计算节点。但节点本身太过沉重,他居然无法将其推回原位。
天河二号滑轨支架中的设备更多,为了防止这种情况再次出现,浪潮公司决定将原本的抽屉分为两半,借以简化维护工作。国防科技大学将这种新机制称为“水平软百叶推拉结构”,这是一种非常先进的方案,计算节点一侧的电路板拥有分布均匀的连接装置、能够与另一侧经过调整的至强Phi 3000系列卡后端严密契合。只需解开锁扣,这些连接件就会打开、工作人员可以根据实际需要拉开某一半支架并实施设备维护。
运行中的天河二号至强Phi推拉支架
至强Phi卡目前只支持PCI-Express 2.0接口,但天河二号已经配备了PCI-Express 3.0 x16连接,因此能够顺利对接英特尔公司未来推出的任何新型至强Phi协处理器。
每个至强E5 v3节点拥有64GB主内存,设备中的32000块处理器共计拥有384000个运算核心,处理器时钟频率为2.2GHz。这意味着天河二号单单靠x86处理组件就能带来高达6.76千万亿次峰值浮点运算能力。
国防科技大学此时拿到的至强Phi特别版本被称为31S1P,这里的P是指被动散热机制。Dongarra指出,这块至强Phi卡拥有57个运算核心,能够带来1.003万亿次双精度浮点运算能力。这样的处理强度与去年九月采用主动散热机制(也就是风扇散热)的3120A完全一致。3120A仅拥有6GB DDR5显存,而国防科技大学拿到的31S1P则与至强Phi 5110P卡一样拥有8GB显存。31S1P共有60个可用运算核心,但时钟频率稍慢一些,这意味着其运行功耗更低、发热量也更小。31S1P协处理器的售价为2649美元,比3120A贵了约三分之一。总而言之,4800块至强Phi协处理器为天河二号带来高达274万的庞大运算核心数量,双精度运算能力峰值为48.14千万亿次。至强CPU与至强Phi协处理器联手之后,天河二号的总体运算峰值达到54.9千万亿次。
与其前身一样,天河二号也采用了自主开发的Sparc类集群。国防科技大学创建了自己的Sparc芯片衍生方案,也就是Galaxy FT-1500——该芯片拥有六核心、主频为1.8GHz,采用40纳米制程技术、功率约为65瓦,且能够提供1440亿次双精度浮点运算性能。天河二号设备在节点中采用了4096块此类处理器,其总体运算能力为590万亿次。不过这么有限的提升可能没人会在乎吧。
Dongarra曾见证了天河二号设备以14336个节点、每个节点配备50GB内存的阵容运行过Linpack并行Fortran基准测试;天河二号最终交出了这样一份成绩单:双精度性能峰值为49.19千万亿次、Linpack稳定性能30.65千万亿次、计算效率为62.3%。这样的水准极有可能将在六月的新一轮全球超级计算机五百强比拼中毫无悬念、甚至有些“浪费”地摘得桂冠。
网络互连机制
根据Dongarra的说法,此次天河二号系统中最有趣的部分可能当数Arch互连机制,也就是大家耳熟能详的TH Expresss-2。Arch互连机制的核心是一台高Radix路由器,正如英特尔的“Gemini”以及“Aries”互连一样;另外,Aries也同样采用以电线实现短途跳步、以光纤实现远途跳步的综合性方案。另外,Arch与InfiniBand网络一样采用了胖树状拓扑结构,也正因为如此很多人认为Arch是InfiniBand的增强版本,不过国防科技大学宣称这套机制采用了专有协议。
由国防科技大学创建的TH Express-2 Arch互连机制
Arch网络拥有十三台交换机,每台提供最多576个端口,且配备被称为NRC的路由芯片。这大概是网络路由芯片(network router chip)的简称,其传输能力为每秒2.76Tb。Arch网络接口芯片当然就称为NIC(network router chip)了,其接口数量少得多(只有675个,远低于路由器的2577个),但在设计上却拥有相同的芯片尺寸。这款Arch NIC与计算节点上的PCI-Express 2.0插槽对接,似乎每个节点都拥有自己的Arch端口。这些NIC端口接入被动电子底板,并将本地服务器节点彼此连接在一起。十三台576端口交换机被用于连接胖树状结构中的各机架群组。据推测其传输通道将采用光纤。根据描述,底板的传输能力为每秒10Gb或者14Gb,而且我们还不清楚这是两种可选带宽还是底板不同组件必须以这两种不同速度实现传输。
Dongarra指出,广播MPI操作能够在Arch互连体系中以每秒6.36GB的速率进行,且天河二号系统中1KB数据包在12000个节点之间的传输延迟约为9毫秒。据称Arch将采用专有协议,是对不同技术的一种杂烩式糅合,而且与InfiniBand拥有惊人的相似之处。
天河二号整体拥有125个计算机架、13个Arch交换机机架——总机架数量为138个。另外还有24个存储机架(每个拥有12.4PB存储容量),也可以算到系统总体规模当中。设备采用由国防科技大学为中国军方开发的Kylin(Linux系统变体)以及H2FS文件系统。这台性能巨兽在低功耗模式下的功率为1740万瓦,其全封闭水冷系统则能够应对2400万瓦工作模式的巨大发热——冷却过程产生的废水将被用于为广州市供暖。