科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道周会群教授:IBM服务器充分满足高性能计算需求

周会群教授:IBM服务器充分满足高性能计算需求

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

随着4月一号英特尔最新处理器架构Nehalem的推出,4月2号IBM公司罕见的以最快速度推出了新一代基于英特尔至强5500系列处理器的System x服务器以及相关软件。

来源:IT168 2009年4月14日

关键字: 服务器 IBM

  • 评论
  • 分享微博
  • 分享邮件

  随着4月一号英特尔最新处理器架构Nehalem的推出,4月2号IBM公司罕见的以最快速度推出了新一代基于英特尔至强5500系列处理器的System x服务器以及相关软件。这在IBM的X86服务器发布史上是绝无仅有的,这也充分证明了IBM对基于Nehalem架构至强5500处理器的重视程度。在这次发布会上,南京大学周会群教授作为用户代表,讲述了IBM服务器如何充分满足高校科研的高性能计算需求。

  周会群教授先介绍了一下南京大学高性能计算的项目,他表示:南京大学正在建设一个35万亿次每秒的高性能计算设施,这在目前中国高校里面应该是名列前茅的,在全国范围作为一个整体的集群,也应该是在前列的位置。

  南京大学的高性能计算中心的建设选择了IBM。这一个高性能计算中心的大致的概况应该是它提供理论峰值大概是35万亿次浮点运算的这么一个计算设备,它的CPU是基于刚刚发表的Intel新一代至强5500系列的处理器,同时它有402个两路四核IBM的最新HS22刀片服务器,同时每一台服务器包含12个GB的内存,整个集群有两个288端口的高速InfiniBand交换机进行高速联网,而且我们用了最新技术的infiniBand网卡。另外我们有50个TB的并行文件系统,有2个原数据服务器和10台I/O节点组成,提供6GB每秒的输入输出带宽,能够保证我们整个集群平稳、持续的、安全、高效的运行。

  另外还有100个GB的存储,10个登陆节点,所有这些,之所以选择了IBM,我们就是通过比较我们认为这样一个解决方案,可以为南京大学的科研服务,它能够满足我们物理、化学、材料、电子、天文、地球、大气和生命等学科的高性能计算的需求。

  IBM本身在今年年初倡导了智慧的地球这样一个愿景,智慧的地球认为未来的世界具备一些特点,它的目标是让这个世界的运转更加的智能化,提高性能、提高效率、提高生产力。我看了这个,我也觉得,实际上同样一个理念,或者说我们现在在科学研究的领域里面,我们也在实践这么一个愿景。因为作为了解和探索自然的科学研究,它的研究手段的多样化、效率化,也为我们在各个学科领域里面挑战更加复杂的问题提供了契机。同时,也给予我们更多的洞察自然奥秘的能力。

  我们科学研究为什么会需要这样一些高性能计算设施?这是因为高科技的发展为科学研究的手段也带来了革新和进步。过去我们依赖于理论科学和试验科学,我们通过理论科学来提出关于自然现象的假说,我们归纳总结物理模型和数学模型。而实验科学验证现成的理论假说,提供新的实验设施,修正理论。由于计算机的巨大进步,使得我们有条件利用计算机来进行实验室里面不可能复现的一些实验,因为大家可能知道,虽然实验永远都是科学研究一个最根本的方面,因为实践是检验真理的标准,任何理论必须通过试验事实的验证才可能成立。

  但是,我们也可以知道,有正确的理论引导我们同样可以得到自然界的一个正确的结果。而且理论的研究,我们通过计算机上的模拟,可以使得我们实现各种在实验室的条件下不可能复现的那些复杂的自然过程。

  因此,我们说,现在计算科学,已经成了理论研究的一个辅助工具,和进一步进行实验室试验的一个导航设备,这是计算科学的重要性。

  我刚才介绍过,我来自地球科学这样一个学科领域,大家可能会奇怪,为什么地球科学需要高性能计算机。大家知道,去年我们国家发生了汶川大地震,很多人都在问,为什么会发生大地震?为什么科学家没有能够预报地震?关于后一个问题,我可以告诉你们这个预报基本上是可能的。就像我要求你们说出明天的股票市场哪一支股票该涨还是该跌,没有人说的出来,但是把大盘走向说的大致不离的人可能有不少,关于地震也是这样。

  不过科学家兴趣更加集中在地震发生的机制是什么?因为现在不能预报地震是因为我们连地震产生的机制详细的我们都不是太清楚,因此还谈不上预报工作。再一个,地球的磁场,磁场是怎么产生的。比如说,我们知道地球是一个活动的星球,地球内部存在着运动,它的运动动力来源何在。就是地慢热对流发生它的机制是什么。与此有关联的是我们在地表或者近地表我们可以发现各种各样的矿产资源,金属矿层、能源、石油、天然气、煤炭,它们的形成条件是什么?为什么在这个地方可以发现大型的金属矿产?在另一个地方就找不到?

  在这个地方,在南非有金刚石大量产出,但是在世界其他国家很难找到它。原因在什么地方?这些都是地球科学研究的对象。而地球科学研究对象的特点在于规模宏大、历时漫长,在地球科学领域里面百万年只是一个极短的瞬间,再一个规模宏大、错综复杂。它所涉及的是地球内部极端条件、极端高压和高温,分别是地表的几千倍,压力甚至是我们的几百万倍。可以用一句话来概括,上天有路、入地无门,这是我们研究地球科学碰到的一个最大的障碍。

  在实验室里面,多数的地球微妙的现象、复杂的现象是没有办法像其它学科那样复现出来的。因此,计算机模拟,通过高性能计算机,通过一个正确的理论指导来辅助我们的虚拟试验,那就成为一个必不可少的手段。

  在我们南京大学的这个领域在做什么事情呢?我们实际上在建立一个大规模计算机集群的微观现象虚拟实验探索平台,我们主要做的可以说是虚拟高温高压实验,我们的研究对象主要是地球和行星内部的物质的物理性质,包括我们研究纳米孔隙里的流体是怎么流动的,这些内容主要用在石油开采、天然气开采有实际应用的一些工业部门的方面。

  另外我们还研究地壳的运动,大家看到,我们有山脉的形成,这些都是因为地壳经过大规模的挤压变形以后形成的结果,它是一种高度非线性的变化,我们如何模拟这类的地壳运动呢?我们是通过沙箱试验,而且这个沙箱试验是在计算机里面来做的。这是我们研究问题一些很小的方面。接下来大家就会想了,为什么我们需要那么巨大的计算能力,一台服务器,Intel的一个CPU的能力已经有成倍甚至几十倍的增长。为什么你们要用几百台甚至几千台计算机连接起来做这样高性能计算呢?我可以给大家做一点解释,因为到了现在,我们科学研究对于很多领域都是我们越来越深入物质的微观层次来考虑这个问题。因为大家在学物理甚至在学哲学的时候,都知道物质的内部是在运动的,原子和分子在运动,它们运动的方式决定了物质呈现出来的性质。所有的物质到了微观层次都变成了原子和分子,所以到了这一个层次以后,科学的很多领域最终都统一起来了,物理和化学再也没有了区别,地球科学,我们所研究的手段和依据的理论,也都跟物理和化学没有区别。在微观尺度上研究问题的时候,会有空间尺度和时间尺度的制约,这两种制约决定了模拟计算的复杂性。在微观上考虑原子分子运动的时候,纳米、纳秒这样的概念已经可以称得上是漫长和宏大。

  为什么这么说呢?具体说,对于大多数的金属来讲,一个立方米大小的这么一块金属物质,大概包含有10的22次方这么多个离子,我们现在用微观理论方法研究问题的时候,考虑到那么多的原子分子在相互作用下 运动,因此这个相互作用的量是巨大的。两两相互作用,它作用的对数应该是N的平方这样一个量级,N就是我刚才所说的你所研究的物质内部含有多少个这样的原子,大家想想,这是一个非常巨大的数字。现在的计算机还远远达不到这样的目的。

  总体来讲,我们现在在高性能计算机上,顶多可以做到10的9次方或者10的10次方这样的离子模拟,在时间跨度上,我们顶多做到几十个纳秒这样的时间跨度。但是对于很多很多现象,尤其是在生命科学当中的很多现象,他们的时间跨度在毫秒级甚至在秒级的,这样的现象,对于我们现在能够提供的计算能力来讲,还是太巨大了一些。因此,我们科学计算对于CPU,对于计算机的进步可以说是有无止境的要求。

  这个无止境的要求还表现在现在的科学研究发生了重大的变化,我们现在因为有了更好的手段,我们必须更加智能化地来研究我们的问题,因此我们考虑的问题更加深入。过去研究微观的人研究微观现象,研究宏观现象的人研究宏观现象。现在我们发现,事实上自然界的问题本身就是从微观到宏观,都涉及的。因此我们应该有一个统一的观点,我们应该按照自然本来的面目来研究它,因此就有了多尺度的模拟。多尺度的模拟指在我们研究一个问题的时候,把微观、介观到宏观的现象我们综合起来考虑。比如考虑一个岩石断裂,发生地震的时候岩石断裂,怎么断裂的?是从微观上发生断裂的,首先是原子发生位错最后引起了断裂,因此本身就涉及到了微观现象,也涉及到的宏观现象。

  再一个有多种物理过程控制的,不仅有压力的控制,而且有温度的控制,而且会耦合其他很多很多的问题。比如说研究流体动力学的人以前只是考虑流体,但是要考虑流体和固体之间的相互作用。比如说我们考虑海上的一个钻井平台,我们更加关心海浪如何影响我们的钻井平台,而不仅仅研究海浪怎么运动。我们关注的是海浪一旦打在钻井平台上,在台风来临的时候,我们的钻井平台还会不会安全,因此这就涉及到了固体和流体之间的相互作用,这就是所谓的多物理。这样的现象,在现在所有的学科领域,都越来越被更多的人认识到了。我们应该有一个更广、更深入的观点来考虑我们所研究的问题。

  现在我说了这么多。我再来具体地介绍一下我们在这样一个过程当中,我们是如何来考虑我们怎么来选择我们需要什么样的计算机,这里面我只提一个例子。在我们的测试过程中,也是一直得到了IBM公司的大力支持,我们实际上从IBM的刀片服务器的第一代,从它们的HS20到HS21,到现在的HS22,我们都做过这样的测试。这只是其中一个例子,这个例子用在材料科学、凝聚态物理包括地球内部物理,我们研究地球内部物质所经常用到的程序,这个程序是基于量子力学的密度泛函理论这么一个平面波验试方法,目的是为了计算物质内部总能量。

  大家看这样一个柱状图,左边是使用Nehalem处理器的,右边是使用Intel的上一代的处理器Harpertown,但是大家注意有一个差别,这两个处理器我们所测试的平台,新的Nehalem测试是2.4G的,上一代是更高频率是2.83的。但是大家可以看到,对于这样一个例子,我们在一个核上,一直到八个核上。性能都是优于前一代的产品,大家可以看关于效率,上一代的产品到了8个核的时候,并行效率只有46%,而现在将近70%,因此它的协同处理能力有大大的提升。

  这是一个比刚才例子规模要更大一些,我们主要是考察问题规模的增大对整个性能有什么影响。同样我们可以看到,它跟上一个例子是几乎相同的趋势,这个例子我们主要想说明一个频率低一点的新的处理器跟上一代的处理器相比还是具有巨大的优势。

  这个例子我们看到更有趣的现象,在一个核上运行的时候上一代产品优势一点,但是到了八个核大家可以看到,新一代的处理器上,新一代的刀片服务器性能已经远远高于上一代的产品,他们的并行效率大家关注一下,上一代产品到了8个核的时候,对于同样的问题,它的并行效率只有33%,而新一代的刀片服务器。达到了93.4%,这是一个非常非常高的协同工作的效率。

  最后这个例子,是一个更大规模的,这个我们没有比较,因为上一代的产品内存比较少,这个是需要12个GB的内存,但是大家可以看到,我想展示的是从这一点我们可以看到,它的从一个核到八个核几乎是一个线型的加速,有一些是超线型的加速,它的效率在98%以上。

  由此我们通过前后三代产品的测试得出这样的结论:

  第一,新的HS22这样一个高性能产品比前一代产品可以提高60%的性能。第二,新的HS22产品节能也有了很大的改善。刚才PPT里面没有把数字列举出来,在刀片服务器当中它处于领先地位。第三,IBM在高性能计算方面本身具有雄厚实力,在建造高性能计算机方面也有丰富的经验。南京大学对未来与IBM之间全方位的合作我们充满了信心,这些就是我们选择IBM最重要的理由。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章