科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道高性能计算NVIDIA:欢迎进入混合计算的时代!

NVIDIA:欢迎进入混合计算的时代!

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

在最新一期的中国HPC TOP100的榜单中,我们能明显的看到排名前三的都是基于英伟达(NVIDIA)的Tesla GPU+CPU的混合计算系统,尤其是前两名的系统,“星云”在今年5月份的全球TOP500名单中位列第二,而最新发布的“天河一号A”,若以5月份的TOP500榜单成绩来看,已经是全球第一。

作者:赵效民 来源:ZDNet【原创】 2010年11月3日

关键字: GPU HPC NVIDIA

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共4页)

在最新一期的中国HPC TOP100的榜单中,我们能明显的看到排名前三的都是基于英伟达(NVIDIA)的Tesla GPU+CPU的混合计算系统,尤其是前两名的系统,“星云”在今年5月份的全球TOP500名单中位列第二,而最新发布的“天河一号A”,若以5月份的TOP500榜单成绩来看,已经是全球第一。这显然已经足够引起世界HPC领域的重视,因为它们都不再是纯CPU的HPC系统(5月份的TOP500第一名还是纯CPU的HPC系统),而且是来自于中国——这个似乎在IT领域还算不上发达国家的地区,所以的这一切似乎也预示着某种趋势与内在的规律,为此我们也专门采访了NVIDIA公司GPU计算事业部总经理Andy Keane先生,以及英伟达公司中国区PSG高级销售经理谢强先生。

NVIDIA公司GPU计算事业部总经理Andy Keane先生

中国已经站在世界HPC系统发展的前沿

记者:我们看到最新的中国TOP100名单中,前三名全部是采用GPU的混合计算系统,而且前两名,还分列全球TOP500强的第一和第三名,但是从全球的TOP 500强来看的话,采用GPU混合计算系统却很少见,好像中国现在比较热衷于GPU异构计算系统的开发,而且越做越大。NVIDIA公司怎么看待中国在GPU异构计算系统上的表现,跟国际上的其他企业有什么不同?

Andy Keane先生:如果你看全球500强这些企业,目前可能只有4台计算机用的是加GPU的异构计算方式,现在第三台超性能计算机是中科院IPE,在北京建的一台计算机。中国确实是最早先使用GPU的国家,另外,中国应用GPU的确历史最悠久,中科院也有一系列的规划,更广泛的使用在GPU系统中。但是在其他的企业,他们首先是进行小规模的GPU安装,之后再迁移到自己基于CPU的大的系统平台上,这是在国外的做法。

我相信在11月份发布的500强的企业中,你会看到更多的企业在使用CPU+GPU异构处理方式,当然在中国的企业的名字已经发布了,但是其他很多的使用混合处理器的企业将会在11月发布,基本上都是国外的企业。为什么呢?因为CPU+GPU有独特的优势,包括高性能以及高能效比两方面。

记者:还是联合中国的市场,我们也知道“天河一号”去年发布的时候,它是中国TOP100的第一名,那时候他用的是AMD的4850,可能很多人会有疑问,到今年怎么都换成Tesla,我们也知道一些原因,想请NVIDIA公司具体给我们阐述一下,“天河一号A”基于什么样的考虑让他们最后把AMD的4850换成了Tesla?

Andy Keane先生:最主要的原因就是软件,NVIDIA公司提供了一个范围非常广的编程环境,使开发人员的能力得到很大的加强,所以说,主要还是提供了非常良好的编程环境。人们一般情况下会更多的关注语言,就系统而言真正关注的有两类人:一个是应用开发人员;另一类是对IT系统进行维护的人员。我们支持的ECC,首先它可以进行很好的SMI的管理,另外它也有一些软件工具,帮我们更好的管理集群。一方面可以进行很好的应用开发,另一方面还可以管理集群,所以这两者加在一起才使得系统表现的如此出色。一方面你要考虑这个系统是谁建造的,另外一方面还要考虑,是谁让建好的系统能够得以应用,这两个因素缺一不可。

像“天河一号A”里面用了7000多个GPU,放到一个系统中,除了开发应用技术之外,还有管理、维护的大量工作,而我们正好有这样管理、维护的技术,可以帮他们更好的管理。

记者:是否可以认为中国在基于GPU的应用开发也走在世界的前面?比如基于使用CUDA的这种编程环境,中国混合编程的团队或者技术实力,你怎么看待它在全世界的水平?

Andy Keane先生:没错,可以这么说,就像刚才提到的中科院的IPE高性能计算的应用,这是一个例子,还有很多其他的例子,中科院还有很多其他的应用。其实,高性能计算是两个问题:一是,高性能计算让计算技术加速,本身是加速的问题;二是在应用上了,我们希望所有的科学家也好,工程师也好,都能够应用这样高性能计算的工具,来解决生活当中所面临的问题。一个是本身加速的问题,另外一个就是应用的问题。

记者:我们今天看到中国的TOP100里面前三名都采用了Tesla的GPU,但是我们发现效率有很大的不同,第一名可能最高,达到53%,第三名才达到18.5%,我们也看到了第三名的成绩,也用到了所谓的GPU Direct加速的互联技术。第一套系统据说用的是国防科大自己开发的一个专用的互联网络,能够达到160G的双向带宽。从GPU采用角度来说,NVIDIA公司对混合计算的效率有什么看法,或者说对于未来采用混合技术的开发人员有什么忠告,采用什么样的架构来保证混合计算体系架构的一个更高效率?

Andy Keane先生:系统的实际运行效率是由他所要运行的应用所决定的,你刚才提到的,效率比较低的第三套系统,它大多的工作就是处理分子动力学和离子仿真。它的应用就导致你需要对它的架构进行一定的设计。新的天河一号A它主要面临的应用,是希望尽可能的处理广泛的应用,我们也需要进行不同系统的设计。所有超性能计算机会用于不同的终端,只是现在比较普遍的衡量他们性能的标准都是Linpack值。

谢强先生:我补充一下,高性能计算机设计体制结构的两种方式:一种是有应用主导,然后设计计算机;第二种是我要设计一种通用的高性能计算机。所以大家设计计算体系结构的思想是不一样的。比如中科院的方式,他们是先有了应用,先有了离子仿真和分子动力学的应用,完全是按照他们的应用,他们的应用在上面跑的效率最好。但是非常不幸的是,今天世界排名只用Linpack的测试软件,中科院的系统设计不是了Linpack设计的机器,他们是为了自己的分子动力学和离子仿真设计的机器,这样就导致用同一个测试程序测试的时候,结果会有比较大的差异。但是天河这台机器是为了不同的应用,它的设计更通用一些。

其实就Tesla本身的效率来讲,在中科院他们自己的应用上,效率是非常高的,可能能达到70%、80%,甚至90%,非常高的效率。为什么会有这样的原因呢?分子动力学和他们那种计算模式,在不同的节点之间做计算的时候没有节点之间的通讯,而Linpack的程序节点之间是有通讯的。应用不一样,是造成这个问题最主要的原因。但是目前大家没有更好的衡量高性能计算的方式,Linpack已经是不错的了,大家默认Linpack测试了,不断你是什么结构设计的机器,我都用这个测,大家有一个排名了。

记者:现阶段,中国在高性能计算上排名比较靠前,是不是说现在中国在高性能计算方面处在领先的地位,你对未来中国的高性能计算怎么看呢?

Andy Keane先生:毫无疑问中国占据了领先地位。新的500强将会在1个月之后发布,我相信对于应用来说,不仅仅是因为应用了GPU,在系统设计以及架构的安排上也是发挥了一定的作用,只有这两点综合起来,才能够让你的应用处于领先的地位。对于任何行业来说,如果你想成为行业领先的企业的话,其中一个方式就是采用最新的技术。

所以我相信,你看到英特尔和NVIDIA公司两家企业,两个观点是具有非常鲜明对比的,比如说英特尔的观点就是对过去的一种延续,一步一步的延续到未来。但是对于NVIDIA公司来说,尤其是中国的高性能计算,因为采用的是最新的技术,也获得了最新技术带来的优势。所以,在中国前三大HPC系统就是因为采用了新的技术,使他们能够把这个优势应用到最好。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章