科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道高性能计算专访:天河一号A、天津超算及NVIDIA高层

专访:天河一号A、天津超算及NVIDIA高层

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

2013年1月17日,ZDNet China记者参观了国家超级计算天津中心的天河一号A超级计算机,并对国家超级计算天津中心的刘光明主任和NVIDIA(英伟达)公司PSG全球副总裁Shanker Trivedi做了媒体采访。

作者:盘骏 来源:ZDNetserver频道【原创】 2013年1月22日

关键字: HPC GPU 英伟达 NVIDIA 高性能计算

  • 评论
  • 分享微博
  • 分享邮件

ZDNet至顶网服务器频道 01月22日 新闻消息(文/盘骏): 2013年1月17日,天津经济技术开发区、国家超级计算天津中心以及视觉计算技术行业领袖NVIDIA(英伟达)公司正式举行签署仪式,三方将共同打造联合实验室。天津经济技术开发区管理委员会副主任张国盛先生、国家超级计算天津中心刘光明主任以及NVIDIA公司PSG全球副总裁Shanker Trivedi先生共同出席了此次仪式。三方合作将共同致力于提升国内超级计算机技术整体水平,同时也为中国超级计算机领域培养更多优秀人才而努力。随行记者参观了国家超级计算天津中心的天河一号A超级计算机机房并采访了国家超级计算天津中心的刘光明主任与NVIDIA(英伟达)公司的高层Shanker Trivedi先生。

天津、国家超算及NVIDIA联合实验室签署
国家超级计算天津中心刘光明主任与NVIDIA公司PSG中国副总裁Ashok Pandy先生签约共建联合实验室仪式

天津、国家超算及NVIDIA联合实验室签署
记者一行参观的天河一号A超级计算机,详细的解析请期待ZDNet China的后续报道

  以下为国家超级计算天津中心与NVIDIA(英伟达)公司高层专访接受记者采访实录:

NVIDIA(英伟达)公司中国区高级市场经理金洋

  今天非常高兴可以请到国家超级计算天津中心刘光明主任和NVIDIA(英伟达)公司PSG全球副总裁Shanker Trivedi一起参加媒体采访,今天都看到了天河一号A非常令人骄傲的计算中心,也看到了非常多的应用,现在我们请他们跟大家好好沟通一下,对于天河一号A的应用以及发展有什么问题都可以畅所欲言。  

记者:

  从天河一号A的配置来看,主要采用了三种形式的计算单元,分别是Intel处理器,还有Tesla,还有自主研发的飞腾1000。这三种不同架构的CPU各自不同的工作是什么?

国家超级计算天津中心刘光明主任

  天河一号当时提出来一个异构融合的结构,通俗地讲,就是CPU+GPU的组合,它的起源是2005年到2007年,国防科技大学研究通用CPU和GPU加速器的结合来提高超级计算机的计算性能。来由是什么呢?大家可以看到,不管是当前国际上还是自主研发的超级计算机都是千万亿级的计算机,或者更高级别的计算机,用通用CPU去做的话会很难做,因为规模大,功耗高,使用起来效果也不一定很好。一个典型的例子,2011年下半年,当时美国IBM承担了一个美国计算机的研究项目,完全都是通用CPU的方法去构建最快的计算机,结果这个项目流产了。研制它的费用很高,做出的机器规模也很大,占地大,功耗也大。实际上这之前,国防科技大学2005年到2007年就在研究,用通用CPU与GPU加速器结合,当时我们自己做了一个流处理器,结合起来之后发现有很大一类高性能计算机的应用,像流体力学、气动力学、FFT(快速傅里叶变换)、CFD(计算流体力学),还有很多算法都适合这种结构,能解决很多复杂的数学问题,这种结构都是适用的。后来,在2009年的时候,天河一号做第一期工程的时候,当时因为要做一个实用性能比较高的系统,所以就选用了AMD的GPU来替代当时国防科技大学自己研究的流处理器,这样就诞生了当时的天河一号,这个机器当时排名是世界第五,亚洲第一。

天津、国家超算及NVIDIA联合实验室签署
国家超级计算天津中心刘光明主任

  后来我们发现了Tesla 2050,因为AMD的GPU没有ECC校验,而Tesla有ECC校验,所以在2010年的时候,我们做了一个升级,把GPU换成了NVIDIA的Tesla,同时高速互联系统换成我们自己的银河高速互联,换了我们自己强化的操作系统,升级了之后又做了一些优化,做出了天河一号A,整个过程是这样的。

  另外天河一号A是怎么工作的?整体上这个系统分成两部分,一部分是Intel的CPU加上NVIDIA的GPU构成了一个现在新的系统,这个系统在整个天河系统中占7/8,另外1/8的部分是用的我们自己的CPU,飞腾1000,这套系统应该说是实验优化的环境,我们有很多科技计算的程序以及一些应用都在这上面做测试,做实验,有一些应用也是一种实际的应用,不断的调试,测试,完善。

记者:

  近年来在HPC应用方面,NVIDIA的比例越来越大,现在全世界500强的计算机大概有1/10之多用了NVIDIA的加速卡,未来NVIDIA在这方面有什么计划?

NVIDIA(英伟达)公司PSG全球副总裁Shanker Trivedi先生:

  天河一号A向全世界证明了异构超级计算是一个非常好的科学计算,超级计算中心发展的方向。接下来全世界的超算中心都纷纷采用了GPU加速并行计算这样的体系结构,像美国的高性能超算中心、德国的超算中心,都是在他们国家或者是地区最大的系统,这些系统都采用了GPU加速并行计算,而传统的CPU超级计算只贡献了整个高性能计算的10%左右,甚至还要更小,GPU则贡献了大部分,甚至是80%,90%,很多很多都是计算性能是从GPU贡献出来的。我们在硬件体系结构上的发展,都做了非常多预先的研究。

天津、国家超算及NVIDIA联合实验室签署
NVIDIA(英伟达)公司PSG全球副总裁Shanker Trivedi先生

  更重要的是,我们现在有300个以上应用软件。大量的应用软件,解决科学问题的工具已经可以在CPU+GPU这样的异构体系上运行。未来高性能加速计算的方向,已经是一个超算的新纪元,我们可以看到,这是大家公认的,被科学界,被学术界,被产业界广泛采用的一个体系结构。

    关于未来,我留了最后一点,刚才谈了第一点性能,我们的性能非常好,第二关于应用软件,我们很多。最后一点非常非常重要,为什么大家被逼得没办法走这条路,因为摩尔定律要把计算机每十年涨一千倍,现在涨一千倍不是玩笑,因为同时电力消耗非常非常大,现在我们可以用新的异构计算加速的方式,为未来大大的节省超算中心构建的成本,同时节省功耗,降低能源功耗,节省费用。

记者:

  在性能前10名的HPC里面有6个不是用混合架构的系统,我不知道您对这个如何评价?有6台这样的设备出现在最尖端的HPC的系统里面。

国家超级计算天津中心刘光明主任

  国际上出现一个倾向,2010年10月之后,中国的天河一号A获得世界第一之后——同时中国的曙光是世界第三——实际上欧美日政府对它的关注度就提升了。国外新建的超算中心,投资一个新的机器,这个周期都比较长。天河一号A出来之后,这些政府就开始追加一些投资,有些投资可能提前执行了,就是在原来的基础上把它扩充了。所以你看到,去年6月份出的三台都是天河一号A之前的,比较容易做,从政府投资,技术上来讲都比较容易,这是你所看到的前10台。实际上它存在的问题呢,就是要再扩大的话,比较受限,只能满足当前的需要。 

记者:

  我是有一个关于应用方面的问题想请教一下两位,刚才NVIDIA的领导也提到了,未来会把基于Kepler方面的应用推到成千上万个应用,同时今天也成立了这样一个联合的实验室,我觉得未来如何推动异构的编程可能是未来应用很重要的点,我想请教一下两位,在NVIDIA方面,我们在推动异构编程方面未来重点的方向是什么。在刘主任这方面,给我们大家分享一些关于异构编程和应用这方面的经验。

NVIDIA(英伟达)公司PSG全球副总裁Shanker Trivedi先生:

  一般是三种方法来做这种异构上的编程:第一类谈到应用,存在了很多年的,甚至几十年的应用,对于这样一类应用,我们建议采用一种直接编程的方法,编程的标准是OpenACC。OpenACC是一个国际标准,这是开放的,很多人都可以采用的标准的编译的方法,这种方法可以使得传统的,存在已久的软件的改动最小化,因为写这个程序的人有可能都不在了,它可以以最快的方法编到GPU和CPU的异构平台上进行计算,得到加速。举一个例子,在美国的能源实验室里,他们有一个很大的应用,这个软件应用叫S3D,类似像核聚变这样的应用,这个程序有100万行的程序,只改了400行,只改了非常非常小的程序量,大约只有万分之四,通过编译器编译,得到了六倍速度的提升。

  第二种方法,这些新的应用,我们建议用CUDA GPU并行编程的方法,这个架构模型我们可能大家都熟悉,CUDA可能大家都熟悉,实际上就是把传统的C语言,类似其他的高性能通用编程语言进行一点点扩展,只是稍微做了一些语法方法的扩展,大家写程序的方法不变,这样重新写出来的程序效率可以大大的提升,可以在这个程序上跑。什么样的程序最适合呢?像信号处理,图象处理,还有一些科学计算,用这样的方法来提升计算的效率。

  最后一种方法,用一些很多科研机构所用的库函数的方法,NVIDIA提供了很多系统级的库函数,还有很多是大学、科研机构的,还有网上做了很多的库函数。举一个例子,一些很传统的中间件,你升级它的库函数,就可以得到提升,新的函数已经是GPU上的了,而写程序的人并不用关心他们是怎么实现的,只是调用这些名称和函数来做就好了。

  所以总结一下,就是用三种方法,对于长期存在的已有程序,我们推荐用OpenACC,但是对于新程序,或者对性能有追求,一定要求特别高性能的可以用CUDA来进行改写,对于其他一些传统的,比较规范的程序,调用大量函数的,可以用调用库函数的方法来做。

国家超级计算天津中心刘光明主任

  在我们操作中心来讲,天河一号A这种异构结构几个典型的应用还是应用得不错的,最典型的石油勘探数据处理,在天河一号A上已经完成了具有自主知识产权的石油三维历史偏移。这个软件过去是掌握在国外人手上,国外公司手上,对于我们来讲是高价政策,你要买价格很高,有的东西还不卖给你,他自己用还不卖。我们现在通过天河一号A,从2011年年初开始,跟东方物探进行合作,持续做了两年的时间,整体性能从通用CPU的版本上升到CPU+GPU的版本,整体性能提升了大概六倍。同时我们在这个基础上又做了一个基于计算系统做的优化,磁盘的数据处理系统变成一个基于内存的。另外包括现在的气动力学,大飞机的仿真,说得更通俗一点就是数字风洞的处理,还包括一些典型的应用,包括还有一些源的分析等等这些,现在应用都不错。

  我们这次跟NVIDIA成立一个联合实验室,主要是两个方面,一个方面就是在异构结构上,在优化,用他们一些新的软件,提升用户使用的效率,这是一个方面。第二个层次,基于天河一号A新的通信处理技术,硬件和软件,刚刚讲的云计算,物联网,包括智慧城市,包括三网合一。这一块儿我们想跟NVIDIA在这几个方面进行合作,这个实验室落在滨海开发区,带动了本地高端信息产业的发展,也是做一个示范,带动我们国家在这些领域的快速发展。

  刚才记者会上展示过人脸识别,这应该是NVIDIA的专长,做人脸的识别,NVIDIA在图象处理是非常擅长的,这方面的应用对于智慧城市来说,在国家安全方面有很好的应用前景。除了PC方面的合作之外,基于现在云计算这一大类新兴产业方面,具有很好的合作前景,也可以产生很好的合作效益。

  实际上我们今天的合作,包括云计算方面,在新兴产业方面怎么再上一个新台阶是一个问题。天河一号获得世界第一之后,我们可以很客观的说,我跟很多媒体都说,我们实现一个重大的转身,或者叫华丽转身,一定是要上一个新的台阶。做应用,做产业发展,其实天津给我们这个平台,起到了很好的科技招商和产业聚集的作用。基于国家投资建设的超级计算中心,再结合各个部委现在支持建的云计算中心,或者叫数据中心,构建一个整体。前面的数据中心和云计算中心承担数据的搜集和用户的服务,数据的挖掘和分析是基于超级计算中心,这么一个模式和这么一个整体来讲,可以形成一个很好的生产力,要形成一个真正的生产力,不是停留在一个净资产上,是要做HPC让大家都能应用。我跟很多参观的人讲,天河一号A能干什么呢,通常的讲是“算天算地算人”,把这三件事,三个“算”做成之后,才是真正国家关心的生产力,不是一个金字塔上大家看到的世界第一。我们现在跟有很强优势的国外的公司、单位合作,目的就是实现强强结合,充分利用国外的技术优势,利用我们自己的优势,实现强强结合,达到双赢,最终的目的当然是推动我们国家向新的生产方式转变,推进滨海新区发展。对开发区来说,实际上是生产方式转变,找到新的增长点,这是一个很关键的问题。

后记

  天河一号A超级计算机系统是在原来天河一号上做的升级,当前配置为7,168颗NVIDIA Tesla M2050 GPU以及14,336颗Intel Xeon CPU,此外还有中国自主研发的飞腾1000 CPU,天河一号A是当代异构计算的典型代表。目前,五百强超级计算机TOP500中有不少型号就采用了异构计算,传统的通用处理器厂商Intel、AMD也开始进入这一行列,而在这个行列当中,NVIDIA算是一个领跑者,提供了很成熟的GPU计算方案。随着NVIDIA的耕耘,我们可以看到GPU已经在汽车设计、飞机模拟到石油勘探、天气预报、量子物理学研究以及医学研究等领域都都有了实际应用。据悉,天津超算属于自主运营,天河一号A超级计算机早已开始了商业化运营,用户遍布动漫行业到CAE领域乃至能源、医疗行业,这对国内超级计算的研究,乃至这些领域自身的应用发展,都是一件好事。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章