科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道服务器组件Nvidia GPU蜕变:从图形处理到超级计算

Nvidia GPU蜕变:从图形处理到超级计算

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

在GPU领域本身来看,这一架构堪称具有“革命性”——让GPU得以脱掉传统图形处理器的外衣,换上了“专门针对高性能并行计算的众核处理器”的新装。Tesla C系列可以PCI扩展卡的形式直接插在工作站中,本身带有散热模块,包括Tesla C1060、C2050和C2070三款产品。

来源:IT168 2010年6月11日

关键字: NVIDIA GPU CRM Tesla

  • 评论
  • 分享微博
  • 分享邮件

  6月7日下午,由中国软件行业协会主办的“2010年中国高效能计算应用高峰论坛”在北京举行,来自中国软件行业协会数学软件分会、中国科学院过程工程研究所、北京大学、中国科学院软件研究所、Nvidia、Intel、Mellanox的多位专家代表就“GPU、众核处理器在高性能计算领域里的最新应用发展与挑战”展开演讲与讨论。Nvidia中国 PSG销售经理谢强在会上介绍了Nvidia GPU高效能计算及生态系统的最新发展。

  据了解,Nvidia的GPU核心业务一共有四条线:针对消费PC市场的GeForce显卡,针对专业工作站的QUADRO显卡,针对高性能计算的Tesla GPGPU产品,以及针对移动和嵌入式计算的TEGRA产品。谢强主要介绍了Tesla GPU硬件产品及CUDA软件开发平台的发展情况。

Fermi:GPU从图形处理到超级计算的变革

  Tesla是Nvidia专门针对高性能计算打造的GPU产品,在超级计算机中充当并行计算加速器的角色——通用的X86多核处理器(CPU)负责数据库、操作系统等串行应用,GPU众核处理器则负责高性能并行计算,二者相互配合,从而数倍、十倍、甚至百倍地提高计算效率。

  Fermi则是Nvidia专门为高性能计算优化的新一代处理器架构。跟前一代产品相比,基于该架构的Tesla GPU处理器拥有30亿颗晶体管,512个计算内核,双精度性能提升8倍,带有ECC校验功能,增加了L1和L2两级缓存,内存带宽提高两倍,理论上支持1TB GPU内存。当前支持Fermi架构的Tesla产品是C/S2050系列,年底将增加C/S2070系列。

  在GPU领域本身来看,这一架构堪称具有“革命性”——让GPU得以脱掉传统图形处理器的外衣,换上了“专门针对高性能并行计算的众核处理器”的新装。新架构增加了两级缓存,是为了提高GPU的适用面,可以更好的适应数据密集型的应用。在支持的内存容量上,理论上的最大寻址空间可以达到1TB,但实际上,目前只能做到支持3GB内存,但比上一代产品已经有了很大的提升,而预计到今年底,Tesla系列可以支持到6GB,明年还可以支持到12GB。谢强表示,之所以目前还不支持更大的内存,一方面是考虑到应用的需要,另一方面也是出于性价比的考虑。另外在内核数量上,“虽然Fermi架构GPU可以做到512个内核,但受良品率的限制,实际上目前市场上的Tesla C2050都只集成了448个核,512核的版本预计要到年底才能推出。”

  尽管还存在些许不足,但这些并不影响Tesla在高性能计算领域广受追捧。据最新出炉的全球高性能计算机TOP500排行榜,名列第二的曙光“星云”就使用了几千颗Tesla C2050,Linpack性能达到1.27千万亿次每秒!而从不久前落幕的SC2010(超级计算大会)上了解到的信息来看,包括中国的曙光“星云”和中科院过程所的Mole-8.5在内,国际上一共有8个类似的大型超级计算机项目在使用GPU做加速器,“使用GPU,我们很容易就可以突破100万亿次、200万亿次的Linpack性能。”Linpack测试性能值是目前TOP500排行的标准。

  Tesla选型指南 萝卜青菜各有所好

  从产品形态上,Tesla分为两条产品线:板卡状的C系列和整机状的S系列。

  Tesla C系列可以PCI扩展卡的形式直接插在工作站中,本身带有散热模块,包括Tesla C1060、C2050和C2070三款产品。

  采用Fermi架构的C2050是目前C系列中的主打产品,更新一代的C2070预计在今年10月份推向市场。据谢强介绍,C2050与C2070的最大差别就在于内存容量,前者支持3GB,后者支持6GB,可以满足更大规模的数据集应用。另一款较低端的C1060在未来两三年里仍会继续销售,其特点是单精度性能非常好,高达933 Gflops,而且支持4GB内存,比C2050的3GB要大,且价格只有C2050的一半左右,因此,非常适合那种纯单精度计算的应用或者需要更大一些内存的应用,如目前一些石油地震资料处理中的叠前偏移就在使用。

  跟C系列的板卡形式不同,Tesla S系列则是完整的机架产品,但本身并不带CPU,需要与通用的X86服务器配合使用,目前也有S1070、S2050和S2070三款产品。从定位差异来看,与C系列的三款产品基本类似,S1070主打单精度计算市场,S2050是最新主流产品,支持6GB内存的S2070也得要等到今年年底才会出来。

  跟Tesla相比,Nvidia Geforce是消费PC市场上大家耳熟能详的显卡品牌,“Geforce在可靠性设计上会弱一些,但是它很便宜,所以非常适合做前期的研究型应用,如果用在生产环节,我们仍然推荐Tesla。”

  谢强还谈到,经过多年运作,迄今几乎所有主流的服务器厂商都已经推出了基于Nvidia GPU的产品,包括IBM、HP、戴尔、Sun、CRAY、BULL、NEC、SGI、富士通、超微、浪潮、联想等。如IBM已经在其针对高性能计算的iDataPlex机柜式服务器中集成了Nvidia的Fermi GPU产品,其一个经典案例是某西方地球物理公司先后采用了9000颗GPU来做地震资料处理。

  软件好,才是真的好

  不过,尽管GPU硬件发展如日中天,广受赞誉,但软件应用仍然面临很大挑战。虽然Nvidia公司这几年来也在不断的发展其CUDA软件开发与应用生态系统,但GPU编程难、标准不统一、程序可移植性差仍然让许多用户望而生畏。

  对此,谢强谈到,Nvidia在打造围绕GPU并行计算的开发人员生态系统,包括多种数学库、调优工具、GPU编译器、并行化编译工具、各种工具包、CUDA咨询与培训以及众多的GPU计算解决方案。这个生态系统正在不断扩大,CUDA的魅力正是在于提供了更完整的系列工具。

  比如,在大家普遍关心的编程工具方面,CUDA已经可以支持C/C++、Fortran、OpenCL、Java、Python、DirectCompute等。在数学库方面,除MATLAB、Mathematica之外,更多的厂家已经开始把核心数学库移植到CUDA上来,开发程序员面对的是一个完善的开发环境和工具包,可以做各种应用的开发与调优。同时,为了支持其他CPU、GPU硬件平台,CUDA C/C++也开始提供多种调优工具,让开发人员将在CUDA平台上写的程序进行转换,从而运行在多核CPU和AMD的GPU上面。尽管这还无法一步到位地解决程序在异构平台之间平滑移植的挑战,但至少让用户看到了一线曙光。

  从应用软件来看,来自石油天然气、生命科学、视频渲染、金融分析、CAE、EDA等领域的专业公司正在用CUDA开发程序或进行移植。“生命科学是目前CUDA应用最完善的领域。”

  此外,Nvidia也在计划在全球推出CUDA认证,目前全球已经有350所学校开通了CUDA课程,在国内,北大、清华、中科院将提供CUDA培训与认证服务。

  总之,从硬件和软件两方面来看,GPU计算仍然处于发展当中,GPU要得到更广泛的普及和用户认可,不仅要把硬件做得更优秀,更具有通用性,而且在软件上,更是要大力降低开发难度和移植成本,这样才能不仅将GPU从传统的图形处理应用转向高性能计算,更能推广到更广泛的行业领域中去,GPU的发展才能后劲十足。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章