扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
NVIDIA首席执行官黄仁勋
“量产版”Fermi Tesla
● 向商用HPC的转变以及对新架构的需求
黄仁勋在演讲中分三个话题介绍了GPU计算:“为什么超级计算需要新架构?”、“为什么GPU是最佳选择?”以及“为什么NVIDIA如此执着于GPGPU?”
首先,黄仁勋介绍了NERSC(National Energy Research Scientific Computing Center)的研究内容。据称,自从2008年“模拟”需求不断增长以来,计算资源一直处于不足的状况。模拟需求不仅来自于科研领域,还有工业领域的原型制造等更广泛的领域。
在科研和工业领域,模拟是十分常见的,自2008年以后计算资源需求开始迅速增长。尽管HPC的变革大幅度提升了性能,但是也没能完全满足这些需求
1999年以后开发出的HPC处理器与以前有着巨大的差异。1999年以前的是向量处理器、超级计算机厂商开发的SIMD和MIMD、以及多处理器,并且大多用于商业用途。
不过后来Intel在1999年公布了作为向量指令的SSE。在那之后,采用了大量x86 CPU的超级计算机开始主导市场,超级计算机处理器的商用化也就此开始。黄仁勋表示,根据摩尔定律,性能每18个月就会翻一番,价格也会随之降低。
在SSE出现以后,基于x86 CPU的超级计算机的份额不断扩大
可是问题也随之出现,那就是处理器的扩展停滞下来。在这里黄仁勋引用了伯克利大学David Paterson提出的“The Brick Wall(砖墙)”理论,也就是由指令层的并行性“墙”、内存“墙”和计算机性能的能耗“墙”共同组成一堵巨大的墙。
在这个例子中,处理器性能以每年52%的速度增长,到2002年的时候遇到“墙”所造成的障碍之后则降低到每年20%的增长率。假设一直维持着每年52%的增长率,那么到了2016年相当于丢失1000倍的性能。
通过细胞模拟的例子说明了模拟中需要有强大的浮点计算能力,目前超级计算机的速度已经突破了1PFLOPS
另外他还提到了软件开发者相对应的要求。一般软件包的基础代码是不变的,对下一代产品的调节主要是通过追加功能实现的。即使追加功能较晚,18个月性能增长2倍的速度也会使得两者相互抵消。然而现在因为处理器的扩展停滞了,就有必要对代码进行重写。
GPU的性能提升比多核CPU更显著
现在出现了处理器的多核新架构,当然软件开发者也会考虑到这一点。并行处理器的出现使得GPU计算的性能有了大幅度的提高。
● GPU计算的使用实例黄仁勋还介绍了GPU计算相关的使用实例。他展示了一个利用700万个光子“模拟能源技术”的光线追踪实例,下一代Fermi的性能是GT200的4倍之多。
Fermi光线追踪展示,模拟了700万个光子
DX11细分曲面展示
Adobe的CUDA Mercury Playback Engine是Adobe Premiere CS5中装载的动画编辑加速引擎。据称,通过使用CUDA技术,它可以在编辑动画的同时实时地进行预览。这方面他介绍了学术领域的实例。
在这里黄仁勋强调了GPU的有效性价比。在通用的至强环境中,转载了2个Tesla的时候,用分子动力学计算的话性能提升19倍,用分子建模计算的话提升25倍。单位性能的成本分别降低了14倍和19倍。
此外黄仁勋还介绍了CUDA的发展情况。尽管CUDA是在2006年发布的,但是到SuperComputing07召开的时候NVIDIA已经设置了相关展位,到了2009年的时候更是达到了75个展位和90个相关海报。据称,已经有300多所大学和企业开始提供CUDA相关的培训。
除此之外,NVIDIA还发布了在Visual Studio异构平台上用于开发环境并支持开发者的“NEXUS”。预计未来HPC市场还将保持迅猛的增长,GPU计算方面的投资也将越来越大。
Adobe Premiere CS5中的CUDA Mercury Playback Engine,是Adobe Premiere CS5中装载的动画编辑加速引擎
GPU用于高性能计算加速的成本优势
对GPU计算研发费用方面的投资。图标显示,在经济紧缩时期投资也在增长,这表明了人们对该领域的关注