扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
2009年高性能计算学术年会近日在湖南长沙举行,在这次大会上,中国正式对外公布了自己的首台千万亿次高性能计算机“天河一号”,不过它并不是出自去年中国HPC TOP 100的第一名的曙光5000A(2009年第二名)的东家曙光之手,而是中国国防科技大学的产物,在此之前业界不少人都在期待曙光公司会不会有新的举动让国人振奋,可最终的结果似乎出乎很多人的预料。而在本次的大会上,曙光公司也作为支持厂商高调亮相,曙光公司的副总聂华也进行了主题讲演,但其主题似乎并不局限于性能的提升,而更为关注在HPC应用的普及上,体现出一个传统HPC顶级厂商未来的关注视角。会后,笔者也有幸采访了聂总,就中国HPC的现状与未来发展谈了谈他自己的看法。
聂总在曙光在展台背板前留影
曙光眼中的GPU计算
本届TOP100的第一名是一台CPU+GPU的系统,因此我们也很感兴趣曙光怎么看待这样的设计与趋势,曙光自己又会怎么考虑呢?聂总表示,“首先我们很高兴中国有了自己的千万亿次高性能计算机,谁做出来的并不重要,就事情本身来说很值得庆祝。”聂总接着说到,“就CPU+GPU的架构,曙光很早以前就开始入手,并取得了很大的进展,无论是NVIDIA还是ATI都有合作。就GPU计算来说,我们认为这是一个趋势,但就GPU本身来讲,它原始的出发点并不是科学计算,就目前来看,如果要担当HPC的重任,还会存在一些问题和隐患,这一点也是我们非常关注的地方。”
“打个比方,传统的CPU就是用于科学计算,而GPU是用于图形计算,它首先要把图像按帧计算出来,然后再把每秒的帧数提高到人眼可接受的程度,但这其中如果计算量大,或者数据有些错误,我们可能看到的是卡帧现象或是马赛克,但这些对于普通的图形应用,比如游戏来说并不是什么大事。大家也都知道,高级游戏玩得卡,有些图像错误是比较常见的。”聂总举例到,“但是,对于科学计算来说,这就是一个大的问题,因为它是不允许出差错的。我们知道GPU的强项在于浮点运算,但这主要是指单精度,双精度浮点性能会大幅度下降,此外整数运算以及数据校验方面都有欠缺,这就意味着它并不能像CPU那样可以很放心的使用。尤其是在HPC中,单精度运算速度大多没有什么意义。”(编注:NVIDIA公司明年第一季度将要发布的Ferimi架构的新一代GPU将大幅度提升双精度运行性能,并加入了ECC内存的设计,但目前还没有试用报告出炉)
“这就造成了一个问题,有可能你用GPU计算,到最后的结果可能是错误的,甚至计算到途中就无法进行了,”聂总接着阐述其对GPU计算的一种担心,“而如果要保证很高的精度,其加速特性就显得并不那么的突出,并且这其中还涉及到编程优化的问题。因此我们曙光特别期盼OpenCL能早日真正的投入使用,以大大降低GPU/CPU统一编程的难度。”聂总强调到,“说到底,GPU的引入带来的是一种思维观念改变的问题。在传统的HPC构建中,思路是先保证结果绝对正确,然后再去看怎么去调优程序,而GPU应用往往是先保证最快的速度,然后再去看怎么保证计算质量,所以如果用传统的观念去使用GPU就会遇到很大的问题。GPU计算是一个趋势,但更重要的是一种新的HPC构建的理念。”
“现在业内对GPU计算有两种看法,”聂总接着总结道,“一种就是认为它极大的提高了HPC的运算性能,是一个很好的解决方案,值得大力推广,另一种则是认为GPU计算仍不成熟,有一定的风险,而且往往理论的加速性能到实际的应用中,会大幅度的下降,而同时编程的复杂度与难度则成倍上升。此外系统的效率也会大幅度下降,比如天河一号就是因为采用了GPU混载的结构,效率不到50%,虽然这在混载架构中已经做得很不错了,但与传统的纯CPU系统相比,还有不小的差距,因此曙光对待这一问题是比较慎重的,我们看得比较深入和长远,最终的目的是更可靠的为用户服务。”
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者