至顶网›服务器频道 ›X86服务器›新一代浪潮“倚天”NF5588实测报告

新一代浪潮“倚天”NF5588实测报告

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

近日，浪潮 “倚天”宝剑再度出鞘，推出搭载了NVIDIA Tesla最新Fermi架构20系列GPU的升级版桌面超级计算机——NF5588。该产品采用目前业界最先进的双路四核 CPU+GPU异构计算架构，是一款最高计算能力可达4万亿次每秒的高性能超级计算机，同时也是一款高端工作站产品。本测试报告将利用分子动力学经典软件NAMD及快速傅里叶变换FFT就这款产品进行全方位性能实测，同时针对上一代倚天桌面超算进行性能对比测试。

来源：ZDNet China 2010年9月29日

关键字：浪潮超级计算机

一、测试背景：

自2009年浪潮推出了国内首款万亿次桌面超级计算机——“倚天”以来，兼具低成本、高性能特点的“倚天”受到了广大高性能用户的普遍青睐。近日，浪潮 “倚天”宝剑再度出鞘，推出搭载了NVIDIA Tesla最新Fermi架构20系列GPU的升级版桌面超级计算机——NF5588。该产品采用目前业界最先进的双路四核 CPU+GPU异构计算架构，是一款最高计算能力可达4万亿次每秒的高性能超级计算机，同时也是一款高端工作站产品。目前，NF5588已经成功应用于国防科技大学、西交大电信学院、井冈山大学等全国各大知名科研研究单位。

本测试报告将利用分子动力学经典软件NAMD及快速傅里叶变换FFT就这款产品进行全方位性能实测，同时针对上一代倚天桌面超算进行性能对比测试。

新一代浪潮“倚天”NF5588实测报告

浪潮“倚天”NF5588

二、测试方案1：

选择典型高性能应用NAMD软件及Nanopore算例来进行实测。NAMD是分子动力学领域最为经典及最早支持CUDA架构计算的软件之一，它基于Charm++并行支持库，实现了动态负载平衡，在高端硬件平台上可以保持较高并行效率直到数千个处理器规模。Nanopore算例是通过分子动力学的方法，利用NAMD软件进行模拟计算，对硅纳米孔柱阵列的排列结构进行研究。

本次对Nanopore算例进行10000个step的计算来进行计算时间对比。测试软件是官网下载的NAMD_2.7b3_Linux-x86_64-CUDA.tar.tar与NAMD_2.7b2_Linux-x86_64-CUDA.tar.tar两个不同版本。运行的命令为：./charmrun ++local +p8 ./namd2 +idlepoll +devices 0,2 /root/apoa1/apoa1.namd，其中+p参数指的是系统CPU运行的核数，+devices参数指的是系统GPU运行的设备号码，此设备号码可由CUDA SDK中的devicequery程序运行得来。

测试方案1对比的是NF5588分别搭载Tesla C2050与Tesla C1060时的性能对比情况，对应Tesla C2050 GPU安装了cuda3.1版本驱动，Tesla C1060 GPU安装了cuda2.3版本及cuda3.1版本驱动，都分别对同样的算例进行了测试，测试平台配置信息及测试结果分别如下。

新一代浪潮“倚天”NF5588实测报告

上表中的测试时间均为记录系统运行算例的Wall Clock Time，由上表的数据分析可得出以下结论：

1. 驱动版本对性能的影响

对于相同的软件版本在不同驱动版本情况下的测试时间可知，在NF5588平台上安装cuda2.3驱动较cuda3.1的驱动对于C1060 GPU更适合（如下表），这是因为cuda2.3驱动是在Tesla 10系列的cuda架构下开发的；而Tesla 20系列的“Fermi”架构GPU，则需要 cuda3.1的驱动支持，不存在驱动版本的影响。

新一代浪潮“倚天”NF5588实测报告

2. 软件版本对性能的影响

对比不同版本软件运行时间可知，更高版本的软件性能更优，这也是软件逐步优化版本更替的结果。如下表中的提取数据，说明NF5588在搭载C1060时NAMD_2.7b3的运行时间较NAMD_2.7b2减少25%—30%；在搭载C2050时NAMD_2.7b3的运行时间较NAMD_2.7b2减少38%—43%。

新一代浪潮“倚天”NF5588实测报告

3. 多GPU加速比的分析

如下表，不难看出NF5588对于搭载多GPU的情况下，加速比值都不错。

新一代浪潮“倚天”NF5588实测报告

4. 搭载C2050与C1060的性能对比

分别取两个版本NAMD软件在GPU卡适合的驱动（C1060取2.3driver；C2050取3.1driver）下得到对比图表，及性能对比数据：

新一代浪潮“倚天”NF5588实测报告

从测试结果来看， NF5588搭载C2050对比搭载C1060，都有不同程度的提升，最好时能高出35%。但是受软件版本及GPU运行数目的影响，性能提升略有不同。如受软件版本影响，对于2.7b3版本的NAMD_CUDA软件，在C2050对比C1060上的运行性能提升更高，说明新版本软件对C2050新架构的支持更好。

三、测试方案2：

快速傅里叶变换（Fast Fourier Transform FFT）在高性能的应用十分广泛，它在声学、电信、电力系统、图像与信号处理、物探、天线、雷达、卫星、医疗等应用领域有广泛的应用。凡是可以利用傅里叶变换来进行分析、综合、变换的地方，都可以利用FFT算法及运用数字计算技术来加以实现。

CUFFT 是NIVIDA CUDA的快速傅里叶变换库。是NVIDIA公司专为其CUDA架构计算设备开发的FFT加速库。CUFFT库支持以下功能：

----可以对实数或复数进行一维，二维和三维的离散傅里叶变换。

---- 可以同时并行处理一批一维的离散傅里叶变换；

----对二维、三维傅里叶变换，每一维可以在[2,16384]中任意取值；

----对一维傅里叶变换，能处理最大数组尺寸为8M；

---- 对实数或者复数进行的FFT，结果输出位置可以和输入位置一致（原地变换），也可以不同（异址变换）。

本次测试采用CUFFT库版本：libcufft.so.3.0.14，测试分别在“倚天”NF5588（搭载Tesla C2050）和第一代“倚天”桌面超算上进行，对不同长度的信号（双精度一维数组）先后进行正、负FFT变换，并截取FFT计算的精确时间，测试平台配置如下：

对比测试结果如下：

新一代浪潮“倚天”NF5588实测报告

随信号长度的增加， “倚天”NF5588的性能优势明显体现出来，当信号长度增加到最大8M（数组总大小为64MB）时， NF5588的cufft计算时间仅为第一代产品的三分之一。同时也说明“Fermi”架构的Tesla 20系列GPU在双精度计算上较其上一代平台有了较大性能提升。

四、测试结论：

浪潮升级版“倚天”NF5588较上代产品进行了全面的升级，它支持NVIDIA Tesla最新的20系列GPU，采用双路Intel Xeon 5500/5600系列CPU，及最新的DDR3 ECC Unbuffered/DDR3 ECC Register内存，最大容量可至48GB，并且具有更高的系统可靠性、更强的海量存储能力、更强I/O扩展能力及更卓越的散热技术。

一系列的实测证明了NF5588超强的计算能力，它的计算能力甚至超越了一个小型的高性能集群，浪潮高性能产业将继续努力满足HPC行业对性能无休止的追求，努力满足HPC应用对计算能力最苛刻要求，努力使浪潮的HPC产品胜任于包括生命、金融、证券、动漫、电信、大中型企业、能源等各种关键性应用。

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

新一代浪潮“倚天”NF5588实测报告

一、测试背景：

业界热点: