科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航



ZDNet>服务器频道>X86-zhiding>体验Xeon E7强大性能:惠普DL580 G7评测

体验Xeon E7强大性能:惠普DL580 G7评测

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

通过ProLiant DL580 G7和PowerEdge R910的比较,感觉HP在高端x86服务器领域的优势还是比较明显的,比如结构上更加紧凑、更多的模块化以及灵活性设计等等。我们再来看看至强E7 CPU与Xeon 7500之间的性能差距...

来源:CBSi企业解决方案中心 【原创】 2011年09月07日

关键字:至强 Intel HP CPU2006

CBSi企业解决方案中心 9月7日 评测

在“眼见为实 独家拆解惠普ProLiant DL580 G7”这期视频节目中,我们已经比较详细的介绍了更新到Intel Xeon E7处理器的HP DL580四插槽(CPU Socket)服务器的硬件结构。本文主要是关于它的性能评测,当然在此之前也要简单介绍一下。

从DL580 G7看惠普在MP服务器上的优势

体验Xeon E7强大性能:惠普DL580 G7评测 

惠普ProLiant DL580 G7服务器

记得我们在去年曾经评测过的Dell PowerEdge R910(详见“整体设计的提升:初品戴尔PowerEdge R910服务器”一文),也是一款4U机架式四插槽Intel Xeon 7500平台服务器。这两款机型的规格配置比较接近,比如说升级之后都能够支持今年推出的10核心(最多)至强E7处理器,最大支持64条内存等。

体验Xeon E7强大性能:惠普DL580 G7评测

上图为惠普ProLiant DL580 G7服务器的CPU(拍照时我们拆掉了一颗)/内存模块。该模块可以从机箱前部整体抽出,便于升级和维护,以前的DL580 G5也是类似的设计。另外,内存扩展板和CPU的布局排列得相当紧凑,这个和戴尔PowerEdge R910一比就能看出明显的差别。

体验Xeon E7强大性能:惠普DL580 G7评测

Intel Xeon E7-4860 CPU,10个物理核心/20个逻辑线程(支持Hyper-Threading),时钟频率2.26GHz,Turbo Boost最高提升频率到2.666GHz,具备24MB共享三级缓存,QPI连接速度6.4GT/s。至强E7系列仍然采用和Xeon 7500相同的LGA1567处理器封装接口,但制造工艺从45nm提升至32nm,最大TDP(热设计功耗)130W。

体验Xeon E7强大性能:惠普DL580 G7评测

上图截自惠普DL580 G7的Data sheet文档,这里可以看到该服务器支持的CPU型号,其中包括4/6/8/10核心多种不同的选择。我们的测试样机配置了4颗至强E7-4860,其规格在当前的Intel x86处理器中几乎可以说仅次于E7-4870。关于Xeon E7和上一代的至强7500,ZDNet服务器频道已经有过不少报道,这里就不再详细叙述。

随着Intel 7500服务器平台的CPU更新到E7,四插槽MP服务器的最大内存容量也翻了一倍达到2TB。在DL580 G7上,需要搭配支持单条32GB DDR3和低电压(1.3x V)内存的新(E7)内存扩展板。

体验Xeon E7强大性能:惠普DL580 G7评测 

DL580 G7内存扩展板的空间利用率也相当高

这台DL580 G7服务器满配了8块内存板和64条4GB DDR3内存,总容量达到了256GB。

体验Xeon E7强大性能:惠普DL580 G7评测 

惠普ProLiant DL580 G7 SPI board(点击查看放大图,去掉散热片的

SPI板也是部分型号惠普ProLiant DL服务器的一大特色,在DL580系列上SPI板的集成度通常更高。如上图,左边带有散热片的是PMC公司8端口6Gb/s SAS RoC(RAID on Chip)芯片,加上附近DIMM插槽中的缓存模块,组成了“HP Smart Array P410i Controller”RAID卡的硬件部分。中间带有HP logo的iLO3芯片相当于BMC(基板管理控制器),惠普的HP Integrated Lights-Out 3远程管理功能建立在它基础上。而右边那颗覆盖散热片的则是NETXEN(现已被QLogic收购)双端口10GbE CNA(融合网络适配器),在DL580 G7的基本配置中它充当了一颗4端口千兆以太网MAC,加上Marvell的PHY芯片实现网卡功能。

这块SPI板的特别之处在于,能够通过添加10Gb/s NIC升级子卡(NETXEN芯片上方使用PCIe连接器的专用插槽)和内存模块来提供2个万兆以太网接口。相比之下,戴尔R910服务器专用的I/O Riser卡则是分为1Gb(4×千兆)和10Gb(2×千兆+2×万兆)两个型号,而且它的BMC放置在主板上,LSI方案的6Gb/s SAS RAID卡(PERC H700)也要插在单独的PCIe插槽中。可见惠普DL580 G7的SPI板在一块卡上的集成度和灵活性更高

体验Xeon E7强大性能:惠普DL580 G7评测

如上图,ProLiant DL580 G7的“主板”只有常规尺寸的大约一半大小,而标配的PCI Express扩展槽(最左边那个是插SPI板的)只有5个。其实这也是该服务器的一大特色,因为DL580 G7的主IO板上只有1颗Intel 7500 IOH芯片,在右侧空出的位置可以选择添加另一块I/O扩展板,来增加PCIe/PCI-X插槽的数量。(见下图)

我们还看到,主IO板与服务器机箱前端的CPU/内存模块使用多个浅色的连接器插在一起,其中包括2颗CPU与IOH之间的QPI通信连接,当然还有供电。类似的是,右侧空出的那3个浅色连接器,就是安装I/O扩展板时要用到的。

 体验Xeon E7强大性能:惠普DL580 G7评测

惠普ProLiant DL580 G7结构示意图

上图中,包括CPU、内存、主IO板上的7500 IOH和ICH10南桥,以及SPI板都不是我们在这里关注的重点。关键想说明的就是右下方可选的I/O扩展板,它还分为2种型号:“标准PCIe选项”和“组合PCI-X、PCIe选项”,其中后者是在Intel 7500 IOH的基础上加入一颗NEC uPD720404 PCIe to PCI-X桥接芯片来提供2个PCI-X总线插槽。这样不仅可以降低初始成本(主IO板复杂度相对不高,而且标配只使用1个IOH),而且还带来了更加灵活的扩展能力

通过以上介绍的PCI I/O设计,加上可选的PCIe辅助供电转接线,DL580 G7最多可以支持3块双插槽宽度300W功耗的PCI Express x16高端显卡或者GPGPU(通用计算图形处理器)。这一点是很多标准服务器特别是MP(4个CPU插槽或以上)级别产品所不具备的,比如戴尔PowerEdge R910

在第一页中写了这些关于惠普ProLiant DL580 G7和戴尔PowerEdge R910的比较,一方面是因为我们在前文中曾经比较详细的介绍过Intel 7500服务器平台的设计,很多内容不想再重复。另一方面,就是笔者感觉HP在高端x86服务器领域的优势还是比较明显的,比如结构上更加紧凑、更多的模块化以及灵活性设计等等。这也让我想起了数年前支持8插槽Xeon处理器的DL760、8插槽AMD Opteron CPU的DL785系列,还有比DL580 G7更加高端的基于至强7500处理器的8插槽DL980 G7

同时,我们也看到戴尔服务器的整体设计水平也在提高,无论是向代工厂提出要求还是自身更多的参与研发。另外Dell在x86标准化服务器这些产品线上一个重要的杀手锏就是价格,过得去的质量,加上更高的性价比,得到了许多中小企业以及在意成本的大型用户的青睐。

测试平台及软件:SPEC CPU2006

由于本次测试的惠普ProLiant DL580 G7与去年我们评测过的戴尔PowerEdge R910(参见:“24核48线程的威力:戴尔PowerEdge R910服务器评测”一文)使用的都是Intel 7500服务器平台,最主要的不同之处在于CPU从6核心的Xeon E7540换成了新一代10核心的至强E7-4860。因此我们决定仍然采用SPEC CPU2006测试软件包来评估和比较CPU的性能。

SPEC(www.spec.org)的全称是Standard Performance Evaluation Corporation(标准性能评估组织)。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。SPEC的成员包括AMD、苹果、Cisco、戴尔、EMC、富士通、日立、惠普、IBM、Intel、微软、NEC、Novell、NVIDIA、Oracle、Red Hat、SGI等软硬件厂商。

SPEC现有的测试软件包括:CPU、图形/工作站应用、高性能计算(MPI/OMP,消息传递界面)、Java客户端/服务器、邮件服务器、网络文件系统(NFS/CIFS)、电源功耗、虚拟化和Web服务器等方面 ,可以看出都是企业级而非PC的应用领域。由于笔者之前的从业经验,对SPEC GWPG(图形和工作站性能小组)推出的SPECviewperf和SPECapc系列专业显卡OpenGL性能/3D设计软件测试可以说是最为熟悉。

SPEC CPU2006测试软件包

完整运行的CPU2006测试最终会得到8个总得分(还有每个单项的成绩)。它们分别为Speed(速度,单实例)——SPECint2006、SPECfp2006,和Throughput(吞吐量,多实例)——SPECint_rate2006、SPECfp_rate2006,其中每一项结果还包括Base(基本)和Peak(峰值)两个数值。“Base”规则要求必须在编译套件中的全部测试项目时使用通用的设置进行优化(简单调优),而“Peak”允许在编译每一个benchmark时使用专门针对该项测试的个别优化,也就是说Peak结果留给运行测试的厂商/评估者更多的调优余地以获得更好的成绩。

SPEC CPU2006以一台Sun Ultra Enterpirse 2工作站作为基准参考系统,以此为参考,其他测试系统与之相比即可得出相对性能指数。Sun的这套系统使用了一颗296MHz的UltraSPARC II处理器。

通常在64位环境下,运行CPU2006单一实例需要2GB内存。那么对于本次测试的4颗CPU、40个物理核心/80线程的惠普ProLiant DL580 G7服务器,我们在运行SPECint_rate2006和SPECfp_rate2006时选择了80个实例,这样至少需要配置160GB的内存。

在SPEC组织的网站上,公布有大量的CPU2006测试结果,其更新之快甚至包括了很多厂商刚发布不久的服务器型号。比如我们曾经测试过的戴尔PowerEdge R910也在其中(至本文截稿之时,惠普只公布了DL580 G7配置Xeon E7-4830的测试结果)。后面几页我们将把自己测试的结果与SPEC网站公布的结果进行对比,一方面可以验证官方数字(由于应该是Dell自己测试之后提交给SPEC)的可信程度;另一方面我们还可以比较至强E7处理器家族与Xeon 7500之间的性能差距,以反映出它的价值所在。

测试环境

首先我们还是依照惯例来介绍一下测试平台的软硬件环境。

体验Xeon E7强大性能:惠普DL580 G7评测

SPEC CPU2006测试生成结果文件中的软/硬件配置信息

上图是运行SPEC CPU2006测试之后生成的结果里面,根据我们事先在config文件中填写的系统软/硬件信息而生成的配置表。由于这个已经足够详细,我们就不再另外单独制作测试平台的表格了。

关于硬件在前面的几页已经有介绍,这里我们想解释一下软件环境。本次测试安装的操作系统是SUSE Linux Enterprise Server 11 SP1(x86_64),内核版本号为2.6.32.12-0.7。由于Intel上海工程师的帮助,我们得到了编译好的SPEC CPU2006执行文件,编译器的版本应该是Intel C++ and Fortran Intel64 Compiler XE for Linux 12.0.1.116,省去了自己编译的很多麻烦(上次的戴尔R910测试就因为这个没有得到完整的结果)。

不过可能是该CPU2006执行包没有针对惠普DL580 G7服务器进行充分优化(Intel有自己的4路Xeon 7500/E7参考测试平台和EPSD的产品),因此部分实际测试成绩低于Dell公布的PowerEdge R910使用相同CPU(E7-4860)的测试结果。当然这并不代表DL580 G7在真实应用环境中的效率表现低于后者,本文的目的主要是让读者了解Xeon E7和上一代至强7500处理器之间的性能差距,以此来看出技术规格改进后的实际效果如何,具体数据仅供参考。

DL580 G7 BIOS设置注意事项、测试结果

体验Xeon E7强大性能:惠普DL580 G7评测

惠普ProLiant DL580 G7服务器正常开机后,自检到4个Xeon E7-4860 CPU、256GB内存等。我们还看到上面拍摄的屏幕显示中,电源调节器模式(Power Regulator Mode)设置为静态高性能,同时关闭内存闲置节能模式。这些有助于避免BIOS中的电源管理功能对性能测试成绩产生影响。

体验Xeon E7强大性能:惠普DL580 G7评测

根据Intel工程师的建议,我们在BIOS设置里将“最小处理器闲置功率状态”设置为C6 State。

体验Xeon E7强大性能:惠普DL580 G7评测

“Node Interleaving(节点交错)”这项设置是针对CPU内部集成的内存控制器,笔者对它开始有所了解大约是在AMD当年推出第一代K8架构的Opteron处理器。由于整合内存控制器的DP/MP系统中每个CPU都可以直接控制一部分内存,因此访问模式分为NUMA(非一致性内存访问)和Node Interleaving两种。根据我们以往的理解,前者具有更好的OS/应用兼容性,而后者在单一处理器访问内存时可以提供更高的性能(跨CPU节点并发访问)。不过惠普在这里的解释似乎有所不同:

体验Xeon E7强大性能:惠普DL580 G7评测

如上图红框中文字:“打开Node Interleaving可能会影响系统性能。在更多的情况下,这个选项应该保持禁用来使性能最大化。”由于Intel建议的设置是“2-way interleaving”,即双路内存交错(部分主板还有4-way interleaving选项),所以我们还是在打开的情况下运行了测试。由于时间的原因,未能进一步确认不同选择对性能结果的影响,因此本文后面列出的成绩仅供读者参考。

当然还有其它的一些BIOS设置,比如超线程、Turbo Boost、HW Prefetch(硬件预取)等有利于性能的保持在打开状态。

体验Xeon E7强大性能:惠普DL580 G7评测

惠普ProLiant DL580 G7服务器提供了丰富的电源配置选项,比如手动选择1+1、2+1、2+2、3+1多种冗余模式。我们满配的4个电源模块在默认设置下自动选择为2+2,而3+1和4(无冗余)则应该是安装多块大功率显卡/GPU通用计算处理器时,为了输出更大的+12V电流而准备的。

体验Xeon E7强大性能:惠普DL580 G7评测

这个截屏,是在Linux下运行SPEC CPU2006多线程(80 copies)测试时,CPU占用率达到了100%;内存也使用了190,206MB(约185GB),其中还包括操作系统自身的占用。

体验Xeon E7强大性能:惠普DL580 G7评测 

SPECint_rate2006多线程整数测试结果

上面的图表,就是我们运行SPEC CPU2006生成的测试报告之一。DL580 G7服务器多线程整数Benchmark总得分为814(最大调优)/ 797(基本调优),此外还列出了每个单项测试的得分。

体验Xeon E7强大性能:惠普DL580 G7评测 

SPECint2006单线程整数测试结果

单线程测试只能使用到一个CPU核心,因此被测系统相对于参考平台的性能比率没有前一个表那么高,SPECint2006和SPECint_base2006总得分:32.4 / 30.2。

体验Xeon E7强大性能:惠普DL580 G7评测

SPECfp_rate2006多线程浮点测试结果

DL580 G7多线程浮点测试总得分为567(最大调优)/ 560(基本调优)。

体验Xeon E7强大性能:惠普DL580 G7评测

SPECfp2006单线程浮点测试结果

单线程浮点测试总得分:51.9(最大调优)/ 48.9(基本调优)。

后面一页,我们将对比Intel Xeon E7与上一代至强7500之间的性能差距。

性能对比:至强E7完胜上一代Xeon 7500

体验Xeon E7强大性能:惠普DL580 G7评测

上面的图表有些长,参与对比的测试成绩一共有3组:除了我们的实测结果,还有戴尔在SPEC网站公布的PowerEdge R910配置4颗Xeon E7-4860 CPU的测试结果;另外我们也加入了曾经在前文中列出过的使用至强E7540处理器的Fujitsu PRIMERGY RX600 S5服务器(戴尔R910正好没有int_rate这组成绩),用于比较新旧2代CPU。

第一项SPECint_rate多线程整数测试总分,Intel至强E7-4860在基本调优和最大调优的情况下分别领先Xeon E7540 86.1%和87%。而二者之间的总核心/线程数差距为66.7%,加上13%的主频差距。可以说达到了预期的性能提升幅度,增加核心、改进制程的效率还是比较高的。

至于我们实测的惠普DL580 G7服务器得分偏低的情况,本文前面已经讨论过可能的原因,总之应该不是硬件的问题。其中很多测试项目2个Xeon E7-4860平台还是比较接近的,只是个别测试由于编译、优化等方面原因而不正常(比如:433.gcc C编译器一项),不能代表DL580 G7的真实水平,在这里列出仅供参考。

补充说明一点,如果在SPEC CPU2006的单项测试中每次按照基本调优 vs. 最大调优参数运行都是相同的结果(每一项测试要运行3遍),最终只会给出一个成绩。这就是上表中部分项目“Peak调优”得分空缺的原因,以下同。

体验Xeon E7强大性能:惠普DL580 G7评测

SPECint单线程整数总分,Xeon E7-4860在基本调优和最大调优的情况下分别超过至强E7540 27%和29.5%。由于整台服务器在这个测试中只有一个CPU核心参与,我们比较二者Turbo Boost之后最高主频的差距为18%,看来Xeon E7的单核心效率应该也有所提高。

体验Xeon E7强大性能:惠普DL580 G7评测

SPECfp_rate多线程浮点测试总分,Intel至强E7-4860在基本调优和最大调优的情况下分别领先Xeon E7540 66.9%和66.2%。众多的单项测试成绩我们不在此一一进行详细讨论。

体验Xeon E7强大性能:惠普DL580 G7评测

SPECfp单线程浮点总分,Xeon E7-4860在基本调优和最大调优的情况下分别超过至强E7540 46.4%和40.1%,远远大于它们在Turbo Boost之后的最高主频差距18%。但不知为何线程一多(80 copies),核心数增加带来的优势(前面一个图表)反而显得比整数测试小了,估计是多线程浮点运算比较依赖的内存带宽没有相应提升的缘故吧?

展望Xeon E5-4600新一代四路服务器

体验Xeon E7强大性能:惠普DL580 G7评测 

使用LGA2011(Socket R)插槽的Intel下一代双路/四路服务器CPU参考结构图,代号为Sandy Bridge-EP(早期曾将其4插槽版本称为Sandy Bridge-EX)

上图为笔者在“PCIe 3.0只待至强E5:LSI SAS9205-8e HBA卡曝光”一文中出示过的Sandy Bridge-EP处理器示意图,与计划今年底将要推出的实际产品可能会有差异,下面的讨论仅供参考。

Sandy Bridge-EP代号的正式名称应该是Xeon E5-2600/4600系列。尽管同样支持4个内存通道,但由于不像至强7500/E7那样通过内存缓冲芯片来连接DDR3内存(降低了成本),每个通道最多只能支持3条内存(4插槽平台一共就是48条),而只插1条时的最高频率提升至1600MHz。

每颗Sandy Bridge-EP处理器提供了2条QPI连接,并且根据具体型号可能分别支持6.4/7.2/8 GT/s三种不同速率。Xeon E5-4600能够实现四路配置,但CPU——芯片组之间的连接情况和至强7500/E7平台有所不同,见下图。

体验Xeon E7强大性能:惠普DL580 G7评测 

Intel Xeon 7500/E7平台IO结构参考图(红框中的连接为Sandy Bridge-EP所不具备的)

单个Xeon 7500/E7提供4条QPI,因此在四路配置中任意2颗CPU之间都有点对点连接,并且还有一条可以连接到IOH芯片。将上图中红框部分代表的QPI去掉就是Sandy Bridge-EP的4插槽配置方式。根据目前掌握的资料,Xeon E5-2600/4600每颗处理器都将集成了总共40 lane的PCIe 3.0控制器,因此不再需要通过IOH来提供PCIe连接扩展,整个平台与双路一样只用1个代号为Patsburg的PCH芯片组来实现传统南桥的功能(其中集成了8端口6Gb/s SAS控制器)即可。

尽管Sandy Bridge-EP CPU最多只有8个物理核心,但每个核心的效率却可能超过现在的至强E7。无论四插槽Xeon E5服务器的性能是否会再破纪录,估计它推出之后的性价比应该会更高一些。当然定位高端四路平台的Xeon E7微架构也不会停滞不前,引入Sandy Bridge或者更新的技术估计是明后年的事情了吧?

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅ZDNet技术邮件将是您的最佳途径之一。