扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:ZDNet 2010年04月01日
关键字:英特尔 交锋视点 至强7500 Nehalem-EX
代号为Nehalem-EX的至强7500/6500系列处理器于3月31日(北京时间)正式发布,它也全面揭开了神秘的面纱。相较至强5600的发布,显然英特尔对于Nehalem-EX更为重视,因为如果说至强5600更多的是在至强5500基础上的增强版,那么至强7500/6500则是首次将Nehalem架构引入到多插槽服务器市场,在这一点上,相较其前辈至强7400(代号Dunnington)而言,就像至强5500相较至强5400那样,有着革命性的变化。
首先我们来看看Westmere家族企业级产品的型号列表与基本情况,见下图(点击放大):
为了便于价格对比,我们把最新的至强7400系列处理器的价格也单列出来:
在本站早前《最后预览:英特尔Nehalem-EX与Westmere-EP》等文章中,我们已经对Nehalem-EX家族有了较为详细的介绍,在此就不多言了。总之,Nehalem-EX虽然跨越2插槽至多插槽平台,尤其是至强6500系列看上去与至强5500、至强5600市场重合,但在内存扩展能力方面则明确体现了“可扩展”的含义,用来打造针对大内容需求应用的处理平台,比如大型网站等。
至强7500最高可扩展至256插槽系统
根据英特尔的资料,至强7500拥有着极为强大的可扩展能力,利用OEM厂商的第三方节点控制器可做到256插槽的单系统,比如SGI公司的Altix UV1000。而至强7500灵活的QPI总线设计也让OEM厂商可以有很多自己的设计,比如前不久我们就重点介绍过的IBM的eX5系列服务器,而在不远的未来我们将能见到更多的来自OEM厂商的自由发挥。
目前英特尔的“公版”方案只到8插槽,所以8插槽以上系统将完全取决于OEM厂商的设计实力,相对于至强7400时代,OEM厂商对于Nehalem架构的多插槽系统的热情可谓呈爆发式的增长
除了高扩展能力外,至强7500还大大加强了RAS特性(Reliability, Availability and Serviceability,可靠性、可用性与可维护性),配合高扩展能力,将极大的促进至强系统向高端市场的渗透。根据英特尔的计划,在未来至强家族将具备全面安腾家族的RAS特性,主攻RISC系统替换市场。在此,可能有人会说安腾家族又会怎样的定位呢?很简单,那就是继续为原来的安腾用户提供升级服务,尤其是采用HP-UX系统的客户,毕竟做系统迁移并不是闹着玩的,对于那些系统本身并没有什么问题的客户,继续升级而不是替换往往是更为保险的选择。
至强7500的部分RAS特性,至强7500针对RAS的设计多达20多项,已经不再局限于传统的高端x86市场竞争
至强7500的RAS设计中最重要就是机器校验架构(MCA,Machine Check Architecture),它将有效的降低系统的宕机率
当然,至强7500在性能上的提升也是最重要的改进,而这也最能吸引客户的眼球。这方面,相对于前辈,至强7500的确不负重望,在多个测试项目中获得了第一。
至强7500系统测试成绩冠军榜,毫无疑问成为了x86平台的王者
在接下来的内容里, 我们将对至强7500的测试成绩做进一步的分析。不过此之前,还是老规矩,看看至强7500与至强7400之前的规格对比,这也将有助于我们对后面的测试数据有一个清晰的认识。
可以看出,至强7500相对于至强7400,在规格上有了质的变化,由于至强7400平台仍然是传统的CPU+北桥+南桥的架构,CPU数量的扩展并不能带来内存与I/O带宽的增加(这可以看作是至强7500高扩展性的体现)。因此以典型的4插槽系统为例,不管是几颗CPU,至强7400平台的内存带宽都是21.3GB/s,分配到每个CPU只有3.55GB/s,分配到为个核心(4插槽就是24个核心)只有0.8875GB/s,而反观至强7500的内存带宽则不受CPU数量的影响,保持在每CPU 34.1GB/s、每核心4.2625GB/s,如果以核心带宽来对比,那么至强7500就是至强7400的5倍左右了,再加上I/O带宽12倍的差距,也就为两者的大幅度性能差距打下了坚实的基础。
在下文的性能对比介绍中,若没有特殊说明,所对比的至强7400/7500系统均是4插槽系统。
至强7500/7400性能对比测试:整数/浮点性能整数性能测试,至强7500系统是7400系统的2.64倍
整数性能测试中,性能最好的至强7400平台是IBM的System x 3850 M2,4颗至强X7460,64GB (16x 4GB PC2-5300P)内存,而当前此性能最高的至强7500平台是思科公司的USC C460,采用4颗至强X7560,512GB(64x 8GB DDR3-1333 REG ECC)内存,相对于至强7400取得了264%的性能提升。顺便一提,我们知道英特尔的标准方案中,至强7500的内存速率最高只有1066MHz,所以思科看来是延续了其在至强5500/5600平台上的Catalina内存缓冲技术,采用了自己的类似于Catalina的ASIC芯片替换了英特尔原来的SMB(Scalable Memory Buffer,代号Mill Book)方案,从而达到了DDR3-1333MHz的标准。
与早前发布的双插槽至强X5680相比,至强X7560系统基本是两倍的水平。
浮点性能测试,至强7500系统是7400系统的3.82倍
在浮点性能测试中,性能最好的至强7400系统为HP公司的DL580 G5,采用4颗至强X7460 ,64GB (16x 4GB PC2-5300F CL5) 内存,而当前浮点性能最高的至强7500系统为IBM的System x 3850 X5,采用4颗至强X7560 ,256GB DDR3-1066 REG ECC内存。测试结果,性能达到了至强7400的3.82倍。其实,从理论性能上看,至强X7560的浮点性能只是X7460的1.13倍左右,这是由于X7560的核心主频较低,但是X7460的平台架构大大制约了其性能的增长,前文已经分析过了,不管CPU是多少,系统的总内存带宽是固定的,并且内存是共用的,访问权的争夺也将大大降低浮点运算的效率,在这方面与X7560相比,就有了此消彼长的效果,从这点来说,核心数量的提升固然重要,但内存与I/O带宽的跟进更为重要。
与双插槽的至强X5680系统相比,4插槽的至强X7560的浮点性能约是其2.2倍。
至强7500/7400性能对比测试:ERP/数据库性能SAP的ERP系统性能测试,至强7500系统是7400系统的3.53倍
SPECjAppServer2004是一款Java应用服务器(Java Application Server)的基准性能测试工具,主要是测试基于Java 2 Enterprise Edition(J2EE)的应用服务器性能。测试性能最好的至强7400平台为NEC的Express5800 R140a-4,采用4颗至强X7460,32GB内存,操作系统为Microsoft Windows Server 2008企业版,数据库为Microsoft SQL Server 2005(64bit RDBMS),目前测试成绩最高的至强7500平台是IBM的System x 3850 X5,采用4颗至强X7560,256GB DDR3-1066 REG ECC 内存,数据库为IBM DB2 9.7 RDBMS,操作系统为Microsoft Windows Server 2008 企业版。从结果上看,至强7500系统性能是7400的3.53倍。不过需要指出的是,前者在改用Solaris系统后的测试成绩为4600,此时至强7500的性能是其的2.27倍,由此可见软件系统对于服务器性能表现的影响有多大。不过这对于插槽数量相同,核心数量增多33%的系统来说,性能提升幅度仍然是可观的。
相对于双插槽至强X5680平台,System x 3850 X5平台的ERP性能是它的2.15倍。
TPC-E数据性能测试,至强7500是7400系统的2.77倍
TPC Benchmark E测试是模拟经纪公司的联机事务处理(OLTP,On-Line Transaction Processing),它考查公司的中央数据库可有效支撑的交易数量,虽然它是针对经纪公司的业务模型来设计,但其测试基理也意味着它能被广泛用来评价OLTP系统的性能,其测试成绩单位是每秒钟交易数(TPS,Transactions Per Second) 。目前性能最好的至强7400系统是IBM的System x 3850 M2 ,采用4颗至强X7460,128GB内存 ,Microsoft SQL Server 2008 Enterprise x64 Edition数据库,操作系统为Microsoft Windows Server 2008 Enterprise x64 Edition。
目前TPC-E性能最好的至强7500系统为IBM的System x 3850 X5,采用4颗至强X7560,1TB内存(64x 16GB DDR3-1066 REG ECC),软件配置是Microsoft SQL Server 2008 R2 Enterprise x64 Edition数据库+Microsoft Windows Server 2008 R2 Enterprise x64 Edition。
我们不能排除软件方面的改进所带来的影响,不过2.77倍的性能差距还是相当瞩目,与整数性能的差距很接近。而与双插槽的至强X5570相比,至强7500是它的2.38倍。
而8插槽的至强7500目前的性能保持者是NEC的Express5800/A1080a-E,成绩为3141,是System x 3850 X5的1.55倍,不过值得注意的是两者的内存容量一样,所以如果前者也扩充到2TB的话,性能肯定还会进一步提升。
至强7500/7400性能对比测试:Java商用性能Java应用服务器性能测试,X7560系统是X7460系统的2.5倍
SPECjAppServer2004是一款Java应用服务器(Java Application Server)的基准性能测试工具,主要是测试基于Java 2 Enterprise Edition(J2EE)的应用服务器性能。至强7400系统是HP公司的ProLiant DL580 G5,4颗至强X7460 ,64GB内存,软件配置是Oracle Enterprise Linux 5 Update 2 x86_64+Oracle WebLogic Server Standard Edition Release 10.3。
至强7500平台则为Dell公司的PowerEdge R910,4颗至强X7560(打开超线程与TurboBoost),128GB内存,软件配置为Oracle Enterprise Linux 5 Update 4 x86_64+Oracle WebLogic Server Standard Edition Release 10.3.3。测试结果,其性能是至强7400系统的2.5倍。
与双插槽至强X5680系统相比,至强7500的性能约是它的2倍。
Java性能测试,至强7500平台性能是至强7400平台的3.175倍
SPEC Java Business Benchmark 2005是一款用Java编写的多线程测试工具,它的评测是模拟一个企业基于若干个仓库为多个客户提供交易服务的环境,以每秒的操作数(BOPS,Business Operations per Second)来评估性能。至强7400平台是富士通的PRIMERGY RX600 S4,4颗X7460 ,64GB内存,软件为Microsoft Windows Server 2003 R2 Enterprise x64 Edition+Oracle JRockit 6 P28.0.0。
至强7500平台为IBM System x 3850 X5,4颗X7560(打开超线程与TurboBoost),256GB内存,软件为Microsoft Windows Server 2008 R2 Enterprise x64 Edition+IBM J9 JVM (build 2.4, JRE 1.6.0)。虽然软件本来并不一样,不过3.175倍的性能差距也很能说明问题了,而相对于双插槽的至强X5680系统,则是它的2.167倍。
虚拟化性能测试,至强7500系统是至强7400系统的3.5倍
VMware的VMmark测试程序以节片(Tile)为负载单位,一个节片内含6个工作负载,等效为6个虚拟机,VMware用这6个虚拟机分别模拟常见的应用,它们分别是Web服务器、文件服务器、邮件服务器、数据库服务器、Java服务器以及一个空闲的虚拟机。这6个虚拟机同时工作,VMmark测试总体的应用水平,分值越大代表虚拟化性能越高。VMwark的原理在于,只要服务器的性能有节余就增加节片,如果此时节片内的虚拟机性能没有降低,总体性能得分就会提高,但如果增加节片后,虚拟机性能下降,那总体得分也就下降,所以VMmark就截取最高分,即服务器虚拟化的最大极限,并注明此时的节片数量。
成绩最好的至强7400平台为IBM的System x 3850M2,4颗X7460 ,128GB (32x 4GB PC2-5300 667MHz registered ECC DDR2)内存。至强7500平台是IBM的System x 3850 X5,4颗X7560,384GB DDR3-1066内存。测试结果,至强7500的虚拟化性能是至强7400的3.5倍。也就是说,IBM的System x 3850X5在该配置下可有效支持294个虚拟机,System x 3850M2则只有84个虚拟机,不过两者的内存容量不同,因此真正的性能差距应该不会达到3.5倍。
与双插槽的至强X5680相比,至强7500的虚拟化支撑能力也基本是它的两倍,而即使是AMD最高端的8插槽48核心的伊斯坦布尔平台(HP ProLiant DL785 G6),VMmark成绩也只有53.73 @ 35 tiles,当然参测的HP ProLiant DL785 G6只配了256GB内存,比System x 3850 X5少了128GB的内存,但由此可以看出至强7500系统的虚拟化威力。
至强7500/7400/5600/5500性能对比测试:高性能计算ANSYS Mechanical 12.1有限元计算性能测试,至强X7560系统是至强X5570系统的3.2倍
ANSYS Mechanical 12.1是一个涵盖广泛的多学科计算工具,提供了包括结构、热量、流体、声学和电磁等科学仿真计算能力,而在ANSYS Mechanical的多重物理场有限元分析运算中,至强X7560系统性能是至强X5570的3.2倍。不过X5570的内存容量为12GB DDR3-1333 ,X7560系统则是128GB DDR3-1066 (32x 4GB),从这点可以看出至强7500在大内存需要迫切的HPC领域的用武之地了。
油藏模拟IMEX计算测试,至强X7560系统是至强X5570系统的2.4倍
CMG公司的IMEX软件是一款著名的油气藏模拟器,用来模拟分析三种状态下天燃气混合流动情况,包括气-水、油-水、油-水-气。它的计算很多时候都需要256GB内存的支持(比如对54万个油气穴和50口井进行15年的模拟推演),这在至强55/56系列平台上是不可能的。在这个测试中,至强X5570满配144GB DDR3-1333内存,而至强X7560平台则256GB DDR3-1066内存。结果,至强X7560平台性能是X5570的2.4倍。这也再次体现出,拥有高度内存扩展能力的至强7500在某些HPC领域中的不可替代性。
电路辅助设计的分析验证性能测试,至强7500平台是7400平台的2.68倍
Synopsys公司是为全球集成电路设计提供电子设计自动化(EDA)软件工具的主导企业。其电路制版验证引擎Proteus,在芯片正式投产之前,通过光学近接校(OPC,Optical Proximity Correction)来分析并修改全芯片设计数据库。而在这一分析过程中,至强X7650平台的性能是至强X7460平台的2.68倍。
地震图析成像性能测试,至强X7560系统性能是X5570系统的3倍
GeoDepth是一款2D/3D地震图像解析软件,用高清晰度图像来再现地震反射图形,以帮助勘探人员了解地质结构,在这个计算中,至强X7560系统的性能是X5570系统的3倍。至强X5570平台内存容量为24GB(DDR3-1333),而X7560则是128GB(DDR-1066)。
碰撞模拟性能测试,至强X7560系统性能是至强X5670系统的2.1倍
LS-DYNA是一个通用的是世界上最著名的瞬变动力有限元分析程序,能够模拟真实世界的各种复杂问题,可用多种行业,包括汽车设计、航空航天、制造业以及生物工程。而汽车碰撞模拟就是其典型的应用之一,car2car测试是两车正面碰撞的模拟演算,至强X7560系统性能是至强X5670系统的2.1倍。不过X5670的测试平台是24 GB(6x4GB DDR3-1333 registered ECC)内存,而至强7500平台是思科的UCS C460 M1,采用了512 GB(64x8GB DDR3-1333 DIMM)内存,当然X5670系统内存正常情况下也是不可能达到512GB容量的。
OpenMP性能测试,基本上4插槽X7560系统是双插槽X5680系统的两倍
SPEC OMP Mbase2001用来最大限度模拟真实环境下的科学与工程计算,并以此来测试系统的OpenMP运算性能,基本可以理解为单机环境下并行运算能力的综合体现。基本上延续了上面的比例,4插槽至强7500是双插槽至强5600的两倍。
流体力学计算性能,至强X7560系统是X5670系统的2.21倍
STAR-CD是一个流体力学计算软件,在其计算模拟中包含了多重物理场与复杂几何学,在这个测试中,至强X7560系统是X5670系统的2.21倍。
从以上可以看出,在HPC领域,至强7500相较至强7400的进步远比至强5600对至强5500明显,由于架构上的重大进步,使得至强5400到至强5500的性能巨变在至强多路平台上再次重演。而对于同是Nehalem家族的双路平台,其实就绝对性能来说,至强5600已经很不错了,双插槽12核心基本上是4插槽32核心至强7500系统一半的性能水平,但是从上面的测试的配置中,我们能明显感觉到至强7500平台明显的在内存配置上更为“大方”,此外不少的HPC应用也的确对大内存更为敏感,这也从另一个侧面凸显至强7500在HPC领域里的价值——在核心性能不变,且核心平均带宽基本不降低的情况下,大大提高了HPC平台的内存扩展能力,这完全不是5600这样双路平台所能替代的。因此,即使是双路的至强6500,也将因为其出色的扩展能力(双插槽系统可具备32DIMM,最高512GB内存容量),而在HPC市场占有一席之地。
从这个图表中可以明显的看出4插槽至强X7560与双插槽X5680的HPC中的性能领先幅度,而从理论上看,4插槽的至强X7560的浮点性能应该是双插槽X5680的1.8倍,而在OpenMP的测试中,X7560是X5680的1.8倍,这主要取决于X7560的I/O带宽更高,虽然每核心X7560的内存带宽比X5680才要低,但在一个共享内存的OpenMP环境下,更高的I/O带宽在很大程度上弥补了这一差距,所以获得了比理论值更好的成绩,而基于裸线程的MPI性能测试也基本如此
到此,我们完全可以说,至强7500在性能和可扩展能力方面为胖节点在HPC中发挥更大的作用奠定了美好前景。
至强7500/6500与至强5600/5500双插槽平台性能对比至强7500可支持2插槽至256插槽的系统,至强6500则只支持双插槽系统,那么在双插槽的情况它们的表现又是如何呢?我可以与至强5500/5600做一对比。
双插槽服务器的Java性能测试,至强7500平台开启RAS特性
在高可靠LockStep内存模式(两个内存通道变成一个通道,如果有第三个通道的话,则弃用)下,至强7500平台的Java性能是至强X5680平台的1.87倍。当然,这种比法不太公平,因为至强5600平台是三通道内存设计,但在LockStep模式下,等于只有两个通道可用。因此,至强7500的领先幅度很大。
Web服务器性能测试,同是双插槽的情况下至强X7560平台Web性能是X5570平台的1.48倍
在双插槽Web服务器性能测试中,我们可以看到至强X7560平台(64GB内存)相较至强X5570(24GB内存),Web性能是后者的1.48倍,而我们知道X5680的Web服务器性能是X5570的1.255倍,那么可以推算出至强X7560平台的Web性能是至强X5680的1.18倍。
在计算机辅助工程应用中,双插槽的X6550的性能是X5680的1.58倍
MD Nastran是一款著名的CAE套件,允许制作业的工程师构建复杂的模型,而在这个应用平台上,仅有双插槽能力的X6550(测试平台内存容量64GB)的性能是X5680(测试平台内存容量24GB)的1.58倍,那么顶级的X7650相对于X5680的性能提升幅度则大约在70%左右。
4插槽X7560与双插槽的X5680的主要商用性能对比
而在再结合4插槽7500对双插槽5600的性能比值,可以看出在同是双插槽的情况下,7500较5600性能普遍提升10%左右,而在一些极端应用中,性能提升幅度超过了50%,已经超出了核心数量的33%的增加幅度,这显然与平台内存容量的因素有关,但起始8DIMM对6DIMM也意味着这种差别不可避免,从而也再次体现出大容量内存扩展能力对于双插槽系统同样有着显著效果,对于那些需要大容量的应用来说,至强6500无疑是更好的选择(如果不差钱,显然7500更好),不过800美元(至强X6550相对于X5680的价格差)的单CPU成本差距也是采购者必须面对的问题。
至强7500平台性能线性扩展能力说完两插槽平台的对比,我们再来看看至强7500平台向4插槽以上平台扩展所带来的性能提升表现。
双插槽、4插槽与8插槽至强7500平台企业应用基础性能对比
在浮点性能、整数与Java性能方面,4插槽相对于双插槽系统基本达到了双倍线性扩展的性能,而8插槽相对4插槽浮点性能提高了63%,整数性能提升最大,达72.5%,Java性能则提升了65.3%。
4插槽到8插槽至强7500平台主流企业应用性能对比
在主流的数据库应用中,8插槽系统(1TB内存)相对于4插槽系统(256GB内存)性能提升了54%,提升效率为77%,在ERP应用中,8插槽的内存容量为1TB,4插槽平台为256GB,性能提升了55%,提升效率为77.5%,表现还是不错的。
双插槽、4插槽、8插槽与64插槽至强7500的浮点性能对比
再往上扩展后,我们可以看出64插槽的至强7500平台浮点性能是8插槽的7.78倍,与插槽数量的8倍比例来讲,性能的提升效率是相当不错的,达到了97.25%,8插槽相对于4插槽的提升效率是80%,而4插槽相对于双插槽则是100%,需要指出的是,双插槽至强7500的内存容量是128GB、4插槽平台是256GB,8插槽平台是512GB,但Altix UV1000则是2TB,并不是成比例的4TB。由此也可以看出SGI的Altix UV1000系统的设计相当出色,另外也证明了Nehalem架构在多插槽扩展方面的强大实力。