扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZDNet至顶网服务器频道 11月21日 评论(文/赵效民):AMD新一代处理器架构Bulldozer(推土机)在两年前就已经引起业界的广泛注意,由于其新颖的“物理双线程”设计让很多人对于AMD首次涉足多线程领域的表现非常期待。2009年11月11日,AMD正式明确了Bulldozer的架构,而随着日后Bulldozer的细节公布,本站也做了相应的报道,其双核模块的设计确实让人眼前一亮,好奇心也因此更上一层楼。近日,桌面版的Bulldozer处理器率先亮相,8核心的FX8100与4核心的FX4100的评测已经铺天盖地,而11月14日,面向企业级应用市场的皓龙(Opteron)版Bulldozer终于正式亮相,分别是最高16核心/8模块的Opteron 6200系列与最高8核心/4模块的Opteron 4200系列。由此也正式向世人宣布了AMD的最新服务器平台。在AMD的声明中强调,新一代基于Bulldozer的皓龙处理器将为云时代提供强大的动力,同时也为企业带来高效、节能的基础运算平台。那么从理论到实践,从期盼到现实,Bulldozer能为将来的云“推”出多大 的天空任其驰骋呢?我们今天就来做一分析,而重点就是Opteron 6200系列。
Opteron 6200处理器新特性简介
有关Bulldozer处理器架构的介绍,已经有很多了,但为了文章的完整性,我们今天也在此做一简单的回顾与介绍(参见上面提到的本站专文),首先要明确的是,从Bulldozer开始,传统意义上的“CPU核心”的概念已经有了变化。
Bulldozer的“模块”架构图,可以看作是两个整数处理核心共享一个浮点处理单元的设计 ,因为日常的处理运算中,更多的是整数处理,所以这就变向的等于在一个模块可以同时处理两个整数处理线程,而无需共享处理管线
AMD当初开发Bulldozer架构的初衷在于,经调查发现日常的IT应用主要集中于整数运算,而浮点运算相对较少。为了提高多线程处理的性能,AMD设想可不可以用2+1的方式来解决,即两个整数处理核心+1个浮点处理单元,以组成一个新架构的处理单元——Module(模块)。 众所周知,在多线程处理方面,英特尔最早提出了Hyper-Threading(超线程)的理念,可以使操作系统或者应用软件的多个线程,同时运行于一个超线程处理器上,其内部的两个逻辑处理器共享一组处理器执行单元。而AMD CPU的两个线程使用各自的单元,但两个线程是共享命令解码器和浮点运算等资源的。因为是整数运算,所有线程之间没有冲突,因此吞吐量有所提高。
从芯片级别看Bulldozer模块,每个模块拥有自己的L2缓存,L3缓存则为晶片级共享
Opteron 6200与4200的晶片设计图,4200由单晶片(功能单元略有不同)构成,最多4个模块(8核心),6200由两块该晶片组成,最多8个模块(16个核心)
由于这种2+1的核心设计,在Bulldozer的架构中,其核心(Core)的概念已经与传统认识有了较大的不同,单一的核心并不是一个具备完整功能的处理单位,所以AMD一直在用Bulldozer Module来表示Bulldozer处理器的处理单元,所以在后文的介绍中,对于Opteron 6200我们也将用模块和核心两个概念表述——在这里,核心是指组成模块中的整数处理单元,它们共享一个弹性浮点处理单元(Flex FP)。
Opteron 6200的内部架构图,相当于用两块4200组成,两个芯片之间由HyperTransport总线互联
在Bulldozer架构中,非常值得一提的是由两个整数处理核心共享的Flex FP处理单元与新增加的独家指令集。这一Flex FP由两个128bit FMAC(Fused Multiply–Add Capability,混合乘加)处理单元组成,之所以称为弹性(Flex),是因为这两个单元可以各自独立,为每个整数核心提供独享的128bit浮点处理单元(此时可以认为是两个具备有整数运算+128bit浮点运算单元的处理核心,组成了Bulldozer Module),也可以组合成一个256bit的浮点处理单元为一个模块提供服务,这其实给编程人员提供了很好的弹性,但也预示着对现有的应用需要进一步的优化。
Opteron 6200与6100、英特尔的SandyBridge之间的浮点处理模式的对比
简单来说,这种两个128bit单元弹性组合的方式,提供了有多种指令处理的模式,比如对于同时执行两个128bit的AVX指令,SandyBridge单一的256bit FP单元就不行了,而Flex FP则可以,同样的,这也适用于SSE指令。所以,AMD强调,除非是256bit的AVX指令环境,否则6200的单周期浮点处理能力是SandyBridge的两倍,显然灵活的可分拆也可组合的Flex FP功不可没。
Opteron 6200除了具备与英特尔SandyBridge相同的指令集外,还独家提供了两套指令集
目前主流的编译器大多已经支持AMD的FMA4和XOP指令集
而为了发挥Flex FP的强大的威力,AMD也专门开发了两套针对浮点运算的指令集FMA4与XOP,两者可以说都是为高性能计算所服务,但侧重点不太相同,FMA4更有针对性,比如向量和矩阵计算、多项式评估、数据信号处理等,而XOP则针对数学、多媒体应用等。目前,主流的编译器大多已经全部或部分支持AMD的新指令集,因此在发挥Bulldozer的浮点威力方面,还是很让人期待的。
新一代Opteron 6200/4200的主要特性
说完主要的处理架构的亮点外,我们再来看看其他方面的改。AMD强调了新一代处理器在三个方面的灵活性优势,分别是处理性能的灵活性,能耗的灵活性与平台及虚拟化的灵活性。而相较上一代的6100处理器平台,我认为前两者的改进最为明显。
Opteron 6200与6100对比,请注意整数处理的每周期发射数的提高(预示整数性能提升更明显)、Turbo CORE超频、C6能耗控制等新的变化
每个核心都有6个能耗/性能等级(P-States),可以根据TDP的设定而将最高性能限制在某一等级之下,而当与TurboCORE技术相配合时,我们能发现又多出两个等级,以提供最强的核心性能。在Opteron 6200平台上,用户可以在BIOS中通过AMD新推出的TDP Power Cap功能设定总功耗限制,而P-States也就会做出相应的限定
新增加的C6能耗控制状态,在这一状态,空闲的模块可以单独进入C6状态,此时模块停止供电与时钟信号,从而可最多节省95%的能耗。在Bulldozer处理器,每个模块的状态将保存在内存中
AMD TurboCORE技术实现了类似于英特尔“睿频”(TurboBoost)的功能
我们已经对英特尔的“睿频”技术有所了解,它可以在处理器的能耗不超出TDP功率限制的前提下,根据应用的性能需求,提升处理器核心的运行频率以最大限度挖掘核心的处理性能,而在Opteron 6200上也同样具备了这一能力,它就是AMD 的TurboCORE技术,它可分为两个模式。一种是All Core模式,所有的模块都可以提升300至500MHz的主频,另一种是Max Turbo,即如果一些轻负载线程让一半的模块可以将进入C6状态,但余下的模块又需要最大的处理性能,此时可以在All Core的基础上再增加500MHz(即最高可超频1GHz)。
Opteron 6200处理器价格信息与规格比较
我们在4月份曾做过Opteron 6100与至强7500和5600之间的对比。今天将延续我们以往的风格,我们在此会列出Opteron 6200的规格信息,以及与Opteron 4200的价格信息,并将开始与主要的竞争对手进行对比。在这里需要强调的是,从6100系列来,AMD就放弃了4路以上的服务器市场,并且主攻双插槽市场,这一点与英特尔的战略明显不同。所以,AMD将Opteron 6200定位于主流的双插槽及4路服务器市场,4200则主要是面向云计算集群应用以及轻负载的企业应用,只有双插槽平台可供选择。
Opteron 6200与Opteron 4200的官方报价,4200最低价为125美元,6200最高为1019美元
年初发布的6100系列处理器的价格表,可以看出6200居然更便宜
英特尔E7处理器的价格,4路型号最高价格4394美元,双插槽最高价格4227美元,相比之下Opteron 6200太廉价了……
与6100一样,6200同样面对两个强大的对手,但4路平台从至强7500换成E7,而双插槽平台仍然是至强5600
以价格段为区间,至强5600与Opteron 6200的型号对位表,这也将影响到我们下面的评测处理器的选择
好啦,介绍了这么一大堆东西,相信更多的人的重点就在于它的性能到底怎样。为此,我们收集了权威的测试数据整理如下,在部分测试中,我们也出于价格因素来为6200挑选对手,看看它的竞争实力到底有多强。在下文中,我们尽可能的分为双插槽与4插槽两个平台进行对比,6200方面,我们挑选了最强的6282SE以及主流高端的6276,而在对比产品方面,除了AMD上一代的6100处理器的旗舰6176SE外,我们对英特尔方面的产品的挑选原则是,1、是该平台上英特尔最强的型号;2、在价格上与6282SE相近的型号,所以请各位注意与文公布的价格信息做对比。在成绩的选择上,我们会挑选每个平台上的最佳成绩。 整数性能测试 在双插槽系统的测试中,我们增加了至强x5650和E7-2820和2870三款处理器,因为5650的价格与6282SE相当,而2870则可以说是英特尔目前最强大的E7平台的双插槽处理器,2820则是E7双插槽平台中最便宜的处理器。从成绩上可以看出,6282SE的成绩非常出色,较6176SE提高了36%,虽然比不过双插槽的E7-2870,但对付低端的E7和至强5600还是没有问题的,并且在这些产品中,除了至强5650,其余的都贵过6282SE。另外,值得注意的是,6282SE是目前唯一上到DDR3-1600的 参评处理器,这也有助于其获得更好的成绩。6276虽然仍是DDR3-1333的内存,但也强过5690和低端的E7-2820,表现不错。 在4插槽的对比测试中,我们可以看出6282SE的实力仍然不错,较6176SE提高了30%,面对4倍价格于自己的E7-4870,成绩相差并不多,而E7四路平台的最低款E7-4820(比6282SE贵400多美元)则不如6282SE,但好于上一代的6176SE。6276则处于6282SE与E7-4820之间的位置,明显高于上一代同主频的6176SE。 由于整数运算是企业应用中最主要的运算模式,所以整数运算的性能表现,也就能预示出6282SE在企业应用中的大体水平。 浮点性能测试 SPEC的浮点测试是对处理器浮点性能的裸测试,并不能体现出6200新指令集方面的性能,不过这对于现在的大部分应用也是适用的。 凭借着Flex FP的设计(可以等效为16个128bit FP核心)以及DDR3-1600,6282SE的浮点性能表现出色,较6176SE提高了25%,成为了双插槽平台上的王者,英特尔目前没有一款处理器,无疑是5600还是E7系列,都无法与之抗衡。6276则胜过5690,但败在E7手下,不过虽败犹荣。 在4插槽平台下,6282SE没能保住第一的位置,输给了E7-4870,不过大幅领先上一代6100(幅度为19%)。为什么在双插槽下可以领先于E7,而在4插槽下却落败了呢?我们可以分析一下,双插槽E7-2870的成绩是360,它与4870的主频和核心数量相同,到了4插槽的4870,成绩就变成了724,基本上是线性的扩展,而6282SE是从双插槽的372至4插槽的701,可以看出明显的落差。这其中可能与内存速率从DDR3-1600下降至1333有关,但也有内部互联效率的问题。6282SE内部的双芯片HT互联架构其实就相当于是8插槽的4200在工作,这样必然会影响到处理模块的相互协调,其实在整数性能测试中也出现了这一现象。 Java、ERP与虚拟化性能测试 SPEC Java Business Benchmark 2005是一款用Java编写的多线程测试工具,它的评测是模拟一个企业基于若干个仓库为多个客户提供交易服务的环境,以每秒的操作数(BOPS,Business Operations per Second)来评估性能。 这个测试成绩,与整数测试成绩很像,6282SE完胜5690,较6176SE提高了34%,不过输给了E7-2870,但考虑到两者的价格差,以88%的性能相抵4倍的CPU差价,至于合不合算,就看你自己怎么想了。 而6276相对于6282SE性能下降并不明显,让我们有些惊讶,由此也更突出了它的性价比。 在4插槽方面,没有悬念,6282SE不是4870的对手,性能是后者的83.5%,相较双插槽时有所退步,不过4870也比2870更贵,哈哈。另外,较6176SE提高了26.5%。6276仍然紧随6282SE而明显高于6176SE。 基于SAP-SD 2-Tier的双插槽测试结果中,6282SE虽然较6176SE提高了29%,但仍然不是E7的对手,但强过5600。与E7的性能差距,大约是后者的84%。6276则险胜5690,明显强于6176SE,取得了不俗的成绩。 在SAP-SD 2-Tier的4插槽测试结果中,6282SE较6176SE提高了28.7%,是E7-4870性能的81%。6276基于处于6282SE与6176SE之间,价格优势更为突出。 SPECvirt_sc2010是SPEC组织推出的虚拟化性能测试软件,其基本的测试原理与VMware的VMmark差不多,也是以“片”为单位进行虚拟化性能方面的考查,一个“片”包括应用服务器、Web服务器、Mail服务器、空闲服务器等共6个虚拟机,最后看在满足性能标准的前提下最多可支撑的虚拟机数量并给出得分。从成绩上看,虽然至强5690的系统的内存达到了288GB,但仍然不敌6282SE,不过E7还是非常强劲,6282SE的虚拟化性能是后者的83%,不过需要注意的是后者的内存达到了512GB,如果采用16GB的DIMM,使双插槽6282SE系统的内存达到384GB,相信差距还会缩短。另外,考虑到5690和E7-2820的价格,不得不承认6282SE在性价比方面的优势。 总结:推土机的天空有多大? 综合上文,我们现在能对AMD新一代的Bulldozer架构的Opteron 6200处理器有了一个较为完整的了解,可以说6200给了我一个更好的印象。首先从架构上讲,的确有很大的创新,从某种角度上看,Opteron 6200就是一款拥有16个传统CPU核心的处理器,因为它的Flex FP设计,可以认为是为每个整数处理单元配了一个128bit的浮点单元,从而形成了一个完整的处理核心,只不过L1缓存的数据部分是每个整数单元独享,而L1缓存的指令部分和L2缓存是模块共享的(L2缓存理论上是每个整数核心各1MB,但共享访问端口),从这一点来说,又与传统的CPU核心不同,我更愿意理解为是一个具备两个独立整数处理 单元和一个弹性浮点处理单元的处理核心,而这就是AMD所定义的Bulldozer Module,由此看来,Opteron 6200更像是一个传统意义上的8核心处理器。 Bulldozer的处理模块设计可以很明显感觉到其多线程的处理能力,而且不再是像英特尔的HT技术那样是逻辑多线程,但这显然需要新的软件优化才能更好的利用,因为缓存的逻辑与调配、指令和数据的分发与处理 较6100系列已经发生了改变,显然需要软件在编程时予以适应,同时也需要操作系统底层的线程分配更为智能(比如将一个线程的子线程分配到一个模块中而不是两个模块,跨模块的多线程处理肯定会浪费更多的周期与资源)。此外,256bit的Flex FP的利用也是一个问题,在以往,并没有能同时执行两个128bit浮点运算指令的浮点单元,即使是SandyBridge的核心也只是一个256bit的浮点单元,从新增加的256bit AVX指令集的角度来看,它提供了两倍于传统架构的浮点性能,但从AMD的Flex FP设计来看,它又为我们提供了一种新的浮点运算的模式,即在一个周期内同时处理两个128bit的浮点运算,但这一思路在以前基本无法实现,所以说Bulldozer的设计出发点是好的,但如果不能很好的利用, 也很难体现出它的好处,为此AMD也专门提出了自己的指令集就是希望能让开发者尽可能的利用好Bulldozer的新特性,不过以现有的应用来说,现实的性能表现还不能让人感到惊艳。不久前FX8100与4100在桌面平台上的测试反响不良就已经说明了很多问题,只不过桌面上的应用与企业级不太一样,而且如果按照我的定义,FX8100其实也只是4“核心”的处理器,在未得到很好的优化时,与传统的4核心处理器相比,并不是很占优势(虽然号称有8个核心,但不要忘了“配套设施”并不完整独立)。不过在企业级方面,通过上文的成绩对比,可以发现Opteron 6200的8模块设计已能显示出一定优势了,尤其是面对6核心的至强5600,对于10核心的至强E7,则凭借更高的主频也并没有落下太多。 Opteron 6282SE相对于上一代6176SE、至强5690和至强E7-XX70的性能成绩和价格对比总结 通过对测试成绩与价格的总结归纳,我们可以明显看出Opteron 6200的优势所在,那就是双插槽服务器市场,这也是AMD目前最为看重的市场,它占据了整个服务器市场最主要的份额,完全可以说得双插槽市场,就可以保证在企业级市场不死,因此对于AMD十分重要。Opteron 6200在这一市场上,无论是当前的至强5600还是E7都具优势,尤其是浮点运算方面(包括AMD新开发的指令集),这也就是Opteron 6200一经推出就会受到HPC应用青睐的原因,可能FX8100与FX4100在桌面测试中令人印象不佳,但在HPC领域,Opteron 6200的确是一个优秀的选择。如果以后的应用优化到位,在浮点运算方面的灵活性与性能表现甚至可以与未来的SandyBridge一较高下。 然而在AMD传统的优势领域——4插槽服务器市场,自6100系列开始(或者说从至强7500上市之后),就基本上已经丧失了性能优势,目前Opteron 6200基本上能提供至强E7处理器85%的性能,但有一点必须要强调的是两者的价格,6282SE以E7-XX70 24%的价格提供了后者85%的性能(相较至强5690,则以61%的价格提供了约1.2倍的性能),而6276的表现也同样抢眼。从这一点出发,就能体会出6200系列的另一个优势——出色的性价比。虽然AMD在6100系列时代就强调性价比,由于6200的价格比6100系列还低,但又比6100的性能提高近30%,所以它的性价比 较6100系列更为突出。 当然,6200系列的用户应该与Oracle数据库这类的以CPU核心数量许可的应用无缘了,如果按16核心计算,6200+Oracle数据库的总体成本要远高于其相对于竞争对手的CPU差价,而像微软SQL这类的按CPU插槽数量 许可的应用将是它最佳的选择。 根据Mercury Research的《PC Processors and Chip Sets Updated Edition 3Q2011》数据,在英特尔的5600系列中,销售量最大的是E5640(4核心,2.66GHz主频,80W TDP),而AMD的直接竞争重点也在于此。很明显,6276的售价与之十分接近(788美元,E5640是774美元),AMD宣称性能是它的1.89倍(根据笔者的统计,整数性能是1.77倍,浮点性能是1.82倍) 6200的性价比优势可以让用户在相当的价格上获得更好的配置与性能,比如与双插槽的E5640相比,比其稍低的价格可以得到双插槽6220(8核心,4模块,3.0GHz)服务器,其中内存翻倍、存储容量达3倍,根据测试数据,整数性能比E5640平台高17%,浮点性能高38.6% 在顶级双插槽平台上,也是如此,还是拿老对手5690与6282SE相比,可以明显感觉到6200系列的性价比优势 综合来看,我认为6200系列是具备较强的竞争实力的,特别是在不强调RAS(可靠性、可用性和可服务性)的双插槽服务器市场,它无疑是当前的王者,与此同时,在4插槽服务器市场,由于云理念的普及与运用,以 廉价集群方式提供高RAS云平台的方式也将让6200获得更多的关注,毕竟它的性价比非常诱人。只不过一个无法回避的事实在于,6282SE取得这样的成绩是以超出对手10W的TDP功耗 (140W)换来的, 所以按功耗性能比计算还要打出8%的折扣。当然,115W的6276的性能仍然强于130W的5690,但再往下除了一款85W的处理器(6262HE)外都是115W,而至强 方面,在130W之下则是95/80/60/40W的型号,E7则是130/105/95W,所以在功耗选择方面,6200的可选项并不多 。举例来说,在上文中进行系统价格比较的6220也是115W的TDP功耗,而E5640只有80W,前者是后者的1.43倍,远大于性能领先的幅度。所以单就单位功耗/性能而言 ,6200系列并不占优 (在价格方面,E5640则是6220的1.7倍)。另一方面,6200处理器的功耗控制只分为6个等级,而至强5600则有15个等级,所以整体的功耗控制在SPECpower_ssj2008测试中, 双插槽Opteron 6276平台的最高得分是2805(上一代6176平台的得分是2291),而比6276性能差的至强5675(3.06GHz,95W)的最高得分是3329。不过根据6176的4插槽系统强于至强E74插槽平台的成绩,6200系列在4插槽上的能效表现应该强于E7。 需要指出的是,在双插槽市场上,Bulldozer皓龙家族还有更低功耗的4200,但其也只有95/65/35W的选项,而从6200的评测来看,如果按一半的性能计算,4200在双插槽市场上的性能肯定就不占优了 (其实4200就没想打性能牌,它可以认为是桌面版FX8100的服务器版,看看FX8100相对于英特尔i5的测试就知道它的水平了)。不过考虑到6200最高24亿个晶体管是5600的两倍还多,做到现在的水平也实属不易 。而且,我必须再次强调的是6200的价格,如果按单位性能成本来衡量,它无疑是最强的。 总之,基于新一代的Bulldozer核心架构的Opteron 6200系列处理器在整体的性能表现上基本上达到了其核心数量相对于6100的等比例提升(如果按模块=核心计算,则提升了将近1倍的性能),而较6100更出众的性价比,无疑将会进一步加强AMD平台在双插槽服务器市场上的竞争实力,不过其 目前在能效方面的表现可能会对那些更注重绿色能效的用户在选择上造成一些阻碍。更为重要的是,当明年2月份英特尔基于新一代SandyBridge架构的至强E5服务器上市后,6200必将面临 严酷的考验。从目前所掌握的情况来看,E5的综合性能 (相较现有的5600,其最高核心数量提升至8个,内存通道数量提升至4个)反超6200应该不成问题,因此市场上留给6200领先的时间窗口其实并不大,6200必须抓紧这近4个月的时间,迅速打开局面(包括应用软件与操作系统优化的生态环境),否则等明年E5降临之后,6200的性价比的优势将迅速减弱,市场竞争的砝码也就屈指可数了。 将于明年第一季度发布的至强E5系列无疑将是Opteron 6200在双插槽服务器市场上的劲敌,它的综合性能超过至强5600的1.3倍不成问题 最后回到本文的主题——Bulldozer最终能推出多大的云之天空呢?AMD在发布会上指出“推土机将改变世界”,对此我显然没有那么乐观,这更多的要看后续的市场反应 ,单以目前AMD的实力,还不足以扭转局势。平心而论,6200系列表现不错,可以在云后台市场以性价比打动人心,不过如果不能完善相应的生态环境,它的处境仍然严峻,这是当前大市场环境所造成的。英特尔平台在市场上已经培养出强烈的选择习惯与惯性,这同样也左右着应用开发商的导向,所以对于AMD的新架构产品,需要付出更多的努力,而从目前的情况来看,推土机并没有表现出过人的优势 (相对而言,HPC方面的改进可能算是最大的亮点),也许当一切相关的生态环境成熟后,它更显威力,但在此之前它必须等待……不可否认,现在的6200与4200较上一代产品,有实力打开更大的云之天空,但要想如愿并继续扩大那一片天,则必须付出更多的努力,因为留给它们展示优势的时间并不多了!