扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:ZDNet 2010年08月05日
关键字:eX5 IBM Nehalem-EX
人们都说x86服务器是同质化最为严重的企业级IT产品,这是因为其主要的元件——CPU以及与之配套的平台基本上就是出自那一两个处理器厂商。x86服务器虽然从总体的架构上与x86的PC机相比差别不大,但企业级应用的性能需求、RAS(可靠性、可用性、可服务/维护性)需求与PC机肯定不在一个级别上的。这就让x86服务器平台的芯片组研发有了很高的门槛,基本上都是CPU厂商自己包揽。第三方厂商即使有,也很难见到PC领域的品牌。比如在AMD平台上,除了AMD就是NVIDIA和Broadcom,但在AMD逐渐强势之后,后两个品牌可能最终会在AMD平台上消失。而英特尔方面则基本上被英特尔自己所垄断。
这样一来,两大x86处理器厂商的平台也就基本趋于单一化,对于CPU厂商来说这可能是好事,但对于服务器厂商来说就意味着将面对着大量同质化的竞争,虽然可以在外围的配件与组件方面做出点新意,但平台的同质化也基本限定了你的“新意”范围。不过,那些拥有强大技术根基的厂商并不甘心于这样的竞争,因此它们也开发了自己独有的平台技术,这其中,IBM的X架构平台就是典型的代表。
IBM的X架构平台的发展历程,到今天已经有10年的历史
X架构,确切的说是企业级X架构(EXA,Enterprise X Architecture)是IBM专门为英特尔至强至强处理器(Xeon MP)而开发的服务器平台架构,IBM的EXA的每一代产品都具备了同时期英特尔原厂平台所不具备的能力,或者说IBM针对英特尔的平台方案中的不足所做出的补充。比如在第一代的EXA产品x440服务器是首款具备16插槽扩展能力的产品,第二代产品x445则具备了8路的能力,最大可通过级联扩展至32路(当时的英特尔平台只支持到4路),另外还引入了内存热交换技术。到了第三代,EXA平台加入了轮询过滤缓冲(Snoop Filter)的设计,大大降低了多路处理器间因要进行数据轮询所增加的延迟,提高了多路服务器的企业级应用性能,而这个设计两年后才在英特尔平台中出现。而到了2007年,IBM推出了现在的EXA平台(即支持英特尔的至强7300/7400处理器),相对于英特尔同期的芯片组,在很多方面进行了优化,并且仍然提供了强大的扩展能力,将第一代的16插槽扩展(或者说是4机箱级联)的独有设计保留至今。
第五代X架构产品家族——eX5服务器全家福,从上至下分别是HX5刀片服务器,x3690X5(2U)和x3850X5/x3905X5(4U,x3950X5基本上与x3850X5相同,只是在配置上有所区别)机架服务器
2010年3月,英特尔又推出了自己的新一代至强MP处理器,这就是Nehalem-EX,即至强7500/6500(有关它们的详细介绍见本站的早前的专题),而与之对应的,IBM也就推出了第五代的X架构以及采用这一架构的eX5服务器,我们从X架构的历史中就能预感eX5的与众不同。而今天,我们就将系统而深入的了解IBM的X5架构与eX5服务器。虽然在3月份,我们曾经对X5架构与eX5服务器作过报道,但这次将更为细致全面!
进入正文之前,我们先看看这张图,可以看到IBM X架构总线的变革,它基本上都是与英特尔的总线技术相呼应,最新一代的eX5服务器基于英特尔的QPI总线架构,不过这只是一个基础,IBM也将在这一基础平台上展现自己独特的创新能力
X5架构创新之一:MAX5内存扩展加速器可以说,IBM第五代X架构中最突出的亮点就是独特的MAX5加速器,而纵观X架构的发展史,我们也能发现其在内存上所做的文章是最多的。这源于IBM对内存的一贯偏爱(比如上一代的X4架构)。
仔细回顾了服务器的发展历史,可以看到随着CPU的多核化,每核心所能分配到的内存容量并没有什么变化,而内存在绝大多数的应用中均处于关键地位,对性能影响重大,尤其是越来越普及的虚拟化应用,而IBM也由此入手,对Nehalem-EX平台进行最为明显的改造
MAX5加速器简介,它共有两种,一种是给机架式服务器x3850X5、x3690X5使用(上),下方中笔者称之为MAX5-R,一种是给刀片式服务器使用(下),下文中笔者称之为MAX5-B
MAX5加速器是X5架构中最具革命性的创新,充分利用了英特尔新一代的QPI总线的特性,以一种巧妙的方式为服务器平台扩展了内存。这么说可能有些让人容易糊涂,我们可以先看看Nehalem-EX服务器的设计,再来看看MAX5又是如何为其提供额外的内存扩展能力的。
标准的4插槽Nehalem-EX服务器平台设计
在英特尔的给出的标准的4插槽Nehalem-EX服务器设计中,4颗Nehalem-EX处理器点对点全互联,每两颗处理器连接I/O Hub(英特尔的代号为“Boxboro”芯片组),每颗处理器通过4颗可扩展内存缓冲芯片(SMB,Scalable Memory Buffer)控制4路DDR3内存通道,每路DDR3内存最多支持4条DIMM,所以一颗CPU可配16条DIMM,4插槽时就是64条DIMM,这就是4插槽Nehalem-EX服务器的标准配置,而IBM的X5架构就是要打破这一限制。
IBM的Nehalem-EX服务器也仍然是使用英特尔的Boxboro芯片组与SMB来搭建,就服务器本身来讲是标准的Nehalem-EX服务器设计,在这其中并没有采用自己的芯片组,而在MAX5加速器上则采用了自己的芯片,IBM称之为eX5,我认为这是X5架构的最重要的精髓所在。
供X5机架式服务器3690X5和3850X5所使用的MAX5-R,其中EXA芯片即为IBM自己开发的eX5芯片(代号Firehawk),主板上有8颗SMB芯片,总扩展能力为32条DIMM,按每条8GB计算,合256GB,以目前DIMM的最大容量16GB计算,一个MAX5-R的最大内存容量达512GB
供X5刀片服务器HX5所使用的MAX5-B,红圈部分为IBM自己开发的eX5芯片,主板上的小块的银色散热片下面是SMB芯片,每颗负责4条DIMM,共6颗,所以刀片用MAX5的内存扩展能力最大为24条DIMM,按每条DIMM的容量8GB计算,为192GB,比现有的双插槽至强5600服务器还要多
机架式MAX5-R的结构,可以看出它留有QPI端口,在使用时,它通过外连专用的QPI电缆与服务器相连,由此就可以知道它如何为服务器扩展内存了吧
MAX5-R的eX5芯片与端口特写,可以看出有4路QPI(图中红圈处),而最上方的则是IBM自己开发的高速EXA端口,用于MAX5的级联,设计传输率为10GT/s(QPI是6.4GT/s),总的结点带宽为48GB/s
3850X5服务器与MAX5-R的连接示意图,与上面的那个标准的4插槽Nehalem-EX服务器的架构图相比较就可以看出其中的玄机了
这是MAX5-R的结构图,三个EXA总线负责未来的MAX5+服务器的级联,而QPI负责与主服务器连接,可以看出有8个SMB控制着8个内存通道
IBM的eX5芯片可以看做是一个QPI与内存控制器的桥接芯片,4个插槽的Nehalem-EX服务器中,每颗Nehalem-EX的处理器均出一路QPI通过QPI电缆与MAX5相连,所以MAX5与服务器相连的带宽就是4路QPI的带宽,按照6.4GT/s的传输率峰值计算,就是102.4GB/s。但笔者认为,这是QPI双向的总带宽,单向带宽为51.2GB/s。如何MAX5上的一个SMB也是代表一个内存通道的话,就意味着MAX5-B有6个内存通道,按Nehalem-EX标称的最高速率1066MHz来计算就是51.2GB/s左右,而对于MAX5-R,那就是8通道68.2GB/s,看样子4路QPI的单向通道将成为瓶颈,当然这只是笔者的猜测,而即使真的如此,内存容量往往也比内存速率更重要。在具体的内存速率方面,MAX5的设计与英特尔的SMI及SMB规范相当,即与QPI总线速率挂钩,具体见下表。
IBM的eX5芯片在内部也为与其连接的CPU做好了互联准备,我们可以回过头来再看一下前面MAX5的介绍,可以发现它仍然具有Snoop Filter(侦听过滤器,或称轮询过滤缓冲,存储每个处理器最后一级缓存,如L3的缓存行地址,减少多处理器间做缓存数据查询所产生的延迟和不必要的轮询操作),只是不知道具体的容量(上一代eX4芯片中是384MB的容量),所以从这个意义讲eX5也可算一个具备内存扩展能力的节点控制器。
当主服务器与MAX5相连接后,MAX5上的内存有两种关联方式,一种是将内存分派给指定的CPU来访问,一种是将MAX5作为一个共享的内存池供整体系统使用,但默认的是第一种,因为一些主要的操作系统不支持这种共享内存池的工作模式(如Windows和VMware,Linux则可以),而这两种模式可在eX5服务器的UEFI(取代传统BIOS的管理设置程序与接口)中调整切换。
然而,要注意的是,MAX5内存扩展器目前还不能被虚拟化软件所采用,最新发布的VMware vSphere 4.1仍然没有支持MAX5,而CITRIX的XenServer与微软的Hyper-V目前也不支持MAX5,但IBM与VMware都已经明确表示将会让MAX5在虚拟化应用中大显身手,所以也请有意者留意最新的动态。
有人可能会问,HX5是双插槽的刀片,又是如何提供4路QPI与MAX5-B连接的呢?在此先卖个关子,在下文介绍HX5刀片时再说,而由MAX5设计所带来的另一个重要特性——级联扩展。IBM所新推出的三款eX5服务器都可以通过级联成倍的扩展插槽数量,就像X4时代的3950M2一样。当然,这个能力并不是由MAX5所带来的,可是由于MAX5的设计,所以预留了外连EAX的端口,这同样也就为级联扩展做好了准备,这一点将在下文做进一步的介绍。
X5架构创新之二:高性能eXFlash固态盘系统服务器技术与性能正在迅速的发展与提高,而这其中主要的推动力,毫无疑问就是CPU,许多周边设备的技术发展与进步是与CPU密切相关的,比如内存、网络I/O以及存储设备等。而在当前,处理器的多核化已经不可阻挡,这又将给周边的数据设备带来新的挑战。
由于处理器内核的增加,也必将加剧对服务器资源的争夺,这里包括了内存容量、内存带宽、网络带宽以及存储I/O带宽等等。现在去衡量一个采用多核处理器的服务器的基本能力时,一个基本的指标就是每核所分配的到资源,如果资源不够,每个核心的性能也将不能充分的发挥。而且,随着服务器虚拟化的不断普及,在单台服务器上承载多个应用虚拟机已经趋于常态,而这种显而易见的多任务的压力也就分摊在相应的I/O设备上了。
为此,厂商在不断的给内存增加通道数量,提高内存的传输率,网络I/O也从Mbps向10Gbps级迈进,这些基本都是可以通过电子电路设计的改进来实现,因此慢慢的,人们就感觉到最终的性能瓶颈开始向存储集中,即传统的硬盘(或称磁盘)系统。
硬盘(全称硬盘驱动器,HDD——Hard Disk Drive)已经有了很悠久的历史了,最早可以追溯到50多年前,所以发展至今已经千锤百炼,在技术上已经相当的成熟,伴随着垂直磁记录等技术的普及与发展,硬盘现在容量已经发展到TB的级别,每GB的成本不过几毛钱,这在当前的服务器系统中的优势无可比拟,但是由于硬盘的原理性限制,它的劣势在CPU性能突飞猛进的今天也就越发明显。
我们知道硬盘的存储是基于旋转的磁盘,在工作时有一个磁头臂带着磁头在旋转的磁盘上做径向的寻址,然后再读写数据,这里就存在着较大的访问延迟。由于磁头在开始读写数据前要先找到相应的磁道,再找到相应的扇区,所以其平均寻址时间由平均寻道时间+平均潜伏期得来,以当前最高性能的15000RPM(每分钟15000转)的传统硬盘产品为例,其平均寻道时间为3.2ms,平均潜伏期(盘片旋转半圈的时间)为2ms,两者相加为5.2ms,这就意味着它对寻址命令的平均响应能力是192IOPS,IOPS就是指硬盘在每秒里可执行的I/O操作数,由于必须先找到地址才能进行I/O操作,所以IOPS也基本可以理解为对寻址命令的响应能力,这对于CPU的事务处理非常关键,尤其是非常常见的随机访问操作(如数据库)。
虽然现在有较为成熟的命令排队技术来优化硬盘的寻址操作,但理论的上它的实际性能很难超过单一的平均潜伏期的水平,比如平均潜伏期为2ms,那么IOPS的最大值就在500左右,这就是传统硬盘传统硬盘的最理想的水平,而实际测试成绩一般在200至300之间。在传统的单核服务器上,这样的IOPS表现似乎问题不大,但如果是在多路多核的系统上,尤其是多虚拟机环境下,这无疑将成为最明显的性能瓶颈。可是,基于机械的硬盘在这方面是力不从心的,因为转速很难再提升,所以它的响应速度最终就落在ms(毫秒)的级别。
另一方面,由于是在旋转的磁盘上进行数据的读写,所以其数据传输率将随磁道的位置产生变化,最外圈的磁道数据传输率最高,但越往里数据传输率越低,这从其数据传输曲线图上就能看出来,它是一个呈阶梯状的从高向低的曲线,也就是说硬盘无法做到数据传输的恒定,这也对其有效带宽造成了致命影响。
传统15000rpm企业级硬盘的测试图,数据传输率也因为内外圈的设计,而有所不同,内圈的数据传输率基本上只有外圈的66.7%
为此,IBM在最新的eX5服务器所采用了eXFlash SSD(IBM称之为“极速存储套件”)来解决存储I/O瓶颈问题。SSD是一种基于闪存技术的存储设备,而闪存(Flash Memory)是一种非易失性的半导体存储器(NVRAM),这里就有两个特点,第一它是非易失的,可以像硬盘那样永久的保存数据,第二它是半导体存储器,就意味着更快的访问速度。
当前主流的存储用闪存就是NAND闪存,若算上页面寄存器的数据传输时间,基本是20us(微秒)左右,理论的IOPS可达50000,是传统硬盘传统硬盘的100倍,这就是当前SSD相对于硬盘的领先水平,而如此高的响应能力再加上可通过多通道设计来成倍提高I/O带宽的能力, 使得SSD迅速成为了高性能服务器的首选。而且,SSD的数据由于是类似于内存的平行传输,不存在硬盘的外圈与内圈的问题,所以可以做到恒定保持在最高的数据传输率上。
从SSD的传输曲线图中可以看出,基本处在同一水平线上,没有硬盘的内外圈之分,在全容量范围内都可获得最高的传输速率
IBM eX5服务器中的3850 X5采用了8块2.5英寸规格的eXFlash SSD(3690X5也可采用,而x3950X5数据库优化版则是标配eXFlash),而该服务器具备4个英特尔最先进的8核心处理器,共32个核心,此时每个核心所能分配到的IOPS性能达到了近12500,如果按一个典型的数据库容量为100GB,IOPS平均需求为15000计算,这8块eXFlash SSD就能支持30个这样的数据库的运行,而用传统的硬盘,至少需要800块(还是理论上的理想情况),这800块硬盘无疑就意味着更高的电源消耗、更多的容量浪费(因为为了增加IOPS所带来的新增加的硬盘容量并不是必须的),更多的运维成本(800块硬盘不可能放在服务器里,所以需要额外的阵列占用机房空间,并需要专门的维护)。事实上,经过IBM的试验表明,以这种平均45万IOPS的访问规模运行3年后,eXFlash SSD所节省的电力与运维成本就将近230万美元,而它仅以硬盘阵列3%的成本就可实现同等的IOPS性能,能耗只有硬盘阵列的1%。
IBM以一个大中型企业的IT应用为例,共用30个数据库(比如ERP、CRM、HR等数据库),每个数据库规格100GB,如果要满足每个数据库15000IOPS的访问负载,则需要巨大的存储系统予以支撑,而它所占用的成本也是巨大的
8块eXFlash SSD相当于800块传统硬盘的IOPS响应能力,而成本则节约了97%,功耗只有后者的1%,优势明显,而借助后端的专业存储系统,则可以更合理的分配存储资源,而不必为了满足IOPS而低效率的添加硬盘
从某种角度上讲,eXFlash并不像MAX5那样具有创新性,然而从中也能看出SSD在服务器中的地位也将越来越重要,在很多应用中,对容量的需求远没有对性能的需求强烈,而当新一代高性能处理器推出之后,这种反差也将更加强烈,因此eXFlash也完全是顺应潮流之举。
IBM表示,eXFlash包括了SSD与控制器两大部分,SSD采用了高寿命的SLC型产品,而控制器也进行了算法的优化,以最大限度的在保证高性能的同时保证eXFlash系统的可用性和可靠性。 目前的eXFlash SSD的容量为50GB,IBM计划在不久的将来推出200GB容量的eXFlash SSD。
IBM专门为eXFlash而开发的6Gbps SAS控制器,它不能接驳传统的硬盘,而只有采用它与eXFlash SSD结合才能发挥最大的效能
X5架构创新之三:虚拟化I/OeX5服务器之所以要通过MAX5去扩展内存,就是为了要能提供更为强大的虚拟化性能,而虚拟化发展至今,瓶颈也已经不再是CPU与内存,而是存储与网络。即使已经有了eXFlash解决了存储方面的问题,那么在网络呢?那就是具备虚拟化I/O能力的网卡(NIC)。
此次eX5服务器采用了著名的企业级HBA/NIC厂商Emulex所出品的虚拟矩阵适配器(VFA,Virtual Fabric Adapter),它采用了Emulex的OneConnect统一聚合网络适配器架构(UCNA,Universal Converged Network Adapter),在提供标准的传统以太网连接的同时还具备有虚拟网卡(vNIC)与未来聚合光纤通道与iSCSI传输的能力。
通过I/O虚拟化,NIC可以将数据通道虚拟为4个,应对不同的应用
图中右上角就是两款用于eX5服务器的VFA(上方用于机架服务器,下方用于刀片服务器),为双10Gb/E端口设计,可虚拟出8个NIC或聚合网卡(CNA),再配合BLADE Networks Technologies(BNT)的刀片交换机为不同的应用(如数据库、HR等)提供虚拟网络通道
从上至下的三幅图可以很好的说明Emulex的VFA技术,传输的双端口10Gb NIC只能提供固定的两条10Gb的以太网连接,可是这种带宽对于很多应用来说是浪费的,而通过以太网端口虚拟化设计,每个物理端口可以虚拟出4个端口,即vNIC,而每个vNIC的带宽是可根据应用需求调整的。在未来,Emulex的VFA还将具备FCoE与iSCSI聚合传输的能力(届时就是vCNA了),以最大限度的优化利用10Gb带宽,而这也是于虚拟端口分不开的
对FCoE的支持,对于数据中心的互联架构的整合意义重大,它将意味着方便的连接、线缆的减少以及更为灵活的配置与应用模式
Emulex的VFA除了用于eX5服务器之外,还用于其他4款IBM服务器,分别是2U的x3650 M3(采用6核心至强5600处理器),1U的x3550 M3(采用6核心至强5600处理器)以及HS22与HS22V刀片服务器。
X5架构创新之四:FlexNode级联扩展虽然在发布会上,IBM将这一特点列为创新之五,但我觉得有必要把它提前来讲,这也有助于理解第五个创新——OnForever可靠性。
前面讲过,由于MAX5的外连QPI的设计,这使得eX5服务器也同时具备了通过外连QPI电缆以进行级联扩展/组合的能力,而且还可以通过专用的EAX总线加入MAX5扩展,这就是FlexNode。
eX5服务器自身扩展和与MAX5组合时扩展的级联架构
通过QPI电缆进行互联,HX5刀片可以扩展成4插槽刀片,3690X5也可以扩展成4插槽的机架服务器,而3850X5则可扩展成8插槽的系统,而内存容量也将成倍增加,与其他厂商标准化设计的Nehalem-EX服务器相比,内存容量最多可达对手的两倍,如果以当前最高水平的单条DIMM 16GB容量计算,两台带有MAX5-R内存扩展的3850X5的级联之后的8插槽系统即可获得高达3TB的内存容量
FlexNode可以让用户很灵活的使用双节点配置,从而带来很多相应的好处
eX5服务器不仅可以自身进行级联,即使加入MAX5也没有问题。现在我们可以再回想一下前面所讲到的MAX5的内存扩展设计,在MAX5-R的结构图中,我们也可以看到它的后端还有一组EXA接口,这个端口的作用就是承上启下,连接另一个MAX5加速器 ,总带宽为48GB/s。
两台均带有MAX5-R的3850X5级联架构图,MAX5-R之间采用了IBM自有的高速EXA总线(图中红色的边线)互联,然后再通过4路QPI与另一台3950X5相连,从而使MAX5-R成为了级联的节点,这种方式也同样适用于3690X5,IBM将这种基于EXA总线的级联方式称为EXA scaling
从这张图中我们可以看到3850X5与3690X5带有MAX5-R时的级联结构
eX5服务器目前的级联能力,可以看出双联3850X5的内存容量最高可达3TB
现在我们就能进一步了解IBM eX5芯片所发挥的作用,以3850X5为例,均以4路QPI进行互联(这其中应该涉及到了EAX与QPI之间的转换),虽然肯定会因为节点桥接有延迟上的增加,但相对于成倍的扩展插槽与内存容量的效果,这点损失显然是值得的。在下文相关产品的具体介绍中,我们还会讲到FlexNode的设计。
不过需要指出的是,EXA级联功能目前还不可用,IBM预计在2010年晚些时候提供这一功能,请注意IBM相关的信息更新。
为了保证级联的性能不受损失,IBM还在独自开发了XceL4v动态服务器缓存。当一台eX5服务器(一个节点)连接MAX5内存扩展器时,并不会产生这一缓存,而当两个节点+MAX5级联后,就会在主机内存中生成256MB的L4缓存,有于两个节点进程间的通信,以保证数据的同步。如果是两机级联,则总共有512MB的L4缓存 ,而这占用的缓存并不会使性能受到损失,相反在级联模式下,它将有效的提高距离较远CPU间的数据传输,使性能看上去就像是单机箱的服务器。
X5架构创新之五:OnForever可靠性
俗话说合久必分,分久必合,什么时候会分呢?肯定是一方有问题了,什么时候会合呢?当然是两方很要好的时候,那么对于eX5的FlexNode的级联扩展设计来说,也是如此,既然能合在一起,也就能分得开,而且这一切是自动的(需要在UEFI中设置),从而使eX5服务器在获得级联扩展能力的同时,也具备了节点容错能力。而与其他的容错技术加在一起,就具备了eX5服务器的最后一个创新之处——OnForever可靠性。
通过FlexNode技术的介绍,我们不难理解2插槽+2插槽变4插槽的二合一的原理,那么反过来也一样,通过专用的固件与管理软件的配合,FlexNode也具备了Node FailOver的能力,当级联的两个节点其中一个有问题时,或是应用的需求要让级联的节点分开时,可以再一分为二,将有故障的节点隔离,或是变成两个独立的节点,这种灵活的设计显然增加了级联系统的可靠性。
此外,eX5还具备很多其他的容错技术,包括ChipKill的内存校验功能(可应对数据位错误)、Memory ProteXion内存保护能力(可应对单颗内存芯片失效)、内存镜像功能(可应对单块内存插失效)和内存擦洗功能(定期的内存可靠性检测),另外还有预测性的故障警报功能,可覆盖CPU、内存、硬盘/SSD、风扇以及电源、QPI电缆等关键设备,再配合Nehalem-EX自己的容错技术,以最大限度的保证eX5服务器的高RAS特性。
介绍完X5架构与eX5服务器的五大创新亮点之后,我们来具体看看这三款服务器的具体设计。
x3850X5/x3950X5:为最高负载应用而优化
x3850X5与x3950X5是eX5服务器中最高端型号,采用标准的4插槽至强7500设计,注意它并不支持至强6500,即使只插一颗CPU。x3850X5与x3950X5的设计初衷就是最高负载应用而优化,借助于至强7500平台的高RAS(可靠性、可用性、可维护性)设计,配合IBM自己的X5架构,让x3850X5与x3950X5在至强7500服务器市场独树一帜。
IBM x3850X5服务器,标配8个2.5英寸硬盘槽
x3850X5与x3950X5在基本设计与外形是一样的,x3950X5是IBM针对数据库或虚拟化应用而定制优化的型号。虚拟化应用版本的x3950X5标配MAX5内存扩展加速器,而数据库优化版本则标配eXFlash SSD,这可以说是其与x3850X5的主要区别(此外还有一些小的差异)。在下文中,我们以x3850X5为主进行介绍。
IBM新一代System x服务器所针对的英特尔处理器配置
x3850X5服务器相较上一代的3850M2的差别是很大的,在性能方面,根据IBM的测试,3850X5的整数性能是3850M2的2倍,浮点性能是后者的3倍,虚拟化性能则是后者的3.6倍
底部加装了MAX5-R的x3850X5服务器,对于x3950X5的虚拟化版本,MAX5-R则是标配
IBM独有的eXFlash SSD模块,一个模块是8块1.8英寸SSD硬盘(最大容量50GB,未来将扩容至200GB),x3850的8个2.5英寸硬盘槽位可容纳两个eXFlash SSD模块,最高16块SSD,容量800GB,而对于x3950X5来说,eXFlash SSD模块是标配
x3850X5服务器的后视图,提供了非常的接口,而最下方的QPI外联接口,则是级联设计的关键
x3850X5服务器的内部布局
x3850X5的内存与CPU布局特写与散热风道设计,三个散热通道一目了然
x3850X5所使用的内存插卡,一个插卡就是一个SMI内存通道,上面有两个SMB缓冲,分别再控制两个DDR3内存通道,每个通道最多2个DIMM
x3850的结构图,可以看出4个CPU都留有QPI外联的接口(没有外联时仍然是相连而不是断开的),它们就是为连接第二个x3850X5或是MAX5-R准备的,而两个I/O Hub(Boxboro)提供了7个扩展插槽(其中一个被所配备的双端口10Gb网卡占用)
当连接了MAX5-R之后的结构图,笔者猜想,在非共享内存池的模式下,通过IBM的UEFI的设置,可以为每个CPU再增加2个通道的内存容量
不同内存配置的性能表现,最好的就是满配的情况,由于SMB的内存连接速率是与QPI相关联,而与连接的DIMM数量无关,所以不存在多插DIMM则降速的问题,所以满配内存将得到最佳的性能
x3850X5/3950X5与x3850M2的内存容量比较,可谓天壤之别
除了强大的内存设计外,为了更好的为虚拟化服务,x3850X5与x3950X5还配有双USB插座,用来安装嵌入式Hypervisor,对于3950X5虚拟化版本来说标配插有Hypervisor Key,而3850X5则是可选安装
为了QPI级联,IBM提供了QPI外接线缆,而接MAX5和接另一个节点的连接方法也不一样
而通过QPI进行节点级联时,我们可以看出其连接方式是CPU1对CPU1,CPU4对CPU4,而CPU2和CPU3则对调
IBM从2001年推出第一代X架构之日起,其4插槽的英特尔至强服务器就一直具备可扩展至16插槽的能力,而到了第五代X架构时,只推出了最高8插槽的扩展设计,从目前透露的技术规格上看,x3850X5并不支持三或4个节点的级联,难道是遇到了什么难题了吗?按理有了更为方便的QPI点对点总线技术,扩展至32路都是没有问题的。对此,IBM方面表示借助于MAX5,IBM的确有能力扩展至更高插槽数量的Nehalem-EX服务器,但目前看来似乎还没有这个必要,因为8插槽的Nehalem-EX已经非常强大了,至于是否需要进一步向上扩展,要看市场的需求做决定。
其实在IBM的规划中,通过它独有的EXA总线做到4路级联是完全没有问题的,就看有没有市场需求了
有关x3850X5服务器其他相关细节与信息,可以进一步参看本站3月份的报道。
x3690X5:专门为数据库应用而优化3690X5是一款双插槽服务器,这也是IBM X架构首次引入到双插槽的系统中(以往都是4插槽系统),通过Nehalem-EX的高性能和高RAS性能来打造顶级的双插槽服务器,IBM甚至宣称,可以通过MAX5-R来使至强6500系列(只有两路QPI的Nehalem-EX)也具备级联扩展至4插槽的能力,这一特色在同级服务器中真的是独一无二的。
IBM x3690X5服务器
IBM x3690X5服务器的前面板,其硬盘槽位可以有多种变化,可以是16块2.5英寸硬盘,也可以是24块1.8英寸SSD(3个8X eXFlash模块)
IBM x3690X5服务器的后视图
IBM x3690X5服务器的内部设计
x3690X5的内存设计非常巧妙,采用了双层设计,每一层16个DIMM,双插槽CPU共32个DIMM,为双插槽至强7500/6500的标准设计
x3690X5的结构,可以看出CPU之间有两个QPI进行互联,不过至强6500则用不上这两条QPI,而每个CPU还留有一个外联的接口,这个两个接口在没有外接MAX5时应该是互通的,至强6500应该就是使用这条通道(另一个接I/O Hub),而当接入MAX5后,可以通过EAX总线借另一个MAX5实现双节点级联,从而变成了一个4插槽的至强6500服务器
x3690X5的存储配置比x3850X5还要强大,它可以最多装配3个eXFlash模块,共24块1.8英寸SSD(1.2TB),比x3850X5最大装载数量多了50%,因此可以提供更强大的存储I/O性能,这对于随机访问密集的数据库应用非常有益,这也使其成为数据库性能最好的双插槽服务器,并且还可以扩展至4插槽48块SSD+2TB内存,性价比非常显著
有关x3690X5的其他一些细节,可以参见本站3月份的介绍。
HX5刀片:高密度高负载的理想平台与3690X5一样,这次IBM也首次在刀片服务器上引入了X架构了,从而也让HX5刀片具备与众不同的能力,大大提高了其在刀片市场上的竞争实力。让刀片服务器在高密度的优势的基础上,增添了更多的灵活性与可扩展性。
HX5有双插槽和4插槽两种配置,当然这是通过QPI级联而做到的,不过如果通过MAX5-B级联,4插槽时仍然可以支持至强6500,而每个MAX-5B可为HX5增加24个DIMM,双节点+双MAX5-B时,可提供最高4插槽+80DIMM的配置规格
HX5节点的内部结构,1.8英寸SSD是标配,不过并不是eXFlash了,共两块SSD,最大容量100GB
HX5的SSD模块特写,采用的是LSI的控制器
HX5的结构图,每颗CPU有两个外联的QPI接口,想必至强6500就是用其中的一条(另一条连接I/O Hub)
当两个HX5通过QPI级联时的结构图,注意,其中也有一个对调的连接
用于QPI级联的扩展卡,其实就是一个QPI连接卡,不过在连接MAX5-B时,扩展连接卡并不一样,因为MAX5-B无需QPI的内部对调连接
最后我们可以比较一下HX5与以往BladeCenter刀片服务器的规格
由于散热设计的设计,HX5不能采用X级(高性能优化设计)至强7500与6500处理器,而只能使用E(主流性能设计)和L(低功耗设计)级的至强7500与6500处理器。而内存速率也限制在最高978MHz(即使QPI速率为6.4GT/s)和800MHz。
性能展示:X5架构让eX5服务器锦上添花eX5服务器的设计已经介绍很清楚了,灵活的可扩展设计是它的最大特色,那么这种通过QPI外联的设计会不会对性能造成影响呢?我们可以从实际的性能测试中寻找答案。
我们用x3850X5和HX5来对比其他厂商的同级产品,以下的测试成绩均取自相应的官方网站(SPEC.org、SAP.com),在此谨供参考。
一、整数与浮点性能
x3850X5的整数性能比较
x3850X5的浮点性能比较
在x3850X5的测试比较中, 我们选择了同为4插槽设计的Dell公司的R910和富士通公司的RX600 S5,在整数和浮点测试中,我们可以看出x3850X5的优势明显,这说明了级联设计并没有对其性能造成任何影响,而如此出色的性能也体现出了x3850X5的优良设计。
接下来我们再看看HX5的表现,在这里我们选择了Dell的M910刀片进行对比。
HX5刀片服务器的整数性能比较
HX5刀片服务器的浮点性能比较
在整数方面,HX5取得领先,而在浮点性能方面Dell M910则超出,双方互有胜负,不过HX5的双机级联后的性能则大大超过了对手,并且也体现出了较好的性能扩展性,基本上是双倍的提升。因此,我们也可以看出基于X5架构的HX5并没有在性能上吃亏,反而提供了独特的双节点灵活的扩展能力。
二、Java性能测试
SPEC Java Business Benchmark 2005是一款用Java编写的多线程测试工具,它的评测是模拟一个企业基于若干个仓库为多个客户提供交易服务的环境,以每秒的操作数(BOPS,Business Operations per Second)来评估性能。
x3850X5的Java性能测试对比
HX5的Java性能测试对比
从最终的结果来看,x3850X5与HX5均胜过对手,其中HX5的更为明显,虽然我们没有HX5双机的成绩,但从现有的成绩上看,已经可以说明eX5的性能优异。
三、ERP性能测试
x3850X5的SAP-SD 2-Tier测试对比
ERP的测试成绩来自于SAP-SD 2-Tier的官方测试结果,可以看出与HP的DL580 G7和富士通的RX600 S5相比,x3850X5占据上风。这里需要指出的是,最新的一期(7月15日)SAP-SD 2-Tier测试成绩中,DL580 G7取得了10490的成绩,不过鉴于是第二次测试,所以我们仍以它们的第一次测试成绩为准(x3850X5的成绩是2010年3月30日公布,富士通的RX600 S5是5月6日公布,DL580 G7的第一次测试公布时间是6月21日)。
至此,我们应该能有一个基本的结论了,基于X5架构的新一代eX5服务器的性能,并没有因为X5的新功能特性则降低,而是处于业界的领先水平,那么反过来再看X5架构所带来的创新设计,则在某种程度上又大大提高了eX5服务器在市场上的竞争力,因此X5架构对于eX5服务器来说可谓锦上添花,创新性的设计并没有影响到性能的优异表现。而对于笔者而言,则希望能早日看到MAX5在性能上所带来的惊喜。
这是IBM公布的一个对比数据,在增加MAX5之后,x3850的整数性能、浮点性能、在线事务处理、内存带宽以及虚拟性能均有不同程度的增长,事实究竟如何?就让我们拭目以待吧!