扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZDNet至顶网服务器频道 11月06日 评论分析(文/赵效民):AMD将于2014年推出基于ARM架构的Opteron(皓龙)处理器,应该是最近一段时间在IT产 业影响最重大的事件之一。由于AMD此前并没有明显的征兆要推出ARM处理器(只是在6月份,AMD曾表示会在明年的APU中引入基于ARM Cortex-A5架构的TrustZone硬件安全技术),所以AMD的这一表态,无疑为近期甚嚣尘上的ARM与x86之争再加一把火。今天,我想在此 梳理一下AMD的构想,并以此为引子,就ARM与x86面向数据中心领域的攻守战进行粗浅的分析。
回顾:AMD的表态与想法
有关AMD即将推出ARM-Base的皓龙处理器的新闻已经发布好几天了,所以在此我并不想详细的介绍其中的细节,而仅就其中的一些重点进行梳理。
对于AMD为什么选择ARM架构开发面向数据中心级的处理器的原因,按照AMD的说法,很简单,那就是为在那 些需要密集与大规模并行计算的环境中追求更高的能效表现。有关ARM架构处理器的低功耗优势,关注手机与平板电脑市场的读者并不陌生。随着个人信息平台逐 渐向智能手机与移动终端倾斜,业界也逐渐看到了ARM处理器逆袭后端平台的潜力,而这方面嗅觉最灵敏的无疑是在IT市场打拼的硬件厂商。但ARM的逆袭在 不断吸引用户注意的同时,也必然引发了当前数据中心处理器霸主——x86阵营的警觉,AMD就是其中的一员,当然也包括它从诞生既有的对手——英特尔。
作为x86市场仅有的两家主力厂商之一的AMD,一直都是x86架构的坚定支持者,虽然与英特尔始终保持着激 烈的竞争关系,但在x86架构的生存与发展方面,双方的大方向是一致的。不过,这次AMD的动作宣布了两家公司至少在低功耗、高密度服务器市场的分道扬 镳。英特尔将死守x86架构,并艰辛的向ARM的优势区域靠近,不仅要守住数据中心,甚至还要反击ARM的老家——移动终端市场,而AMD则与ARM走上 了另一条,同样艰苦而未知的ARM架构在数据中心的开拓之路。
AMD将在2014年推出采用ARM 64bit架构的皓龙处理器,同时将AMD的ARM处理器技术与AMD于2012年2月收购的,主攻微服务器(MicroServer)的SeaMicro公司的Freedom网格架构相整合,推出相应的新品,而传统的x86业务不变
为什么选择ARM?AMD给出了两个需求——新的业务模型(随着移动计算的普及,基于Web的Internet互联经济将至关重要)和与这对应的大规模并行处理,为此ARM的每W电力的计算能力与单位计算成本则是AMD选择ARM的最主要原因
AMD拥有着ARM目前所欠缺的,面向数据中心的处理器应用经验,因此AMD会将自己的企业级自有知识产权(IP)的组合,与ARM架构相结合,以求获得更好的综合表现,AMD的专业技能覆盖了内存、I/O、设计方法论、工具、平台以及收购而来的Freedom网格架构
Freedom网格架构是AMD在微服务器平台方面的一个重要优势,它解决了高密度计算节点高效互联与I/O的问题
在AMD的发布中,一直强调其Freedom网格架构的优势,这种非处理器级的集群化组网架构是微服务器所必 需的,也是当前ARM处理器所欠缺的,即使是英特尔也没有类似的技术。其主要解决了两个问题,一个是处理节点之前高效互联,另一个是处理集群的对外联网, 从而保证了微服务器内部节点集群的处理效率与对外互联的平衡,是AMD进军微服务器市场重要的技术砝码。
Freedom网格架构的核心在于一颗专用的ASIC芯片(原来由SeaMicro研发),它为处理节点模块(含处理器与内存)提供了模块间的互联和对外的I/O架构,简单来说它先将处理模块互联组网,再将外部的存储与I/O链路进行整合,再共享给每个处理模块
SeaMicro微服务器的处理器模块(皓龙版),金手指就是Freedom对外互联的引脚
Freedom网格架构由于采用了专用的ASIC组网,独立于CPU平台之外,你可以将其看成是更底层的互联平台,并可进行以太网与存储网络的聚合,因此可做到处理器指令集的无关性,为异构的服务器形态提供了可能
由于Freedom网格架构的CPU平台无关特性,使得AMD在采用ARM架构后,处于一个始无前例的地位 ——它同时具有ARM与x86两种处理器核心架构,并能同时运用于数据中心的负载平台,从而为服务器平台的设计者提供了一个异构融合的可能性。未来在一台 服务器内,可以做到众多的ARM处理模块与若干传统x86处理器模块相整合,根据负载需求进行分流,从而为数据中心的架构者提供了更为灵活的想象空间。因 此,AMD强调它的ARM处理器将获得独一无二的竞争优势是有道理的。
未来的AMD产品阵营划分
对于老本行x86,AMD很清楚它的优势仍然明显,那就是对于重负载应用,它的性能表现ARM处理器在相当长 的时间内都难以望其项背,所以对于未来的产品线规划也没有因为ARM架构的进驻而厚此薄彼。ARM架构的皓龙处理器将主要面对低功耗高效能的领域,而传统 的企业应用仍然由x86皓龙负责,而APU架构未来也将视需求与ARM相融合。
在介绍完AMD的想法与重点的发展内容之后,我不禁仍然会回想本文开头的话题——AMD的这次发布在此前并没有明显的征兆,这不由得让我对AMD的真实想法产生了深厚的兴趣。
猜测:AMD的真实动机与想法
前 文讲过,作为x86市场仅有的两家主力厂商之一的AMD,在对于x86未来发展方面,此前与其老对手英特尔的态度是基本一致的,那就是x86完全也可以适 用于低功耗领域,并不次于ARM。AMD大中华区总裁邓元鋆在今年4月接受媒体采访时就明确表示“X86架构功耗并不一定比ARM高,目前低功耗已经成了 AMD产品设计与研发的核心,公司在这方面已经积累不少专利,有信心做到不比ARM差。”而在今年8月27日召开的第24届Hot Chips处理器研讨会(HC24)上,AMD还详细介绍了下一代低功耗处理器Jaguar(美洲虎),即使是AMD首席技术官Mark Papermaster的HC24开场讲演中,也并没有ARM方面的身影,因此可以说在其正式宣布采用ARM架构研发新一代皓龙之前,其对外给人的印象仍 然是对x86低功耗领域有着强烈的信心。
在HC24上,AMD展示Jaguar处理器设计
不过,HC24的详细介绍,让业界发现Jaguar相对于上一代产品Bobcat(山猫)并没有明显的革新,基于属于同级改良产品,多少有些让人失望,这多少体现出AMD在多低功耗处理器方面的设计后继乏力。
当前SeaMicro的主力产品SM1500微服务器,其处理模块目前有4种选择,三种英特尔的,一种AMD的,值得注意的是英特尔的选项中有Atom,但没有AMD同级低功耗处理器(如Z系列和C系列)的选择,即使在被AMD收购之后
另一个有意思的现象在于,在今年2月即被AMD收购的SeaMicro公司,它的微服务器产品线中除了8核皓 龙,不见其他与英特尔凌动(Atom)同级的AMD低功耗处理器,这多少有些不可思议。可能有人会说,AMD也有低功耗的APU呀,在市场上也颇受欢迎, 但是APU更多的是面向GPU性能起较大作用的消费市场,而在数据中心里,APU在几年内还无用武之地,就CPU核心处理性能来讲,不能不说AMD的核心 性能较同级的英特尔处理器是有差距的(仅就主频来说,当Atom的主频快接近2GHz之时,Z和C系列还没有超过1.33GHz)。所以我认为,多条产品 线的同时出击(低功耗产品、嵌入式产品、移动平台产品、数据中心产品、APU家族……),已经给AMD的架构设计团队带来了前所未有的压力。而AMD当前 的重点无疑是APU,所以在低功耗领域已经有力不从心的感觉,也许在消费终端领域可以借APU的GPU性能吸引市场,但在数据中心里,需要的是实打实的 CPU核心性能与能耗表现。另一方面,卖了工厂之后的AMD,在半导体制程上的控制能力也大不如前,与英特尔的差距越来越远,而这方面的进步也直接关系到 能耗的表现,所以AMD向低功耗的转型面临着全方位的困难。
将AMD此前的表态与动作与宣布ARM合作的新闻相对比,再仔细看看AMD低功耗处理器向数据中心渗透的情 况,汇总分析之后,我认为AMD选择ARM的动机与原因也就相对清楚了——借ARM的架构设计,迅速填补自己在微服务器市场的短板,以在Time to Market方面保证后续的竞争力。因为AMD显然清楚微服务器市场的发展潜力,但其皓龙家族在数据中心市场长期处于守势,市场份额不断萎缩,而新兴的微 服务器市场将是AMD在企业级复兴涅槃的一个重要机会。AMD肯定希望能好好利用这一机会,但自身设计实力已经无法支撑这一复兴计划,因此选择ARM的成 熟设计,在此基础上融入自己的IP组合,以迅速推出产品的想法,也就是情理之中了。
背景:ARM与x86的数据中心之战
有关ARM与x86的争论由来已久,但以往主要是架构上探讨与切磋,更多的属于“纸上谈兵”,可随着双方各自的逐渐发展与成熟,也都具备了越来越大的野心,从而开始扩展领地,擦枪起火乃至正面交锋也就再所难免了。
ARM在将MIPS挤向边缘之后,其处理器的性能提升,结合功耗方面的优势,开始让业界有了将其带入数据中心的想法,而x86在占据数据中心主流地位之后,为了寻求更大的发展也看上了ARM固有的低功耗平台领地。在经过相互试探之后,双方也正式亮剑。
ARM公司在10月30日正式宣布了新一代Cortex-A50架构系列(也是AMD将授权采用的),其新增 的一些特性明显是为数据中心环境所准备的,目前包含两种核心设设计——Cortex-A57与Cortex-A53。而英特尔也不甘试弱,近期也联合众多 OEM伙伴展示基于Atom Z2760处理器平台的Windows 8平板电脑。而就本文所关注的数据中心领域,可以预见,当初x86与传统企业级RISC处理器的一战,必将在ARM与x86之间重演。
ARM与x86之争可以看作是RISC(精简指令集计算,Reduced Instruction-Set Computing)处理器架构与CISC(复杂指令集计算,Complex Instruction Set Computing)处理器架构的又一次重量级对决(上一次在数据中心里,x86战胜了RISC系统,成为了市场的主流)。
从传统的理念来讲,RISC的处理器由于指令简化,长度统一、在核心设计上相对简单,它的核心理念是通过一系 列的指令组合完成一项复杂的工作,并且简单的核心也于主频的提升,但对于应用的编译有着更高的要求(多条指令的高效运用)。CISC则正好相反,它的指令 集本身就可以完成一系列的操作,所以一条指令的作用相当于RISC的多条指令,长度也不统一,从而让处理器内部的核心设计相对复杂,提升主频也较为困难。
其实x86处理器的设计者早就认识到了CISC的不足,所以也最大限度的借鉴了RISC的理念。现在的x86 处理器其实是一个CISC指令解码器+RISC执行架构的混合体,前者负责将x86指令转换为长度统一的若干微操作指令,再交由执行单元,因此这已经有了 RISC的影子,但由于x86的历史长达30余年,为了保证向前的兼容性,要保留大量的历史指令集,这对于指令解译器是一个巨大的负担,而且由于x86指 令集更复杂,为其乱序执行(为提高效率必须要做的)增加了不小的难度,这直接影响的就是处理器面对乱序执行时对处理单元开启与关闭的能耗控制(你不知道乱 序的指令会用到哪个单元),而这对于ARM的影响要小得多。
完全可以说,ARM与x86当前的表现差异,基本都是源自于RISC与CISC架构和ARM与x86指令集的 本质区别,不过这并不是一个绝对的好与坏的评价标准。比如IBM,其UNIX服务器Power System所采用的POWER处理器就是RISC架构,但是比其更高端的System z大型主机的处理器则是CISC架构。事实上,RISC与CISC在信息处理领域只是走了两条不同的路,可谓“殊路同归”,双方都会面对相应的困难,并运 用自己的智慧予以解决,从本质上讲,并没有绝对的优劣之分。
ARM由于架构与市场定位的先天原因,使其在面向轻量级简单应用方面有着明显的优势,比如手机、平板电脑等。 而x86核心更多的是为复杂操作任务所准备的,并且从一开始就没有对能耗有太多的关注。因为在x86诞生之日,移动设备基本上还是实验室中的玩具,而 ARM当初的着眼点就是低功耗平台。这就好比,ARM一直在做摩托车,x86一直在做轿车,当人口数量越来越多,交通越来越拥挤之时,人们越来越喜欢交通 便利且省油的摩托车,此时x86觉得可能会影响到自己轿车的销路,才开始研究摩托车,反过来ARM也想做高端人群的生意,除了做更豪华的摩托车之外,也开 始研究起如何做轿车了……数据中心市场显然就是“轿车市场”,ARM处于攻势,而x86处于守势。但可以肯定,摩托车与轿车所需的技能是有很大不同的。
那么,现实中的数据中心领域又是怎样的发展态势呢?随着互联网与移动终端的兴起,人们越来越依靠互联网从事各 种活动,与之相对应的就是企业互联网化趋势愈加明显——不管你是不是互联网公司,互联网都将是绝大多数企业进行商务经营的必要途径,比如电商的兴起、 SNS平台的诞生、比如传统企业、政府的互联网经营(电子政务,网上办公,甚至铁道部都开始网上售票了),所以我们能看到未来的企业在IT架构上日趋统 一,都是标准三层架构,即互联网Web接入——企业应用——核心数据库。而ARM也将在这其中找到自己新的战场。
当前企业典型的IT运转模型,与各层的主要处理器平台组成,从左至右,对于处理器的负载能力也由低到高
ARM目前相对于x86最大的优势就在于单位能耗的性能表现,这仍然与其架构设计有着密切关系,它非常适合那种操作较为单一、简单的应用,如果从企业IT环境的三层架构入手,很明显就是Web门户端将是ARM首先的登陆领域。
Web门户是企业接受用户需求,并反馈给用户结果的重要平台,但凡一家拥有一定互联网访问规模的企业,都会非 常重视前端的Web平台的建设,其中一个典型就是CDN(内容分发网络),它对于平衡Web访问负载、保证响应速度有着重要意义。不过它本身的处理操作是 相对单一的,更多的是考验I/O的能力,因此它需要大量的分发节点,每个节点有自己的I/O通道,但这个节点本身对处理能力的要求并不高——由此就引发了 新的思考与需求。传统的x86服务器性能强大,但在CDN应用中,有点大炮打蚊子的感受,因为CDN的能力视节点数量而定,单节点的性能再强,I/O能力 也是有限的,所以CDN讲究集群作战,并不需要个人英雄。而x86服务器单机的I/O能力是固定的,可CPU的能耗摆在那,为了获得更高的I/O吞吐能力 而配更多的服务器节点,也就意味着能耗的成倍上升。这就是一个典型的客户习惯的改变(移动化),进而引发企业的IT环境的应对(前端Web化)所带来的新 问题,所以越来越多的大型数据中心的主管,都在寻找性能够用、能耗更低的I/O节点来组建CDN,毕竟一个大型网络平台(如百度、腾讯、Facebook 等),这方面的投入将是成千上万台服务器的级别,对于厂商来说就意味着“真金百银”,这必然引发了ARM与x86阵营的遐想,变革也随之而来。
其实,ARM阵营中早就有厂商就此发力,Calxeda公司就是其中的典型,EnergyCore ECX-1000是它的代表性产品,在面对相对简单的Web请求处理方面,轻量级的ARM核心在能效比方面显示出强大的实力。
EnergyCore ECX-1000采用4个ARM Cortex-A9(A15的上一代)核心,加上内存的处理模块的总功耗也就是6W
EnergyCore ECX-1000与英特尔Xeon E3-1240(32nm SandyBridge核心)在Web请求负载方面的性能与功耗比较,虽然性能略低,但功耗更低,能效比是后者的15倍
而Calxeda的野心并不仅限于此,它的目标是从Web端进军企业应用平台,比如高性能计算。在一个典型的 EnergyCore ECX-1000服务器设计中,可以在一个2U的机箱中放置24个计算节点,总能耗最高也不过200多W,这是一个相当诱人的表现,从一个集群的架构讲, 光从能耗上看,较传统x86服务器的优势只要有小学数学程度的人都能明白。
24节点EnergyCore ECX-1000服务器在一些企业应用与基础测试中的能耗表现
与之相呼应,服务器厂商也蠢蠢欲动,准备将ARM解决方案带入数据中心,这其中惠普的“登月计划” (MoonShot)就是典型的例子。在这一计划中,我们可从惠普采用EnergyCore ECX-1000节点模块,面向开发者设计的Redstone服务器平台上,看到这类服务器未来的面貌与能力。
利用现有的ProLiant SL6500机箱,Redstone可装入4个服务器集群框架,每个框架有72个计算节点(微服务器),总共可以在一个4U的机箱内放入288个节点,机架密度达到了72/U,远远高于现有的刀片服务器
在一台基于ProLiant SL6500机箱的Redstone平台中,总共有288个计算节点,每个节点有4颗EnergyCore ECX-1000处理器,每个处理器有4个Cortex-A9核心,所以一台服务器就有4608个核心,这种密度在当前的数据中心里是不可想象的。为此惠 普也专门将其与传统的x86服务器解决方案做了综合比较,在满足应用需求的情况下,能耗降低89%,机架占用空间减少94%,成本降低63%,而复杂度也 降低了97%。
基于Redstone服务器的解决方案相较传统x86服务器方案的比较
作为x86世界的领袖——英特尔当然也注意到了这个倾向与趋势,不过它其实在早前也是ARM阵营中的一员,以 ARMv5架构设计了自己的XScale处理器核心,并开发出了PXA25/26/27系列处理器,应用于当时的PDA与嵌入式市场。后来,英特尔的战略 发生了改变,全面转向x86平台,最终在2006年将XScale出售给了Marvell。其实,英特尔与微软在这方面的表现是相似的,作为x86生态圈 里的灵魂组合,它们的一举一动对于x86世界都有着深远的影响。微软希望用Windows统一移动、桌面与数据中心平台,而英特尔也希望用x86平台覆盖 这三个市场。
英特尔面对大规模Web接入与密集集群应用市场的主要应对平台就是Atom与单路至强服务器(目前是E3系 列),不过目前来看,重要的竞争压力落在了Atom身上,因为它的性能在单路至强之下,也就将率先面对ARM平台的冲击。不过,Atom进入数据中心多少 有点“无心插柳”的感觉。Atom最早并不是按数据中心应用设计的,而是面向轻客户端设备,最知名的莫过于风行一时的上网本,但很快,Atom的性能表现 在x86主流市场被一片诟病,但其相对低得多的能耗表现又成为抢食自家兄弟市场的一大亮点(为此英特尔甚至为Atom的外围配置,如屏幕尺寸等进行了严格 的限制)。在某种程度上,它成为了笔记本电脑市场上一款比较尴尬的产品。但OEM厂商的创造性发挥也让英特尔看到了在其眼中“低能低耗”的Atom产品家 族的一个新用处——构建高密度低能耗的微服务器,同时英特尔在半导体生产工艺方面的强大优势,也使得Atom有更多的低能耗挖掘潜力。
需要指出的是,到目前为止,Atom在微型服务器方面的采用率要明显好于ARM平台,即使是惠普的登月计划也 没有忽略Atom。究其原因,除了ARM本身是新来乍到之外,还有其他因素,这方面下文再说。而再往上一层,x86则有更强大的单路至强E3平台与皓龙 3000系列,但它们功耗更高,在面对轻负载重I/O(CDN就是典型的一种)应用时,明显是杀鸡用牛刀,不过在传统的应用领域,E3的性能仍然是ARM 平台不可比的。
在E3与皓龙3000之后,还有E5与E7和皓龙6000系列,以目前它们的主管的领地来看,ARM在很长的时间里都不可能威胁到它们的地位,这也是为什么AMD仍然会坚守x86数据中心市场的原因。
至此我们已经清楚了ARM与x86在数据中心市场交火的背后原因与基本的范围。那么,ARM处理器在数据中心里的征途将会如何呢?它无疑会关系到AMD这一步棋的后继效果,反过来说,AMD对ARM的帮助又将给这场数据中心的前端争夺战带来怎样的变数呢?
展望:AMD的ARM之路前景几何?
AMD 进入ARM大家庭,在2014年推出基于Cortex-A50架构的皓龙处理器,所将面对的竞争仍然复杂,所以现在判断它的前景并不清晰。就我个人观点, 这一条路肯定走得不轻松,甚至还会相当艰苦。Cortex-A50解决了AMD在架构设计方面捉襟见肘的问题,但这只是起步,未来它将面对的是更多的对手 与几乎白手起家的生态环境。
先说说对手。在x86市场,AMD只有一个英特尔,但进入ARM领域,虽然也是主打数据中心前端,但ARM里 面向数据中心的玩家不仅仅是AMD,还有不少硬角色,上文谈到的Calxeda就是一个,此外还有AMD的老冤家NVIDIA,所以AMD的对手实际上是 增多了。其实,它原来的对手英特尔也没有闲着,从Pentium4失误随后的Core系列奋起直追,再到Nehalem系列在架构先进性全面反超AMD的 历史,让我们对英特尔这家公司的应变与修正能力有了清醒的认识,它会根据市场的变化迅速调整自己的失误,而不是一味的唯我独尊,这种对手在某种角度上讲是 最可怕的。现在它已经清楚的看到自己在能效比方面的不足,并全力以赴的改良与革新,很难说不会重演Pentium4之后的那一幕。所以,抛开ARM阵营内 部的竞争不谈,我们可以先看看ARM阵营与英特尔未来的对决会是怎样(Web前端x86市场也只有英特尔在玩了)。
Cortex-A50系列的第一批授权厂商——AMD、博通、Calxed、海思(华为)、三星与意法半导体,它们为ARM在处理器平台方面创造了强大的生态系统,但AMD潜在的竞争对手也明显更多了
Cortex-A57与A53核心分别扩展于当前的Cortex-A15与A7核心(两者的一个重要的差别在 于A57是乱序执行,而A53是顺序执行)。根据ARM给出的信息,未来面向数据中心应用的功能设计在Cortex-A57/53上全面具备,比如 64bit指令集(ARMv8)、高级虚拟化支持等等,具体详情在此我们不做详细介绍,有兴趣的读者可以寻找相关的介绍文档。我们在此只是着重于它在服务 器端的架构设想,并推测一下它的性能表现。
在Cortex-A50系列中,A57属于“大核”,A53属于“小核”,分别替代现有的A15与A7,生产工艺将进化至14nm
ARM给出的Cortex-A57与A53的未来应用构想,它们将横跨智能手机、平板电脑与服务器领域,根据big.LITTLE理念,在一颗芯片中,A57与A53核心可以混搭
对于企业级应用,ARM认为A57与 A53均有用武之地。A57可以做到16个核心集成,并可选配GPGPU单元进行加速计算,主攻宏基站、服务器与高性能计算市场,而A53也可以做到16 核心,面向蜂巢基站、数据平面方案、超低功耗Web服务器等市场,但似乎没有给出A57与A53的企业级big.LITTLE的混搭设计方案
对于基于Cortex-A50的ARM处理器设计,值得一提的是ARM所提出的big.LITTLE架构理 念,即将大核(big)与小核(LITTLE)混搭,通过判断负载的轻重来选择所适合的核心,以进一步提高能效比,不过在服务器端A57与A53分工明 确,似乎也没有必要混搭了。在ARM构想中,未来基于A50架构核心的CPU,将可以达到最多16核心的配置,而生产工艺的目标是采用14nm(目前的 A15核心采用的是32/28nm),芯片总功耗估计最高不会超过20W(A57核心,无GPGPU模块)。所以,2014年AMD的ARM-Base的 皓龙芯片的核心数量也应该会达到16个。
那么A57核心的性能将会达到什么水平呢?根据ARM给出的资料,Cortex-A57核心(1.7GHz) 在32位代码的性能方面比Cortex-A15核心(1.5GHz)提高了25%,是Atom N570(1.66GHz)的2.66倍,从这里似乎可以看出它的实力。
ARM给出的Cortex-A57较A15的性能比较,按图中来看A15的性能是N570的两倍
不过不久前有关基于A15架构的三星Exynos 5250处理器的评测,似乎更能反应出它们的差别。Anandtech网站对采用Exynos 5250(1.7GHz双核)的Chrome笔记本进行了测试,并与Atom N570平台进行了比较,通过对比分析,我们似乎能分析出更准确的Cortex-A57核心的性能。
A15架构的三星Exynos 5250处理器与Atom N570的性能对比(来自Anandtech网站)
三星Exynos 5250笔记本与Atom N570笔记本的能耗对比来自Anandtech网站)
抛开图形性能不谈,单看处理性能,5250领先N570的幅度在30-50%左右,而能耗方面则也降低了 30-50%左右,如果按满负载一档计算,5250平台降低25%的能耗,同时获得了31%的性能提升。但是在ARM的资料中,1.5G的A15核心性能 已经是N570的两倍,Exynos 5250的主频是1.7G,但性能领先幅度也没有达到2倍。所以,Cortex-A15核心的真实效能还有待进一步检验。
另一方面,参与比较的Atom N570是2011年第一季度的产品,采用的是45nm工艺(5250是32nm),距今已经一年半多了,而在英特尔的产品阵营中,还有一系列新品,比如 2011年第四季度上市的N2600,采用32nm工艺,虽然主频降低了600MHz,但TDP也下降到了3.8W,比N570低55%。
英特尔的Atom N570与N2600对比
而到今年年底的时候,新一代代号为Centerton的Atom S系列将会上市,较N2600相比,明显是为数据中心设计的。除了仍采用32nm工艺制造外,它采用了两个Saltwell CPU核心,支持超线程,每个核心都有32KB一级指令缓存、24KB一级数据缓存、512KB二级缓存;内存方面支持支持单通道低压 DDR3-1333,最高容量8GB(双DIMM),且支持ECC(N2600不支持);集成4个PCI-E 2.0控制器共八条链路,这是N2600所不具备的,对于服务器设计的好处不言而喻,不过它并没有集成SATA与以太网控制器。此外, Atom S系列支持VT-x虚拟化,这也是N2600没有的能力,明显为数据中心应用所准备。在能耗方面,Atom S系列支持C1/C1E、C6等多种电源管理状态,并支持EIST技术,最大TDP值为8.5W,主频也达到了2.0GHz。
Atom S系列目前已经透露的有3个型号,均为双核心四线程,二级缓存1MB,包括Atom S1220 1.6GHz/8.1W、Atom S1240 1.6GHz/6.1W、Atom S1260 2.0GHz/8.5W。
惠普的“登月计划”中就准备在年底推出采用Centerton的x86版微服务器,与Redstone的设计非常相似。
当然,Cortex-A57处理器将于2014年面世,AMD基于它设计的处理器与Freedom架构的整合产品也将在那一年推出,那么在未来一年里英特尔又将有何动作呢?这就是基于22nm 3D晶体管生产工艺的Atom Avoton处理器。
在2013年是22nm的普及之年,英特尔的Atom Avoton处理器的表现将会奠定其2014年迎战ARM新一代平台的基础
相较Centerton ,Avoton有了全面增强。除了工艺升级外,核心数量也最多升级至8个(配合HT,可达16线程,与16核心的A57处理器有一拼了),每对核心对应 1MB二级缓存,最多4MB。同时,Avoton将会支持乱序执行,虽然有可能是部分支持,但这对于提高性能是非常有帮助的。要知道,Centerton 及以前的Atom都不支持乱序执行,这对于x86指令集来说本身就是吃亏的。而Cortex-A15和57都有乱序执行的功能,现在也终于在Avoton 这一代予以弥补。另外,它还会引入类似Turbo Boost的动态加速技术,预计原始主频最高可达2.4GHz,加速则能达到2.7GHz。内存方面,加入了双通道的支持,内存规格包括 DDR3-1600与DDR3L-1600。在外围集成方面,Avoton将集成以太网、SATA、USB,据称具备4个GbE、4个USB 2.0、两个SATA 6Gbps、4个SATA 3Gbps,以及4个PCI-E 2.0控制器共16条通道。
在能耗方面,Avoton的TDP范围在5-20W,跨度比较大,相信也给用户提供了更多的选择。
英特尔微服务器市场2013年产品路线图
综观英特尔的微服务器领域的产品线,在2013年,除了Avoton之外,还有新一代基于Haswell核心的第三代至强E3处理器(同为22nm 3D晶体管),其中最低配置为双核心/4线程,TDP只有15-20W,与Avoton形成了平滑的对接。
可以看出,在未来的一年里英特尔的布局相当紧密,从架构与制程方面,最大限度利用了英特尔自身的实力(ARM 处理器明年能顺利将28nm制程变成主流就不错了),从指标与配置上来看,到Cortex-A57处理器发布之时,两者可以说已经是旗鼓相当了。而从当前 来看,Atom首先要接触的就是基于Cortex-A9架构的ARM服务器,这其中Calxeda ECX-1000是其中的典型。早前openbenchmarking.org曾做过一次ECX-1000与Atom D525平台的对比测试。虽然D525是2010年上半年的产物,现在已经停产,但还是可以从它们的性能对比中看出一些有用的信息。
openbenchmarking.org公布的Atom D525与Calxeda ECX-1000处理器平台性能测试结果
从测试结果来看,Atom D525较ECX-1000在性能上仍有一定优势,但当ECX-1000达到1.4GHz主频时,则不再明显,而且能耗方面仍然是ECX-1000领先, 但D525(45nm工艺)的TDP达13W,所以若换成Centerton则会有明显的改观。因此,就总体而言,ARM平台在数据中心里并没有表现出绝 对的优胜实力。
而在另一方面,除了性能与能耗之外还有一个重要的因素左右着用户的选择,那就是生态环境,说白了就是买了你 ARM平台有多少数据中心级的应用可以使用?即使是ARM最合适的Web应用领域也不见乐观。国内某著名网站曾经就在CDN设备选型时,对ARM平台和 Atom平台进行了比较,结果与openbenchmarking.org的测试差不多,ARM平台的综合性能功耗比占优,但是如果采用ARM平台的话, 就意味着网站要重新以ARM指令重新编写CDN框架,可网站并没有这方面的人才,最终衡量下来,用户还是选择了Atom平台。
AMD公布的ARM 64bit平台的业界支持者,它们将带动ARM在数据中心领域里的生态环境建设,但不得不说与现有的x86生态系统相比太过薄弱了,不过除了AMD列出的 厂商,开源组织也是一个不可忽视的力量,这方面Apache Tomcat Web服务器已经走在了前面,未来相信越来越多的Apache项目会推出ARM平台版本
我相信,应用环境成熟度与相关人才的配套是ARM想在数据中心普及的一个必须要跨越的鸿沟。在这个领 域,x86相较而言已经非常成熟,无论是平台的多样性,还是软件应用、开发平台与人才储备等方面,都是ARM无法比拟的。因此,当综合性能比较优势并不绝 对明显的时候,用户迁移自己的x86平台至ARM的阻力也就可想而知了。同理,英特尔的手机端x86处理器表现也中规中矩,完全说得过去,但x86在移动 应用开发领域又是什么待遇呢?
从目前来看,以ECX-1000为代表的ARM平台并没有建立起相对Atom的明显优势,而在2013年,单 靠Cortex-A15平台恐怕也很难全面超越Avoton(Avoton也开始支持性能更好的乱序执行,而且是8核设计,外围整合度也更高),甚至被后 者反超也说不准。
所以,综合分析下来,ARM阵营与英特尔的前端对决并不想某些人想象的那么简单。关键的一点就在于大家都在变 化,也都在进步,只不过英特尔在努力做合适减法,将x86架构在Atom平台上尽量的简化,以应对轻负载低能耗之需(甚至为此从乱序执行回归古老的顺序执 行体系),而ARM则在做合适加法,不断的为应对数据中心的需求增加新的功能,比如 64位技术、虚拟化技术以及更多的核心 、密算加速器等等,并也会像x86那样,还要照顾一代代积累的ARM指令集,以做到向上兼容。如今到Cortex-A15这一代,其能耗已经提升了不少, 而Atom的能耗则一代比一代低。在指令集上,x86为了提高自己的效率,降低CISC缺陷所引起的弊病,一直在针对相关应用开发新的指令集(如SSE、 AVX),这一点也在被ARM所采纳(如NEON),所以说大家是在“殊路同归”,在相互借鉴中共同成长,不断进化着自己的技术、架构与最终的产品。因 此,以ARM在手机端的成就预测其在低功耗数据中心前端市场必然成功有点一厢情愿,同理也不能因为x86的强大与Atom的进步就认为x86在移动端的市 场会一帆风顺,它同样要面对应用生态环境的严峻考验。
AMD的加盟肯定会加强ARM在数据中心市场的生态建设,但远不足够,以它的实力还不足以起到英特尔在x86 领域一呼百应的效果。不过,现在有一些好的苗头,比如Windows RT的出现,表明微软愿意在ARM方面上尝试,未来出现Server版RT也说不准,而操作系统是第一步,再往上则是应用开发平台与应用。企业级应用如 ERP、CRM等,先别想在ARM平台上运行,把前端Web市场占住了就不错,现在看来,ARM在数据中心里的应用生态建设将主要取决于开源的方案,然而 它对于用户的开发能力有着不小的挑战,这又涉及到人才的培养,毕竟它与移动端的应用开发完全是两码事……这一圈思考下来,你就能感觉到ARM建立起一个数 据中心生态环境的复杂程度,AMD的ARM征程有多难走也就不言而喻了。
有人会用x86当初战胜RISC企业级处理平台的历史来预测未来的ARM与x86在数据中心里的竞争,认为将 会历史重演——ARM取代x86的地位。不过历史的环境与当前不太一样,虽然x86是以PC起家,再向数据中心扩展,如今ARM是以移动终端起家向后端扩 展,路数相似,但大环境还是有明显的不同。我并不是说ARM战胜x86的可能性为零,不过难度要比当初x86进军数据中心大得多,因为PC应用与数据中心 应用相似度更大,可移动终端与数据中心应用有较大的不同,况且当时还是IT发展的初期,RISC当时在数据中心里也不算有多成熟。但是,现在的数据中心已 经相对成熟得多,各自的生态环境都非常完善,x86想进军移动端有多费劲大家已经很清楚了,ARM进军数据中心端也同样如此。所以历史是否会重演,真的很 难说,我个人认为ARM肯定会在数据中心前端占据一席之地(地盘大小另说),但再往应用与数据库层的进展将会非常缓慢。
而且,除了ARM与x86,还有其他方势力也在关注着数据中心的前端市场,以及ARM可能涉及的领域,如大规模并行密集计算等。这方面的典型代表就是Tilera公司的“众核处理器”架构与解决方案。
Tilera的TILEPro64处理器架构,单芯片64核心
Tilera的方案有点像把Freedom网格架构放在了CPU内部,将众多的轻量级核心互联在一起,再将内 存、I/O等整合在一起,共享给所有核心。在2011年Facebook所做的一次Memcache测试中,TILEPro64的表现不俗,与至强和皓龙 处理器平台相比,能效比也相当出色,在同等功耗下,双路TILEPro64性能基本上是双路至强5600的3倍多。
Facebook所做的Memcache对比测试
因此我们要说窥视数据中心市场的不仅仅是ARM,还有其他的玩家,而且实力也不容小视,虽然它们也缺乏生态系 统的支持,但ARM不也是一样吗?所以除了英特尔之外,AMD面临的潜在对手还有很多。我甚至觉得,AMD应该不仅仅只会在数据中心里采用ARM,它完全 有理由也有实力(尤其是GPU方面)借助ARM杀手移动端市场,不过这都是后话了,让我们走着瞧。
总而言之,AMD选择ARM的理由我们已经可以基本猜到,也能理解——与其在x86领域继续被压制,不如豁出 去闯出一条新路。但是,从另一个角度讲,这条路并不见得比继续开发与Atom同级的x86产品更好走。加盟ARM,AMD在不费多大力气得到一个出色的处 理器架构之外,将面对更多的竞争对手,将会失去x86领域既有的成熟环境,并还要努力开拓新的生态环境。在此,我祝愿AMD的ARM之路能尽量好走些,也 希望数据中心市场能在ARM与x86的对攻中,走向新的境界……