至顶网›服务器频道 ›IBM POWER的前世今生(Power1-Power9)

IBM POWER的前世今生(Power1-Power9)

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

【IT168 总结】Power是Power Optimization With Enhanced RISC的缩写，是由IBM开发的一种RISC指令集架构(ISA)。POWER6也采用了ViVA-2虚拟向量架构，使得多个POWER6节点组合可作为一个单一的向量处理器。

来源：ZDNet 2010年2月25日

关键字：网络

　　【IT168 总结】Power是Power Optimization With Enhanced RISC的缩写，是由IBM开发的一种RISC指令集架构(ISA)。

　　IBM的很多服务器、微型计算机、工作站和超级计算机都采用了Power系列微处理器。Power芯片起源于801 CPU，是第二代RISC处理器。在1990年，Power 芯片被RS或RISC System/6000 UNIX工作站(现在称为 eServer 和 pSeries)所采用。从Power 3开始以及之后推出的Power系列微处理器都采用的是64位PowerPC架构。

　　801的设计非常简单，但是由于所有的指令都必须在一个时钟周期内完成，因此其浮点运算和超量计算(并行处理)能力很差。Power体系结构就着重于解决这个问题。Power芯片采用了100多条指令，是一个非常优秀的RISC体系结构。

　　历史

　　801计划

　　1974年，IBM启动了一项以创建一个每秒至少处理300路通话的电话交换网络的计划。该计划预计需要20000个指令来处理每个通话，同时保持即时回应，因此需要一个性能为12 MIPS的处理器。这个需求在当时看来是非常大的。

　　复杂运算的每个步骤都可以用简单的指令来取代，而所有简单的指令，都可以在相同的时间内完成。这个精简设计的理念就是后来为人们所熟知的RISC。

　　1975年这个电话交换计划在还没有成为原型之前就被取消了。不过，从该计划第一年的模拟中所得到的估计来看，为这个计划所设计的处理器将会是个很有潜力的通用型处理器，因此后续工作在托马斯?华生研究中心的 801 号楼继续展开了，也就是801计划。

　　1982年的“Cheetah”研究计划

　　为了判断RISC机器是否能同时处理多个指令，或者需要对801计划进行哪些修改来实现拥有多个执行单元的801，华生研究中心花费两年时间探索了801设计的极限。

　　America计划

　　1985年，华生研究中心开始了第二世代RISC架构的研究，其成果就是“AMERICA架构”。1986年，IBM以这个架构为基础，在奥斯汀开始开发RS/6000系列。

　　Bellatrix计划

　　在1986年到1989年之间，Bellatrix计划启动了，前提是使用America架构作为通用架构的基础，其中可能包括针对大型主机应用的OS/390、针对多处理器服务器交易处理的OS/400和针对科学应用的AIX。但这一计划在1990年到1995年之间被取消了。

　　Power和RS/6000

　　1990年2月，第一步采用Power架构的IBM计算机被称为“RISC System/6000”或者RS/6000。RS/6000分为工作站和服务器两个等级，分别称为Powerstation和Powerserver。RS/6000的CPU有两种配置，分别被称作RIOS-1和RIOS.9。RIOS-1有11个芯片，分别是1个指令缓存芯片、1个整数芯片、1个浮点数芯片、4个数据缓存芯片、1个储存控制芯片、1个I/O芯片和1个时钟芯片。成本较低的RIOS.9有8个芯片，分别是1个指令缓存芯片、1个整数芯片、1个浮点数芯片、2个数据缓存芯片、1个存储控制芯片、1个I/O芯片和1个时钟芯片。

　　RSC(RISC Single Chip)是针对较低端的RS/6000开发出来的。第一部使用RSC的机器于1992年问世。

　　Power1

　　发布于1990年，每个芯片中集成了800000个晶体管。

　　与当时其他的RISC处理器不同，Power 1进行了功能划分，这为这种功能强大的芯片赋予了超量计算的能力。它还有单独的浮点寄存器，可以适用于从低端到高端的 UNIX工作站。最初的 Power1芯片实际上是在一个主板上的几个芯片；后来很快就变成一个RSC(RISC 单一芯片)，其中集成了100多万个晶体管。Power 1微处理器的RSC被火星探险任务用作中央处理器，它也是后来PowerPC产品线的先驱。

　　Power2

　　发布于1993年，一直使用到1998年，每个芯片中集成了1500万个晶体管。

　　Power2芯片中增加了第二个浮点处理单元(FPU)和更多缓存。PSSC超级芯片是Power2这种8芯片体系结构的一种单片形式，采用这种芯片配置的IBM深蓝超级计算机在1997年击败了国际象棋冠军Garry Kasparov。

　　PowerPC

　　1991年，IBM意识到他们可以通过将将芯片卖给其他系统制造商让Power变成一个大量生产的架构。他们和苹果公司紧密合作，目标是开发一系列以Power为基础的单片微处理器。当时苹果公司是摩托罗拉在桌上型微处理器的最大客户，因为和摩托罗拉长久以来的关系、他们大量生产微处理器的经验以及保有第二来源的理由，不久苹果公司就征询摩托罗拉加入这个讨论。这三方合作以德州奥斯汀为基地，后来成为知名的AIM联盟，也就是Apple、IBM和Motorola。

Power3

　　发布于1998年，每个芯片中集成了1500万个晶体管。

　　Power3是第一个64位对称多处理器(SMP)，完全兼容原来的Power指令集，也可以与PowerPC指令集很好地兼容。Power3设计用来从事从太空探测到天气预报等方面的科学计算应用。它特有一个数据预读取引擎、无阻塞的交叉数据缓存、双浮点执行单元以及其他一些很好的设计。Power3-II使用铜作为连接介质，这样用户可以以相同的价格获得两倍的性能。

　　POWER4

　　POWER4发布于2001年，是一款由IBM开发的微处理器，采用了PowerPC和PowerPC的指令集架构。发布于2001年的POWER4是Power3和RS64的下一代，被用于RS/6000和AS/400计算机，结束了针对AS/400单独开发PowerPC微处理器。POWER4是一款多核微处理器，一个模片上有2个内核，也是首款在一个模片上采用2个内核的非嵌入式微处理器。最初的POWER4主频为1.1和1.3 GHz，改进版本POWER4+的主频达到了1.9 GHz。POWER4采用了0.18 微米的铜和SoI(绝缘硅)技术，继承了Power 3芯片的所有优点(包括与PowerPC指令集的兼容性)，但是采用的却是全新的设计。每个处理器都有2 个64位的1GHz+ PowerPC核心，这是第一个单板上具有多核心设计的服务器处理器(也称为“片上CMP”或“片上服务器”)。每个处理器都可以并行执行200条指令。POWER4芯片取代了Star系列处理器，是IBM Regatta服务器强大的动力之源，PowerPC 970是POWER4的衍生物。

功能布局

　　POWER4有一个统一的二级缓存，分为3个相等的部分。每个部分都有自己独立的二级控制器。Core Interface Unit (CIU)连接每个二级控制器到数据缓存或者两个处理器的指令缓存。Non-Cacheable (NC)单元负责处理指令排序功能和存储拓扑任何不可缓存的操作。虽然有一个三级缓存控制器，但实际上内存是片外的。GX总线控制器控制I/O设备通信，有2个4字节宽的GX总线，一个输入另一个输出。Fabric Controller是总线网络的主控制器，控制一级和二级控制器之间的通信、POWER4芯片(4路、8路、16路和32路)与POWER4 MCM的通信。

POWER4内核的逻辑结构

POWER4处理器的逻辑结构

　　执行单元

　　POWER4采用了超标量微架构，通过8个独立执行单元完成高频率无序操作，包括2个浮点单元(FP1-2)、2个Load/Store单元(LD1-2)、2个定点单元(FX1-2)、1个分支单元和1个调节寄存器单元(CR)。这些执行单元可以在一个时钟周期内完成8次操作(不包括BR和CR单元)。

　　·每个浮点单元可以在一个时钟周期内完成一个浮点乘加(2次操作)

　　·每个Load/Store单元可以在一个时钟周期内完成一个指令

　　·每个定点单元可以在一个时钟周期内完成一个指令

　　流水线：

　　·分支预测

　　·获取指令

　　·解码、解析和分组

　　·组调度和指令发送

　　·Load/Store单元操作：Load Hit Store、Store Hit Load、Load Hit Load

　　·指令执行管线

　　多芯片配置

　　POWER4也采用了多芯片模块(MCM)配置，即一个封装内包括4个POWER4模片，每个MCM有128MB的共享三级ECC缓存。

　　规格

　　POWER4+

　　POWER4+是POWER4的改进版本，主频为1.9 GHz。POWER4+包括1.84亿个晶体管，面积为267平方毫米，采用0.13 μm SOI CMOS工艺，有8个铜线互连层。

相关阅读：

　　Power5

　　Power5是一款由IBM开发和制造的微处理器，是之前取得了巨大成功的Power4的改进版本，主要的改进是支持同步多线程(SMT)和一个片上内存控制器。Power5是一款双核微处理器，每个内核支持1个物理线程和2个逻辑线程，总共支持2个物理线程和4个逻辑线程。据报告声称，Power5的比Power 4高出了50%～100%。Power5芯片被应用于代号为“Squadron”的服务器产品线，该产品线于2004年下半年在劳伦斯利物浦发布。Power5向ISA中增加了更多指令，而Power5+在此基础上又增加了一些指令，将ISA带到2.02版本。

　　历史

　　2003年的Hot Chips大会上首次披露了Power5微处理器的技术细节，接下来在2003年10月14日召开的Microprocessor Forum 2003公布了更多完整描述。Power5并未公开发售，只由IBM和合作伙伴所使用。采用Power5微处理器的系统在2004年问世。在高端企业服务器市场竞争的Power5主要对手是英特尔安腾2处理器，其次还有Sun UltraSPARC IV和富士通的SPARC64 V。IBM在2005年推出了一款改进的迭代版本——Power5+。

　　用户

　　IBM在他们的System p和System i系列服务器、DS8000存储服务器以及高端Infoprint打印机(以内嵌微处理器的形式)中采用了DCM和MCM Power5微处理器。另外IBM的高端IntelliStation Power 285工作站中也采用了DCM Power5。Power5的第三方用户包括Groupe Bull(用于Escala服务器)和日立(用于SR11000计算机)。另外，IBM在System p5 510Q、520Q、550Q和560Q中采用了Power5+微处理器。

　　描述

　　Power5是对Power4的进一步开发。增加双路多线程要求有冗余的返回堆栈、程序计数器、指令缓冲器、组完成单元和存储队列，这样每个线程都有自己的资源。虽然大部分资源都是共享的，例如注册文件和执行单元，但是每个线程都可以看到自己的注册设置。Power5执行同步多线程(SMT)，即同时执行两个线程。Power5可以通过禁用SMT来优化并发工作负载。

　　由于注册文件等很多资源都是由两个线程共享的，因此很多情况下都是通过增加容量来弥补性能的损失。整数和浮点寄存器的数量从Power4的80个和72个分别增加到了Power5的120个。浮点指令缓存也从20个增加到了24个。二级统一缓存容量增加到了1.875 MB，组容量增加到10路。三级统一缓存是附加于整个封装而不是单独设在芯片外部，容量增加到36 MB。与Power4一样，Power5的缓存由两个内核共享的。

　　片上内存控制器支持64GB DDR和DDR2内存。Power5采用高主频的串行总线与连接DIMM和微处理器的外部缓冲器进行通信。

一个MCM包括4个Power5模片和4个36MB三级缓存模片

　　Power5包括276000000个晶体管，面积为389平方毫米，是由IBM采用0.13 μm SOI CMOS工艺制造的。Power模片是以双芯片模块(DCM)或者多芯片模块(MCM)的形式封装的。DCM包括1个Power5模片和相关的三级缓存模片。MCM包括4个Power5印模和4个三级缓存模片。

　　通过使用一项名为ViVA的技术(虚拟向量架构)，高端系统中的多个Power5处理器可以配对用作一个向量处理器。

　　Power5+

　　IBM i5系统的处理器模块，包括一个Power5+ DCM

　　Power5+是IBM在2005年10月4日推出的Power5改进版本。主要改进的地方是具有低功耗的特点，主频没有变化，仍然保持在1.5～1.9 GHz之间。在2006年2月14日推出的新版本将主频提高到了2.2 GHz。Power5+和之前的Power5微处理器封装相同，不过也提供了QCM的形式，即包括两个Power5+模片和2个三级缓存模片。

相关阅读：

　　POWER6

　　POWER6是由IBM开发一款微处理器，采用了Power ISA v.2.03。在2007年推出的系统中，POWER6取代Power5+成为IBM的旗舰Power微处理器。它是eCLipz项目的一部分，以融合IBM服务器硬件为目标(这里“ipz”是i系列，p系列和z系列的缩写)。

历史

　　IBM在2006年2月的国际固态电路会议(ISSCC)上公布了POWER6，在2006年10月的微处理器论坛和2007年2月ISSCC上披露了更多细节。最终IBM在2007年6月8日正式发布POWER6，其主频为3.5、4.2和4.7 GHz，但IBM同时指出POWER6原型的主频达到了6 GHz。2005年年中制造出了POWER6首个硅模片，2008年5月推出了改进版本POWER6+。

　　描述

　　POWER6是一款双核处理器。每个内核支持双路SMT。POWER6大约有7.9亿个晶体管，面积为341平方毫米，采用了65纳米制程工艺。POWER6和Power5最显著的区别就是，POWER6是按顺序执行指令的，而不是无序的。POWER6项目的首席工程师表示，这种变化通常要求重新编译软件来实现最佳性能，但是POWER6在未修改软件的情况下仍然比Power5+有显著的性能提升。

　　POWER6也采用了ViVA-2虚拟向量架构，使得多个POWER6节点组合可作为一个单一的向量处理器。

　　POWER6的每个内核有2个整数单元、2个二进制浮点单元、1个AltiVec单元和1个十进制浮点单元。二进制浮点单元采用“多微架构、逻辑电路和集成技术实现了一个6周期、13 FO4的通道”。与竞争对手不同的是，IBM的POWER6在硬件方面支持IEEE 754小数运算。50多个新浮点指令处理十进制运算、二进制和十进制之间的切换。System z10的z10微处理器中也增加了这项特性。

　　POWER6的每个内核有1个64KB、4路固定式关联指令和1个64KB数据缓存。每个内核有半专用的4 MiB统一二级缓存，缓存被分配到一个特点的核心，其他则有对它进行快速访问的路径。两个内核通过一个80 GB/s总线共享一个片外的32 MiB三级缓存。

　　POWER6可以通过使用2个节点间连接(50 GB /秒)另外31个处理器，支持每个内核10个多级分区(每个系统最多254个)。有一个连接到服务处理器的接口，这个处理器可以根据设定参数来调节性能和功耗。

　　IBM还在POWER6中利用了一5 GHz工作周期修正时钟分配网络。在这个网络下，IBM采用了宽3微米厚1.2微米的铜线。POWER6采用双电源设计，理论上电压范围是0.8至1.2伏特，SRAM电源大约为150 mV。

　　POWER6的热特性与Power5类似。IBM首席科学家Frank Soltis博士表示，IBM通过在POWER6设计中结合采用90纳米和65纳米部件解决了高主频存在的漏电问题。

　　POWER6+

　　IBM在2009年4月公布了有小幅度改进的POWER6+，但是从2008年10月就已经在Power 560和570系统中开始出货了。POWER6+的主频高达5 GHz，有更多内存密钥确保安全的内存分区。

　　产品

　　截至2008年，采用POWER6的系统包括Express系列(520、550和560)和Enterprise系列(570和595)。多样化的型号满足了任何规模企业的需求。例如，520 Express主要针对小型企业，而Power 595是面向大中型数据中心的。Express和Enterprise的主要区别在于后者包括Capacity Upgrade on Demand (CUoD)和热插拔处理器。

　　IBM还提供了四款基于POWER6的刀片服务器，规格如下表所示：

　　所有这些刀片都支持AIX、i和Linux。BladeCenter S和H机架支持运行AIX、i和Linux的刀片。BladeCenter E、HT和T机架支持运行AIX和Linux(不包括i)的刀片。

　　IBM在2007年国际超级计算机大会(SC07)上公布了一款新型水冷Power 575。575支持2U节点，每个节点采用了32个POWER6内核，主频为4.7 GHz，RAM容量高达256GB。

　　POWER7

　　POWER7将成为Peta系列的第一个处理器，已被美国国防先进研究计划局(DARPA)选为他们Petaflops级超级计算机(例如Blue Waters)的候选之一。

　　在2000年的时候，IBM递交了他们的计划书，从DARPA那里获得5300万美元以继续参与这项挑战。2006年IBM获得2.44亿美元来为DARPA搭建一个Petaflops的计算机。

　　Power8

　　正在开发中，将成为POWER7的继任者，规格和发布日期尚不明确。

　　Power9

　　正在开发中。

　　架构

　　Power设计来源于早期的801 CPU，被人们广泛认为是首个真正的RISC处理器设计。801用于IBM硬件内的很多应用中。

　　IBM Power历史家族图谱

　　在发布PC/RT的同时，IBM开发了America计划，旨在设计当时市场中最强大的CPU。他们的主要兴趣是解决801设计中的两个难题：801要求所有指令必须在一个时钟周期内完成，其中不包括浮点指令;尽管解码器被认为是这些单周期操作的一个副作用，但是并不使用超标量体系结构。

　　浮点是America计划的一种重点，IBM能够利用80年代初期开发的新算法，它支持64位双精度运算，在一个周期内可以分成多个部分。该设计的FPU部分与指令解码器及集成部分是分离的，允许解码器同时发送指令到FPU和ALU执行单元。IBM通过一种复杂的指令解码器做到这一点，该解码器可以获取一个指令，解码其他指令，然后同时将指令发送到ALU和FPU，因此它称为首个在使用中的超标量CPU设计。

　　801是一个简单的设计，对其简化性的过校正导致Power设计要比大多数RISC ISA更加复杂。例如，Power(和PowerPC)指令集包括100多个不同长度并且彼此不相同的opcode。相比之下，ARM只有34个指令。

　　该架构另一个令人感兴趣的特点就是一个将所有地址映射到一个512位空间的虚拟机地址系统。这样，应用就可以在一个32位空间内共享内存，所有程序可能彼此都有不同的32位数据块。

相关阅读：

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

IBM POWER的前世今生(Power1-Power9)

业界热点: