科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道IBM POWER的前世今生(Power1-Power9)

IBM POWER的前世今生(Power1-Power9)

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

【IT168 总结】Power是Power Optimization With Enhanced RISC的缩写,是由IBM开发的一种RISC指令集架构(ISA)。POWER6也采用了ViVA-2虚拟向量架构,使得多个POWER6节点组合可作为一个单一的向量处理器。

来源:ZDNet 2010年2月25日

关键字: 网络

  • 评论
  • 分享微博
  • 分享邮件

  【IT168 总结】Power是Power Optimization With Enhanced RISC的缩写,是由IBM开发的一种RISC指令集架构(ISA)。

  IBM的很多服务器、微型计算机、工作站和超级计算机都采用了Power系列微处理器。Power芯片起源于801 CPU,是第二代RISC处理器。在1990年,Power 芯片被RS或RISC System/6000 UNIX工作站(现在称为 eServer 和 pSeries)所采用。从Power 3开始以及之后推出的Power系列微处理器都采用的是64位PowerPC架构。

  801的设计非常简单,但是由于所有的指令都必须在一个时钟周期内完成,因此其浮点运算和超量计算(并行处理)能力很差。Power体系结构就着重于解决这个问题。Power芯片采用了100多条指令,是一个非常优秀的RISC体系结构。

  历史

  801计划

  1974年,IBM启动了一项以创建一个每秒至少处理300路通话的电话交换网络的计划。该计划预计需要20000个指令来处理每个通话,同时保持即时回应,因此需要一个性能为12 MIPS的处理器。这个需求在当时看来是非常大的。

  复杂运算的每个步骤都可以用简单的指令来取代,而所有简单的指令,都可以在相同的时间内完成。这个精简设计的理念就是后来为人们所熟知的RISC。

  1975年这个电话交换计划在还没有成为原型之前就被取消了。不过,从该计划第一年的模拟中所得到的估计来看,为这个计划所设计的处理器将会是个很有潜力的通用型处理器,因此后续工作在托马斯?华生研究中心的 801 号楼继续展开了,也就是801计划。

  1982年的“Cheetah”研究计划

  为了判断RISC机器是否能同时处理多个指令,或者需要对801计划进行哪些修改来实现拥有多个执行单元的801,华生研究中心花费两年时间探索了801设计的极限。

  America计划

  1985年,华生研究中心开始了第二世代RISC架构的研究,其成果就是“AMERICA架构”。1986年,IBM以这个架构为基础,在奥斯汀开始开发RS/6000系列。

  Bellatrix计划

  在1986年到1989年之间,Bellatrix计划启动了,前提是使用America架构作为通用架构的基础,其中可能包括针对大型主机应用的OS/390、针对多处理器服务器交易处理的OS/400和针对科学应用的AIX。但这一计划在1990年到1995年之间被取消了。

  Power和RS/6000

  1990年2月,第一步采用Power架构的IBM计算机被称为“RISC System/6000”或者RS/6000。RS/6000分为工作站和服务器两个等级,分别称为Powerstation和Powerserver。RS/6000的CPU有两种配置,分别被称作RIOS-1和RIOS.9。RIOS-1有11个芯片,分别是1个指令缓存芯片、1个整数芯片、1个浮点数芯片、4个数据缓存芯片、1个储存控制芯片、1个I/O芯片和1个时钟芯片。成本较低的RIOS.9有8个芯片,分别是1个指令缓存芯片、1个整数芯片、1个浮点数芯片、2个数据缓存芯片、1个存储控制芯片、1个I/O芯片和1个时钟芯片。

  RSC(RISC Single Chip)是针对较低端的RS/6000开发出来的。第一部使用RSC的机器于1992年问世。

  Power1

  发布于1990年,每个芯片中集成了800000个晶体管。

  与当时其他的RISC处理器不同,Power 1进行了功能划分,这为这种功能强大的芯片赋予了超量计算的能力。它还有单独的浮点寄存器,可以适用于从低端到高端的 UNIX工作站。最初的 Power1芯片实际上是在一个主板上的几个芯片;后来很快就变成一个RSC(RISC 单一芯片),其中集成了100多万个晶体管。Power 1微处理器的RSC被火星探险任务用作中央处理器,它也是后来PowerPC产品线的先驱。

  Power2

  发布于1993年,一直使用到1998年,每个芯片中集成了1500万个晶体管。

  Power2芯片中增加了第二个浮点处理单元(FPU)和更多缓存。PSSC超级芯片是Power2这种8芯片体系结构的一种单片形式,采用这种芯片配置的IBM深蓝超级计算机在1997年击败了国际象棋冠军Garry Kasparov。

  PowerPC

  1991年,IBM意识到他们可以通过将将芯片卖给其他系统制造商让Power变成一个大量生产的架构。他们和苹果公司紧密合作,目标是开发一系列以Power为基础的单片微处理器。当时苹果公司是摩托罗拉在桌上型微处理器的最大客户,因为和摩托罗拉长久以来的关系、他们大量生产微处理器的经验以及保有第二来源的理由,不久苹果公司就征询摩托罗拉加入这个讨论。这三方合作以德州奥斯汀为基地,后来成为知名的AIM联盟,也就是Apple、IBM和Motorola。

Power3

  发布于1998年,每个芯片中集成了1500万个晶体管。

  Power3是第一个64位对称多处理器(SMP),完全兼容原来的Power指令集,也可以与PowerPC指令集很好地兼容。Power3设计用来从事从太空探测到天气预报等方面的科学计算应用。它特有一个数据预读取引擎、无阻塞的交叉数据缓存、双浮点执行单元以及其他一些很好的设计。Power3-II使用铜作为连接介质,这样用户可以以相同的价格获得两倍的性能。

  POWER4

  POWER4发布于2001年,是一款由IBM开发的微处理器,采用了PowerPC和PowerPC的指令集架构。发布于2001年的POWER4是Power3和RS64的下一代,被用于RS/6000和AS/400计算机,结束了针对AS/400单独开发PowerPC微处理器。POWER4是一款多核微处理器,一个模片上有2个内核,也是首款在一个模片上采用2个内核的非嵌入式微处理器。最初的POWER4主频为1.1和1.3 GHz,改进版本POWER4+的主频达到了1.9 GHz。POWER4采用了0.18 微米的铜和SoI(绝缘硅)技术,继承了Power 3芯片的所有优点(包括与PowerPC指令集的兼容性),但是采用的却是全新的设计。每个处理器都有2 个64位的1GHz+ PowerPC核心,这是第一个单板上具有多核心设计的服务器处理器(也称为“片上CMP”或“片上服务器”)。每个处理器都可以并行执行200条指令。POWER4芯片取代了Star系列处理器,是IBM Regatta服务器强大的动力之源,PowerPC 970是POWER4的衍生物。

功能布局

  POWER4有一个统一的二级缓存,分为3个相等的部分。每个部分都有自己独立的二级控制器。Core Interface Unit (CIU)连接每个二级控制器到数据缓存或者两个处理器的指令缓存。Non-Cacheable (NC)单元负责处理指令排序功能和存储拓扑任何不可缓存的操作。虽然有一个三级缓存控制器,但实际上内存是片外的。GX总线控制器控制I/O设备通信,有2个4字节宽的GX总线,一个输入另一个输出。Fabric Controller是总线网络的主控制器,控制一级和二级控制器之间的通信、POWER4芯片(4路、8路、16路和32路)与POWER4 MCM的通信。

POWER4内核的逻辑结构

POWER4处理器的逻辑结构

  执行单元

  POWER4采用了超标量微架构,通过8个独立执行单元完成高频率无序操作,包括2个浮点单元(FP1-2)、2个Load/Store单元(LD1-2)、2个定点单元(FX1-2)、1个分支单元和1个调节寄存器单元(CR)。这些执行单元可以在一个时钟周期内完成8次操作(不包括BR和CR单元)。

  ·每个浮点单元可以在一个时钟周期内完成一个浮点乘加(2次操作)

  ·每个Load/Store单元可以在一个时钟周期内完成一个指令

  ·每个定点单元可以在一个时钟周期内完成一个指令

  流水线:

  ·分支预测

  ·获取指令

  ·解码、解析和分组

  ·组调度和指令发送

  ·Load/Store单元操作:Load Hit Store、Store Hit Load、Load Hit Load

  ·指令执行管线

  多芯片配置

  POWER4也采用了多芯片模块(MCM)配置,即一个封装内包括4个POWER4模片,每个MCM有128MB的共享三级ECC缓存。

  规格

  POWER4+

  POWER4+是POWER4的改进版本,主频为1.9 GHz。POWER4+包括1.84亿个晶体管,面积为267平方毫米,采用0.13 μm SOI CMOS工艺,有8个铜线互连层。

相关阅读:

  Power5

  Power5是一款由IBM开发和制造的微处理器,是之前取得了巨大成功的Power4的改进版本,主要的改进是支持同步多线程(SMT)和一个片上内存控制器。Power5是一款双核微处理器,每个内核支持1个物理线程和2个逻辑线程,总共支持2个物理线程和4个逻辑线程。据报告声称,Power5的比Power 4高出了50%~100%。Power5芯片被应用于代号为“Squadron”的服务器产品线,该产品线于2004年下半年在劳伦斯利物浦发布。Power5向ISA中增加了更多指令,而Power5+在此基础上又增加了一些指令,将ISA带到2.02版本。

  历史

  2003年的Hot Chips大会上首次披露了Power5微处理器的技术细节,接下来在2003年10月14日召开的Microprocessor Forum 2003公布了更多完整描述。Power5并未公开发售,只由IBM和合作伙伴所使用。采用Power5微处理器的系统在2004年问世。在高端企业服务器市场竞争的Power5主要对手是英特尔安腾2处理器,其次还有Sun UltraSPARC IV和富士通的SPARC64 V。IBM在2005年推出了一款改进的迭代版本——Power5+。

  用户

  IBM在他们的System p和System i系列服务器、DS8000存储服务器以及高端Infoprint打印机(以内嵌微处理器的形式)中采用了DCM和MCM Power5微处理器。另外IBM的高端IntelliStation Power 285工作站中也采用了DCM Power5。Power5的第三方用户包括Groupe Bull(用于Escala服务器)和日立(用于SR11000计算机)。另外,IBM在System p5 510Q、520Q、550Q和560Q中采用了Power5+微处理器。

  描述

  Power5是对Power4的进一步开发。增加双路多线程要求有冗余的返回堆栈、程序计数器、指令缓冲器、组完成单元和存储队列,这样每个线程都有自己的资源。虽然大部分资源都是共享的,例如注册文件和执行单元,但是每个线程都可以看到自己的注册设置。Power5执行同步多线程(SMT),即同时执行两个线程。Power5可以通过禁用SMT来优化并发工作负载。

  由于注册文件等很多资源都是由两个线程共享的,因此很多情况下都是通过增加容量来弥补性能的损失。整数和浮点寄存器的数量从Power4的80个和72个分别增加到了Power5的120个。浮点指令缓存也从20个增加到了24个。二级统一缓存容量增加到了1.875 MB,组容量增加到10路。三级统一缓存是附加于整个封装而不是单独设在芯片外部,容量增加到36 MB。与Power4一样,Power5的缓存由两个内核共享的。

  片上内存控制器支持64GB DDR和DDR2内存。Power5采用高主频的串行总线与连接DIMM和微处理器的外部缓冲器进行通信。

一个MCM包括4个Power5模片和4个36MB三级缓存模片

  Power5包括276000000个晶体管,面积为389平方毫米,是由IBM采用0.13 μm SOI CMOS工艺制造的。Power模片是以双芯片模块(DCM)或者多芯片模块(MCM)的形式封装的。DCM包括1个Power5模片和相关的三级缓存模片。MCM包括4个Power5印模和4个三级缓存模片。

  通过使用一项名为ViVA的技术(虚拟向量架构),高端系统中的多个Power5处理器可以配对用作一个向量处理器。

  Power5+

  IBM i5系统的处理器模块,包括一个Power5+ DCM

  Power5+是IBM在2005年10月4日推出的Power5改进版本。主要改进的地方是具有低功耗的特点,主频没有变化,仍然保持在1.5~1.9 GHz之间。在2006年2月14日推出的新版本将主频提高到了2.2 GHz。Power5+和之前的Power5微处理器封装相同,不过也提供了QCM的形式,即包括两个Power5+模片和2个三级缓存模片。

相关阅读:

  POWER6

  POWER6是由IBM开发一款微处理器,采用了Power ISA v.2.03。在2007年推出的系统中,POWER6取代Power5+成为IBM的旗舰Power微处理器。它是eCLipz项目的一部分,以融合IBM服务器硬件为目标(这里“ipz”是i系列,p系列和z系列的缩写)。

历史

  IBM在2006年2月的国际固态电路会议(ISSCC)上公布了POWER6,在2006年10月的微处理器论坛和2007年2月ISSCC上披露了更多细节。最终IBM在2007年6月8日正式发布POWER6,其主频为3.5、4.2和4.7 GHz,但IBM同时指出POWER6原型的主频达到了6 GHz。2005年年中制造出了POWER6首个硅模片,2008年5月推出了改进版本POWER6+。

  描述

  POWER6是一款双核处理器。每个内核支持双路SMT。POWER6大约有7.9亿个晶体管,面积为341平方毫米,采用了65纳米制程工艺。POWER6和Power5最显著的区别就是,POWER6是按顺序执行指令的,而不是无序的。POWER6项目的首席工程师表示,这种变化通常要求重新编译软件来实现最佳性能,但是POWER6在未修改软件的情况下仍然比Power5+有显著的性能提升。

  POWER6也采用了ViVA-2虚拟向量架构,使得多个POWER6节点组合可作为一个单一的向量处理器。

  POWER6的每个内核有2个整数单元、2个二进制浮点单元、1个AltiVec单元和1个十进制浮点单元。二进制浮点单元采用“多微架构、逻辑电路和集成技术实现了一个6周期、13 FO4的通道”。与竞争对手不同的是,IBM的POWER6在硬件方面支持IEEE 754小数运算。50多个新浮点指令处理十进制运算、二进制和十进制之间的切换。System z10的z10微处理器中也增加了这项特性。

  POWER6的每个内核有1个64KB、4路固定式关联指令和1个64KB数据缓存。每个内核有半专用的4 MiB统一二级缓存,缓存被分配到一个特点的核心,其他则有对它进行快速访问的路径。两个内核通过一个80 GB/s总线共享一个片外的32 MiB三级缓存。

  POWER6可以通过使用2个节点间连接(50 GB /秒)另外31个处理器,支持每个内核10个多级分区(每个系统最多254个)。有一个连接到服务处理器的接口,这个处理器可以根据设定参数来调节性能和功耗。

  IBM还在POWER6中利用了一5 GHz工作周期修正时钟分配网络。在这个网络下,IBM采用了宽3微米厚1.2微米的铜线。POWER6采用双电源设计,理论上电压范围是0.8至1.2伏特,SRAM电源大约为150 mV。

  POWER6的热特性与Power5类似。IBM首席科学家Frank Soltis博士表示,IBM通过在POWER6设计中结合采用90纳米和65纳米部件解决了高主频存在的漏电问题。

  POWER6+

  IBM在2009年4月公布了有小幅度改进的POWER6+,但是从2008年10月就已经在Power 560和570系统中开始出货了。POWER6+的主频高达5 GHz,有更多内存密钥确保安全的内存分区。

  产品

  截至2008年,采用POWER6的系统包括Express系列(520、550和560)和Enterprise系列(570和595)。多样化的型号满足了任何规模企业的需求。例如,520 Express主要针对小型企业,而Power 595是面向大中型数据中心的。Express和Enterprise的主要区别在于后者包括Capacity Upgrade on Demand (CUoD)和热插拔处理器。

  IBM还提供了四款基于POWER6的刀片服务器,规格如下表所示:

  所有这些刀片都支持AIX、i和Linux。BladeCenter S和H机架支持运行AIX、i和Linux的刀片。BladeCenter E、HT和T机架支持运行AIX和Linux(不包括i)的刀片。

  IBM在2007年国际超级计算机大会(SC07)上公布了一款新型水冷Power 575。575支持2U节点,每个节点采用了32个POWER6内核,主频为4.7 GHz,RAM容量高达256GB。

  POWER7

  POWER7将成为Peta系列的第一个处理器,已被美国国防先进研究计划局(DARPA)选为他们Petaflops级超级计算机(例如Blue Waters)的候选之一。

  在2000年的时候,IBM递交了他们的计划书,从DARPA那里获得5300万美元以继续参与这项挑战。2006年IBM获得2.44亿美元来为DARPA搭建一个Petaflops的计算机。

  Power8

  正在开发中,将成为POWER7的继任者,规格和发布日期尚不明确。

  Power9

  正在开发中。

  架构

  Power设计来源于早期的801 CPU,被人们广泛认为是首个真正的RISC处理器设计。801用于IBM硬件内的很多应用中。

  IBM Power历史家族图谱

  在发布PC/RT的同时,IBM开发了America计划,旨在设计当时市场中最强大的CPU。他们的主要兴趣是解决801设计中的两个难题:801要求所有指令必须在一个时钟周期内完成,其中不包括浮点指令;尽管解码器被认为是这些单周期操作的一个副作用,但是并不使用超标量体系结构。

  浮点是America计划的一种重点,IBM能够利用80年代初期开发的新算法,它支持64位双精度运算,在一个周期内可以分成多个部分。该设计的FPU部分与指令解码器及集成部分是分离的,允许解码器同时发送指令到FPU和ALU执行单元。IBM通过一种复杂的指令解码器做到这一点,该解码器可以获取一个指令,解码其他指令,然后同时将指令发送到ALU和FPU,因此它称为首个在使用中的超标量CPU设计。

  801是一个简单的设计,对其简化性的过校正导致Power设计要比大多数RISC ISA更加复杂。例如,Power(和PowerPC)指令集包括100多个不同长度并且彼此不相同的opcode。相比之下,ARM只有34个指令。

  该架构另一个令人感兴趣的特点就是一个将所有地址映射到一个512位空间的虚拟机地址系统。这样,应用就可以在一个32位空间内共享内存,所有程序可能彼此都有不同的32位数据块。

相关阅读:

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章