科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道双核心、多核心处理器发展趋势

双核心、多核心处理器发展趋势

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

以既有处理器核心,用两个或多个核心加以迭加,直接设计出芯片多线绪或芯片多重处理的处理器设计思维,成为后摩尔时代处理器研发的必然趋势。

2008年1月15日

关键字: 处理器 双核 芯片

  • 评论
  • 分享微博
  • 分享邮件

  ZDNetChina服务器站 服务器芯片/组件技巧  以既有处理器核心,用两个或多个核心加以迭加,直接设计出芯片多线绪或芯片多重处理的处理器设计思维,成为后摩尔时代处理器研发的必然趋势。

  延续摩尔定律——双核心/多核心处理器的发展

  自高登.摩尔在1965年提出每隔18~24个月单位面积的晶体管数量倍增的摩尔定律之后,新世代处理器研发,凭借着每两~三年一次的制程进化,得以在一定的晶粒面积(成本)下,用更多的晶体管来设计新一代的核心架构,藉由新架构以及线路微缩的时钟频率提升效应,来驱动硅芯片的运算能量。

  以往为了要达成摩尔定律硅芯片晶体管数倍增的期望值,一般新一代制程技术,大多以缩减到前一代线距长度的约70%左右,例如90奈米是目前的制程主流,下一代则切到65奈米。依照晶粒面积跟线距平方成正比来计算,新一代制程可以把目前晶体管所占用的硅晶面积缩减到一半(0.7^2=0.49,约0.5),做入两倍的晶体管数量,就可以维持原来的硅晶面积。

  如果单纯就新一代制程来设计上一代处理器电路,运算时脉大致可以加快42.85%(=1/0.7),而且硅晶面积变成原来的一半,功耗可能下降的更低;同时新一代制程所需要的工作电压比较小,在热功率设计上也会更加容易一些。

  但是,这个公式一个以往被人忽略的一点,就是由于晶体管数量倍增,会不会导致硅芯片所需要的电能、耗费功率大幅提升,甚至成几何级数的增加呢﹖我们先从下列硅芯片的电能功率计算公式来探讨:

  功率=C(寄生电容)*F(频率)*V2(工作电压的平方)

  每一个硅芯片会因为IC制程、介质、材料属性,以及晶体管数量的不同,而有不同的寄生电容值,若是相同制程,大致上忽略掉材料属性与介质因素,可以简易归纳出上下一代制程的寄生电容值为一个常数,所以硅芯片功率跟频率成正比,跟工作电压的平方也成正比。

  摩尔定律并没有告诉我们,如何在同时维持功耗不变的情况下,顺利的达成晶体管倍增的目标,如果单纯从两倍效能提升值着手,频率因子是2.0,那么工作电压的平方值就要控制在0.5以下,使得功率维持在一定常数内,而0.5开平方也差不多是0.7,这代表工作电压得降到原先电压值的70%。

  由于线路微缩为70%,大约可以使工作频率极限拉高到42.85%(1/0.7),因此若能在每次制程技术把线路微缩为原先70%的长度时,同时也将工作电压降为原先的70%,就有可能运用新制程设计出两倍晶体管、速度为提升为原先的1.4倍(1/(1/0.7))左右,而且功耗维持不变的完美芯片。

  但事实上,要控制这样的完美恒等式有其困难性。因为花费原先架构两倍晶体管来设计新的架构,以同频率为基准的性能提升都不见得是两倍,有些可能只是高速缓存的加大,有些逻辑闸的增加,反而会使硅芯片功率暴增。同时,新一代制程的工作电压可以调降,但不见得能调降到原先的70%,最近几份揭露出来的制程技术简报,发现切入0.13微米(130奈米)制程之后,工作电压仅能降到原先的90%;加上线距微缩之后,晶体管源极(Source)与汲极(Drain)之间的泄漏电流效应越来越明显。

  举个最实际的例子,1995年Pentium处理器推出时,当时的制程技术仅0.6微米制程,工作频率为75~120MHz,电压还高到3.3~5V,后来切到0.35微米制程,追加MMX指令集的Pentium MMX的推出,工作频率为166MHz~233MHz,热功率仅10~15瓦,工作电压也降到2.8V,差不多用散热片或小型低转速的散热风扇即可解决。如果一切那么完美的话,今日高达3.8GHz的LGA775 Pentium4 580处理器,其设计功率也应该维持在10~15瓦左右。但事实上,英特尔拼命用尽一切制程技术、节电管理的机制加入下,连工作电压都压低到1.35V以下,但3.8GHz的Pentium4 580,设计功率仍然高达115W,而Pentium4所采用的散热风扇更是重量级的,这已经是十年前Pentium处理器10~15瓦的9~11倍的功耗了!

  就以英特尔前任技术长Pat Gelsinger在四年前,也就是2001年ISSCC(International Solid-StateCircuits Conference国际固态电路会议)中简报上,他统计最近处理器各代架构,晶体管数目差不多是以2~3倍的数量在增加,而性能提升仅仅才1.5~1.7倍,换句话说,如果以晶体管数量除以性能提升值的话,如果还是照旧的拼命塞晶体管、提高频率的方式来设计处理器的话,每个新的CPU一开始,就注定功率会比上一代提升1.33~1.77倍,这个隐藏在摩尔定律背后的功率恒等式,会随着每个世代的演进,功率呈现等比级数的暴增与失衡中。

  提升性能/功率比的设计——多核心处理器设计

  若开发新处理器架构,以硅晶面积增加四倍来计算,套入上述的恒等式,不使用新的制程技术,功率立刻暴增四倍,但理论性能值最大只能提升两倍;若假定我们不再研发新的处理器架构,而是将两颗或四颗原来的处理器核心做进去,这样功率一样是暴增为四倍,但四颗处理器搭配四线绪的的软件平行化条件下,理论执行性能也会提升到四倍,效能功率比的表现,多核心远胜单核心一筹!

  而且事实上,如果在工作负荷比较轻微的情况下,四颗处理器核心不见得都用的上的情况下,处理器设计业者可以藉由动态调整电压、频率,甚至关掉目前用不着的子核心电路,可以进一步的把整个耗电功率降低。

  基于人们对运算能量的需求,除了极力推动处理器时钟频率的提升、处理器核心运算架构的改良之外,直接已既有研发完成、验证过的处理器核心,以两个或多个核心的方式加以迭加,直接设计出芯片多线绪(Chip Multi-Threading;CMT)、或芯片多重处理(Chip Multi-Processing;CMP)的处理器设计思维,就成为后摩尔时代处理器研发的必然趋势。

  双/多核心的处理器发展史

  谈到双核心处理器的起源,首先该提到了就是蓝色巨人IBM。为了巩固IBM其威力系列(Power)RISC处理器与服务器市场的霸权,IBM在1999年10月微处理器论坛中,率先揭露了其双核心Power4的研发计划,并且以180奈米铜导线搭绝缘硅(SOI)制程打造的工程样本,于2000年元月开机成功,时钟频率冲上1.3GHz,随即引爆了整个业界对双核心以致于多核心处理器发展的关注。IBM Power4也夺得微处理器论坛主办机构Micro Design Resource的1999年最佳创新技术奖项。

  接下来,拥有有PA-RISC处理器技术的惠普(HP),也于2001年10月微处理器论坛中,揭露将两颗PA-8700核心迭加出来的HP PA-8800双核心处理器,代号Mako。

  然后,IBM在2003年8月IEEE Hots Chips热门芯片会议中,初步揭露下一代Power5(Armada,后来改代码为squadron。除了双核心架构没太大改变之后,首度引进类似Intel Pentium4的超线程(HT)类似的同步多线程(SMT-Simultaneous Multi Threading)的概念,Power5具备四个逻辑处理器核心。

  向来在高端服务器以Solaris操作系统与UltraSPARC服务器处理器闻名的升阳(SUN),也在2003年10月微处理器论坛中,发表双核心UltraSPARCⅣ处理器。

  就连英特尔的宿敌超微(AMD),也早在2004年8月31日德州奥斯汀Fab25晶圆厂建厂周年纪念会的机会,直接在惠普(HP) Proliant DL585服务器上,安装了四颗双核心的Opteron处理器,展示实际的八线路(8way SMP)运作的能力。进度也超前了英特尔产品将近9个月到一年之久,迫使英特尔全面策略大转向,转向双核心/多核心发展。

  英特尔,是在2004年九月秋季IDF时,才正式发表研发多时的双核心Itanium2处理器(代号Montecito)的一些具体规格,但时钟频率并没有公布出来。而在桌上型x86处理器部份,虽然英特尔也展示了自己的双核心处理器平台,但由于并没有实际展示双核心的处理器芯片本体,一直被业界质疑,是临时拿两颗Pentium4处理器硅芯片,以多芯片封装(MCM)技术所造出来的技术宣示性展示品。

  而在2004年10月微处理器论坛时,IBM已经宣布了下一代Power5处理器的相关细节,SUN也公布了下一代多核心多线程的Nigara的计划,日商Fujitsu富士通也在04年微处理器论坛中,公布双核心SPARC64Ⅵ处理器的计划。

  接下来,我们将简单的回顾一下,各家厂商曾经发表过的双核心处理器的相关技术以及规格;下一篇我们将介绍率先在x86处理器实作双核心的超微(AMD) Opteron处理器,以及抢搭最后一般列车的英特尔,一些双核心处理器的研发计划。

  蓝色巨人IBM Power4/Power5

  IBM Power4处理器包含了两个核心,使用IBM代号CMOS8S2的180奈米+SOI绝缘硅制程生产,采用7层金属层铜导线互连设计,集结一亿七千四百万晶体管而成,晶粒面积为415mm2。IBM Power4设计了两个核心,每个处理器核心具备64KB L1指令缓存、32KB L1数据缓存,然后两个核心共享三个512KB L2高速缓存区块(Shared 1.5MB L2)的设计,每个子CPU核心的第一阶到第二阶高速缓存频宽超过100GB/s。同时Power4亦整合了外部第三阶缓存控制器,搭配128bit内存总线宽度、三分之一处理器频率运作的eDRAM内存为第三阶高速缓存,从32MB到最大容量128MB。

  Power4也是业界首度整合负责对外处理器模块联系的高速Fabric光纤接口控制器,处理器模块之间可以高达35GB/s的频宽相互传递数据。IBM并且运用MCM多芯片封装技术,将四个处理器以多芯片陶瓷封装技术,将四颗双核心硅芯片直接整合成一颗大小为85mm×85mm,针脚数多达5184pins的实体芯片,是相当庞大的硅晶怪物。运作频率达1.3GHz。

  由于Power4具备L3高速缓存控制器,同时内建高速光纤通讯接口控制器,以及四颗硅芯片的MCM技术,光单一颗实体Power4处理器芯片,就可以达成8way(八线路)平行运算处理能力,IBM随即在2001年,自已的eServer p670服务器上使用。

  随后后继的效能改良版Power4+,则转为IBM代号CMOS 9S/9S2的130nm SOI制程,以8层铜导线金属层连接,晶体管数量仅较Power4有些为增加,但硅晶面积大幅缩减,同时最高时钟频率也冲上了1.7GHz。

  接下来,IBM在2003年八月揭露了下一代Power5处理器大致规格,并且在去年(2004年)10月微处理器论坛中,有比较具体的规格展示。

  IBM Power5采用130奈米SOI(Silicon On-insulator绝缘硅)制程,八层金属层铜导线互连设计,集结两亿七千六百万晶体管(276M Transistors)而成,晶粒面积为389mm2。初期时钟频率提供1.9GHz、1.65GHz以及1.5GHz,往后会有突破2GHz以上的时脉频率。

  Power5同样具备双核心的设计,每个核心具备64KB第一阶指令快取、32KB第一阶数据快取,而第二阶高速缓存则一样是三个区块的设计,但每个L2区块从原先512KB增加到640KB,因此总共第二阶高速缓存也增加到1.875MB(3×640KB)。外接的L3高速缓存也从36MB开始起跳,同时L3eDRAM Cache时脉从原先1/3的CPU时脉进展到1/2,并且藉由MCM封装在同一个处理器模块内。

  IBM Power5处理器芯片内建Virtualizine Engine虚拟化引擎,每个处理器的微分区技术,允许定义10个动态逻辑分割区(LPAR)或「虚拟服务器」,可以虚拟、模拟出不同服务器的环境,每部虚拟服务器可选择UNIX(AIX 5L)、Linux或i5/OS操作系统,英特尔的Vanderpool(Virtualization Technology;VT)还得在2005、2006年以后的处理器才会实作。

  而Power5另一项改进的特点,将通用与浮点缓存器的数目从80组增加到120组,同时在许多执行单元如指令预撷取缓冲器(Instruction Prefetch Buffer)、指令执行状态保留区(ReservationStation)及地址转换表(Address Translation Table)上做有改进,以实作出可以一分为二的单核心同步超执行绪(SMT─Simultaneous Multi Threading)的能力。每个子CPU核心可以仿真成两个逻辑处理器来协同运作。

  这项类似于英特尔Hyper-Threading(HT超执行绪)的技术,使得每个处理器硅芯片电路,相当于具备四颗逻辑处理器的分身;再加上Power5处理器又包入四个处理器硅芯片,相当于一颗Power5处理器实体芯片一插入,就可以开启4x4=16个逻辑处理器,将目前多处理器平行运算的能力大幅倍增。IBM预估1.65GHz的Power5,就可藉由SMT开启的协助,达成1.3GHz Power4的两倍运算效能。

  2004年10月,IBM推出两款高端64way的IBM p5 595服务器,以及32way的p5 590服务器产品。前者配置1.90GHz或1.65GHz Power4处理器模块,后者配置1.65GHz Power4处理器模块。在许多像是SPEC CPU2000业界处理器效能指标上,更是遥遥领先英特尔Itanium2处理器。IBM Power4/Power4+以及Power5,已经成为IBM高阶服务器处理器的主力战舰,更是英特尔数位企业事业群总裁Pat Gelsinger指名跳战的头号对手。

  已成绝响的HP双核心处理器-PA-8800

  HP首度在2001年10月微处理器论坛发表代号「Mako」的PA-8800,这也是PA-RISC指令集处理器的第一颗、也是最后一颗双核心PA-RISC处理器家族成员。PA-8800初期委托英特尔(Intel)晶圆厂代工生产,由于英特尔因为制造大型晶圆的技术、良率未尽理想,或其它策略因素的考量,后来HP转移投单,委托IBM以130奈米的SOI(绝缘硅)制程生产。

  A-8800架构上以两个上一代PA-8700处理器核心迭加而成,硅晶电路由8层金属层铜导线互连,集结三亿颗晶体管所打造,硅晶面积361mm2。PA-8800工作时脉则从800MHz到最高1GHz。

  PA-8800跟以往PA-RISC成员一样,并没有内建第二阶高速缓存的设计,不过每个核心具备768KB第一阶指令快取、768KB第一阶数据快取,因此成为业界第一阶快取数量最庞大的处理器芯片。PA-8800所采用的外部第二阶高速缓存,是采用32MB eDRAM高速动态内存,提供约9.6GB/s的传输频宽。

  同时,基于HP与Intel双方合作EPIC(IA64)架构的Itanium处理器家族研发工作,PA-8800跟PA-8700一样,采取跟英特尔Itanium、Itanium2处理器卡匣兼容的总线设计,服务器系统可以抽换Itanium、Itanium2处理器卡匣,换上PA-8800处理器卡匣并转换必要的软件、韧体之后,就可以用PA-8800处理器开机运作。

  目前,HP在9000系列服务器的rp7420-16以及rp8420-32服务器上使用PA-8800双核心处理器。前者使用2~16颗PA-8800处理器,提供2~128GB内存容量,以及15组PCI-X扩充槽扩接能力,后者则提供2~16颗PA-8800处理器,提供2~256GB内存容量,以及透过扩接卡插接32组PCI-X周边装置的扩接能力。

  由于惠普策略上的改变,惠普已经将服务器处理器研发人员全数移转到英特尔,同时也放弃了后续PA-8900处理器的研发计划。将来的高阶服务器平台研发,将全数转移到以英特尔IA64架构的Itanium处理器家族。由于双方先前的技术合作,以及PA-8700、PA-8800处理器与Itanium、Itanium2处理器卡匣的总线兼容性,使得这两大系统之间的硬件与软件资源的转移门坎相对降低。但HP PA-8800成为PA-RISC指令集架构的第一颗、也是最后一颗双处理器家族成员。由此也可以得知,目前高端服务器市场上,正面临到越来越严酷的竞争,以至产业开始合纵连横、甚至有相互并购研发人员的趋势。

  力争上游的升阳UltraSPARCⅣ处理器

  向来在高阶服务器市场上,以Solaris操作系统与开发UltraSPARC服务器处理器闻名的升阳计算机SUN),第一个开发双核心处理器的计划,在2003年10月微处理器论坛中揭露

  代号Jaguar的双核心UltraSPARCⅣ处理器,以原先UltraSPARCⅢ处理器电路核心倍增,集结6600万颗晶体管,委托德州仪器(TI)晶圆厂以130奈米制程Low-K介电层技术制造,七层金属互连层设计,硅晶粒面积达到356mm2;封装采取1369pin CPGA陶瓷封装设计,初期时脉达到1.2GHz,功耗为108W。配置SUN UltraSPARCⅣ处理器的服务器系统于2004年第一季推出。

  UltraSPARCⅣ的每个CPU子核心,同样具备采64位RISC运算架构设计,执行64位的SPARC RISC指令,以及具备十线路的VIS视觉处理加速指令技术,同时核心设计了多达64KB第一阶指令快取、32KB第一阶数据快取, L1 DCache以及32KB L1 ICACHE。不过初期UltraSPARCⅣ并没有内建第二阶高速缓存的设计,只有具备L2 Tag卷标索引控制器,须搭配外接的16MB eDRAM高速高速缓存;处理器必须透过频宽为4.8GB/s的Data Switch,对外连接到Fireplane Interconnect总线,而外接的L2 eDRAM高速内存的频宽仅2.4GB/s,这成为SUN多重处理器之间相互通讯时,数据流相互传输、交换上可能遇到的瓶颈。

  随后,升阳进一步推出UltraSPARCⅣ的改良版─UltraSPARCⅣ+处理器,并且在去年(2004年)10月下旬微处理器论坛时正式揭露。大致上仍维持原先双核心CMT的设计,不过UltraSPARCⅣ+将预撷取缓冲区从原先一条增加为八条,同时第一阶高速缓存增加为128KB(64KB L1 D-Cache),最重要的是首度内建2MB、4way set associative四线分路设计的全速第二阶高速缓存,并且原先的L2 tag就变成L3 Tag,对外连接的第二阶高速缓存变成第三阶高速缓存,并且倍增为32MB。

  升阳委托TI改以90奈米制程重新打造,加入L2 Cache之后的UltraSPARCⅣ+,晶体管数量暴增为两亿九千五百万颗(295M Transistors),但硅晶粒面积还缩减5%成为336mm2,同时时脉大幅拉升到1.8GHz,功耗也降低为90W。但UltraSPARCⅣ+的CMT效能得以大幅攀升,同时对外的32MB L3 Cache内存,也能跟UltraSPARCⅣ+处理器内的L2 Cache协同运作,以降低L2 Cache miss时,对外搜寻L3Cache的延迟时间。配置UltraSPARCⅣ+的服务器系统,预计在今年(2005年)中推出。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章