扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
■ 过渡到Bulldozer新架构的皓龙服务器CPU
面向服务器的皓龙处理器在2011年将有重大变化,AMD已经成功研制了基于Bulldozer交换架构的新一代皓龙处理器。
Bulldozer架构是由1个模块、2个整数运算内核、2个128位浮点运算内核组成。 因此,1个Bulldozer模块可同时运行2个线程。与Intel超线程(HT)技术的双核虚拟CPU架构相比, 实际上2个整数运算物理内核可实现多线程的性能。
关于浮点运算内核,其中包括2个128位浮点运算内核。128位浮点指令可以同时处理2个指令。然而浮点运算调度器只能同步调用一个128位浮点运算内核。
Bulldozer架构为支持Intel新增的256位AVX指令集,同时使用了2个128位的浮点运算内核。换句话说,处理AVX指令时,浮点运算内核将占用任何一个线程。
然而,在大多数程序中,同时需要256位浮点运算的情况是非常罕见的。因此,Bulldozer架构可以灵活运用128位浮点运算内核(AMD将其命名为“Flex FP”)。
此外,使用频率较高的整数运算内核具有2个整数调度器,浮点运算内核具有1个浮点调度器。浮点调度器在处理256位浮点运算,以及2个同步的128位浮点运算时,都需要同时调用2个128位浮点运算内核。
Bulldozer模块取指令、解码和二级缓存都共享2个整数运算内核和浮点运算内核。关于一级缓存,将由每个整数运算内核提供。三级缓存由整个CPU提供(Bulldozer将被多个内核共享)。
二级缓存为2MB(为2个CPU共享)、整个CPU共有8MB三级缓存。
一个Bulldozer架构模块包含了2个整数运算内核、1个浮数运算内核
与Intel的HT相比, Bulldozer架构将的两个CPU内核虚拟成一个CPU内核,还有两个整数运算物理内核, 这将显示出更多的高性能
Bulldozer架构中提取、解码、二级缓存都是共享的,因为有2个独立运行的整数运算单元
Bulldozer架构在一个模块中运行2个CPU内核
我们可以把Bulldozer看成个由两个现有CPU核心构成的模块,4个Bulldozer模块会配备8个CPU内核。不过,2011年即将发布的新一代皓龙采用的是32nm制程工艺,这比目前的皓龙处理器更加先进。这种设计由于迁移到新架构,所以不会大幅度增加CPU核心以确保CPU的稳定性。
在性能方面,AMD解释说,新的处理器在相同功率下其性能要高出50%。而且,相同大小的CPU模片上将可以安装大量Bulldozer模块。
事实上,AMD计划在2012年推出的皓龙处理器在相同的32nm制造工艺下将配备5个Bulldozer模块(即有10个CPU内核)。
2011年预计将公布皓龙6/8核CPU内核的Valencia和12/16核CPU内核的Interlagos。两者都是Bulldozer架构,但Interlagos采用了MCM技术(见下文)——1个CPU包封装了2个CPU
Bulldozer模块的CPU图片。或许如Zambezi一样是用于桌面。从图片可以看到4个单元不只8个CPU内核。这是因为1个Bulldozer模块具有2个CPU作为内核
■ 采用40核CPU的服务器将在2012年登场对于AMD来说,其业务策路就是从2010年发布皓龙中做出一些改变,把精力集中在2路服务器和1路服务器上。针对4路服务器设计的CPU并不适合于2路产品,而且针对4路产品的CPU造价很高。对于4插槽的CPU制造而言,其造价过于昂贵,因此,4插槽CPU转向了2插槽产品。
但与Intel至强7500系列的4插槽CPU相比较,AMD的服务器的性能也毫不逊色。运用的MCM(多芯片模块)技术可以在1个CPU包上封装2块 CPU。这就使得AMD的2插槽服务器实际上具有4插槽服务器的性能。
然而,封装2个CPU的MCM技术使得CPU包(G34插槽)的容量非常大。另外,内存为每个CPU配备了Hyper Transport的IO接口,G34插槽的引脚数量非常巨大,有1944针。
2011年要发布皓龙的Bulldozer架构,将借用相同的业务策略。对于G34插槽,皓龙6200系列(代号Interlagos)发布了12CPU内核(3 Bulldozer×2)和16 CPU内核(4 Bulldozer模块×2)。
此外,对于单个CPU所用的C32插槽,AMD准备发布皓龙4200(代号Valencia)。皓龙4200系列有6核(3 Bulldozer模块)和8核(4 Bulldozer模块)。
经过改良Bulldozer模块,AMD预计在2012年发布20内核的(5 Bulldozer模块×2)Terramar(代号),10内核的(5 Bulldozer模块)Sepang(代号)。
2012年的Terramar和Sepang将无G34和C32插槽,据说有可能采用新插槽。
2011年将发布面向服务器的6/8核的Valencia和8/12/16核的Interlagos。Interlagos和Valencia装配了2个MCM的CPU。2012年将发布10核的Sepang和20核的Terramar
Valencia使用了C32插槽、Interlagos使用了G34插槽。因此,皓龙4100/6100服务器可使用Valencia和Interlagos。或许也需要对BIOS进行更新
此外,未来的服务器 CPU会和桌面CPU一样,将CPU和GPU集成一体为Fusion APU(加速处理单元)。但是2012年的Terramar和Sepang不会集成GPU。
2013年以后将出现集成Fusion APU的服务器CPU
APU方面, 对于现在的整数运算中心的服务器应用程序,GPGPU的性能并不重要。GPGPU一般是用于HPC,它需要附加CPU。因此Bulldozer暂不集成GPU,而是增加CPU的数量来提高性能。
顺便提一下,Bulldozer架构的桌面CPU(代号:Zambezi)将于2011年夏天发布。AMD将在2012年发布面向桌面、代号为Komodo的Bulldozer架构8核CPU。
考虑到这一点,面向桌面 CPU Bulldozer架构的APU,对服务器领域的GPGPU要求大大增加,2013年以后将计划推出面向服务器CPU的APU。
2012年将公布Bulldozer架构的升级版。据说2013年推出Bulldozer架构下一代Bulldozer2的CPU
Bulldozer架构面向桌面CPU的路线图。2011年将发布高端桌面CPU“Zambezi”,2012年发布中高端CPU的Bulldozer架构,还将推出中端桌面 CPU“Trinity”计划,计划集成GPU成为Fusion APU
2012年发布的Trinity减少内核数量后将引入到笔记本电脑中
■ Bulldozer架构的扩展功能Intel在新一代Westmere中新增AES加密以支持AES-NI加速指令(包括 PCLMULQDQ),Sandy Bridge下一代将支持AVX指令。当然Bulldozer架构也支持SSE指令,以及 SSSE3、SSE4.1/SSE4.2指令。
该指令集支持在同一个虚拟环境中移动VMotion和实时迁移,使得能够从Intel服务器迁移至AMD服务器。
此外,AMD还将“XOP(扩展操作)”、“FMA4(四操作数混合乘/加)”指令组作为其专属的扩展指令。AMD原本打算将这些指令集用作SSE5的扩展指令。不过,英特尔已经提出了AVX指令,AMD考虑到兼容性方面,将AVX导入SSE5时,AVX与其是不兼容的。大部分SSE5指令是支持AVX的,对于不支持AVX的部分,AMD将它作为专有扩展部分。
然而,Intel Sandy Bridge的下一代“Ivy Bridge”(预计2012年发布)将有计划扩展AVX指令,AMD在今后如何积极支持它专有扩展这一问题仍然存在。
似乎并没有新增虚拟化相关的指令集,一旦安装了AMD-V就需要了。不过,Intel已经加入了TXT(可信执行技术),今后可能需要补充类似的功能。
Bulldozer架构已经提高内存控制器的性能。通过重新设计新的内存控制器,内存访问性能提高了30%。
目前皓龙4100/6100以相同的TDP功耗为目标已开发出Valencia/Interlagos,若是同样的插槽,现在的皓龙服务器CPU可更换运行
该浮数内核中,有2个128位的FMAC单位。128位的浮数运算可同时处理。256位浮点运算的 AVX和2个128位的FMAC单位加在一起,可处理256位
该内存控制器改进了其性能以支持高速的DDR3 1600MHz。Opetron 6100系列的常规产品采用了DDR3 Register 1333MHz的内存。Bulldozer架构的皓龙6200/4200系列支持DDR3 Register 1600MHz(减少可用内存的数量,可使用无缓冲存储器)。与此同时,内存还支持1.25V的LV-DDR3以降低功耗。
最受关注的是,它支持LR-DIMM(负荷降低双列直插内存模块)内存。LR-DIMM是在内存中缓冲I/O总线,以减少I/O总线上的负载。这使得DIMM同时获取更大的容量和更高的速度。另外,因为JEDEC标准的缘故,Intel Sandy Bridge下一代服务器CPU也将支持LR-DIMM。
除了LR-DIMM支持1600MHz DDR3,内存控制器性能的提高也使得皓龙4100/6100的性能提高50%多
Register DIMM(R-DIMM)中,每个CPU中装载DIMM的数目最多不能超过8个。然而,在LR-DIMM中,最多可装载12个DIMM。
尔必达开发出的LR-DIMM,可以达到一块32GB的大容量内存。2插槽的皓龙6200最多可使用48个DIMM×32GB以达到1.5TB内存,而成为超大容量的服务器。
由于尔必达在11月还处于试发布阶段,关于LR-DIMM的成本还暂时不祥。不过,,尔必达量产后将于2011年3月开始批量供货。Hynix和Micron其他内存制造商计划2011年开始生产。
由于节能的功能,国家还支持低耗能的C6。Intel表示将不会通过关闭系统电源来降低泄漏功率。但鉴于服务器高效节能的重要性,CPU /Bulldozer很可能在每个模块中采取功率控制。
关于Bulldozer架构的摘要已公布,而详细的架构性能数据也即将公布。
AMD已宣布皓龙Bulldozer架构将于2011年第三季度正式发布。服务器制造商对其芯片样本似开始进行测试了,此外,他们还计划于2011年第二季度开始批量化生产。
企业正在考虑通过虚拟化和私有云整合服务器,到时皓龙的Bulldozer架构CPU将受人期待。