科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航



ZDNet>服务器频道>芯片>英特尔公布怪兽级15核心至强芯片

英特尔公布怪兽级15核心至强芯片

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

英特尔于2011年四月发布的至强E7“Westmere-EX”如今终于体面地向用户谢幕,走完自己光辉灿烂的一生。接过传承火炬的是英特尔“Ivy Bridge-EX”方案,芯片巨头为其选择了颇为直白的名称——至强E7 v2。

来源:ZDNetserver频道 【编译】 2014年02月20日

关键字:芯片 22纳米 Ivy Bridge E7 v2 至强 英特尔

ZDNet至顶网服务器频道 02月20日 编译:长久以来,英特尔在x86服务器市场上一直占据着统治者地位。于2011年四月发布的至强E7“Westmere-EX”如今终于体面地向用户谢幕,走完自己光辉灿烂的一生。接过传承火炬的是英特尔“Ivy Bridge-EX”方案,芯片巨头为其选择了颇为直白的名称——至强E7 v2。在万众期待之下,这款天之骄子缓步向我们走来。

英特尔公布怪兽级15核心至强芯片 
请大家在这块至强E7 v2芯片上仔细数数计算核心数量——发现什么奇怪的现象了吗?

由于Westmere-EX至强E7芯片自诞生至今已经过去了漫长的岁月,我们似乎有理由相信其下一代产品应该是“Sandy Bridge-EX”至强系列。而且Sandy Bridge采用的“tock”微架构也完全符合英特尔一贯坚持的“一代tick、一代tock”轮换习惯。由于Westmere-EX属于“tick”架构升级,Sandy Bridge简直没有不上位的理由。

然而这一切并没有如预期般发展。2012年九月,英特尔公司在接受采访时表示将跳过采用32纳米工艺、基于“Sandy Bridge”微架构的至强E7 v2处理器作为迭代版本。相反,芯片巨头计划利用同一套基础微架构配合22纳米制造工艺,推出三栅极Ivy-Bridge处理技术。

英特尔方面指出,这一代“Ivy Bridge-EX”至强将在去年第四季度正式与用户见面。他们最终食言了——不过现在新产品终于亮相,而且整个系列将包含三款规格:双插槽E7-2800、四插槽E7-4800以及八插槽(大家猜得没错)E7-8800。

根据我们从英特尔公司性能营销发言人Frank Jensen那里得到的消息,新一代至强E7 v2系列将用卓越的品质证明等待是值得的。与前代产品相比,E7 v2的平均性能表现提升了两倍。请注意,Jensen说的并不是“提升到两倍”、而是“提升了两倍”。关于提升幅度,他指的是新一代顶级四插槽至强E7-4890 v2与前代顶级型号至强E7-2870之间的基准测试成绩对比。

节约开销

在我们进一步讨论这款新型芯片的细节信息之前,首先要强调一点:请大家不要因为一时冲动而着手采购。在我们上个月介绍新系列处理器即将发售的消息时,价格最高的15核心至强E7 v2号称将以6841美元的诱人数字进行销售。然而到下周二实现摆上货架时,其具体价格可能会有所变动——虽然只是可能,但请大家别拿真金白银开玩笑。

英特尔公布怪兽级15核心至强芯片
英特尔的顶级E7 v2至强处理器在价格上相当于20块主频为3.5GHz的四核心酷睿i7-4770k

眼尖的读者朋友可能以为我们在撰稿过程中弄错了数字。这里要强调一句,数字没错,E7 v2的最高计算核心数量为15个——这对于核心数量来说确实有些奇怪——芯片上核心共分三列排布、每列五个(预Turbo),时钟速率则在2.2GHz到2.8GHz之间。

其中每一个核心都与最高2.5MB的末级高速缓存(简称LLC)进行协同定位;因此通过简单的算术,我们就能了解到15核心至强E7 v2的总体最大LLC可达37.5MB。

英特尔公布怪兽级15核心至强芯片
15个核心,不存在闲置等待

然而,尽管这些缓存可能看起来只能与其邻近核心相关联,但实际情况却并不受这样的限制——它们构成了一个完整的统一体。全部LLC由三环总线进行共享,各个总线同步核心的时钟速率并负责不同核心之间的信息传递。

总体而言,LLC系统能为每一个插槽带来最高约450GB每秒的传输带宽。这样的成绩还算不错。

英特尔声称这套通信体系的平均延迟约为15.5纳秒;英特尔公司首席工程师Irma Esmer则在接受采访时稍微调整了一下结论数字,称延迟范围在2.8GHz主频状态下为11纳秒到20纳秒之间。

英特尔公布怪兽级15核心至强芯片
最高37.5MB的LLC由英特尔至强E7 v2系列处理器上的最多15个核心共享

对于15核心、37.5MB LLC以及运行在基础核心时钟速率2.8GHz状态下的至强E7 v2而言,其热设计功耗为155瓦。此外,英特尔还提供大量其它选项,其中包括15核心、时钟速率为2.2GHz时功耗仅为105W;另一款面向高性能计算任务的版本只拥有12个计算核心,但基础时钟速率达到3.0GHz、功耗也上升至130瓦。

双插槽、四插槽、八插槽……或者更多

除了将全新至强E7 v2接入双插槽、四插槽乃至八插槽服务器之外,OEM厂商也可以通过添加额外节点控制器的方式让E7 v2与八插槽以上服务器相对接。英特尔的QPI互连技术能够帮助OEM厂商实现八插槽无缝连接,但超出这一范围之外的结构就需要OEM厂商自己想办法了。

英特尔公布怪兽级15核心至强芯片
在插槽数量超过八个的设备上,OEM厂商必须自己添加节点控制器

至强E7 v2系列还采用了全新JordanCreek内存扩展缓冲芯片方案,从而实现了双模式内存机制。这项技术能够支持两条下一代可扩展内存互连通道(简称SMI Gen2),每一条都能容纳三DIMM——高于上代产品的双DIMM容纳能力——因此能够最高支持每通道六DIMM。

每个插槽可以接入四JordanCreek方案,这就意味着单插槽当中能够包含八DDR3通道以及惊人的二十四DIMM。为了处理如此庞大的内存规模,这些通道采用八字节带宽,Esmer解释道,这就使整体传输能力达到了每秒2.667GT(即giga-transfers per second)。

英特尔公布怪兽级15核心至强芯片
15核心的正常运作需要大量DDR3以及SMI Gen2为其提供支持

但这还不是最让人赞叹的部分。最酷的要数JordanCreek SMI Gen2提供的双模式特性。它能够在英特尔所谓“锁步模式(即Lockstep Mode)”下运作,在这种情况下其运行速率与内存总线保持1:1关系,而最高频率可达到1600MHz。而在新的“性能模式(即Performance Mode)”——也被称作“独立通道模式”或者“二合一模式”下——它能够如我们在之前的文章中所提到、将主频由1333MHz DDR3倍增至2667MHz。

说到这里,大家可能已经想到了——锁步模式是专门面向那些细节严谨、锱铢必较的业务流程服务的(例如金融交易);而一路狂奔的性能模式由于容易丢三落四,所以更适合应对经常出现性能需求峰值的环境。在BIOS设置当中,英特尔将性能模式设定成了默认状态。

英特尔公布怪兽级15核心至强芯片
用锁步办业务、用性能搞狂欢

性能模式还拥有另一大优势:该模式所使用的1333MHz DIMM通常比锁步模式下使用的1600MHz DIMM成本更低——不过正如Esmer所指出,“有能力购买这套方案的用户可能已经不在乎再在DIMM身上多花点钱了”。

那么这些SMI Gen2内存到底带来了多大的效率提升?作为一位血统纯正的工程技术而非营销人士,Esmer对强化效果作出了这样的总结:“带宽的增加是巨大的。”

什么样的情况下三会大于四?

正如我们之前所提到,至强E7 v2处理器需要通过QPI与其它插槽相连接——QPI是指英特尔QuickPath Interconnect。上一代Westmere处理器拥有四条此类连接,但新的Ivy Bridge却只剩下了三条。“但三条已经足够了,”Esmer指出,“因为我们对IO进行了合并。”

英特尔公布怪兽级15核心至强芯片
谈到QPI连接,至一代至强所采用的通道机制非常符合密斯·凡德罗的理念——先定下终极目标,再讨论解决方案

插槽与插槽之间的传输凭借三条QPI连接实现,最大为8GT每秒——比前代至强Westmere的6.4GT每秒高出25%——不过实际速度表现可能受到兼容性的影响,Esmer表示。

在谈到集成IO时,Esmer指出每个插槽包含32个PCIe 3.0(即Gen3)通道外加四条DMI Gen2连接。此次采用的32 PCIe通道设计与英特尔的E5 v2中40通道相比有所下降,说到这里她的态度也非常坦诚。“我不知道为什么我们选择了32通道,”她指出,并承认一部分客户在了解到数量下降后要求英特尔对通道进行添加。

“我认为我们不太可能对已经经过讨论的方案作出变动。基本上,这样的设计并不是受到技术问题的限制。我们完全可以采用40通道——只是没有这样做。”

其实这样的要求有些挑剔了——毕竟每个插槽32通道已经足以应付绝大部分应用程序——集成IO还有更多更值得关注的内容。以延迟改进为例:在Westmere芯片方面,闲置延迟为395纳秒,但新一代产品的闲置延迟仅为290纳秒——提升幅度高达34%。

英特尔公布怪兽级15核心至强芯片
为什么把40个PCIe通道缩减为32个?不知道……

总体而言,Esmer表示至强E7 v2芯片上的IO集成设计能够将四插槽系统IO水准由Westmere时代双IO hub时代提升3.7到3.9倍。她同时举例称,如果Westmere系统拥有64个PCIe Gen2通道,而Ivy Bridge至强E7 v2则拥有128个PCIe Gen3通道,那么尽管实际提升幅度接近四倍、仍然很难给用户带来惊喜——毕竟通道数量的增加必然能够拉高带宽水平。

功耗更低、臂膀却更加有力

同样在意料之中的是,至强E7 v2比前代产品更加节能——毕竟Westmere至强E7采用的是32纳米制造工艺,而全新Ivy Bridge至强E7 v2则采用英特尔的22纳米三栅极制造工艺。

新芯片还拥有其它提升功力的手段,其中包括在插槽以及DRAM层面进行平均运行功耗限制(简称RAPL)、由英特尔在Sandy Bridge产品中首次推出的功耗管理功能——虽然已经不新鲜,但大家别忘了、英特尔是跳过了Sandy Bridge打造新一代E7的,所以这仍然算是该功能在至强平台上的首次亮相。

Esmer还指出,至强E7 v2的闲置功率相当低——实际闲置功耗大约只相当于前代四插槽Westmere系统的三分之二。虽然这些强大的新宠在被安装到数据中心内部之后,恐怕很难再有闲置的时候;不过即使将Westmere与Ivy Bridge的耗电水平视为等同,至强E7 v2仍然能够带来高出前代40%的系统处理能力——至少我们从Esmer那里听到的结论是这样。

可以看到,至强E7 v2的目标市场包括“关键性任务”数据中心服务器以及高性能计算安装环境;有鉴于此,其RAS(即可靠性、可访问性以及可服务性)能力就成了芯片设计师最为关心的问题——事实似乎也证明他们的确完成了任务。

英特尔公布怪兽级15核心至强芯片
英特尔表示至强E7 v2拥有40 RAS能力,其中还包含多项新内容

除了现有至强E7产品线所具备的RAS能力之外,英特尔还对新一代芯片的机器校验架构(简称MCA,machine check architecture)与PCIe实时错误恢复(简称LER,live error recovery)能力进行了升级——不过后者的实际效果仍然依赖于OEM厂商的实际调校。

单从RAS角度来看,RISC芯片在数据中心以及高性能计算领域的表现一直要优于英特尔的x86芯片:那些价格高昂、性能强劲的芯片从传统上始终更适合承担关键性任务应用程序。

不过英特尔多年来坚持从RAS能力角度对RISC芯片发起追赶,每一代产品也都实现了减小差距的既定目标。事实上,这一次英特尔公司的营销团队甚至以自己最擅长的方式组织宣传攻势:为新产品赋予新的口号。“确保运行技术(即Run Sure Technology”,这就是至强E7 v2产品线的核心卖点。

在与RISC竞争对手的对抗当中,RAS还只是英特尔x86服务器芯片逐步拉近差距的因素之一。根据英特尔公司全球数据中心企业市场营销经理Sajid Khan在至强E7 v2预告会上的发言,芯片巨头还期望借此获取更多经济收益。

Khan指出,在过去十年中x86芯片在四插槽设备整体市场营收领域所占据的份额已经由不足20%、增长到如今隐隐可以与RISC/大型机系统并驾齐驱的水平。

英特尔公布怪兽级15核心至强芯片
营收数字统计表——英特尔表示x86芯片的市场占有率已经达到40%以上

Khan解释称,最初促成增长趋势的主要动力在于价格因素:x86芯片的价格远远低于其RISC同类产品——而且就目前来看,多数情况下二者也仍然保持着显著的价格差异。不过x86芯片的性能同经典服务器RISC以及大型机处理器相比,还是存在巨大落差,他补充道。

当2011年英特尔的Nehalem架构以32纳米Westmere芯片为载体出现在市场上时,x86方案在价格之外又迎来了另一大优势。“在各类性能基准测试中,我们开始逐渐居于领先位置,”他告诉我们,“因此现在二者的竞争已经不仅仅局限于价格范畴,也不再纠结于性价比——虽然这在一开始确实是我们的强项——如今比拼已经上升到各类基准之下真刀真枪的原始性能层面。”

他总结称,整个2013年x86四插槽及以上系统的营收比例占据关键性任务市场的46%。由于x86系统在成本上低于其RISC以及大型机竞争对手,因此46%的营收份额换算成产品占有率将达到80%——相比之下,Khan回忆起2003年时x86与RISC及大型机系统的产品占有率还只能达到五五开。

随着当前关键性任务处理市场二八份额划分态势的形成,大家可能认为x86芯片的发展过渡期已经基本结束。Khan同意这种说法,但同时还要强调一点。“我们认为总体局限已经倒向我们这一边——不过转化还将继续进行,”他指出,“关键性任务环境将逐步脱离RISC与Unix,转而接纳至强以及以Linux为基础的各类主要平台。”

Khan也非常积极地为我们列举了一系列x86芯片痛击竞争对手的例子:譬如说SPEC CPU2006基准测试结果——特别是SPECint_rate_base2006得分,参赛选手包括IBM Power 750 Express、甲骨文Sparc T5-4以及英特尔至强E7-4890 v2等四插槽系统。

根据Khan给出的结论,英特尔的新型关键性任务处理器不仅在性能测试中横扫八方、更为用户带来低廉的整套系统构建成本:

英特尔公布怪兽级15核心至强芯片
英特尔营销人士指出,新一代产品确确实实给竞争对手带来致命一击

当然,能让高性能计算走向寻常企业家当然很好,不过对于关键性任务应用程序来说、维持无故障运行的能力同样是需要认真考虑的重要因素。

面对这些问题,Khan显然信心满满。在三份调查数据当中(请注意,只是三次调查而并非科学测试),我们看到由信息技术情报咨询公司(简称ITIC)提供的对比结果。

在将ITIC的2013调查报告与2009以及2012两份报告进行比照时,我们发现了一种清晰的发展模式:x86系统在正常运行时间方面正在迎头赶上。

事实上,根据参与此次调查的受访管理员及企业高层所说,甚至连Windows Server——在2009年,其正常运行时间在AIX与Solaris面前根本不值一提——如今都拥有比Solaris更出色的正常运行时间比例:

英特尔公布怪兽级15核心至强芯片
相信Larry Ellison(甲骨文老板)不会喜欢这样的调查结果

当然,小数点后千分之一甚至万分之一的差值根本不会产生什么影响,但其表达的含义却非常明确。Khan解释道,“这些数据本身已经说明了一切”。他同时指出,根据调查报告的统计结果,由x86系统支持的Suse SLES以及红帽RHEL等Linux系统以及微软Windows Server不仅一举超越了甲骨文Solaris,其中Suse SLES甚至只比稳定性之王IBM AIX的正常运行时间低了0.0004%。

当然,Khan也坦率地承认这份ITIC调查报告并不属于科学的验证结果,其背后缺乏可靠而且客观的数据支持。也就是说,如果他之前提出的论点——即至强E7 v2系统能够在1.28倍于四插槽Sparc T5-4系统性能的同时节约“最高”61%成本,而且在稳定性上还有所超越、那么甲骨文干脆关门大吉算了。

Khan还拿出三个标准化英特尔关键性任务应用程序运行实例:其一是由Veyance进行的私有云迁移项目;其二是Moody的服务转换项目;第三则是关于Essar的商务智能总体持有成本调查。从中可以看到,Khan所列举的例子仅仅代表上述企业在实际应用中的自身经历与感受——但其中仍有不少有趣的细节值得挖掘。

本周二于旧金山科学与艺术探索博物馆举办的至强E7 v2系列发布活动还披露了大量其它消息。举例来说,新一代产品在随机调查延迟方面带来改进,“确保运行技术”也实现了多种全新RAS能力。不过受到篇幅所限,我们就不再进一步加以分析了。

言归正传,我们希望借这篇文章帮助大家通过英特尔员工的表述、建立起对至强E7 v2的概括性印象——巧合的是,就在同一天英特尔公司公布了2013年第四财季的财报。从中我们可以看到关键性任务芯片系列在芯片巨头业务成功当中所扮演的重要角色。

有记者问起,高端至强处理器会对英特尔公司的财报结果产生哪些影响。“哦,影响很大,”他回应称,“我们可是公司的中流砥柱”。

综合评分:8.13 分
云能力:8.3 分
营业额:533亿美元[2012]
云服务:英特尔云计算

查看更多 >>

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅ZDNet技术邮件将是您的最佳途径之一。