英特尔将“Granite Rapids”至强6处理器推向数据中心市场

“Granite Rapids”服务器CPU系列的旗舰产品终于正式亮相

英特尔近期一直在讨论其“Granite Rapids”至强6处理器,热度之高致使很多人甚至忘记了该产品尚未正式推出。

英特尔将“Granite Rapids”至强6处理器推向数据中心市场

但如今,“Granite Rapids”服务器CPU系列的旗舰产品终于正式亮相,正赶上人们普遍预计AMD公司将在几周之后发布其“Turin”第五代Epyc处理器。虽然我们相信AMD将继续扩大其市场份额,但今年6月公布的Granite Rapids以及“Sierra Forest”至强6芯片组合哪怕无法彻底扭转颓势,也至少能够帮助英特尔减缓在数据中心CPU领域的市场份额流失。

老实讲,考虑到AMD凭借与台积电公司的合作继续在芯片制造工艺方面处于领先地位,再加上英特尔自身在代工业务方面遭遇的困境,这可能已经是芯片巨头所能期待的最好结果。

之前就曾有报道反复指出,CPU的胜利可以分为设计胜利和供应胜利两条路线。前几代至强处理器明显只是供应能力上的胜利,但公平地讲,Sierra Forest与Granite Rapids已经开始获得一定程度的设计胜利,只是英特尔目前赖以称霸市场的仍主要是其供应优势。

至强6芯片的能效E核与性能P核变体所对应的芯片封装与架构,早在Hot Chips 2023大会上就已经披露。根据今年夏季我们对Sierra Forest的深入研究来看,英特尔希望以产品线分叉的方式在当前激烈的服务器CPU竞争中杀出一条血战,借此填补至强6技术和战略中的诸多空白。所以简单来讲,我们将在明年年初正式迎来Granite Rapids的完整阵容,同时也将看到下一步至强6芯片的发展路线图。

我们后续也将对Granite Rapids架构开展深入研究,在今天的文章中,我们先将关注重点放在英特尔为Granite Rapids选择的竞争定位,并将Granite Rapids同2022年11月推出的当前第四代“Genoa”Epyc 9004芯片、2023年6月推出的“Gergamo”Epyc 97X4芯片(其核心数量与Sierra Forest一样迎来了增加)以及即将推出的“Turin”Epycs进行对比。(AMD Advancing AI 2024大会将于10月10日在旧金山举行,这场活动也大概率将成为Turin处理器的发布舞台。)

Granite Rapids处理器基于“Redwood Cove”性能P核,是对Sapphire Rapids以及Emerald Rapids中所使用的“Golden Cove”核心的更新。与Golden Cove核心相比,Redwood Cove核心在整数工作负载上的每时钟指令数(IPC)增加了5%到7%,虽然只是名义上的增长同,但毕竟也值得肯定。这里我们就取6%的IPC增幅,来与之前几代至强处理器进行比较。英特尔方面曾提醒我们不要过多关注IPC这项常用指标,但必须承认,它在CPU处理器的性能比较方面确实有用。

英特尔高级研究员兼至强6家族首席架构师Ronak Singhal在采访中解释称,“我最近确实做过一场小演讲,表示人们对于IPC有点过度关注了。其实我的意思是,如果我的内部团队找过来,向我提交一个IPC增幅为5%的核心和一个IPC增幅为15%的核心,那我会怎样判断哪种更适合至强芯片使用?答案是,这要取决于其他参数,特别是功率。如果5%的IPC增幅根本不需要额外提高运行功率,而15%的IPC增幅要求多耗费30%的功率,那么在功率受限的场景当中,这两个选项的基本水平大致相同,反而前者的架构可能没那么复杂。因此虽然每个人都喜欢讨论IPC,但我觉得功率受限条件下的性能也同样值得关注。之所以这么说,是因为Granite Rapids核心在很多方面更注重降低功耗,而不是提高IPC。”

这种说法确实合理,我们表示接受。从这个角度来看,如果使用两个Emerald Rapids CPU(即四块芯片)并配合上Intel 7制程(实际上是10纳米工艺),就能构建起一个112核的计算复合体,其功率将超过700瓦——也就是常规插槽的两倍。而如果使用同样两个Emerald Rapids CPU(也是四块芯片)并将其制程缩小至Intel 3(有说法认为类似于常规的5纳米工艺,也有人认为更接近3纳米工艺),那就能在大致相同的功率之下将性能提高一倍。也就是说单凭制程升级,同样两倍于原始芯片的700瓦功率所能实现的IPC将完全不同。

在Granite Rapids这边,英特尔将核心数量从之前两款性能P核处理器的56个核心提升至120个核心,增幅达到2.3倍;而顶部bin部分的功率仅增加至500瓦,增幅只为1.4倍。

当然,实际情况要更复杂一些,因为Granite Rapids和Sierra Forest在封装中的多个芯片之上混合使用了Intel 3与Intel 7制程。在Sapphire Rapids与Emerald Rapids当中,英特尔将I/O和内存控制器同计算核心放在了同一芯片之上。但在Sierra Forest和Granite Rapids当中,I/O控制器与计算核心则彼此分开,并采用不同的制程工艺来实现,具体如下图所示:

英特尔将“Granite Rapids”至强6处理器推向数据中心市场

至强6系列处理器中有四种不同的性能P核计算/内存芯片与I/O芯片组合,其中之一就是此番推出的高端超核心数(UCC)变体。

Granite Rapids至强6变体中的计算模块数量相对较少(两个用于超核心数XCC变体,一个用于高核心数HCC变体),还有一种具有较小计算模块以及两个I/O芯片的变体,被称为低核心数LCC。它们将在2025年左右推出。

下图所示,为核心芯片封装示意:

英特尔将“Granite Rapids”至强6处理器推向数据中心市场

此次公布的Granite Rapids UCC封装被称为至强6 6900P,其中包含运行速率高达6.4 GHz的DDR5内存以及可推高至8.8 GHz的多路复用双列直插(MRDIMM)内存。由于拥有两个I/O芯片(这种设计在UCC、XCC、HCC和LCC上是一致的),其插槽允许将任意芯片直接插入任何“Birch Stream”平台。该平台还支持Sierra Forest及其后续产品“Clearwater Forest”,后者计划于明年年内配合英特尔18A(1.8纳米)制程推出。

Granite Rapids封装支持最多96条PCI-Express 5.0通道,还可以运行CXL 2.0一致性内存协议。这些封装还拥有高达504 MB的L3缓存,远远超过常见的英特尔芯片缓存容量。

据我们所知,此次发布的Granite Rapids芯片并不提供可支持四插槽和八插槽服务器的变体,着实令人感到遗憾。Sierra Forest至强6(尚未确定,但结合相关用例估计也不支持)和2023年12月推出的上一代“Emerald Rapids”至强SP v5芯片也是如此。后者对应一条更广泛的至强SP产品线,并且可能具有扩展的NUMA集群。要想让CPU支持四路和八路NUMA,用户只能选择2023年1月推出的“Sapphire Rapids”至强SP v4芯片。

顺带一提,由于六条UltraPath Interconnect NUMA链路以24 GT/秒的速度运行,因此英特尔及其OEM/ODM合作伙伴放弃使用Granite Rapids芯片制造拥有两个以上插槽NUMA设备明显并非出于技术原因。换句话说,技术标准所能提供的容量和链接数是完全够用的。

英特尔尚未透露Granite Rapids计算模块的核心数量,但根据目前披露的Intel 3制程产能推断,我们可以合理认为其将拥有48或者45个核心。至于搭载128核心的UCC变体,则需要布置奇数块芯片才能使其发挥作用(我们非常讨厌无法对称分布,特别是这种非偶数块芯片的设计)。每块计算芯片都对应四个DDR5内存控制器,总计12个,跟当前大多数高端CPU保持一致;同时搭载MRDIMM内存,这使得Granite Rapids的有效带宽达到了Emerald Rapids的2.3倍。

下面这份摘要图表非常重要,展示了至强6性能P核与能效E核变体之间的差异:

英特尔将“Granite Rapids”至强6处理器推向数据中心市场

尽管至强6处理器的性能P核与能效E核变体均使用相同的I/O芯片,但很明显,能效E核版本这边有部分功能并没有激活。细心的朋友可能已经注意到,对于单插槽设计,性能P核6700系列芯片可提供136条PCI-Express 5.0通道,而能效E核芯片上的虚拟内存寻址容量要低得多——这也有其道理,因为E核芯片只用于一到两个插槽、而非多达八个甚至更多插槽的机器。能效E核使用的向量数学单元也有区别,只有性能P核采用AMX矩阵单元。图表显示,能够支持四插槽与八插槽的性能P核至强6芯片将稍后推出。

这就让我们对于Granite Rapids的SKU栈有了基本认识,其构成相对适中,只有五种不同变体,具体如下图所示:

英特尔将“Granite Rapids”至强6处理器推向数据中心市场

Singhal在发布会前的简报中表示,谷歌和亚马逊云科技正在为其设施采购定制版至强6处理器,相信其他企业客户也是如此。

为了便于比较,下图为Sierra Forest至强6 SKU参数表格,同样只分为7种不同型号:

英特尔将“Granite Rapids”至强6处理器推向数据中心市场

以下是去年公布的Emeralds Rapids SKU参数表格:

英特尔将“Granite Rapids”至强6处理器推向数据中心市场

与往常一样,我们对于任意给定型号至强芯片的相对性能数据,仍然是根据2009年发布的“Nehalem”至强E5540处理器作为基准比较而来。后者拥有4个核心,运行速率为2.53 GHz,配备8 MB L3缓存,运行功率为80瓦。为了计算相对性能,我们将核心数量乘以每种芯片型号的时钟速率,再乘以每代芯片的IPC累计增量。

由于一直都在根据IPC进行芯片性能计算,这里就姑且继续沿用。经过计算,Redwood Cove核心的整数处理性能比15年前的Nehalem核心高出2.42倍,已经是相当不错的架构增强效果。与Nehalem相比,Granite Rapids的核心数量增加了32倍,但所有核心的时钟速率都下降了21%,对应功耗则增加了6.25倍。

这就是芯片业务的迭代方式。

大家可能还注意到以上Garnite Rapids表格中的另外一项重要信息:价格以红色粗斜体标明。没错,英特尔还没有公布Granite Rapids至强6芯片的价格。我们显然不赞成这种遮遮掩掩的方式,指导价格可以是一个上限,由客户们协调议价,而且大家也都知道芯片厂商都有设定好的优惠空间。

正如大自然厌恶真空,我们的读者朋友也不喜欢开天窗。所以我们根据过往至强SP处理器的定价尽可能估算了Granite Rapids的售价。从结果来看,这可能是英特尔在至强品牌之下推出的最昂贵的数据中心CPU(Itanium不算,那完全是另外性质的产品)。如果大家有关于价格数字的内幕,请与我们还有广大读者朋友分享。

英特尔将“Granite Rapids”至强6处理器推向数据中心市场

最后提醒大家,明年年初还将有更多消息公布,各位不妨参照以上图表一一核对查验。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2024

09/27

09:34

分享

点赞

邮件订阅