英特尔发布第六代至强SP处理器:将小芯片设计进行到底

从过去几周英特尔在各类活动中的表述来看,特别是参考Hot Chips 2023和英特尔Innovation 2023大会上发布的消息,芯片巨头的制程工艺路线图及其服务器处理器设计思路将保持统一,共同为明年发布的至强SP系列CPU提供竞争力支撑。

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

从过去几周英特尔在各类活动中的表述来看,特别是参考Hot Chips 2023和英特尔Innovation 2023大会上发布的消息,芯片巨头的制程工艺路线图及其服务器处理器设计思路将保持统一,共同为明年发布的至强SP系列CPU提供竞争力支撑。

当然,英特尔与AMD Epyc芯片、Ampere Computing旗下各Arm产品,包括其他超大运作模式基础设施运营商和云服务商的原研Arm服务器CPU之间仍有一定差距。但凭借着雄厚的渠道资源支持,英特尔仍有望以无所不达的销售网络和对旧有制程工艺的极限压榨取得商业上的成功。至少在特定应用负载之上,英特尔家的CPU仍保持着技术与经济的双重优势。

但如今英特尔的地位已然动摇,所以必须设计好多战线的竞争格局,凭借明年发布的高性能P核和高能效E核设计带来更令人眼前一亮的成果。

当然,这已经不是英特尔第一次在服务器市场上参与多线作战了,甚至AMD也不是。英特尔和AMD在之前的架构中都曾经历过性能核与能效核并存的阶段,只是这次情况更加特殊。英特尔当初面向客户端设备的凌动系列芯片拥有出色的512位AVX矢量引擎、ECC内存清理机制、服务器级虚拟化等功能,并成为2015年针对高性能计算工作负载的“Knights”多核处理器产品线的基础。而在AMD这边,2016年1月推出的“Seattle”Opteron A1100处理器希望挽回Opteron家族的颓势,其上搭载的正是低功耗Arm Cortex-A57核心。此举希望能将Opteron品牌打造成更强大、更高端的Arm服务器CPU产品线,甚至在设计上支持用EDA全局替换将Arm转为X86核心。(虽然最终没能用上。)

对于英特尔和AMD来说,这次的情况明显有所不同。因为大型服务器买家(即超大规模基础设施运营商和云服务商)及原始设备制造商(戴尔、HPE、联想、浪潮、华为及思科等)都已向双方提出明确要求:请在单一服务器平台内创新,不要搞跨服务器平台创新。客户们的需求很简单,插槽之内任你怎么折腾,但千万别跨架构。

正因如此,AMD才决定在今年推出第四代Epyc处理器。正常来讲其代号应该为“Genoa”,但此次却多出了“Bergamo”和“Siena”等子代号,分别配备Zen 4性能核和Zen 4c能效核(二者最大的区别是核心的L3缓存容量)。英特尔这边则计划推出第五代至强SP,各版本同时支持能效E核和性能P核,且无需对插槽或平台做任何调整。英特尔的策略就是维持两种不同取向的核心,之后在构建SKU栈时灵活组合以覆盖更多负载需求。AMD和英特尔似乎都不想在单一插槽之内混合搭配不同核心,这也可以理解。毕竟至少对现代数据中心的运行需求来说,在机架层级做性能/能效混合已经足够,进一步细分纯属劳民伤财。

在Hot Chips大会上,英特尔服务器芯片架构师Chris Gianos(之前曾参与过安腾芯片和Digital Equipment公司多代处理器产品的研发)谈到了下一代至强SP的整体架构,并介绍了“Granite Rapids”性能核至强SP的某些功能特性。曾在惠普研发HP 9000和安腾处理器的现任英特尔芯片设计师Don Soltis则介绍了搭载能效E核的“Sierra Forest”至强SP处理器。

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

Gianos表示,这些设计中去掉了用于南桥I/O的外部独立PCH芯片组。但我们也可以合理推测,PCH功能实际上是被加上PCI-Express、以太网和UltraPath互连(UPI),再配合各种控制器和加速器共同塞进了两个小芯片当中。值得注意的是,英特尔第六代至强SP架构的内存控制器并非位于I/O芯片之上,而是位于核心加缓存复合体之上。

Gianos解释道,“我们认为把这些要素结合起来非常重要,因为这是个理想的优化方向,在性能和计算密度方面都有积极意义。”

很明显,为了进一步充实第六代至强SP的SKU栈,英特尔可以向其中添加不同数量的I/O芯片和计算芯片,并根据相应的价格设定和功率水平分别激活对应配置。而且本周Innovation 2023大会也传出消息,随着288核Sierra Forest能效核版本的发布,英特尔能够进一步提升第六代至强SP的规格,将其“Advanced Platform”(AP版)产品的核心数量再增加一倍。整个思路跟2019年4月发布的“Cascade Lake”Advanced Platform至强处理器完全相同,当时这款产品就是为了缩小与AMD在每插槽核心数量上的差距。目前我们还没有看到Granite Rapids性能核版本的Advanced Platform双倍核心版本,但只要英特尔愿意,相信完全可以做到。

Gianos还特意强调,英特尔打造的是一套模块化服务器芯片架构,能够在插槽内灵活调整不同要素的比例,借此满足更广泛的用例和客户场景。

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

英特尔正使用其2.5D嵌入式多芯片互连桥(EMIB)这项多芯片封装技术将小芯片粘合起来。EMIB是英特尔针对台积电晶圆基板上芯片(CoWoS)2.5D封装技术的回应之举,后者已经被广泛应用于GPU及各类加速器芯片。展望未来,英特尔可以使用其Foveros 3D芯片封装为至强SP设计添加垂直L3缓存扩展,思路与AMD在其Milan-X和Genoa-X处理器上使用的3D-Vache非常相似。

上图所示,为英特尔在第六代至强SP芯片中可能提供的不同选项,但我们猜测Granite Rapids和Sierra Forest各自只能使用其中部分选项,因为其SKU栈也是分别针对不同产品线设计而成。Gianos表示,总体来讲,英特尔可以使用最右下设计提供低至个位数核心加极高I/O容量的至强SP芯片,也可以根据客户需求在居左的小芯片设计中将核心数量增加至三位数。

能效核系统将支持单/双插槽,就是说I/O芯片中的某些UPI链路将被禁用;而性能核系统将提供单、双、四、八插槽,且激活的UPI链路数量也相应增加。每个核心小芯片将拥有4个内存控制器,可支持DDR 5或MCR内存(后文将详细介绍),因此最高规格的第六代至强SP将拥有12个内存控制器为芯片提供服务,每通道可对应单/双DIMM,具体取决于客户对容量和带宽的需求。这两个I/O芯片可提供144条UPI互连通道(共6个端口,即每I/O芯片3个端口)和136条PCI-Express 5.0互连通道(即每I/O芯片68条通道)。我们推测,这些PCI-Express通道中将有半数能够支持CXL 2.0内存协议。但英特尔最终也有可能选择全部兼容CXL 2.0,这就属于意外惊喜了。

根据Gianos的解释,英特尔还打算在第六代至强SP上打造所谓“虚拟单体芯片”,将至强E5/E7和至强SP处理器已经使用十余年的片上网格互连扩展至可跨EMIB互连。Gianos表示,任意小芯片中的任意元件都可以与该扩展网格上的任意其他元件进行通信,类似于经典单体芯片设计。此外,连接芯片组的EMIB边界将提供超1 TB/秒带宽,以确保整个网格体系能够快速、顺畅互连互通。

Gianos补充称,在Granite Rapids设计中,高端SKU将有“超0.5 GB”的末极缓存。英特尔也证实,他们会在小芯片级别上建立sub-NUMA集群,通过这一默认模式跨小芯片分配工作负载并提供内存/计算局部性。

下图所示,为第六代至强SP的计算芯片架构,这里以Granite Rapids性能核版本为例:

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

我们知道,采用三颗小芯片的全尺寸能效核Sierra Forest在单一封装中最多可提供144个核心。每个核心块配备3 MB的LLC缓存。根据Soltis的介绍,每个核心块中容纳4个能效核,相当于每个小芯片对应48个核心、折合12个核心块。此外,每个小芯片拥有36 MB共享L3缓存,因此144核三芯片网格共有108 MB共享L3缓存。包含4个能效核的单一核心块拥有4 MB L2缓存,每个小芯片都有12个核心块,因此每个小芯片拥有48 MB L2缓存,每个Sierra Forest整体封装拥有144 MB L2缓存(不到AP版的2倍)。但从速度测试来看达不到这个水平,所以此处推测可能有误。

在性能核这边,计算方式则略有不同。每个核心拥有4 MB L3缓存和专用的2 MB L2缓存。所以Granite Rapids的实质,就相当于把Sierra Forest中的4颗能效核及其缓存取出,再换上相应的性能核及其缓存。凭借超过512 MB的L3缓存,理论上Granite Rapids的非AP版本在每个插槽上可提供超128个核心。性能核的2个线程都支持HyperThreading超线程功能、拥有1个AVX-512矢量单元和1个AMX矩阵单元。从配置上来看,Granite Rapids版的发热量无疑会高于Sierra Forest。

顺带一提,128核这个数字跟Soltis在演讲中的表述有所出入:“从概念上讲,我们就是直接把性能核替换成了能效核。除此之外,其他所有设计都是完全相同的,后续我们还会推出其他基本相同设计的芯片。”

如果真是如此,那么Granite Rapids最多也只能容纳36个核心,这个数量肯定不够用。所以推测Granite Rapids的最高配能容纳3个核心块,而Sierra Forest最多只能容纳2个核心块。

如果以上判断正确,那么每个能效核小芯片可能承载80个核心——也许是在4个核心上采用10 x 2的网格设计。但考虑到该芯片的实际利用率只有90%,那么活动核心就是72个,对应的是18个活动能效核心块、54 MB共享L3缓存和72 MB L2缓存。这样2个小芯片就能容纳36个能效核心块,对应144个核心、108 MB共享L3缓存和144 MB L2缓存。

现在我们取3个这种小芯片,把能效核换成搭载4 MB共享L3缓存和2 MB L2缓存的性能核。这样考虑单一核心块上完整搭载20个核心的情况,也就是60个核心。我们假设英特尔用尽了所有针脚、打造出一款全部核心都能正常工作的版本,那其核心数量也仍然有限。除非英特尔能想办法把这个数字再翻倍至120核,否则我们实在想象不出来哪里还有设计AP版的空间。

凭着直觉,我们认为普版Granite Rapids对应的可能是72核心加288 MB L3缓存,就是说Granite Rapids的AP版将倍增至144核心加576 MB L3缓存——而且这一切只能分布在3个小芯片上。这倒是符合Gianos在演讲中提到的“超过512 GB的LLC”。按这个结果来倒推,就是说英特尔会设计一款能效核小芯片,它的网格中可能容纳84个核心;再结合英特尔关于Sierra Forest的介绍,在85%的良品率下,其实际可用核心为72个。如果说Sierra Forest确实只能容纳2个计算小芯片,那……

不说了,这里有太多的假设和猜测,咱们至此为止。

Soltis提到,Sierra Forest也将提供多种变体,比如只激活一半的核心。所以有些版本虽然出厂时有72个核心,但却只能提供72个线程,不过也许其时钟速率会更高一点、高每个线程都稍强劲些。

在被问及性能核跟能效核该如何比较时,GIanos表示其实二者之间的差异并没有固定的比例。但基本可以确定,能效核心的时钟速率应该更低,而且性能核的单线程性能应该在能效核的2倍以上。但具体再高出多少就很难说,估计可能在20%到25%的水平;再考虑到性能核上搭载的AVX-512和AMX单元,其发热量应该也相应高出20%到25%。但据我们所知,通过剥离掉这些额外单元、并在能效核中使用两个更小的128位AVX矢量单元,英特尔没准可以在相同的发热量之下让能效核获得高于性能核的时钟速率。

但实际情况究竟如何,恐怕只有时间能给出答案。

下面来看性能P核的介绍图表:

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

再看能效E核的介绍图表:

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

Sierra Forest和Granite Rapids都将采用Intel 3制程工艺,有人说其基本对应台积电的5纳米工艺,也有人认为其已经更接近3纳米工艺。但最重要的是,Intel 3肯定不是7纳米或者10纳米工艺,其制程精度已经相当领先,足够让英特尔的架构优势发挥出实际效果。

性能核和能效核都采用64 KB L1指令缓存,这对保持核心的高负荷运转非常重要。我们认为L1指令缓存越大,就能更好地掩盖其小芯片、而非单体芯片设计所带来的延迟。缓存为王,此言非虚……

Soltis还深入介绍了能效核架构。这是一种不同的架构,在英特尔内部的代号为“Sierra Glen”。(这一代性能核的代号为「Redwood Cove」,是对已经上市的第四代「Sapphire Rapids」至强SP处理器中使用的「Golden Cove」性能核的升级产物。)其正面布局如下所示:

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

再来看指令引擎单元的构成:

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

执行单元如下所示:

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

整数和矢量性能间也有合理的平衡点,Soltis表示能效核中的AVX单元(并非AVX-512或者AVX-10)将支持INT8、BF16和FP16格式,但没有提及是否支持FP32和FP64。

再来看能效核的背面布局,包括32 KB L1数据缓存和4 MB L2缓存,后者由同一核心块内的双/四能效核心共享:

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

Granite Rapids和Sierra Forest的I/O芯片完全相同,因此二者才能共享同样的设计平台。

英特尔发布第六代至强SP处理器:将小芯片设计进行到底

英特尔在第六代至强SP上使用的UPI链接速度稍慢,但带宽也略微增大,这明显比之前的至强SP有了更好的NUMA性能平衡。片上加速器的接口带宽也迎来倍增,可借此提高运行效率。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2023

09/25

09:22

分享

点赞

邮件订阅