AMD“GENOA”EPYC服务器CPU为何备受关注?

做出好的服务器CPU绝非易事。毕竟超大规模服务商和云运营商每年都在激烈竞争,要求用更少的钱买到更强的性能,所以很难找到比用服务器CPU满足他们的诉求更困难的业务。

AMD“GENOA”EPYC服务器CPU为何备受关注?

做出好的服务器CPU绝非易事。毕竟超大规模服务商和云运营商每年都在激烈竞争,要求用更少的钱买到更强的性能,所以很难找到比用服务器CPU满足他们的诉求更困难的业务。

十多年前的2009年,英特尔曾在上一轮萎缩期通过复制AMD的设计思路增强自身制造实力,并抓住AMD“Barcelona”Opteron处理器存在问题的机会,在数据中心内彻底击败了这位服务器芯片对手。AMD在这场战役中失去了声誉,而且之后似乎就断了继续冲击数据中心市场的兴趣。不过经过六年沉寂,AMD迎来了新的领导班子,他们意识到想成为一家顶尖客户端与主机芯片制造商,AMD绝对离不开数据中心业务贡献的利润。于是乎,AMD拿出了精益求精、或者说极其专注的态度,努力将自己承诺的一切转化为现实。

随后推出的“Naples”Epyc 7001系列只是热身,AMD和英特尔都很清楚这一点。虽然战火重燃,但烈度还不算强。但随着2019年“Rome”Epyc 7002系列的推出,英特尔这边正好掉进14纳米制程困境的大坑,而AMD芯片则不再是通过单一插槽装作服务器芯片的台式机处理器。到这个时间节点,AMD超越了英特尔的至强SP服务器芯片,率先凭借2019年的“Rome”Epyc 7002实现了10纳米制程,又进一步在2021年的“Milan”Epyc 7003系列中将核心推向7纳米制程。

在设计方面,AMD的Rome芯片也取得了不错的成绩,之后的Milan更是将英特尔压制得抬不起头来。随着此次“Genoa”Epyc 9004系列(以及明年计划推出的衍生产品「Genoa-X」、「Bergamo」以及「Siena」服务器CPU),AMD的组合拳绝不停歇。

但如今的我们,仍然生活在一个英特尔所主导的世界——这是因为芯片巨头的产品供应能力更强,而AMD产品虽然性能出色,但却无法及时满足市场需求。而在这场要么卖得到但效能差,要么效能好但买不到的选择中,我们应当支持英特尔重整旗鼓,推动至强SP路线图和代工体系重归正轨,给AMD带来一些竞争压力。

这是一场有趣的对抗,可以在可预见的未来仍然持续存在。英特尔与AMD双方的胶着对IT行业是有利的,毕竟过去十年英特尔一家独大的状况大家也都看到了。那种躺着都能赚钱的状态不仅要求整个行业为其分担成本,从长远来看也消磨了英特尔自己的意志和技术能力。

介绍完了技术背景,下面我们继续来看Genoa Epyc 7004系列芯片。我们将从处理器设计、SKU堆栈和服务器芯片定价等基本点入手,之后深入探讨这代新产品与之前的Epyc、Opteron乃至英特尔至强SP处理器的架构与竞争关系。

GENOA前来拜访

AMD数据中心解决方案事业部总经理Forrest Norrod在Genoa的发布简报中,就介绍了这款最新服务器CPU的背景。

“我们这支开发团队已经踏上征程,希望打造出符合自身要求的业界最佳服务器路线图,并随时间推移始终保持住优势。在过去一年的Milan处理器周期之内,我们经受住了现实考验,同时受到云服务商和企业用户的高度欢迎。在我们看来,凭借Milan处理器拿下企业客户和云服务商支持是个重要的拐点和发展里程碑。而凭借最新的Genoa,我们得以为更广泛的工作负载带来最佳通用服务器CPU。其在多种工作负载上都带来了2倍甚至更高的性能提升,还拥有卓越的能源效率。Genoa有望为我们的客户带来巨大的总体拥有成本改善。”

升级到Genoa肯定会带来巨大的性能飞跃,毕竟其中搭载的可是“Zen 4”核心。与上代Milan Epyc 7003使用的“Zen 3”相比,其每时钟指令(IPC)增加了14%。

AMD“GENOA”EPYC服务器CPU为何备受关注?

这14%的IPC提升结论,来自33种不同服务器工作负载在进行整数运算时测得的平均改进幅度。此测试针对Milan和Genoa芯片使用8核心计算裸片(CCD)和1个I/O裸片运行,且均使用相同的时钟速率,借此衡量纯因微架构变更而带来的性能提升。

我们将在后文的架构部分深入探讨这个问题。这里先总结一点:令人印象深刻的是,AMD的芯片设计师们非常出色,无论是与其他厂商的处理器比较、还是与自家前代架构竞争,Genoa的表现都更好。Zen 1核心的IPC比我们之前用过的AMD“Shanghai”Opteron 2300核心高出65%,如此巨大的提升甚至让我们怀疑AMD是不是很久没更新过服务器核心设计了。到Zen 2这边,其核心IPC要比Zen 1高出15%;Zen 3又比Zen 2高出19%。在另一边,英特尔至强和至强SP主导服务器市场的这些年来,代际IPC提升往往只有可怜的5%到10%。

当然,决定服务器芯片水平的不仅仅是其核心,更需要包括内存和I/O在内的完整封装。特别是按目前的主流设计趋势看,得通过快速互连将多个小芯片连接起来,使其如同单一裸片那样协同运作。由于超出了晶圆厂的代工尺寸极限,这样的方案还无法一次性制造完成。

Genoa服务器芯片是迄今为止AMD在数据中心领域拿出的最佳杰作,拥有多达96个核心、十余个DDR 5内存控制器,支持的最大内存为6 TB,外加128条PCI-Express 5.0 I/O通道——其中64个通道可通过CXL 1.1协议支持运行在机柜之外的Type 3内存池设备。

AMD“GENOA”EPYC服务器CPU为何备受关注?

正如Norrod之前给出的解释,Genoa专门推迟了两个季度以等待CXL内存标准协议的发布,但AMD从未想到要直接在市场上与英特尔“Sapphire Rapids”至强SP处理器对打。从上市时间来看,Genoa的对手应该是英特尔计划在2024年推出的“Granite Rapids”至强SP处理器。

除了Zen 4核心带来的新整数与浮点运算单元(后者在软件上看,类似于英特尔AVX-512浮点单元),AMD还将各核心的二级缓存增加了1倍达到1 MB,同时将一级缓存的数据与指令缓存继续保持为32 KB,并将CCD的三级缓存大小保持为32 MB。

AMD“GENOA”EPYC服务器CPU为何备受关注?

Genoa CCD采用台积电的5纳米蚀刻工艺,Genoa中使用的改进型I/O裸片则采用台积电的6纳米蚀刻工艺(上代Milan芯片使用的是12纳米I/O裸片的衍生产品)。再向前回溯,Epyc系列中使用的I/O裸片由GlobalFoundries制造,其中Rome Epyc使用的是14纳米工艺,Milan Epycs使用12纳米工艺。如今AMD已经彻底摆脱了这家老代工合作伙伴,非常幸运地避免受到GlobalFoundries在10纳米与7纳米制程探索上的失败。事实证明,台积电才是更可靠的代工搭档,总能及时拿出更先进的制造节点。相比之下,继续把宝押在GlobalFoundries身上的英特尔则大受其害,眼睁睁看着AMD和台积电谈笑间工艺升级。

这些DDR5内存控制器包含57位虚拟寻址与52位物理寻址,即4 PB主内存容量。之前不少X86处理器只提供48位物理寻址,因此可支持的最大内存容量为246 TB。但随着CXL内存扩展与内存控制器数量的快速增加,这样的容量上限对于多插槽服务器已经显得捉襟见肘。

另外,AMD现在也终于可以开发四插槽甚至是八插槽服务器了。如今的Genoa CCD已经具备足够的端口,只是Genoa I/O裸片似乎还不足以充当未来多插槽Epyc处理器的控制点。

我们来看下图:

AMD“GENOA”EPYC服务器CPU为何备受关注?

下图展示得更清楚一些:

AMD“GENOA”EPYC服务器CPU为何备受关注?

每个CCD上有两个Infinity Fabric 3.0 GMI3端口,但在配备8个或12个CCD的Genoa配置中,每个CCD仅使用一个GMI3端口。(这样的设计肯定有其考量,可能是为了在性能和更高时钟速率间求取平衡。)在使用四CCD的Genoa配置中,CCD上的两个GMI3端口都会接回I/O裸片。

CCD上这些额外的GMI3端口还可用于接入两个I/O裸片或单一更大的I/O裸片,下一代128核心Bergamo Epyc处理器也许就会采用这样的设计。而如果每个CCD中只使用一个GMI3端口,则可能意味着核心无法凭借充足的带宽保证性能稳定,因此计划明年推出的Bergamo由于核心数量更多,所以肯定是要么增加I/O裸片数量、要么配个更大的I/O裸片。或者,CCD也可能选择一种特殊的彼此间和与Bergamo I/O裸片的互连方式;又或者通过单独的小芯片链接出去,在更多插槽上实现丰富的NUMA配置。

究竟如何,到时自有分晓。但我们还是从示意图中发现了一些AMD并没有谈到的小秘密。

规格提到,Genoa芯片上有128条PCI-Express 5.0 I/O连接通道,但实际情况要更复杂一些。以下是双插槽配置I/O的实际布局:

AMD“GENOA”EPYC服务器CPU为何备受关注?

PCI-Express通道往往混合使用,因此分为P和G两种组合。其中P组合只使用PCI-Express,而G组合则运行Infinity Fabric 3.0协议。P链路有12条通道,3Link(即3G选项)有160条通道,4Link(即4G选项)则提供128条通道。

Genoa芯片设计工程师兼服务器SoC架构师Kevin Lepak解释称,“这其实是要保证客户在平台实施方面的灵活性。如果大家需要更多I/O或者更少I/O,或者更多跨插槽连接性,就可以在这里做出选择。”

AMD“GENOA”EPYC服务器CPU为何备受关注?

支持CXL 1.1协议的64条PCI-Express 5.0通道最多可接入四个x16设备,这一点是根据OEM、ODM、超大规模服务商和云基础设施运营商的反馈而有意设计的。如果客户后续还需要更多CXL通道,AMD也一定会予以满足。

无论如何,Infinity Fabric和原始PCI-Express的I/O SerDes(串行/解串)速率为32 Gb/s,比Milan中使用的Infinity Fabric 2.0链路的18 Gb/s通道快了78%。

下图为Genoa双插槽或单插槽系统的构建方法:

AMD“GENOA”EPYC服务器CPU为何备受关注?

但如果主内存不足,那么各核心内外的缓存速度与处理速度将会受到限制。因此,AMD决定在Genoa当中使用DDR5内存,借此在速度之外实现一系列其他优势:

AMD“GENOA”EPYC服务器CPU为何备受关注?

最终,DDR5的数据传输速率将扩大至8.4 GT/s;但在初代Genoa当中,AMD暂时将DDR5的数据传输速率控制在4.8 GT/s。DDR5内存的电压还比DDR4低出8.3%,这能稍稍节约一点功耗,只是在发热量上要比DDR4更大一些。

系统的实际内存容量也将随DDR5的引入而提高。目前市面上最经济实用的内存条无疑是64 GB DDR4,但如果选择DDR5内存,则DIMM上单芯片的最高容量可达64 Gb,为DDR4 16 Gb的四倍。至于高端内存,也许会采用256 GB DIMM(虽然可能性不大)。

在AMD的内存测试中,对阵双方分别是8 Gb DDR4 DIMM和16 Gb DDR5 DIMM。

AMD“GENOA”EPYC服务器CPU为何备受关注?

如大家在右下方所见,DDR5设备的延迟约为45纳秒,而DDR4设备的延迟约为35纳秒,这是因为刷新DIMM上所有内存组需要时间。DDR5内存中的库(bank)更多,所以刷新时间就更长。Genoa的SoC内存延迟也略高一些,约为73纳秒;Milan则在70纳秒左右。

如果大家在Genoa芯片的12个内存通道各放上2个DDR5 DIMM,则可获得6 TB物理内存。Lepak提到,单插槽服务器通常每通道只有一个DIMM,这些小型设备很难塞得下双DIMM,甚至就连不少双插槽服务器都会坚持每通道只使用一个DIMM,以避免内存条相互交错、稀释带宽与容量的比率。因此,主内存的实际上上限其实只有3 TB;再结合采购预算,应该不会购买单条容量太大的高成本内存,所以每插槽主内存往往只有1.5 TB甚至768 GB。

所以这样算下来,Genoa插槽能够提供460.8 GB/s的理论峰值内存带宽,相当于Milan插槽204.8 GB/s峰值带宽的2.25倍(从DDR4到DDR5,内存速度增加了50%,内存控制器数量增加了50%,但最终提升并非二者相加而相乘,所以为2.25倍)。这样的带宽增幅就基本与1.7至1.9倍的性能提升匹配上了,AMD希望能用这种均衡的方式完成从Milan到Genoa的SKU配置换代。

Genoa架构还允许以2、4、6、8、10、12通道的增量方式,实现内存资源的跨通道交织。该架构也支持x72 DIMM和x80 DIMM,因此大家可以在Genoa上将设备数量减少10%,且继续维持容量不变。

GENOA SKU堆栈

长久以来,大家总爱把Genoa芯片称为Epyc 7004,但后来有传闻说AMD其实是将其定名为Epyc 9004。从这个角度看,Genoa服务器芯片的功能和容量,肯定是较上代产品有了非常重大的转变。

在我们深入探讨SKU堆栈之前,先来聊聊AMD的命名习惯。顺着这条线索,大家应该能更好地理解SKU堆栈扩展轨迹,特别是明年即将发布的Bergamo、Genoa-X和Siena到底是个什么定位。

AMD“GENOA”EPYC服务器CPU为何备受关注?

明年的Genoa-X之所以要用上“X”,明显是要跟之前的F(主频优化型)和P(价格优化型,1P代表只适用于单插槽设备)尾符并列。而实际产品的发布顺序应该也跟我们的猜测保持一致——先是Genoa,之后是Bergamo、Genoa-X和Siena。

与Milan产品线一样,Genoa产品线也包含三个段位的处理器产品,包括:

AMD“GENOA”EPYC服务器CPU为何备受关注?

其中的F系列有四款,采用高主频和更大的缓存与核心比率以实现性能平衡。之后是定位中高端的大核心与线程数SKU;最后是低端芯片,关注在合理的性能之下保持最佳总体拥有成本。粗糙一点来理解,Genoa的低端就大致相当于Milan的中端和Naples的高端。

此次公布的Genoa版本共有18个,其中4种面向单插槽服务器(标灰部分),4种为主频优化型(粗斜体中结尾为F的几种),其余则为标准产品。后续还将有4到5种采用3D堆叠三级缓存的Genoa-X版本被加入这份清单,根据以往的经验来看,这将使其HPC工作负载性能提高20%到25%。

AMD“GENOA”EPYC服务器CPU为何备受关注?

上表中列出的价格,是1000单位托架批量采购情形下,Genoa CPU的单价数字。(采购规模不小,但也绝没有达到超大规模企业或云基础设施运营商的水平。)所有Epyc芯片都在一定的功率范围内运行,而其额定功率的热设计点(TDP)基本相当于英特尔的至强SP系列。

从Genoa开始,我们将一直关注其中的小芯片封装,包括CCD与I/O芯片,了解各SKU是如何构建而成。据我们所知,各封装分为四、八或十二CCD芯片加上一块I/O裸片,且均使用设计和功能完全相同的I/O裸片。不太清楚这些I/O裸片是否会被激活和计费,我们猜测这可能是为了迎合超大规模企业客户和云基础设施运营商提出的某些定制化功能需求。

在某些情况下,与Milan相比,Genoa的时钟速率可能更高、也可能更低,具体取决于在堆栈中的实际位置。

至于相对性能,我们继续按照多年来的经验习惯来计算。我们先将具有四个2.8 GHz核心的Shanghai Opteron 2387性能设定为1.0,再根据核心、时钟频率和IPC的变化估算后续各代Epyc芯片与2387之间的相对性能。(我们在英特尔至强和至强SP系列处理器上也是这么算的,只是性能基准换成了「Nehalem」至强E5540。)

Shanghai Opteron公布于2009年4月,即Nehalem芯片问世的一个月后。当时最高端的Opteron 2393 SE芯片拥有四个核心,运行主频为3.1 GHz,配备6 MB三级缓存、功耗为105瓦,成本1165美元,相对性能为1.11。计算下来,每单位性能成本为1052美元。

时间快进13年半,目前的顶级Genoa Epyc 9654拥有96个核心,运行主频为2.4 GHz,三级缓存384 MB,运行功耗为360瓦,总成本11805美元。根据我们的估算,其可提供52.95个单位的相对性能,而瓦数只增加了3.4倍、成型增长10.1倍、核心数量增加了24倍。得益于IPC的改进,Opteron 2393 SE到Epyc 9654之间的性能提升了47.7倍,但每单位性能成本却下降到4.7分之一。

AMD CPU的运行功耗也在一路提升。Genoa Epyc 9654的设计散热功耗(TDP)为360瓦,相当于Shanghai Opteron 2383 SE 105瓦的3.4倍;在极端情况下,其峰值功耗甚至可达到400瓦。

截至目前,这样的CPU和芯片组运行发热量还在传统风冷的可行范围内。

Norrod解释称,“以往的观点认为,单插槽125瓦已经是服务器机架和冷却系统所能容纳的极限。但我们从客户那边得到了更宽容的反馈,所以我们可以采取更高的TDP。另外就是竞争态势,坦率地讲,AMD目前确实在跟英特尔激烈角逐。跟我们相比,英特尔那边的运行主频在14纳米时代确实表现更好一些,但发热量也更大些。因此他们开始抓住这点做文章,宣传TDP越高性能越强。我们当然也不能示弱,但前提就是高功耗确实能带来高性能,否则将毫无意义。”

接下来我们自然想问,下一代Bergamo的运行功率会是500瓦还是550瓦。另外让人好奇的是,经过Bergamo、Genoa-X和Seina这三代产品,再往后的高核心数芯片是否会进军1000瓦大关,这时候肯定就没法单独在服务器节点内依靠风冷运行了。到那个时候,新的处理器可能终将融入数据中心的冷却体系,由节点中的冷却液收集并转移来自CPU和内存的热量。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2022

11/11

14:45

分享

点赞

邮件订阅