全世界每一家为客户提供服务器方案的超大规模供应商、云服务商、HPC中心乃至OEM服务器制造商,都希望计算组件厂商之间能够保持健康的竞争关系,同时以定期、可预测、甚至是枯燥乏味的方式推出新组件。只有这样,用户才能保持稳定的消费习惯,帮助那些每年制造并售出1200万台服务器(数字仍在不断增长)的ODM和OEM厂商们得以预测需求并管理产品供应链。
然而,不少聪明人也在提醒我们,IT部门应该关注的不是特定产品、而是整个发展路线图,只有这样他们才能确切掌控风险并尽可能降低产品与组织运营中的意外波动。
在英特尔最终推出强大的64位服务器芯片设计之后,AMD公司终于带着遗憾与愤懑在2010年退出了服务器市场。英特尔旗下2009年初发布的“Nehalem”至强E5500架构在很大程度上就是在复制AMD大获成功的Opteron系列芯片。AMD早期推出的Opteron具有令人兴奋的创新元素,可支持64位、多核心、HyperTransport互连以及片上多核,相比之下英特尔当时拿出的32位至强芯片和主要面向企业客户的64位安腾芯片简直像是小丑。但到2010年,AMD被迫推迟了下几代Opteron的交付日期,而且一直没能在新的架构分支上有所突破。因此在英特尔决心撤回安腾并设计出好几代真正具有竞争力的64位至强服务器芯片后,AMD在客观上已经被挤出了数据中心市场。不过过了几年好日子的英特尔在2015年开始放慢创新步伐并推高产品价格,市场于是开始期盼更多竞争,而AMD则重整旗鼓、携强大的Epyc再度垄断——这时候,恰逢英特尔在10纳米与7纳米芯片制程工艺方面遭遇困境,软肋直接暴露在AMD的锋锐之前。
但在新任首席执行官Pat Gelsinger的引导下,英特尔已经恢复了芯片制造设施的运营秩序,也重拾快速且可预测的性能与功能迭代节奏,于是新的压力再次落在AMD头上。而在本周Data Center Premier大会上,AMD公司高层徐徐展开了自己的发展画卷,表明自己不但要把Epyc这代产品的更新节奏与完美执行表现坚持到底,同时也要引入更多变体及SKU以深化Epyc发展路线,不放过服务器市场上各个细分区间与特定高精度工作负载所代表的利润份额。
在AMD公司总裁兼CEO Lisa Su发表主题演讲之前,公司首席技术官Mark Papermaster 与AMD数据中心及嵌入式解决方案事业部总经理Forrest Norrod首先介绍了Epyc服务器芯片的深化路线图。作为阶段性背景,AMD刚刚推出带有3D V-Cache的“Milan-X”Epyc 7003,该产品将大部分高性能计算(HPC)与AI工作负载的性能提高达50%,计划于2022年第一季度正式投放市场;此外,“Aldebaran” Instinct MI200 GPU加速器也已经开始发货,并现身于橡树岭国家实验室部署的1.5百亿亿次“Frontier”超级计算机中。可以肯定的是,Milan-X与Instinct MI200正是本周AMD活动的大亮点,但此外AMD还带来了更为丰富的路线图内容。而且要想理解AMD下一阶段中的真正野心,我们恐怕还要跳出路线图之外展开更广阔的观察视野。
在谈到Milan-X与Aldebaran时,Norrod解释道,“它们都是过去四年以来,我们不断扩大数据中心产品组合并持续努力下的结晶。所以在CPU方面,我们会通过连续三代以意大利城市命名的产品强调整个设计思路——采用同一插槽、同一基板,并快速将产品投放市场。长期以来,我们一直认为随着数据中心工作负载复杂性的持续提升,我们必须扩展自身产品范围,并将扩展规划与实际需求结合起来。更重要的是,我们必须让客户能更轻松地使用这些面向多种工作负载的特定产品。这也是我们讨论的核心主题:工作负载的特殊性,以及在数据中心市场上针对特定细分区间做出调整的配套产品。只有这样,我们才能持续在这些细分市场、特定领域中保持性能水平与总体拥有成本(TCO)两方面的领先地位。”
Norrod并没有做出具体承诺,但表示AMD后续将不断扩大并深化计算GPU芯片及产品组合。
接下来上台的是Lisa Su,她在主题演讲中将数据中心划分为四大类别,并解释了AMD将如何运用独特芯片切实满足各类需求。
Su解释道,“通用计算涵盖的是最广泛的主流工作负载,包括本地与云端,这类工作负载主要将单槽性能作为核心考量因素。接下来是技术计算,涉及数据中心内一系列最为苛刻的工作负载。在这部分任务中,单核性能成为决定工作负载运行效果的关键。第三是加速计算,专注于拓展人类理解能力的边界,包括解决气候变化、材料研究及基因组学等科学难题,这就对并行水平与超强算力提出更高要求。最后则是云原生计算,要求以大型核心与极高的线程密度来支持超大规模应用程序。为了在所有这四种工作负载中都提供领先的计算能力,我们必须采用量身定制的方法,专注于硬件、软件与系统设计层面的整体创新。”
以此为基础,我们再来看看Su、Norrod与Papermaster介绍的Epyc发展路线图,再把所有细节整理成更全面的AMD未来规划。
首先是三位都谈到的Epyc路线图:
可以看到“Milan-X”芯片的身影,外加Genoa芯片家族中采用Zen 4c核心的新成员“Bergamo”,以及即将搭载下代Zen 4核心与全新小芯片封装技术的Genoa变体版本。而这一切,还仅仅只是开始。
Milan处理器也有自己的变体,名为“Trento”,它将作为Frontier超级计算机系统中MI200 GPU加速器的CPU主机。接下来是第二代5纳米Epyc处理器,目前已经确定的有高核心数、代号“Turin”的版本。结合这次公布的AMD服务器芯片路线图,Turin的架构看起来更偏向Bergamo,而非Genoa。但相信Genoa架构不会这么快过时,可能还有另一款尚未公布的新变体。(也许会被定名为Florence或者Venice,反正意大利的历史名城那么多。)
总之,下图是我们扩展后的AMD Epyc路线图:
下面咱们来逐一分析。
根据本周得到的消息,Milan-X将由两个Milan芯片SKU构成,其中两排L3缓存被堆叠在裸片原生L3缓存之上,从而将总L3缓存容量提升3倍以增强性能表现。根据演示文稿,我们还看到这Milan-X拥有16核与64核等变体,也许其间还有24核、32核或者48核版本,而且不同变体都以等比例方式添加额外的L3缓存(核心数量乘以3)。
在Trento方面,我们听说它从两个方面对Milan处理器复合体上的I/O与内存hub小芯片做出增强。首先就是I/O hub支持Infinity Fabric 3.0互连,因此Trento芯片能够与任意对接的Instinct MI200加速器统一共享内存资源。因为橡树岭实验室之前就在基于IBM Power 9 CPU与英伟达V100 GPU加速器的“Summit”超级计算机上采用统一的CPU-GPU内存共享机制,所以这种共享能力也算是Frontier上的刚需。据传,Trento I/O与内存hub小芯片的另一项增强是在控制器上支持DDR5主内存。据我们了解,Trento hub小芯片还支持PCI-Express 5.0控制器与CXL加速器协议,这些设计同样有可能在Frontier中发挥重要作用。
Milan、Milan-X与Trento都能适配SP3服务器插槽,且最高TDP为400瓦。
在Geona与Bergamo芯片方面,AMD正着手引入台积电的5纳米芯片蚀刻工艺。Papermaster表示,这项工艺在同等ISO频率下能够将晶体管密度与晶体管功率效率提升至2倍,同时将晶体管的切换性能提升25%。可以肯定:这绝不是从Milan架构到Genoa架构的提升,而是从7纳米到5纳米的提升。制程工艺的进步究竟会给服务器芯片性能带来何种变化,还是要看实际架构以及AMD如何在频率与运行电压间选择平衡点。另外,AMD还将这些处理器转移到了更大的SP5插槽。
Genoa基于Zen 4核心,Bergamo则基于Zen 4c核心;与Milan系列芯片中的Zen 3核心相比,其每时钟指令(IPC)数有所增加,而且由于二者使用相同的微架构、所以不需要对软件做出调整。双方最大的区别在于频率和电压优化曲线上取舍不同,另外缓存结构也进行了一些优化,使得Bergamo更适合在Epyc封装中容纳更多计算小芯片(简称CCD)。与Zen 3核心相比,Zen 4核心的IPC提升预计在29%以内,这足以让Genoa带来明显更强的单线程性能与吞吐量。Begarmo则进一步将吞吐量推高,但同时牺牲掉一部分单线程性能。
Genoa Epyc 7004将包含96个Zen 4核心,跨越四组共三个计算块,总计十二个计算块;另外,其中还搭载支持DDR5内存、PCI-Express 5.0控制器以及CXL协议的I/O与内存hub,借此将加速器、内存与存储共同接入计算复合体。Genoa将于2022年内推出,具体时间还不清楚,因为AMD公司还在斟酌以保证产品领先于英特尔方案。最近英特尔一直在调整“Sapphire Rapids”与“Granite Rapids”至强Scalable处理器的上市时间,所以AMD暂时决定按兵不动。
Bergamo可能会以两种方式提供这128个Zen 4c核心。与Genoa中分为12个8核心计算块的设计不同,Bergamo芯片选择了8个16核心计算块的方案。晶片本身也可以划分成12个12核心区块,之后在各个区块中废掉几个核心,最终满足128个核心的总体设计。虽然这两种方式都有可能,但如果两款处理器中都包含12个内存控制器,那么传言应该属实、确定是后一种情况。Trento I/O与内存hub支持8个计算小芯片,而Genoa I/O与内存hub则可支持12个计算小芯片,所以两条路线都能帮AMD完成Bergamo的设计目标。但如果直接使用Trento的I/O与内存hub,那么Bergamo将降级为只有8个内存控制器,进而导致计算与内存容量及带宽失衡。就目前来判断,Bergamo应该会使用Genoa的I/O与内存hub,但考虑到最大核心数量是128个而非144个,所以应该是有部分核心被“废掉”了。Papermaster在演讲中只是稍微提到Bergamo的物理设计和小芯片配置都与Genoa不同,所以目前问题还没有定论、大家只能随意猜测。
Bergamo芯片将匹配与Genoa相同的SP5插槽,这也是超大规模基础设施运营商和云服务商最关心的问题。根据Su的介绍,Bergamo将在2023年上半年面世,但Norrod之前曾提到发售时间可能在2022年底至2023年初,后来又改口说是2023年初。这可能是因为超大规模基础设施运营商和云服务商跟AMD进行过沟通,表示愿意承担这部分风险以及开发特殊SKU的额外成本。
在Genoa与Bergamo之后,AMD又谈到更强大的继任者。看起来要取代Bergamo的将是传闻中具有 256核心的“Turin”处理器,将搭载最近风闻中的Zen 5c核心。
我们不大相信用于替代Genoa的下代通用计算芯片会直接从96核心跃升到256核心,但增加到192核还是有可能的。所以,我们才在路线图中把Genoa继任者那部分标记为“???”。(在官方确定之前,我们姑且称其为Florence。)这款芯片的每个核心复合体可能分为4个计算块、每个块包含12个Zen 5核心,而芯片共封装有4个核心复合体,这样就能在理论上达成包含192个通用核心的Epyc 7005。有传闻称Turin超大规模变体将提供256个核心与高达600瓦的散热设计功率。如果这种说法属实,那么封装中还是4个核心复合体、每个复合体包含4个计算块,每计算块容纳16个Zen 5c核心。
我们认为AMD还会推出带有堆叠3D V-Cache的Genoa-X与Florence-X变体,甚至有可能出现同样搭载增强L3缓存的Bergamo-X与Turin-X变体。
有传言说Epyc 7005家族将采用台积电的3纳米制程工艺,但我们认为AMD至少也会把5纳米工艺用上两代,届时Genoa的继任者与Turin都将基于改进后的5纳米工艺。毕竟上代7纳米工艺就是先服务于Rome,之后再服务于Milan。更重要的是,两个月前有消息称台积电的3纳米工艺遇上了问题,恐怕要延迟上线。至于上市时间,Epyc 7005家族可能定位到2024年底到2025年初,但具体还是取决于技术细节、英特尔竞争产品的实际表现以及服务器市场的态势变化。总之,10百亿亿次级别的超级计算机肯定用得上、也需要使用这些CPU。
我们也基本相信Genoa继任者与Turin处理器会继续与Genoa和Bergamo相同的SP5服务器插槽。否则如果每代都更改插槽,服务器制造商恐怕会承受不住。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。