
运行在边缘和数据中心的各类工作负载,往往有着互不相同的价格、性能、散热与使用寿命需求,因此服务器CPU制造商多年来才一直在为此量身打造差异化的处理器产品组合。
与20年前的核心区别在于,2023年的处理器在性能指标和封装方式上差异更加明显,也可以说设计选项更加丰富。随着本次Zen 4c核心“Siena”Epyc 8004处理器的出炉,AMD也终于补全了Zen 4家族的最后一块拼图。接下来,其全部精力都将集中在计划于2024年推出的“Turin”Zen 5身上。除了这款已经放出不少消息的下代产品之外,我们预计AMD的后续方案“Venice”Zen 6有望于2025年与大家见面。
今年6月,“Bergamo”Epyc服务器变体首次推出Zen 4c核心。Zen 4与Zen 4c两种核心之间的基本区别在于,前者每个核心对应4 MB的L3缓存,而后者则略有减少、每核心对应2 MB的L3缓存。Zen 4c核心采用台积电5纳米制程工艺,尺寸缩小了约35%,意味着AMD可以基于Zen 4c核心打造出16核的CCD(compute complex die),超越此前在原版“Genoa”9004及其变体Genoa-X(此变体采用3D V-Cache以进一步提高性能)中的每CCD 8核心。Genoa和Genoa-X芯片最多可容纳12个8核CCD,因此核心数量上限为96个;而Bergamo变体只需要提供8个16核Zen 4c CCD,即可在单插槽之上提供最多128个核心。
纵观从Bergamo到此次Siena的演进,我们基本可以将其理解为将CCD数量设定为Bergamo的一半,在单插槽服务器之上提供具有较宽范围的可配置散热设计功率(TDP)。以此为基础,AMD还可面向电信企业、服务提供商和各类边缘用例开发出符合NEBS标准的版本,其锁定TDP热功率并可支持更广泛的发热量范围,而后对这款NEBS变体收取设计溢价。
由此产生的成果,就是Siena。
下面这份综合图表,简要总结了四款不同Genoa级AMD CPU的产品定位、它们之间的比较以及与英特尔同类CPU产品间的差异:
Siena带来的另一项重大变化在于新的SP6插槽,其针对更低功耗与更低发热量进行了优化。其在本质上相当于是半块Bergamo处理器,但成本却低得多:
Siena芯片搭载6条DDR 5内存通道,运行速率可达4.8 GHz,每插槽可提供最高1152 GB(以上规格图表中显示的1.152 TB有误)内存容量。(规格表中提到使用96条内存,每通道双DIMM且总计六通道,因此可得到1152 GB总内存容量,折合1.125 TB。)Siena芯片拥有96条直连中央I/O晶粒的PCI-Express 5.0外设通道,这一设计与其他Genoa、Genoa-X和Bergamo处理器保持一致。如果用户希望支持CXL 1.1内存一致性以使用加速器或DRAM内存扩展器,则可以在这96条通道的48条上使用CXL。
以下蛛网图所示,为Siena与Genoa之间的优化效果差异:
下图则为Siena和Genoa之间的基本性能与速度比较:
再来看Siena芯片的SKU栈与产品定价:
作为参考,下表为Bergamo和Genoa/Genoa-X CPU的SKU栈与产品定价:
顺带一的是,在谈及Bergamo和Siena处理器时,AMD一直表示Zen 4和Zen 4c核心的ISA(指令集架构)完全相同,且两款核心的每时钟指令数(IPC)也保持一致。我们认为架构方面应该没有变化,但后面的IPC指标是否相同完全取决于如何具体计算。
换句话说,我们猜测在需要测量IPC的实际工作负载组合当中,Zen 4c与Zen 4的表现不太可能完全相同。相对于Zen 3,Zen 4c的IPC可能要比Zen 4稍低一些,但不会差很多——而且这个结论只适用于L3缓存敏感型的工作负载。若非如此,厂商又何必添加那么大的L3缓存呢?至于AMD所说的“IPC保持一致”,我们估计在SPEC CPU基准测试上这两款芯片应该是表现相当,AMD对Bergamo和Siena的点评结论也由此得出。从上文中的表格来看,尽管L3缓存有所区别,所有Zen 4与Zen 4c核心的IPC都较上一代“Milan”Zen 3核心获得了相同的速率优势。
除了家族内战,更重要提Siena芯片在市场上是否与英特尔至强SP产品有一战之力。下图所示,为AMD Siena芯片与英特尔至强SP芯片的比较结果:
现在压力来到英特尔这边,我们期待着芯片巨头号称要与Bergamo对打、且很可能会和Siena正面遭遇的“Sierra Forest”处理器。
好文章,需要你的鼓励
AI正在革命性地改变心脏疾病治疗领域。从设计微创心脏瓣膜手术到预防原理定位,机器学习和神经网络的洞察力推动了巨大进步,甚至可以构建新型移植解剖结构。数字孪生技术为个性化心血管护理提供持续预测管理。哈佛干细胞研究所的研究人员利用纳米材料和类似棉花糖机的设备,能在10分钟内制造心脏瓣膜,相比传统3周制造时间大幅缩短。这些突破性技术为每年4万名先天性心脏畸形儿童带来新希望。
Fractal AI Research实验室开发了Fathom-DeepResearch智能搜索系统,该系统由两个4B参数模型组成,能够进行20多轮深度网络搜索并生成结构化报告。研究团队创新了DUETQA数据集、RAPO训练方法和认知行为奖励机制,解决了AI搜索中的浅层化、重复性和缺乏综合能力等问题,在多项基准测试中显著超越现有开源系统,为AI助手向专业研究工具转变奠定了基础。
谷歌正在为搭载其内置信息娱乐系统的汽车推出谷歌地图实时车道引导功能,首先从极星4开始。该系统利用车辆前置摄像头和AI技术,分析车道标线和路标,为驾驶者提供更精确的车道指引和视听提示。该功能将在未来几个月内在美国和瑞典的极星4车型上推出,目前仅支持高速公路使用。
快手科技与清华大学合作发现当前AI语言模型训练中存在严重的权重分配不平衡问题,提出了非对称重要性采样策略优化(ASPO)方法。该方法通过翻转正面样本的重要性权重,让模型把更多注意力放在需要改进的部分而非已经表现良好的部分,显著提升了数学推理和编程任务的性能,并改善了训练稳定性。