6月14日,处理器大厂AMD在美国旧金山举行了 “数据中心与人工智能技术发布会”,对面向HPC领域的第四代EPYC处理器家族进行了更新,包括面向云原生计算的“Bergamo”系列新产品,以及面向需求大缓存的高性能计算工作负载的代号为Genoa-X的第四代 EPYC 3D V-Cache CPU等。
Bergamo专注云原生 搭载Zen4 c核心 面积缩小 35%
EPYC有两大系列,核心代号为“热亚那”(Genoa)。其中,EPYC 97X4 系列拥有三款产品,包括:EPYC 9754、EPYC 9754S和EPYC 9734,是EPYC 7004 系列的“继承者”,其核心数量大幅增加。其中,EPYC 97X4(Bergamo)针对云原生负载而进行性了优化,其2.9倍吞吐量性能可以适用于各种云本地工作负载。
具体来看,EPYC 9754和9754S两款拥有高达128核心,前者256路线程,后者则为128路线程,热功耗均为360W,默频2.25GHz,最高可加速至3.1GHz。定位稍低的,EPYC 9734拥有112个核心,224路线程,热功耗为320W,默频和加速频率也降至2.2GHz和3.0GHz,三款产品的L3缓存均为256MB。
相比于前者,Bergamo更着重于“商业层面的云计算”,因此在继承了以上参数的同时,搭载了 820 亿个晶体管,并能够最高支持 128 个 Zen 4c 核心,兼容 x86 ISA 指令,可相对满足深度云计算的应用需求。
值得注意的是,AMD EPYC Bergamo将Zen 4核心替换为Zen4 c核心。AMD 董事会主席兼首席执行官苏姿丰博士透露,“Zen4 c 核心针对性能和功耗的最佳平衡点进行了优化,这为我们提供了更好的密度和能效,苏姿丰在演讲中强调,“结果设计面积缩小了 35%,每瓦性能显著提高。”
Zen4c是AMD专门为云计算场景打造的一款CPU核心,与Zen4架构保持相同的IPC性能和ISA指令集。不难发现,虽然与Zen 4具有相同的ISA,但Zen 4c本质上是核心的低功率版本,具有显著更高的性能。该核心的物理尺寸比常规“Zen 4”核心小,这使得AMD可以创建具有16个核心的CCD(CPU核心芯片),而当前的Zen 4” CCD仅有8个。
Zen 4c核心的专用L2缓存,其大小于Zen 4核心相同,这意味着L2 SRAM单元占用着相同的面积,AMD通过让L2控制逻辑电路更紧凑来减少L2缓存的区域面积,而在不包含L2和相关电路的区域,核心面积极大程度缩小,前端和执行区域面积几乎减半。
值得注意的是,相比Zen 4核心,Zen 4c的L3 缓存则出现了变化。根据 AMD 官方PPT显示,AMD Zen 4c 和 Zen 4 的各种指标基本相同,区别在于 Zen 4 核心每核有 4MB L3 缓存,而 Zen 4c 为 2MB。
不难发现,EPYC 97X4 系列更高的性能、核心密度和能效,能为不断成长的云原生环境带来不折不扣的计算能力。用户可以通过EPYC 97X4获得超高的线程密度和完整的服务生态系统,以支持快速、无缝的部署。
在“数据中心和AI技术首映”上Meta与AMD共同探讨了这些处理器将如何应用于其主流应用中,如Instagram、WhatsApp等;与第三代AMD EPYC相比,Meta如何在各种工作负载下使用第四代AMD EPYC 97X4处理器实现令人印象深刻的性能提升,同时提供实质性的TCO改进,以及AMD和Meta如何针对Meta的功效和计算密度优化EPYC CPU。
搭载3D V-Cache 技术 创下超大L3缓存纪录
AMD的第二个系列是采用AMD 3D V-Cache技术的第四代AMD EPYC处理器,其进一步扩展了AMD EPYC 9004系列处理器。该系列同样采用5nm工艺制造,拥有12通道DDR5内存、160条PCIe 5.0总线,以及SP5封装接口。适用于计算平台,不同的是核心数量,并拥有超大L3缓存。
据了解,该系列搭载的AMD 3D V-Cache 技术采用业界首创的Hybrid bond加穿透硅通孔技术(TSV)工艺,可以让L3缓存垂直堆叠,在不改变处理器面积的前提下,可用L3缓存(SRAM)总数增加三倍。
AMD官方称,采用AMD 3D V-Cache技术的第四代AMD EPYC处理器进一步扩展了AMD EPYC 9004系列处理器,为计算流体动力学(CFD)、有限元分析(FEA)、电子设计自动化(EDA)和结构分析等技术计算工作负载提供更强大的x86 CPU。凭借多达96个“Zen 4”核心和业界领先的1GB+ 三级缓存,采用AMD 3D V-Cache的第四代AMD EPYC处理器可以在Ansys CFX中每天完成更多的设计任务,从而大幅加速产品开发。
采用AMD 3D V-Cache技术的第四代AMD EPYC处理器产品分别是EPYC 9684X、EPYC 9384X和EPYC 9184X。其中,性能最强的9684X拥有96个核心,192路线程,热功耗为400W,默频2.55GHz/可加速至3.7GHz。值得注意的是,EPYC9684X拥有1152MB的L3缓存,这创下了AMD的“超大L3缓存”纪录。
据了解,在“数据中心和AI技术首映”上,微软宣布基于采用AMD 3D V-Cache技术的第四代AMD EPYC处理器的Azure HBv4和HX实例的现已全面投入使用。该产品针对更为苛刻的HPC应用程序进行了优化,与上一代HBv3相比,其最新的实例提供了高达5倍的性能提升,并可扩展到数十万个CPU核心。
目前,第四代AMD EPYC处理器全系列产品现已上市,其功能和插槽与现有的第四代AMD EPYC处理器CPU系统兼容,提供无缝升级方式。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。