6月14日,处理器大厂AMD在美国旧金山举行了 “数据中心与人工智能技术发布会”,对面向HPC领域的第四代EPYC处理器家族进行了更新,包括面向云原生计算的“Bergamo”系列新产品,以及面向需求大缓存的高性能计算工作负载的代号为Genoa-X的第四代 EPYC 3D V-Cache CPU等。
Bergamo专注云原生 搭载Zen4 c核心 面积缩小 35%
EPYC有两大系列,核心代号为“热亚那”(Genoa)。其中,EPYC 97X4 系列拥有三款产品,包括:EPYC 9754、EPYC 9754S和EPYC 9734,是EPYC 7004 系列的“继承者”,其核心数量大幅增加。其中,EPYC 97X4(Bergamo)针对云原生负载而进行性了优化,其2.9倍吞吐量性能可以适用于各种云本地工作负载。
具体来看,EPYC 9754和9754S两款拥有高达128核心,前者256路线程,后者则为128路线程,热功耗均为360W,默频2.25GHz,最高可加速至3.1GHz。定位稍低的,EPYC 9734拥有112个核心,224路线程,热功耗为320W,默频和加速频率也降至2.2GHz和3.0GHz,三款产品的L3缓存均为256MB。
相比于前者,Bergamo更着重于“商业层面的云计算”,因此在继承了以上参数的同时,搭载了 820 亿个晶体管,并能够最高支持 128 个 Zen 4c 核心,兼容 x86 ISA 指令,可相对满足深度云计算的应用需求。
值得注意的是,AMD EPYC Bergamo将Zen 4核心替换为Zen4 c核心。AMD 董事会主席兼首席执行官苏姿丰博士透露,“Zen4 c 核心针对性能和功耗的最佳平衡点进行了优化,这为我们提供了更好的密度和能效,苏姿丰在演讲中强调,“结果设计面积缩小了 35%,每瓦性能显著提高。”
Zen4c是AMD专门为云计算场景打造的一款CPU核心,与Zen4架构保持相同的IPC性能和ISA指令集。不难发现,虽然与Zen 4具有相同的ISA,但Zen 4c本质上是核心的低功率版本,具有显著更高的性能。该核心的物理尺寸比常规“Zen 4”核心小,这使得AMD可以创建具有16个核心的CCD(CPU核心芯片),而当前的Zen 4” CCD仅有8个。
Zen 4c核心的专用L2缓存,其大小于Zen 4核心相同,这意味着L2 SRAM单元占用着相同的面积,AMD通过让L2控制逻辑电路更紧凑来减少L2缓存的区域面积,而在不包含L2和相关电路的区域,核心面积极大程度缩小,前端和执行区域面积几乎减半。
值得注意的是,相比Zen 4核心,Zen 4c的L3 缓存则出现了变化。根据 AMD 官方PPT显示,AMD Zen 4c 和 Zen 4 的各种指标基本相同,区别在于 Zen 4 核心每核有 4MB L3 缓存,而 Zen 4c 为 2MB。
不难发现,EPYC 97X4 系列更高的性能、核心密度和能效,能为不断成长的云原生环境带来不折不扣的计算能力。用户可以通过EPYC 97X4获得超高的线程密度和完整的服务生态系统,以支持快速、无缝的部署。
在“数据中心和AI技术首映”上Meta与AMD共同探讨了这些处理器将如何应用于其主流应用中,如Instagram、WhatsApp等;与第三代AMD EPYC相比,Meta如何在各种工作负载下使用第四代AMD EPYC 97X4处理器实现令人印象深刻的性能提升,同时提供实质性的TCO改进,以及AMD和Meta如何针对Meta的功效和计算密度优化EPYC CPU。
搭载3D V-Cache 技术 创下超大L3缓存纪录
AMD的第二个系列是采用AMD 3D V-Cache技术的第四代AMD EPYC处理器,其进一步扩展了AMD EPYC 9004系列处理器。该系列同样采用5nm工艺制造,拥有12通道DDR5内存、160条PCIe 5.0总线,以及SP5封装接口。适用于计算平台,不同的是核心数量,并拥有超大L3缓存。
据了解,该系列搭载的AMD 3D V-Cache 技术采用业界首创的Hybrid bond加穿透硅通孔技术(TSV)工艺,可以让L3缓存垂直堆叠,在不改变处理器面积的前提下,可用L3缓存(SRAM)总数增加三倍。
AMD官方称,采用AMD 3D V-Cache技术的第四代AMD EPYC处理器进一步扩展了AMD EPYC 9004系列处理器,为计算流体动力学(CFD)、有限元分析(FEA)、电子设计自动化(EDA)和结构分析等技术计算工作负载提供更强大的x86 CPU。凭借多达96个“Zen 4”核心和业界领先的1GB+ 三级缓存,采用AMD 3D V-Cache的第四代AMD EPYC处理器可以在Ansys CFX中每天完成更多的设计任务,从而大幅加速产品开发。
采用AMD 3D V-Cache技术的第四代AMD EPYC处理器产品分别是EPYC 9684X、EPYC 9384X和EPYC 9184X。其中,性能最强的9684X拥有96个核心,192路线程,热功耗为400W,默频2.55GHz/可加速至3.7GHz。值得注意的是,EPYC9684X拥有1152MB的L3缓存,这创下了AMD的“超大L3缓存”纪录。
据了解,在“数据中心和AI技术首映”上,微软宣布基于采用AMD 3D V-Cache技术的第四代AMD EPYC处理器的Azure HBv4和HX实例的现已全面投入使用。该产品针对更为苛刻的HPC应用程序进行了优化,与上一代HBv3相比,其最新的实例提供了高达5倍的性能提升,并可扩展到数十万个CPU核心。
目前,第四代AMD EPYC处理器全系列产品现已上市,其功能和插槽与现有的第四代AMD EPYC处理器CPU系统兼容,提供无缝升级方式。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。