AMD已经不止一次使用“together we advance_”这个前缀作为主题,希望可以在各个层面都可以实现“同超越,共成就_”。
自2017年AMD回归数据中心处理器,到去年已经提供了第四代AMD EPYC(霄龙)处理器,帮助云、企业和高性能计算等关键应用负载。今年,AMD首席执行官苏姿丰(Lisa Su)也没有让我们失望,抢先带来了包括CPU和GPU在内的一系列更新。
迎来专注云原生的Bergamo
2022年,AMD发布了Zen 4架构的AMD EPYC处理器“Genoa”,Genoa在市场上一直有良好的表现,云工作负载中的性能是竞品处理器的1.8倍,企业工作负载中的速度是竞品处理器的1.9倍。
从2018年开始,亚马逊云科技就与AMD展开了合作,这次亚马逊云科技不仅展示了AMD实例在成本和性能上的优势,同时还宣布正在使用AWS Nitro和第四代EPYC Genoa处理器构建新实例Amazon EC2 M7a,目前Amazon EC2 M7a实例已经提供预览版,性能比M6a实例高出50%。AMD也会使用Amazon EC2 M7a实例处理内部的工作负载,包括芯片设计 EDA软件等。
今年,AMD在计算基础设施上又针对数据中心工作负载进行了优化,因为越来越多的应用都是云原生,AMD也带来了以吞吐量为导向,拥有最高终端密度和效率的AMD EPYC 97X4处理器“Bergamo”。
如果说Genoa是专注于通用的工作负载,Bergamo则专注于云服务器和数据中心,适用于云原生工作负载。
AMD EPYC Bergamo有高达128个内核,每个插槽有多达256个线程,一个普通的2U 4节点平台将有2048个线程。其是由820亿个晶体管组成,在尽可能小的空间内容纳尽可能多的计算能力,可提供一致的x86 ISA支持,最高的vCPU密度。AMD预计Bergamo在5年内将占所有数据中心处理器销售额的25%以上。
此次AMD EPYC Bergamo将Zen 4核心替换为Zen 4c,Zen 4c提供比Zen 4更高的密度,同时保持100%的软件兼容性。AMD优化了高速缓存层次结构,并进行了其他调整,从而节省了35%的裸片面积。CCD核心数量从8个增加到16个,CCD总数从12个减少到8个。
基于Zen 4c的Bergamo EPYC 9704系列处理器现已上市,目前包括EPYC 9754、EPYC 9754S、EPYC 9734三个型号。戴尔PowerEdge系列服务器已经实现支持,同时Bergamo处理器正在向大型云计算客户批量出货,Meta就计划在基础架构中使用 Bergamo,它的性能比上一代Milan芯片高出2.5倍。
除了Bergamo,AMD还带来了更针对技术计算的“Genoa-X”,以及针对电信和边缘计算的“Siena”,预计在下半年上市。
Genoa-X配备了3D V-Cache技术,通过在每个CCD顶部堆叠一个64MB L3 V-Cache芯片增加L3 缓存容量,让Genoa-X可以提供高达1152MB的总L3缓存。Genoa-X与具有相同内核数的友商处理器比较,在各方面都显示出了更强的优势。
目前Genoa-X系列三个型号分别是,96核的EPYC 9684X、32核的EPYC 9384X、16核的EPYC 9184X。
Microsoft Azure也宣布最新高性能计算用虚拟机HBv4与Azure HX使用Genoa-X,内存将是前一代3倍,工作负载的性能提升最高达到5.7倍。
1530亿晶体管芯片现世MI300X
对于生成式AI,可能现在每个人、每个企业都在关注。Lisa Su说,AI是目前技术的决定性大趋势。她概述了由大型语言模型 (LLM) 驱动的AI市场存在着巨大的市场机会,导致数据中心AI加速器的TAM到2027年将会达到1500亿美元,CAGR将超过50%。
其实在2023年第一季度,AMD就推出了CPU+GPU架构的Instinct MI300正式进军AI训练端。MI300结合AMD的Zen 4 CPU与CDNA 3 GPU,通过“统一内存架构”突破GPU与CPU之间的数据传输速度限制,满足未来AI训练和推理中,海量数据计算和传输的需求。
今天万众瞩目的Instinct MI300系列产品又发布了MI300A和MI300X。
MI300A是全球首个为AI和HPC打造的APU加速卡,目前已出样。其拥有13个小芯片,总共包含1460亿个晶体管,采用了24个Zen 4内核、CDNA3 GPU内核和128GB HBM3内存。与 MI250 相比,其提供了8倍的性能和5倍的效率。
MI300X是AMD针对大语言模型优化的版本,拥有12个5nm的小芯片,晶体管数量达到了1530亿个。MI300X没有集成CPU内核,采用了8 个CDNA3 GPU内核和4个IO内存内核设计。内存达到了192GB,内存带宽为5.2TB/s,Infinity Fabric带宽为896GB/s。
MI300X提供的HBM(高带宽内存)密度约为英伟达H100的2.4倍,HBM带宽则为1.6倍,这让运行更大的模型成为可能,从而降低成本。
现在在单个GPU上运行一个400亿参数的模型,已经不在是幻想。MI300X可以支持400亿个参数的Hugging Face AI模型运行,最多可以运行800亿个参数的模型,而且使用多个MI300X叠加可以处理更多的参数。
现场Lisa Su演示了在单个MI300X上运行拥有400亿个参数的Falcon-40B大型语言模型,写了一首关于旧金山的诗。
MI300X将在第三季度出样,第四季度加大生产,以挑战英伟达在市场重的领先地位。
AMD还发布了新的Instinct平台,可以加快客户的上市时间,并降低总体开发成本。其基于OCP开放计算标准,将8块MI300X加速卡并行,可提供总计多达1.5TB HBM3内存。
而且为了突破CUDA这个护城河,AMD正在不断发展ROCm,这是一套完整的库和工具,可以优化AI软件堆栈。不同于专有的CUDA,ROCm软件栈可与模型、库、框架和工具的开放生态系统兼容。AMD总裁Victor Peng也希望,未来在AI软件生态系统开发中持续采用“开放(软件方法)、经过验证(AI能力)、就绪(支持AI模型)”的理念。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。