AMD这一把算是把AI玩明白了原创

作者：王聪彬

自2017年AMD回归数据中心处理器，到去年已经提供了第四代AMD EPYC（霄龙）处理器，帮助云、企业和高性能计算等关键应用负载。今年，AMD首席执行官苏姿丰（Lisa Su）也没有让我们失望，抢先带来了包括CPU和GPU在内的一系列更新。

AMD已经不止一次使用“together we advance_”这个前缀作为主题，希望可以在各个层面都可以实现“同超越，共成就_”。

迎来专注云原生的Bergamo

2022年，AMD发布了Zen 4架构的AMD EPYC处理器“Genoa”，Genoa在市场上一直有良好的表现，云工作负载中的性能是竞品处理器的1.8倍，企业工作负载中的速度是竞品处理器的1.9倍。

从2018年开始，亚马逊云科技就与AMD展开了合作，这次亚马逊云科技不仅展示了AMD实例在成本和性能上的优势，同时还宣布正在使用AWS Nitro和第四代EPYC Genoa处理器构建新实例Amazon EC2 M7a，目前Amazon EC2 M7a实例已经提供预览版，性能比M6a实例高出50%。AMD也会使用Amazon EC2 M7a实例处理内部的工作负载，包括芯片设计 EDA软件等。

今年，AMD在计算基础设施上又针对数据中心工作负载进行了优化，因为越来越多的应用都是云原生，AMD也带来了以吞吐量为导向，拥有最高终端密度和效率的AMD EPYC 97X4处理器“Bergamo”。

如果说Genoa是专注于通用的工作负载，Bergamo则专注于云服务器和数据中心，适用于云原生工作负载。

AMD EPYC Bergamo有高达128个内核，每个插槽有多达256个线程，一个普通的2U 4节点平台将有2048个线程。其是由820亿个晶体管组成，在尽可能小的空间内容纳尽可能多的计算能力，可提供一致的x86 ISA支持，最高的vCPU密度。AMD预计Bergamo在5年内将占所有数据中心处理器销售额的25%以上。

此次AMD EPYC Bergamo将Zen 4核心替换为Zen 4c，Zen 4c提供比Zen 4更高的密度，同时保持100%的软件兼容性。AMD优化了高速缓存层次结构，并进行了其他调整，从而节省了35%的裸片面积。CCD核心数量从8个增加到16个，CCD总数从12个减少到8个。

基于Zen 4c的Bergamo EPYC 9704系列处理器现已上市，目前包括EPYC 9754、EPYC 9754S、EPYC 9734三个型号。戴尔PowerEdge系列服务器已经实现支持，同时Bergamo处理器正在向大型云计算客户批量出货，Meta就计划在基础架构中使用 Bergamo，它的性能比上一代Milan芯片高出2.5倍。

除了Bergamo，AMD还带来了更针对技术计算的“Genoa-X”，以及针对电信和边缘计算的“Siena”，预计在下半年上市。

Genoa-X配备了3D V-Cache技术，通过在每个CCD顶部堆叠一个64MB L3 V-Cache芯片增加L3 缓存容量，让Genoa-X可以提供高达1152MB的总L3缓存。Genoa-X与具有相同内核数的友商处理器比较，在各方面都显示出了更强的优势。

目前Genoa-X系列三个型号分别是，96核的EPYC 9684X、32核的EPYC 9384X、16核的EPYC 9184X。

Microsoft Azure也宣布最新高性能计算用虚拟机HBv4与Azure HX使用Genoa-X，内存将是前一代3倍，工作负载的性能提升最高达到5.7倍。

1530亿晶体管芯片现世MI300X

对于生成式AI，可能现在每个人、每个企业都在关注。Lisa Su说，AI是目前技术的决定性大趋势。她概述了由大型语言模型 (LLM) 驱动的AI市场存在着巨大的市场机会，导致数据中心AI加速器的TAM到2027年将会达到1500亿美元，CAGR将超过50%。

其实在2023年第一季度，AMD就推出了CPU+GPU架构的Instinct MI300正式进军AI训练端。MI300结合AMD的Zen 4 CPU与CDNA 3 GPU，通过“统一内存架构”突破GPU与CPU之间的数据传输速度限制，满足未来AI训练和推理中，海量数据计算和传输的需求。

今天万众瞩目的Instinct MI300系列产品又发布了MI300A和MI300X。

MI300A是全球首个为AI和HPC打造的APU加速卡，目前已出样。其拥有13个小芯片，总共包含1460亿个晶体管，采用了24个Zen 4内核、CDNA3 GPU内核和128GB HBM3内存。与 MI250 相比，其提供了8倍的性能和5倍的效率。

MI300X是AMD针对大语言模型优化的版本，拥有12个5nm的小芯片，晶体管数量达到了1530亿个。MI300X没有集成CPU内核，采用了8 个CDNA3 GPU内核和4个IO内存内核设计。内存达到了192GB，内存带宽为5.2TB/s，Infinity Fabric带宽为896GB/s。

MI300X提供的HBM（高带宽内存）密度约为英伟达H100的2.4倍，HBM带宽则为1.6倍，这让运行更大的模型成为可能，从而降低成本。

现在在单个GPU上运行一个400亿参数的模型，已经不在是幻想。MI300X可以支持400亿个参数的Hugging Face AI模型运行，最多可以运行800亿个参数的模型，而且使用多个MI300X叠加可以处理更多的参数。

现场Lisa Su演示了在单个MI300X上运行拥有400亿个参数的Falcon-40B大型语言模型，写了一首关于旧金山的诗。

MI300X将在第三季度出样，第四季度加大生产，以挑战英伟达在市场重的领先地位。

AMD还发布了新的Instinct平台，可以加快客户的上市时间，并降低总体开发成本。其基于OCP开放计算标准，将8块MI300X加速卡并行，可提供总计多达1.5TB HBM3内存。

而且为了突破CUDA这个护城河，AMD正在不断发展ROCm，这是一套完整的库和工具，可以优化AI软件堆栈。不同于专有的CUDA，ROCm软件栈可与模型、库、框架和工具的开放生态系统兼容。AMD总裁Victor Peng也希望，未来在AI软件生态系统开发中持续采用“开放（软件方法）、经过验证（AI能力）、就绪（支持AI模型）”的理念。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

AMD这一把算是把AI玩明白了 原创

来源：至顶网计算频道

2023

06/14

14:23

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

AMD 发布新一代 AMD RDNA(TM) 4 架构，推出 AMD Radeon(TM) RX 9000 系列显卡

该需要多少 NVIDIA CUDA Cores ？

未来，就在我们手中

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

深度学习最佳 GPU，知多少？

一文读懂 GPU 资源动态调度

2024 AI服务器市场竞争格局

苏姿丰的十年历程回顾：AMD如何从英特尔廉价替代品成长为x86领域的有力竞争者

面临AMD及自身内部挑战，英伟达Green 500主导地位受到威胁

微软率先拿下HBM驱动的AMD CPU供货

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

AMD这一把算是把AI玩明白了原创