在一家大型电商公司中,有一个名为"星辰"的产品推荐团队。他们的任务是为每一个用户寻找属于他们的那颗“星”——最适合他们的产品。
在寻找产品的过程中,最大的挑战就是如何在亿万商品中,找到最符合每个用户需求和喜好的那一款。他们尝试过各种方法,但总是无法达到理想的效果。于是,他们决定尝试使用大模型。
随着大模型的阶段性部署,"星辰"搭建起一座连接用户和商品的桥梁,帮助用户在繁杂的商品海洋中找到他们的宝藏。同时星辰团队也收获了他们的成果.....近年来,大模型的发展取得了巨大的突破,许多"星辰"这样的企业都因大模型收获了成功。然而,AI入局带来的算力需求“跳变”,为AI的算力供给提出了新的要求——AI时代,应用正倒逼着AI算力加速扩展。
目前,支持AI计算的硬件多种多样,CPU、GPU、FPGA、ASIC都在在AI领域中都扮演着至关重要的角色,在AI领域,它们的作用就像是一场接力赛中不同赛道的选手。GPU主要负责“冲刺”,而CPU则是起跑选手,负责启动和协调整个比赛。
然而,随着AI进一步优化计算,对CPU的性能提出了更高的要求。
AMD EPYC处理器恰恰就可以满足这一要求。甚至,AMD EPYC新一代处理器正逐步突破数据中心的极限,提供更强大的性能、效率和可扩展性进一步为AI赋能。
现在,CPU在AI计算中的作用越来越大。在业内,一群AI研究人员得出了结论——“是时候让CPU再次攻克AI了”。
AMD携EPYC 争霸“AI江山”
AMD很早就推出了拥有超高性能的EPYC系列处理器,如今它又在AI计算领域展现出新的活力。
EPYC堪称AMD历史上最成功的产品系列之一,经历了初代Naples(那不勒斯),二代Rome(罗马),三代Milan(米兰)的潮流风暴后,四代Genoa(热那亚)等系列的相继推出,则将EPYC一副“壮丽之城”的图景展现在人们面前。
2022年,AMD发布了Zen 4架构的AMD EPYC处理器“Genoa”,采用了先进的5nm工艺,最多可达到96核心192线程,配备了12通道DDR5内存和160条PCIe 5.0总线。更大的内存总线,可以令更多数据在内存中进行快速加载,从而有效减少因数据传输而造成的时延;更多的PCIe总线意味着在单台服务器上可以接入更多AI计算板卡,意味着在更小数据中心空间内可以提供出更高密度的AI算力。
在今年6月份举办的“数据中心与AI技术首映”上,AMD针对云原生负载进行性了优化,带来了以吞吐量为导向,拥有最高终端密度和效率的AMD EPYC 9704处理器“Bergamo”。
如果说Genoa是专注于通用的工作负载,Bergamo则专注于云服务器和数据中心,适用于云原生工作负载。搭载了820亿颗晶体管的Bergamo,能够最高支持 128 个 Zen 4c 核心,兼容x86 ISA 指令,可相对满足深度云计算的应用需求。针对云原生应用,从数据上看,与至强铂金8490H相比,Bergamo的性能优势更是最高达到惊人的2.6倍。事实上,更多的核心数量,对AI应用的处理能力更强。更高的加速主频,则为AI计算提供了更高的管理和控制能力。
Bergamo EPYC 9704系列处理器包括EPYC 9754、EPYC 9754S、EPYC 9734三个型号。其中,EPYC 9754和EPYC 9754S两款拥有高达128核心,前者256路线程,后者则为128路线程,热功耗均为360W,默频2.25GHz,最高可加速至3.1GHz。EPYC 9734则拥有112个核心,224路线程,热功耗为320W,默频和加速频率也降至2.2GHz和3.0GHz,三款产品的L3缓存均为256MB。
同样在本次活动上,AMD还带来了针对更高性能计算的“Genoa-X”,它将每个CCD上额外堆叠了64MB 3D缓存,那么12个CCD就是768MB,总的三级缓存达到了惊人的1152MB,这也是处理器缓存史上第一次突破1GB,如果算上6MB一级缓存(每核心独享64KB)、96MB二级缓存(每核心独享1MB),Genoa-X的缓存总量达到了1254MB,性能堪称恐怖!
Genoa-X配备了3D V-Cache技术,能够使其在更加繁重的工作负载中释放出更高性能,让更多数据以更高的效能在CPU中传递,从而有效提升AI以及需要更多缓存处理计算的能力。3D V-Cache技术采用业界首创的Hybrid bond加穿透硅通孔技术(TSV)工艺,可以让L3缓存垂直堆叠,在不改变处理器面积的前提下,可使L3缓存(SRAM)总数增加三倍。
同时,更高的Cache能在更短的时钟周期内,对AI应用进行有效处理。资料显示,采用3D V-Cache的Genoa-X 系列可以在Ansys CFX中每天完成更多的设计任务,从而大幅加速产品开发。
拥有这样性能的第四代AMD EPYC处理器,几乎都是当前技术条件下所能达到的极致。
第四代AMD EPYC处理器 处处透着“领先”
第四代AMD EPYC处理器性能卓越的主要原因之一体现在Zen 4及Zen 4c架构方面。
AMD Zen架构诞生于2017年,迄今已经先后有了14nm Zen、12nm Zen+、7nm Zen 2、7nm Zen 3,以及5nm Zen 4 Genoa处理器产品。Genoa拥有先进的5nm工艺、Zen 4架构,凭借成熟的Chiplet布局,做到最多96核心192线程,还有12通道DDR5内存、160条PCIe 5.0总线。
技术的持续突破和迭代,使得AMD处理器在近年来得到了“井喷式”的增长,无论是产品性能,还是产品的功耗,AMD处理器都做到了空前的高度。
随着AMD沿袭对创新和品质的追求,在“Zen”架构的强势加持下,AMD走出了一条近乎完美的处理器之路。
Zen 4c架构的Bergamo让我们看到了AMD“Zen”架构“再下一城”。Bergamo首次采用Zen 4c核心,它与Zen 4都基于同样的ISA指令集和IPC性能,几乎所有的微架构指标都一模一样。
Zen 4c核心的专用L2缓存,大小与Zen 4核心相同,这意味着L2 SRAM单元占用着相同的面积,而AMD通过让L2控制逻辑电路更紧凑来减少L2缓存的区域面积,而在不包含L2和相关电路的区域,核心面积极大程度缩小。相比Zen4, Zen 4c设计面积缩小了35%,每瓦性能显著提高。Zen 4c核心针对性能和功耗的最佳平衡点进行了优化,这为我们提供了更好的密度和能效。
第四代AMD EPYC处理器的强大性能不言而喻,但AMD并未满足于此,正进一步拓展EPYC处理器生态,与其他厂商的硬件配合,展现出无与伦比的强大效果。
NVIDIA的DGX高性能计算平台,就一直在使用顶级的EPYC处理器,可以加速各种类型的AI工作负载,如数据分析、训练和推理等。
第四代AMD EPYC处理器强大的性能已领先业界一步,无疑已经成为AI计算领域综合能力最强的选择之一。这个充满变数的AI时代,在提升算力的未来道路上,第四代AMD EPYC处理器必将颠覆市场格局!
好文章,需要你的鼓励
微软推出 Copilot+ PC 标准,要求配备高性能 NPU,引发 AI PC 市场格局变化。英伟达虽在数据中心 AI 领域占主导,但在 PC 端面临挑战。文章分析了英伟达的 AI PC 策略、NPU 与 GPU 的竞争关系,以及未来 GPU 可能在 Copilot+ 功能中发挥作用的前景。
专家预测,随着人工智能技术的迅速发展和广泛应用,2025 年可能成为 AI 泡沫破裂的关键一年。尽管 AI 仍有望在多模态模型和自动机器学习等领域取得突破,但技术瓶颈、投资回报率下降、监管趋严以及环境和伦理问题等因素可能导致 AI 热潮降温。未来 AI 发展将更注重平衡和可持续性。
研究表明,现有的公开 AI 模型在描述大屠杀历史时过于简单化,无法呈现其复杂性和细微之处。研究人员呼吁各相关机构数字化资料和专业知识,以改善 AI 对这段历史的理解和表述。他们强调需要在 AI 系统中加入更多高质量的数据,同时在审查和信息获取之间寻求平衡。
Google 推出名为 Titans 的新型 AI 架构,是 Transformer 的直接进化版。Titans 引入了神经长期记忆、短期记忆和基于惊喜的学习系统,使 AI 更接近人类思维方式。这一突破性技术有望彻底改变 AI 范式,推动机器智能向人类认知迈进一大步。