在一家大型电商公司中,有一个名为"星辰"的产品推荐团队。他们的任务是为每一个用户寻找属于他们的那颗“星”——最适合他们的产品。
在寻找产品的过程中,最大的挑战就是如何在亿万商品中,找到最符合每个用户需求和喜好的那一款。他们尝试过各种方法,但总是无法达到理想的效果。于是,他们决定尝试使用大模型。
随着大模型的阶段性部署,"星辰"搭建起一座连接用户和商品的桥梁,帮助用户在繁杂的商品海洋中找到他们的宝藏。同时星辰团队也收获了他们的成果.....近年来,大模型的发展取得了巨大的突破,许多"星辰"这样的企业都因大模型收获了成功。然而,AI入局带来的算力需求“跳变”,为AI的算力供给提出了新的要求——AI时代,应用正倒逼着AI算力加速扩展。
目前,支持AI计算的硬件多种多样,CPU、GPU、FPGA、ASIC都在在AI领域中都扮演着至关重要的角色,在AI领域,它们的作用就像是一场接力赛中不同赛道的选手。GPU主要负责“冲刺”,而CPU则是起跑选手,负责启动和协调整个比赛。
然而,随着AI进一步优化计算,对CPU的性能提出了更高的要求。
AMD EPYC处理器恰恰就可以满足这一要求。甚至,AMD EPYC新一代处理器正逐步突破数据中心的极限,提供更强大的性能、效率和可扩展性进一步为AI赋能。
现在,CPU在AI计算中的作用越来越大。在业内,一群AI研究人员得出了结论——“是时候让CPU再次攻克AI了”。
AMD携EPYC 争霸“AI江山”
AMD很早就推出了拥有超高性能的EPYC系列处理器,如今它又在AI计算领域展现出新的活力。
EPYC堪称AMD历史上最成功的产品系列之一,经历了初代Naples(那不勒斯),二代Rome(罗马),三代Milan(米兰)的潮流风暴后,四代Genoa(热那亚)等系列的相继推出,则将EPYC一副“壮丽之城”的图景展现在人们面前。
2022年,AMD发布了Zen 4架构的AMD EPYC处理器“Genoa”,采用了先进的5nm工艺,最多可达到96核心192线程,配备了12通道DDR5内存和160条PCIe 5.0总线。更大的内存总线,可以令更多数据在内存中进行快速加载,从而有效减少因数据传输而造成的时延;更多的PCIe总线意味着在单台服务器上可以接入更多AI计算板卡,意味着在更小数据中心空间内可以提供出更高密度的AI算力。
在今年6月份举办的“数据中心与AI技术首映”上,AMD针对云原生负载进行性了优化,带来了以吞吐量为导向,拥有最高终端密度和效率的AMD EPYC 9704处理器“Bergamo”。
如果说Genoa是专注于通用的工作负载,Bergamo则专注于云服务器和数据中心,适用于云原生工作负载。搭载了820亿颗晶体管的Bergamo,能够最高支持 128 个 Zen 4c 核心,兼容x86 ISA 指令,可相对满足深度云计算的应用需求。针对云原生应用,从数据上看,与至强铂金8490H相比,Bergamo的性能优势更是最高达到惊人的2.6倍。事实上,更多的核心数量,对AI应用的处理能力更强。更高的加速主频,则为AI计算提供了更高的管理和控制能力。
Bergamo EPYC 9704系列处理器包括EPYC 9754、EPYC 9754S、EPYC 9734三个型号。其中,EPYC 9754和EPYC 9754S两款拥有高达128核心,前者256路线程,后者则为128路线程,热功耗均为360W,默频2.25GHz,最高可加速至3.1GHz。EPYC 9734则拥有112个核心,224路线程,热功耗为320W,默频和加速频率也降至2.2GHz和3.0GHz,三款产品的L3缓存均为256MB。
同样在本次活动上,AMD还带来了针对更高性能计算的“Genoa-X”,它将每个CCD上额外堆叠了64MB 3D缓存,那么12个CCD就是768MB,总的三级缓存达到了惊人的1152MB,这也是处理器缓存史上第一次突破1GB,如果算上6MB一级缓存(每核心独享64KB)、96MB二级缓存(每核心独享1MB),Genoa-X的缓存总量达到了1254MB,性能堪称恐怖!
Genoa-X配备了3D V-Cache技术,能够使其在更加繁重的工作负载中释放出更高性能,让更多数据以更高的效能在CPU中传递,从而有效提升AI以及需要更多缓存处理计算的能力。3D V-Cache技术采用业界首创的Hybrid bond加穿透硅通孔技术(TSV)工艺,可以让L3缓存垂直堆叠,在不改变处理器面积的前提下,可使L3缓存(SRAM)总数增加三倍。
同时,更高的Cache能在更短的时钟周期内,对AI应用进行有效处理。资料显示,采用3D V-Cache的Genoa-X 系列可以在Ansys CFX中每天完成更多的设计任务,从而大幅加速产品开发。
拥有这样性能的第四代AMD EPYC处理器,几乎都是当前技术条件下所能达到的极致。
第四代AMD EPYC处理器 处处透着“领先”
第四代AMD EPYC处理器性能卓越的主要原因之一体现在Zen 4及Zen 4c架构方面。
AMD Zen架构诞生于2017年,迄今已经先后有了14nm Zen、12nm Zen+、7nm Zen 2、7nm Zen 3,以及5nm Zen 4 Genoa处理器产品。Genoa拥有先进的5nm工艺、Zen 4架构,凭借成熟的Chiplet布局,做到最多96核心192线程,还有12通道DDR5内存、160条PCIe 5.0总线。
技术的持续突破和迭代,使得AMD处理器在近年来得到了“井喷式”的增长,无论是产品性能,还是产品的功耗,AMD处理器都做到了空前的高度。
随着AMD沿袭对创新和品质的追求,在“Zen”架构的强势加持下,AMD走出了一条近乎完美的处理器之路。
Zen 4c架构的Bergamo让我们看到了AMD“Zen”架构“再下一城”。Bergamo首次采用Zen 4c核心,它与Zen 4都基于同样的ISA指令集和IPC性能,几乎所有的微架构指标都一模一样。
Zen 4c核心的专用L2缓存,大小与Zen 4核心相同,这意味着L2 SRAM单元占用着相同的面积,而AMD通过让L2控制逻辑电路更紧凑来减少L2缓存的区域面积,而在不包含L2和相关电路的区域,核心面积极大程度缩小。相比Zen4, Zen 4c设计面积缩小了35%,每瓦性能显著提高。Zen 4c核心针对性能和功耗的最佳平衡点进行了优化,这为我们提供了更好的密度和能效。
第四代AMD EPYC处理器的强大性能不言而喻,但AMD并未满足于此,正进一步拓展EPYC处理器生态,与其他厂商的硬件配合,展现出无与伦比的强大效果。
NVIDIA的DGX高性能计算平台,就一直在使用顶级的EPYC处理器,可以加速各种类型的AI工作负载,如数据分析、训练和推理等。
第四代AMD EPYC处理器强大的性能已领先业界一步,无疑已经成为AI计算领域综合能力最强的选择之一。这个充满变数的AI时代,在提升算力的未来道路上,第四代AMD EPYC处理器必将颠覆市场格局!
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。