有时候能成为新闻的不只是变化,特别是从过去几年间英特尔的情况来看,CPU路线图的不变本身就是新趋势。但在本周于圣何塞召开的Innovation 2023大会上,英特尔给至强SP带来了好消息,逐步融入GPU-AI加速器的发展战略也在一步步得到巩固。
英特尔首席执行官Pat Gelsinger是这家芯片设计与制造巨头的第二代领导人之一,当年曾直接在公司联合创始人Gordon Moore、Robert Noyce、特别是Andy Bryant手下学习技术。而本轮变革的重任,也落在了他的肩上。如他所言,新的“芯片经济”正在推动价值5740亿美元的产业,进而撬起总值近8万亿美元的全球科技经济。这些数字体现为个人与企业级计算、存储、网络和数据中心支出,又将反过来推动所有软件与IT服务供应商、电信企业和服务商、超大规模广告与搜索业务,甚至包括在线零售业务。Gelsinger要做的并不是厘清整个“芯片经济”中的每个细节,而是要确保开发者达成共识:英特尔,将在这个时代继续保持“统治”。
在我们看来,开发商首先定义需求,再逐步满足需求并加以维护。在此过程中,有少数开发商建立起如今声名显赫的软件公司,又或者打造出超大规模云体系,最终身居市场高位指点江山、规划经济活动。所以市场不会说谎,谁在统治、谁被裹挟可谓一目了然。换言之,尽管整个世界的发展和演变是开发者们集体努力的结果,但我们必须承认的是真正主导一个个关键节点的、往往并不是全球数千万开发者这个集体。
接下来,让我们认真看看英特尔的数据中心计算引擎,先从至强SP系列开始:
此次重大消息是,基于英特尔能效(E)核(代号「Sierra Glen」)的至强SP“Sierra Forest”变体将迎来规格翻倍,芯片上最多可容纳288个核心。
Sierra Forest将对接与后续“Granite Rapids”至强SP相同的“Birch Stream”服务器平台,前者计划采用“Redwood Cove”性能(P)核并于2024年推出。而下一代能效核芯片“Clearwater Forest”将于2025年亮相,但目前还没有公布所搭载核心的具体代号(上图所示为Gelsinger发布的演示幻灯片,其中没有提到这三款服务器CPU将在「Mountain Stream」之后迎来哪款继任平台)。
再来看Gelsinger在Innovation 2023的主题演讲上兴起的Sierra Forest样片:
我们仍在认真研究能效核和性能核两大架构。从之前的情况来看,能效核不包含AVX-512向量单元或AMX矩阵单元,也不会采用英特尔HyperThreading同步多线程所实现的每核双线程设计。
Sierra Forest芯片将采用Intel 3,即5纳米极紫外(EUV)工艺进行蚀刻。之所以取名叫Intel 3,是为了与竞争对手台积电的3纳米工艺3N在名头上保持对待。但Intel 3实际属于5纳米制程工艺,如此定名明显透露出英特尔的一股不自信。
截至目前,英特尔表示Sierra Forest芯片将拥有144个核心加6条DDR5内存通道。英特尔的工程师们找到一种方法,可以将2个Sierra Forest小芯片塞进单一Birch Stream插槽,从而实现单插槽288核心加12条DDR5内存通道的夸张配置。这些Sierra Forest芯片与基于性能核的Granite Rapids至强SP同样采用Intel 3制程工艺;两款产品均计划在2024年内投放市场,且Sierra Forest已确认将在2024年上半年与用户见面。
但英特尔目前对于Granite Rapids的一切性能参数均含糊其辞,仅表示它会紧随Sierra Forest之后发布。从这样的表述看,其上市时间有可能是2024年5月或6月,但仅仅只是猜测。英特尔目前之所以不想过多谈论Granite Rapids P核芯片,是为了防止抢掉当前“Sapphire Rapids”至强SP v4处理器的风头。后者今年1月才正式推出,而且已经确定会被12月14日发布的“Emerald Rapids”至强SP v5所取代。
也就是说,这些芯片已经在超大规模基础设施运营商和云服务商手中运行好几个月了……下代Emerald Rapids仍将采用改良版Intel 7(某种程度上类似于改良版的10纳米制程,但名义上是与7纳米制程对打)工艺进行蚀刻,与当前Sapphire Rapids至强SP v4芯片保持一致。
英特尔研究员兼至强SP系列首席架构师Ronak Singhal在采访中表示,Emerald Rapids芯片的核心数量将适度增加(猜测会从60核增加为64核),并匹配更高的DDR5内存速率,配合UltraPath互连(UPI)对接多插槽系统中的各个插槽。与Sapphire Rapids芯片所使用的“Golden Cove”核心相比,Emerald Rapids CPU中使用的“Raptor Cove”核心在微架构上有所变化,但具体情况尚不明确。Gelsinger则明确表示,在相同的发热量之下,Emerald Rapids在AI等关键工作负载上的性能将比Sapphire Rapids高出40%。
Gelsinger在主题演讲中介绍称,“我还记得当初推出首款4核产品时的情景。”相信大家也同样记得,那是在2009年3月,经济衰退对全球市场造成了严重打击,而英特尔则逆势发布“Nehalem”至强E5。“而现如今,核心数量已经来到288个……可能我已经老了,但这个数字真的让我感到震撼。对于整个CPU行业、包括我们的至强客户来说,2024年将是非常值得期待的一年。”
在性能方面,Gelsinger表示与之前的Sapphire Rapids至强SP v4芯片和Granite Rapids至强SP v6性能核芯片相比,Sierra Forest能效核处理器的机架计算密度提高了2.5倍,每瓦性能来到2.4倍,能够提供的AI性能预计将达到Sapphire Rapids芯片的2到3倍。看起来,这次能效核也将迎来AMX矩阵运算的加持。
英特尔也没有提及预计将在2025年推出的“Diamond Rapids”至强SP v7会对Granite Rapids产生怎样的影响。但如果Clearwater Spring至强SP v6能在2025年携Intel 18A制程顺利推出,那我们似乎有理由相信Diamond Rapids也会从Intel 20A转向Intel 18A(正如Granite Rapids从Intel 4转向Intel 20A一样)以发挥制程升级带来的潜力。
而下一步顺理成章的改进方向,自然就是把Max GPU系列跟Habana Gaudi矩阵数学加速器进行融合。
英特尔目前正在销售7纳米Gaudi 2矩阵引擎,Gelsinger也再次提醒我们,这款产品在大规模AI工作负载上拥有出色的性价比,而采取5纳米制程升级和架构改进的Gaudi 3引擎也已经进入流片阶段。但在此之后,英特尔将把自家GPU跟NNP(神经网络处理器)产品线合并起来,似乎是打算用Habana矩阵数学引擎及软件、集成以太网网络、外加Xe GPU向量引擎共同打造未来的“Falcon Shores”计算引擎。虽然这跟英特尔最初为Falcon Shores设置的CPU-GPU混合计算引擎定位有所区别,但仍算得上是个可行的解决思路,也的确能把英特尔当前的GPU客户(虽然不多)跟NNP受众结合起来。但千万不要误会,Falcon Shores属于GPU、而非NNP。
英特尔还高兴地看到,其Developer Cloud已经顺利启动并承载起Gaudi 2设备、Sapphire Rapids CPU、Max系列CPU的HBM变体,以及“Ponte Vecchio”Max系列GPU。英特尔此次宣布,正在构建一套包含4000台Gaudi 2设备、主要进行数学计算的混合CPU-NNP集群,Gelsinger称这将是全球排名“前15”的AI超级计算机,主要客户包括发布了知名生成式AI绘图模型Stable Diffusion的初创公司Stability.ai。
Stability.ai似乎不大可能直接买下这套集群,选择租赁的几率更高。另外,还不清楚该集群是否会被纳入英特尔Developer Cloud或者交由第三方服务商进行托管。目前,Stability.ai正在使用亚马逊云科技提供的Ezra-1 UltraCluster(号称是全球第五大超级计算机)运行其Stable Diffusion平台。
看来英特尔已经发现并把握住了新时代的脉搏。在AI浪潮的轻拂之下,任何一家芯片厂商只要能以合理的价格和发热水平交付一套矩阵数学引擎,并能在其上顺畅运行TensorFlow或者PyTorch,但它就完全可以拿来卖钱——或者选择更划算的方式,拿来出租。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。