英特尔的第五代至强服务器处理器正降临多年以来竞争最为激烈的CPU战场。
不断变化的市场需求给芯片制造商们带来了大量机会,可以随机为边缘、云、AI乃至高性能计算应用等场景开发出高度优化的对应产品。
AMD的第四代Epyc和Instinct加速器就能满足这些市场需求。与此同时,AmpereComputing凭借其Arm兼容的云处理器获得了成功;英伟达的AI和HPC优化型超级芯片更成为系统制造商们眼中的“硬通货”。
我们还发现,各主要云服务商对于定制芯片的需求也在日益增加,包括亚马逊的Graviton和微软Cobalt。关于部分需求,我们将在后文中具体探讨。
面对纷繁复杂的行业态势,技术媒体The Register采访了英特尔至强部门负责人Lisa Spelman,希望了解不断变化的市场态势和过往障碍将如何影响英特尔数据中心处理器的发展轨迹,芯片巨头又是否对重振路线图、保持市场主导地位充满信心。
近年来,最令至强团队头疼的问题无疑出在Sapphire Rapids身上。
这款芯片原定于2021年推出,号称是英特尔有史以来最雄心勃勃的至强产品。在认可了AMD在小芯片架构方面的早期探索之后,英特尔希望把Sapphire Rapids打造成首款支持DDR 5、PCIe 5.0以及新兴计算快速链路(CXL)标准的数据中心芯片。不光如此,该芯片还计划支持大型四插槽与八插槽配置,并能够为高性能计算(HPC)客户提供封装有高带宽内存(HBM)的专用版本。
但事实证明,Sapphire Rapids的问题可能就出在太过雄心勃勃。于是英特尔不得不一再宣布延期交货,最初是2022年第一季度,之后又推迟到2022年年底。一系列难题最终导致这款处理器的出货时间定在了2023年1月,这无疑削弱了人们对于英特尔遵循至强产品路线图的信心。
在谈起Sapphire Rapids这段踉踉跄跄的量产之路时,Spelman的态度倒是轻描淡写,只表示“我们在10纳米制程方面确实略有落后,所以接下来的工作就都被耽搁了……当然,这只是最浅表的解释。”
她进一步补充称,英特尔公司内部也围绕着Sapphire Rapids的开发失误而进行了一系列结构性调整。Spelman告诉我们,“英特尔梳理了数据中心CPU交付过程中的每一个步骤并进行了相应调整。我们意识到公司在硅前模拟验证方面的投资总体不足,还需要考虑更大的集群规模和容量需求。”
Spelman还强调了至强团队与代工部门在合作方式上的变化。实际上,英特尔现在更像是晶圆代工(IFS)客户,而这样的转变也在客观上迫使工程师们更努力地思考如何进行CPU设计。
她在谈到Sapphire Rapids评论称“这是一场代价沉重的学习之旅。如果可以,我们绝对不想再来一次,但我也相信这段经验能让我们从根本上成为一家更强大的公司。”她还补充道,Emerald Rapids以及即将推出的Sierra Forest Granite Rapids处理器产品线都将从这些变化中获益。
说起英特尔的Emerald Rapids至强,这款产品已经成功达成了20%的平均性能提升,这在很大程度上要归功于3倍于上代方案的L3缓存和更精简的小芯片架构(使用双晶片、而非上代至强的四晶片)。
这些变化使得英特尔成功将核心数量增加到64个,已经较主流Sapphire Rapids平台的56核心有所进步,但仍远低于竞争对手平台上的96、128、144甚至是196核心。
不过这也在情理之中。毕竟英特尔长期以来的路线就是优先考虑每核心性能、而非一味强调核心数量,所以多年间跟竞争对手AMD走的就不是同一条路线。但从当下的市场变化来看、尤其是以云端使用场景为例,客户对于高核心数处理器的需求正愈发强烈。
但Spelman坚称,其实很少有客户因为核心数量相对较少而放弃英特尔产品。“我不是说完全不存在这种情况——毕竟高性能计算就是核心越多越好的典型用例——但具体还是要取决于客户的工作负载和应用程序需求,要看实际运行情况,还要考虑处理器能否更好地融入现有系统。”
“至强产品线有很多功能亮点是参数规格表所无法直接体现的。”
不过英特尔似乎也意识到多核CPU的竞争优势。Spelman坦言,“我们也会通过路线图朝着更高核心数量的方向发展,希望借此切实满足这部分客户的需求。”
根据她的说法,英特尔首款真正的多核CPU(当然,不包括至强Phi)不仅在核心数量上具有竞争力,而且只要一切进展顺利,其最终效能还将大幅超越竞争对手。
代号为Sierra Forest的云优化至强处理器计划于明年上半年上市,预计其旗舰级版本将提供多达288个能效核(E核),比Ampere One的192核还多出50%。
英特尔的Granite Rapids至强处理器将于2024年晚些时候发布。目前关于芯片巨头下一代性能核(P核)至强的详细信息仍然有限,但据了解它将拥有更高的核心数量、更强的性能表现,同时将在内存和I/O吞吐量方面迎来大幅提升。
Spelman表示,“结合市场的发展方向和现实需求,我们正进一步丰富性能核与能效核的产品线组合。”
随着越来越多云服务商转向定制芯片,以及Arm推动所谓计算子系统(CSS)的shake-'n-bake CPU设计,目前还无法判断英特尔是不是已经错过了云优化处理器这波市场机遇。
当前定制芯片领域的标杆无疑是亚马逊云科技,其坐拥Graviton GPU、Trainium与Inferentia AI加速器以及Nitro smartNIC。而且其他选择构建自有芯片的厂商还有很多。
经过多年的行业讨论,微软终于推出了Cobalt 100 CPU。这款CPU主要基于Arm的CSS构建模块,拥有128个处理器核心。除了Cobalt之外,微软还打造出用于训练和推理工作负载的Maia 100 AI加速器。
微软对Arm CSS的使用特别值得关注,这也是迄今为止Arm架构在CPU设计中最趋完整的体现。Arm的目标显然是吸引更多超大规模基础设施运营商和云服务商以CSS作为起点,借此开发自己的定制化Arm CPU。
除了亚马逊云科技和微软之外,还有其他厂商选择采用Arm核心。据传谷歌也在开发自己的芯片,代号为Maple。从报道来看,该芯片将使用Marvell的设计方案。虽然甲骨文还没有着手构建自己的定制化CPU,但已经在Ampere Computing的Arm兼容处理器上投入了大量资金。
Spelman肯定了亚马逊云科技及其Graviton在Arm生态系统中的“出色表现”,但并不担心英特尔公司在云领域的市场前景。
她解释道,云服务商“专注于以最高效的方式帮助客户解决问题。”也就是说“即使他们打造出自有产品,也不会拒绝外部厂商提供的更优选项。”
但Spelman也承认,如果英特尔能早一点启动Sierra Forest产品线,结果肯定会更好。
尽管英特尔在推动至强路线图重回正轨方面面临挑战,但Spelman表示芯片巨头在推动CPU与AI加速功能融合方面做出的努力已经开始有所回报。
“回顾七、八年前英特尔和我自己在Ronak Singhal和Sailesh Kottapalli项目上做出的决定,即占用一部分晶粒空间来承载AI加速功能,无疑极具前瞻性。毕竟在当时,人们都觉得我们在CPU上搞AI加速纯粹是疯了。但时间终将证明一切。”
Spelman指的当然是今年早些时候伴随Sapphire Rapids共同推出的高级矩阵扩展(AMX)技术。AMX旨在加速常见AI/机器学习推理工作负载,帮助客户减少对独立加速器的依赖。
这项功能也成为英特尔本周公布的Emerald Rapids至强处理器的一大核心卖点。这些芯片将对AMX引擎做出改进,并拥有更快的内存和更大的缓存。英特尔表示,其CPU产品线如今能够以更低的延迟运行体量更大的模型。
Spelman还提到,AMX引擎不会损害专门负责Gaudi AI加速器项目的英特尔Habana团队,后者对于推动计算技术持续发展同样非常重要。
根据之前的相关报道,英特尔新一代至强处理器能够在可接受的延迟水平下承载最大约200亿参数的AI模型。对于规模更大的模型,还是建议客户配合使用独立加速器。
回顾过往,Spelman表示她对至强团队取得的进展感到满意。“从管理者的角度来看,我现在的主要目标就是保持警惕、万万不可松懈。”
好文章,需要你的鼓励
北京大学与小红书公司联合研究团队提出的Uni-Instruct框架,成功统一了10多种现有单步扩散蒸馏方法。该框架基于新颖的f-散度扩散扩展理论,通过可计算的等价损失函数训练单步扩散模型。实验表明,Uni-Instruct在CIFAR10和ImageNet 64×64数据集上创造了新的单步生成记录,FID分别达到1.46和1.02,甚至超越了其79步教师模型。研究还成功将该方法应用于文本到3D生成任务,展示了统一框架在提升生成质量和效率方面的巨大潜力。
这篇研究介绍了KVzip,一种创新的查询无关KV缓存压缩方法,通过上下文重建机制为大型语言模型提供高效存储解决方案。该技术能将KV缓存大小减少394倍,同时提高解码速度约2倍,在各种任务上性能几乎不受影响。不同于传统查询相关的压缩方法,KVzip创建可在多种查询场景下重用的通用压缩缓存,特别适合个性化AI助手和企业信息检索系统。研究在LLaMA3.1-8B、Qwen2.5-14B和Gemma3-12B等多种模型上进行了验证,处理长度高达17万词元的文本,并能与KV缓存量化等其他优化技术无缝集成。
腾讯与上海交通大学联合推出的DeepTheorem研究突破了大型语言模型在数学定理证明领域的限制。该项目创建了包含12.1万个IMO级别非形式化定理的大规模数据集,开发了专门的RL-Zero强化学习策略,并设计了全面的评估框架。研究表明,通过使用自然语言而非传统形式化系统,即使是7B参数的模型也能在复杂定理证明上取得显著成果,超越许多更大的专业模型。这一成果为AI数学推理开辟了新途径,使语言模型能够像人类数学家一样思考和证明。
MAGREF是字节跳动智能创作团队开发的多主体视频生成框架,能从多张参考图像和文本提示生成高质量视频。该技术引入了区域感知动态遮罩机制,使单一模型灵活处理人物、物体和背景,无需架构变化;并采用像素级通道拼接机制,在通道维度上运作以更好地保留外观特征。实验表明,MAGREF在身份一致性和视觉质量方面优于现有技术,能将单主体训练泛化到复杂多主体场景,为内容创作者提供了强大而便捷的视频生成工具。