英特尔欲在CPU上运行AI，并表示其第五代至强完全能够胜任

在深入研究英特尔的CPU加速AI策略之前，我们不妨先来看看这款芯片本身。尽管今年是至强产品家族的正常更新年，但与上一代相比，英特尔确实在幕后做了相当程度的改变，努力提高芯片的性能与效率水平。

下一代至强将拥有更多核心、更大的缓存和更简单的小芯片架构。

本周四，英特尔在纽约召开的AI Everywhere大会期间，公布了拥有更多核心、更大缓存以及机器学习功能的第五代至强Scalable处理器。

这家x86巨头希望新一代至强芯片能够吸引那些专用AI加速器的客户，并宣称该处理器“毫无疑问将是最佳AI用CPU”。的确，英特尔是少数几家将AI加速设计（即高级矩阵扩展，即AMX指令）纳入数据中心芯片的厂商之一，所以此番宣传似乎所言不虚。

与Sapphire Rapids相比（这里多提一句，Sapphire Rapids经历了一年多的跳票、直到今年1月才正式上市），英特尔表示第五代至强的AI推理速度提升至1.4倍，并可为各类应用提供可接受的延迟表现——当然，仅限于体量较小的机器学习应用。

CPU对AI推理有意义吗？英特尔认为答案是肯定的

由于市场对于AI加速器的需求远超供应能力，所以英特尔正推动其Emerald Rapids至强作为理想的推理平台，并对芯片进行了多项显著改进，旨在增强其AMX加速功能。

具体来讲，英特尔调整了AVX-512与AMX模块的睿频频率，旨在有关法律由激活这些指令带来的性能损失。该公司声称，除了架构改进之外，某些工作负载的推理性能也比前代至强提高了42%。

然而，随着GPT-4、Meta Llama 2和Stable Diffusion等大语言模型风靡一时，英特尔也开始讨论在其CPU上运行小体量模型的能力。对于此类工作负载，决定性能的主要因素落在了内存带宽和延迟之上。于是，新一代至强的4500 MT/秒DDR5无疑将有所帮助，但仍无法完全取代HBM。尽管英特尔实际上也开发过带有HBM的CPU，但在Aurora和Crossroads超级计算机中使用的至强Max系列处理器在这一代并没有新品问世。

根据英特尔的介绍，参数规模不超过200亿参数的大语言模型完全可以在第五代至强上良好运行。

即使如此，英特尔表示在使用双插槽至强平台的GPT-J模型当中，下一token的响应延迟（即响应提示词而生成单词或短语的速度）已经可以控制在约25毫秒左右。

但从图表中可以看到，随着参数规模的增加，延迟也将同步提升。不过英特尔表示，在运行Llama 2 13B模型时，第五代至强已经能够将延迟控制在最低62毫秒，完全满足芯片厂商们普遍设定的100毫秒标准。

据我们了解的情况，英特尔已经能在最高200亿参数的模型上实现可接受的延迟。除此之外，芯片巨头还通过分布式模型展示了可接受的下一token响应延迟，例如跨四个双路节点的Meta 700亿参数Llama 2模型。

尽管仍有局限，但英特尔坚称其客户已经在尝试通过CPU运行大模型推理。当然，对此我们并不怀疑。以可接受的性能水平运行大语言模型或者其他机器学习工作负载，确实有望显著降低成本，回避当前已经极为夸张的GPU设备售价。

然而，对于那些希望运行更大模型（例如拥有1750亿参数的GPT-3）的用户来说，像英特尔自家Habana Gaud2这样的专用AI加速器似乎短时间内仍不会到来。

说起这个，英特尔提到Gaudi 3将于2024年发布，并与英伟达的H100和AMD的MI300X正面竞争。不过，芯片巨头并没有具体透露该芯片的细节信息。

好戏还在后头

虽然英特尔的Emerald Rapids至强确实改进不小，但这款芯片的风头却仍被英特尔的下一代数据中心处理器抢走了大半。

过去几个月间，英特尔一直在宣传其性能与能效核至强处理器，代号分别为Granite Rapids和Sierra Forest。这些芯片有望带来更夸张的核心数量，支持更大、更快的内存，并将成为首批采用英特尔推迟已久的真7纳米（即Intel 3）制程工艺的产品。

其中Sierra Forest将于明年上半年推出，号称能在单插槽系统中提供最多288个能效核心——即每计算块144个核心。

另一方面，Granite Rapids则计划在2024年晚些时候推出。根据我们从今年夏季英特尔Innovation大会上得到的消息，该处理器将采用新的模块化小芯片设计，最多可包含三个计算块、且两面各设有一个I/O芯片。

英特尔尚未透露Granite Rapids将提供多少核心，但在今年夏季的Hot Chips大会上，芯片巨头称将提供136条PCIe通道和12条内存通道，并支持8800 MT/秒MCR DIMM。如此一来，芯片的内存带宽将提升至约845 GB/秒，这无疑对大语言模型推理性能增益巨大。

当然，其他厂商也绝不可能坐视英特尔的新一代产品横扫市场。AMD公司预计将在明年年内推出代号为Turin的第五代Epyc处理器。与此同时，各大主要云服务商也先后公布了自家基于Arm架构的新款CPU。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

英特尔欲在CPU上运行AI，并表示其第五代至强完全能够胜任

更多核心、更大缓存

CPU对AI推理有意义吗？英特尔认为答案是肯定的

好戏还在后头

来源：至顶网计算频道

2023

12/16

08:43

分享

点赞

爱立信与Orange携手打造可适应绿色网络

微软将Windows打造为"智能体操作系统"

谷歌发布Gemini 3，新增编码应用并创基准测试纪录

Windows正在成为AI智能体的操作系统

macOS Tahoe 26.2支持Mac集群组建AI超级计算机

Lambda获得15亿美元融资建设AI数据中心

Gemini 3接近万能软件节点：AI成为全新用户界面

微软推出数字标牌模式，15秒后自动隐藏蓝屏死机界面

“我们曾是怪咖，我有阅读障碍，不看报表做决策”：5000亿美金市值后，美国AI落地标杆 Palantir CEO 谈20年反共识

圆满收官！2025年第二届中关村具身智能机器人应用大赛落幕，赛事亮点全面回顾

当宕机不可避免，混合云策略战略需具备多云弹性

返璞归真，行稳致远：SOLIDWORKS以AI赋能设计，渠道驱动增长

DeepSeek之后，中国人形机器人以“群体智能”再次掀起技术浪潮

QwQ-32B模型成本地部署福音，通义App可第一时间体验

入局智驾的印奇，看到了怎样的未来？

成本打到6万以下，手把手教你用4路锐炫显卡+至强W跑DeepSeek

千里科技亮相吉利AI智能科技发布会，共启“AI+车”新纪元

天翼云CPU实例部署DeepSeek-R1模型最佳实践

京东云与宝德计算战略签约，共绘分布式存储与智算新未来

MWC 2025：英特尔展示基于至强6处理器的基础网络设施

全球AI顶会AAAI 2025 在美开幕，产学研联手的“中国队”表现亮眼

蚂蚁数科提出创新跨域微调框架ScaleOT入选全球AI顶会AAAI 2025

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: