英特尔架构日回顾:关于芯片巨头的广度、深度与未来

英特尔新近召开的架构日活动可以用“琳琅满目”来概括。借此机会,芯片巨头发布了新的CPU核心、加速计算块、处理器与显卡背后的技术细节,同时介绍了与这些处理器及显卡对应的跨PC、服务器、存储及商业/消费应用网络的软件。总之,就是“琳琅满目”。

英特尔架构日回顾:关于芯片巨头的广度、深度与未来

英特尔架构日

英特尔新近召开的架构日活动可以用“琳琅满目”来概括。借此机会,芯片巨头发布了新的CPU核心、加速计算块、处理器与显卡背后的技术细节,同时介绍了与这些处理器及显卡对应的跨PC、服务器、存储及商业/消费应用网络的软件。总之,就是“琳琅满目”。

但为了帮助大家快速把握其中的要点,我只能忍痛去掉一些细节,分享最具份量、最值得关注的成果。

最后要提醒大家,英特尔并没有在今年的架构日上发布任何实际产品(毕竟是架构日嘛),因此还无法判断这些产品的竞争力如何。主频、核心数量、芯片尺寸和功耗都不明确,但我会尽力推断出实际产品的最终形态。

下面,让我们从新的CPU核心开始说起。

异构X86 P”与“ECPU核心

我们之所以要把CPU核心与处理器分开探讨,是因为大部分CPU设计人员会在实际方案中重复使用设计元素与IP。

多年以来,英特尔一直努力通过加速的方式提高性能并降低核心的能耗水平,这招也确实在过去25年多的时间里大获成功。但随后ARM推出了big.LITTLE架构,得到苹果及高通等厂商的广泛采用。这些企业将big.LITTLE设计用于智能手机与新一代个人电脑,其中的“big”核心负责执行性能需求更高的事务,而“LITTLE”核心则处理后台任务,以最低功耗提供较低的性能容量。在初步发展过程中,ARM及其合作伙伴遇到了不少阻碍,毕竟在小核心与大小心之间统筹管理工作负载非常困难,操作系统开发商也需要提供一定协助。我猜测,ARM及其合作伙伴至少需要两到三个产品周期才能让这种异构设计“正确起效”。

在架构日中,英特尔引入了“E”核心用于效率、“P”核心用于性能的想法,同时发布一种名为“线程导向器”(Thread Director)的算法以高效管理这些线程。我在Windows 11上就提出过不少关于线程导向器的问题,并意识到英特尔和微软这对好兄弟确实从ARM和Android身上学到了不少好东西。所以这次他们的实现方案没准效果更好,至少会与竞争对手相当。千万别忘了,英特尔可是线程管理领域的大师,几十年来一直在处理器中使用SMT机制。虽然MIC(Many Integrated Core)是一场惨烈的市场失败,也确实跟线程管理脱不了干系,但其中最大的症结在于选错了工作负载类型——试图从GPU手里抢饭碗。

对我来说,P核(主要面向数据中心)身上最值得关注的就是高级矩阵扩展(AMX),英特尔宣称它能将INT8机器学习的速度提高8倍。同样有趣的是,AVX512被从客户处理器上剔除掉了,意味着PC上的机器学习加速将由CPU上的AVX2-VNNI与GPU上的DP4a提供。令我意外的是,英特尔居然闭口不谈AVX2-VNNI的性能情况,所以还是要等后续产品发布时才能具体评价。

总体而言,P核与E核的性能声明令人印象深刻,但任何厂商的早期公告内容都可能有不少水份,还不适合拿来直接跟竞争对手做比较。唯一可以肯定的,就是P核与E核在架构层面较上代方案有了很大飞跃。

Alder Lake PC处理器

我们在前文中谈到即将面向客户端及数据中心产品线发布的CPU核心。这些P核、E核以及其他IP块将被共同集成至Alder Lake处理器当中,分别负责I/O、内存、图形处理等事务,最后封装进相应的笔记本电脑或台式机之内。

Alder Lake最多可容纳8个P核加8个E核,最多提供24个线程,其中16个来自P核、8个来自E核。如果这就是架构的容纳极限,那么AMD恐怕仍然在线程数量方面保持优势,这对于高端计算设备、特别是台式机而言至关重要。为了占据优势,英特尔需要用“真正的性能”打败对手——因此在会上,芯片巨头强调大多数人和应用程序并不能彻底利用所有核心,而且英特尔实实在在的机器学习推理能力要比大量闲置核心有用得多。正是为了验证英特尔的说法,我才特别希望了解AVX2-VNNI的机器学习性能以及有哪些软件开发商和工作负载愿意提供支持。英特尔之前就推出过机器学习加速方案,但在市场上没能掀起多少波澜,问题就在于支持该功能的应用程序太少。

我还好奇,英特尔会在P核和E核配置与性能方面拿出怎样的营销手段。有些客户更关心核心数量,而非各个核心的独立性能。在低价、低功耗的笔记本电脑中提供8个E核的处理器肯定更有吸引力。想要更多核心又不想花钱?399美元即可拥有一款包含8个奔腾性能级核心的轻薄笔记本,心不心动?

结合目前的情况,我认为英特尔应该是在单一P核的整数计算性能方面扳回了一城,所以相信英特尔将继续在高性能商务笔记本电脑与低核心数台式机上获得市场青睐。但目前断言还为时过早,等到Alder Lake发布、系统完成基准测试并听过AMD给出的响应方案之后,我们才能得到最终结论。

另外请注意,性能并不是决定市场成败的唯一关键。过去三年以来,AMD在市场上获得了高度关注,但份额占比始终超不过25%,这已经足够说明问题了。芯片的真正成功,还要求能帮助OEM及ODM厂商开发出适用且丰富多样的平台,要求独立软件开发商优化其中的特殊功能,并通过分销渠道进行顺畅销售。这些都是英特尔牢牢把握的传统优势,而且预计整体形势在短时间内不会有太大变化。

Xe HPG架构、Alchemist GPU以及专为游戏而生的Arc品牌

多年以来,英特尔已经将计算的定义从CPU扩展至GPU、NPU、IPU、固定函数加速器甚至是FPGA领域。英特尔已经有几十年的集成显卡开发经验,但却始终没能成功进军独立显卡市场。直到四、五年前,英特尔才首次采用与以往截然不同的配套软件并尝试构建“真正的”GPU(相对于MIC)。

在本次大会上,英特尔介绍了我认为最值得关注的三大重点。首先就是Arc品牌旗下的Alchemist产品将基于台积电的N6节点进行制造。这让我对制造及交付能力充满信心。其次,此产品引入一种新的、支持机器学习的所谓“XeSS”上采样技术。第三,这款产品具备用于光线追踪功能的特殊块,可以看到与英伟达及AMD的实现方法非常相似。我觉得这事有戏,毕竟英伟达一直是最高端PC游戏显卡的代名词——但夸夸其谈不值钱,一切都要由结果来决定。另外,与英伟达一样,我相信英特尔也会投入大量资源和精力引导更多软件开发商采用这项技术。希望英特尔能选择oneAPI方法全面支持AMD、英伟达与自家显卡,别逼着游戏开发者们作出站队选择。

总而言之,我认为英特尔没有理由不能在游戏用独立显卡市场上分一杯羹,至少也能拿到一定的份额。即使是在最差的情况下,英特尔也无非是低迷一个季度,AMD与英伟达刷新纪录,但英特尔这边仍然维持着稳定的高性能中端产品。

Sapphire Rapids数据中心处理器

Alder Lake面向PC端,Sapphire Rapids则专为数据中心打造,对应的产品为至强Scalable处理器。与Alder Lake不同,Sapphire Rapids采用模块化设计,更像是采用英特尔EMIB进行封装的AMD EPYC。如果英特尔能够尽可能降低各子系统之间的延迟,也就是克服AMD遇到的早期问题,相信这套方案将大有可为。这种模块化设计不仅有助于降低晶圆代工厂的风险,也能拉低设计调整的实现成本、加快工程设计速度。现在,代工厂不需要在Intel 7上制造更大的单片晶片,而是制造较小的晶片并改变封装设计即可。与单片晶片相比,采用小型晶片应该也能提高单一晶圆中的晶片良品率。

与上一代Ice Lake一样,英特尔明显是在关键工作负载与算法加速方面持续投入,关注重点包括机器学习(AMX)、密码学、数据流、加密、压缩、解压缩甚至是微服务等。这种加速能力,则源自固定函数加速器、架构自身设计以及丰富的优化算法。

老实说,我不知道Sapphire Rapids的实际表现究竟如何,或者能够从竞争对手身上汲取多少力量。但结合背景讨论,我认为英特尔在工作负载加速方面将拥有很强的性能竞争优势。另外,微服务与流媒体类工作负载也早已成为主流,所以有望给新产品带来突出的卖点。不过实际情况如何,还要等待英特尔后续发布的更多细节信息。

不要忘记,性能与功耗只是数据中心处理器的一部分指标,目前英特尔仍掌握着全球85%的服务器市场份额。与消费级产品一样,英特尔在数据中心领域同样为OEM及ODM厂商提供设计资金、帮助他们降低研发支出,在独立软件开发商及开源软件领域投入大量资源,同时准备可观的企业营销预算。另一方面,AMD公司暂时好像还没有这方面的投资打算。

Mount Evans基础设施处理单元 (IPU)

大多数人都清楚CPU和GPU是什么,但IPU到底是什么东西,很多朋友可能还没有概念。英伟达与Marvell将其称为“DPU”,总之IPU的核心定位在于取代数据中心与边缘位置的主CPU,由此提供可预测性更强、效率更高的应用性能,并为云服务商及运营商提供迫切需要的虚拟化功能。随着数据中心与边缘场景的快速发展,IPU已经成为行业当中新的讨论焦点。

英特尔公布其首款基于ASIC(相对于FPGA)的IPU,名为Mount Evans,专门面向云服务商推出。英特尔此前已经拥有基于FPGA的IPU,并表示新产品是“与主流云服务商”协同开发。考虑到英特尔在边缘以及Azure场景下推出的大量FPGA方案,我个人猜测这个合作方应该就是微软Azure。

披露内容中的另一大惊喜,在于其Compute Engine将基于ARM Neoverse N-1——着实令人意外!

有一说一,目前我们很难衡量英特尔方案同Marvell DPU的竞争关系;而英伟达的当前关注重心也放在企业级数据中心层面,在云服务商及其DPU方面也还没有全面发力。

面向高性能计算与AIXe HPC架构及Ponte Vecchio GPU

Xe HP“G”架构、Alchemist GPU以及Arc品牌全部指向高性能游戏GPU,而Xe HP“C”架构以及Ponte Vecchio GPU则专门面向高性能计算(HPC)与AI场景。英特尔将Ponte Vecchio称为一款“SoC”,但在我个人看来,任何无法引导的东西都不能被称为“SoC”。

英特尔紧随英伟达A100的脚步推出了Ponte Vecchio以及Xe HPC架构。芯片巨头宣称,45万亿次FP32浮点运算能力与强大的ResNet训练与推理成绩让这款芯片占据市场领先,但我们显然无法用A0阶段芯片的基准成绩全面评估最终出货产品。另外,英伟达方面也会不断更新其软件与性能水平。

我对Xe HPC的可扩展架构很感兴趣,也期待看到后续光线追踪单元的可视化效果。Ponte Vecchio确实是一只真正的性能野兽,容纳超过1000亿个晶体管、采用3 Foveros栈PLUS EMIB,同时结合Intel 7基底晶片与台积电N5计算与链接晶片。英特尔表示,这款GPU将于2022年推出。

Ponte Vecchio GPU主要侧重于机器学习训练和推理,Habana Gaudi也有同样的定位——但Gaudi基于ASIC而非GOU。我觉得英特尔做出新的尝试是好事,但不知道他们能坚持多久。我的个人猜测时,在审视了其他各类基于ASIC的机器学习训练方案和巨大的芯片尺寸之后,英特尔觉得还是这条路走得通。

总结

英特尔CEO Pat Gelsinger最后回归现场,并表示迫不及待想分享更多更加振奋人心的技术细节。我知道,今年架构日大会上公布的内容还填不满与会者们的肚子,但我个人觉得已经很不错了。毕竟架构日只是开始而不是终点,代表着内部立项与产品实际发布之间的过渡阶段。我会耐心等待产品发布,看看自己的推测到底靠不靠谱。英特尔已经昭示了自己的野心,接下来就看他们能不能言行合一了。

来源:业界供稿

0赞

好文章,需要你的鼓励

2021

08/24

14:15

分享

点赞

邮件订阅