Arm Hot Chip大会揭密:加快芯片开发步伐、探索性能提升空间

就在提交IPO申请的一周之后,Arm公司决定在Hot Chips上发布Neoverse计算子系统(CSS)与Neoverse V2平台。

一年一度的Hot Chips大会即将于本周在斯坦福大学举行。Hot Chips是半导体设计专家们的重要盛会,这里的“技术浓度”堪称业界之最。此次会议不仅希望将芯片领域最睿智的头脑齐聚于一堂,更可供大型芯片厂商发布新品、展示未来前景。

今年的会议自然也不例外,Arm选择了Neoverse处理器技术作为最大的新闻焦点。就在提交IPO申请的一周之后,Arm公司决定在Hot Chips上发布Neoverse计算子系统(CSS)与Neoverse V2平台。我们将在后文中具体介绍这些公告内容,并与大家一同展望由此引发的市场影响。

Neoverse是什么?

有些朋友可能不大熟悉,Neoverse是Arm建立的处理器技术家族,面向数据中心市场、特别是云计算用例。Neoverse拥有三大不同平台,分别针对不同的需求领域。首先是Neoverse V系列平台,其针对高性能计算(HPC)和机器学习等要求较高的负载场景。

第二位成员是Neoverse N系列,属于针对云数据中心主流需求而打造的平台。在考虑到企业客户往往需要将通用工作负载迁移至云端2时,AWS、Azure和甲骨文等云服务商纷纷部署N系列处理器,借此在各自的数据中心内建立云实例。

这里要澄清一下,Neoverse本身并不是实体芯片,而是可供各芯片制造商构建自家CPU的设计方案。以Neoverse N2为例(即Arm N家族中的第二代参考设计),我们就看到了两种截然不同的应用思路:AWS借此设计出自己的原研芯片(名为Graviton);而CPU厂商Ampere则设计出基于Arm的Altra,这款芯片主要供云服务商和其他超大规模基础设施厂商使用。

最后出场的是Neoverse家族中的亲民选手,专注于高效网络吞吐量的E系列平台。如果大家希望在Arm架构之上运行低功耗网络或者5G设备时,E系列就是最能满足需求的选项。

这些平台在各自市场区间内均取得了成功。V系列为众多HPC集群提供支持,而且成功跻身于超级计算500强榜单。此外,英伟达的Grace CPU也是以V系列架构为基础设计而成。N系列的知名度可能最高,因为它在全美各主要云服务商当中均得到了广泛部署。实际上,根据Arm最近提交的F-1文件,该公司估计Arm架构CPU已经在全球云服务CPU市场上占有10%的份额。

Neoverse计算子系统:专注提升运行速度的定制化芯片

技术创新的步伐正不断加快,这一点在当前数据中心内部署的工作负载类型上就有直接体现。但遗憾的是,这些工作负载往往运行在未针对其独特计算需求进行优化的通用系统之上。

Arm Hot Chip大会揭密:加快芯片开发步伐、探索性能提升空间

芯片的设计和制造正变得越来越具有挑战性,成本也是水涨船高。

以往,业界对此给出的答案就只有“请再耐心等待几年,让芯片制造商开发出专用的CPU。”或者,大家也可以支付高昂的溢价,定制能够高效解决问题的特定软硬件组合。

Arm 的Neoverse计算子系统(CSS)是一套预集成、预验证的N-2平台,允许合作伙伴围绕内存、I/O、加速和其他领域进行定制化扩展。Arm为Neoverse计算子系统设置的定位,就是帮助合作伙伴利用定制化芯片加快占领市场的速度。换句话说,以更低的开发成本缩短产品上市时间。

Arm Hot Chip大会揭密:加快芯片开发步伐、探索性能提升空间

Neoverse CSS是一套经过充分验证的平台,可帮助合作伙伴创造新的价值。

我们可以将Arm的方案与高度依赖英特尔/AMD等老牌厂商处理器的传统思路进行对比。供应商的嵌入式工程组织现在可以采用标准产品(例如AMD的EPYC服务器处理器),并在产品工程团队的全力支持下为特定客户定制芯片设计。通过向合作伙伴开放Neoverse计算子系统,Arm正开拓出一条速度更快、成本更低的价值交付之路。

Arm Hot Chip大会揭密:加快芯片开发步伐、探索性能提升空间

Neoverse计算子系统可帮助客户节约大量时间和成本。

除了由此带来的业务扩大机会,此举对Arm来说还代表着其他巨大潜力。Neoverse计算子系统能够将Arm架构定位成新兴高增长市场的试水载体。上图红框部分提到,计算子系统(CSS)方案预计节约了80个工程年。这不仅缩短了产品上市时间,还能在定制化芯片的整个开发过程中显著节约成本。

另外可以预见的是,超大规模基础设施厂商必定会利用Neoverse计算子系统开发内部芯片,用以执行各类专用功能。这也是各大主要云服务商的常见实践。基于计算子系统的设计体系,能够帮助这些服务商更快打造出更具深度的差异化解决方案。

Neoverse V2平台:为云、高性能计算和机器学习带来性能提升

Arm公布的另一项消息,与性能更高的V系列平台相关。前文提到,Arm已经成功在高端服务器市场上占得一席之地,着力为性能需求更高的工作负载提供支持,并逐步将业务扩展至高性能计算和AI/机器学习领域。

该公司的V系列平台凭借出色的核心性能和可扩展矢量引擎(SVE)与CMN-700(一种高速互连方案,可通过高可扩展性网格将内存、存储和工作负载加速器连接起来)。

V2是该公司的下一代V系列产品。去年首次公布的V2如今即将上市,且不负Arm所望获得了强有力的市场认可:英特尔的Grace超级计算芯片就是以V2架构为基础设计而成。

Arm Hot Chip大会揭密:加快芯片开发步伐、探索性能提升空间

Arm Neoverse产品线一览。

从报告的V2性能数据来看,在人们关心的所有工作负载之上,V2性能都较V1实现了显著提升。

  • SPEC CPU和SPECRate(速度和吞吐量)分别迎来13%和17%的增长比例。
  • 在流行的分布式内存缓存系统MemCacheD上进行的测试表明,V2性能提升达15%。
  • Web服务器NGINX在V2上的运行性能提升达32%(反向代理、安全等)。
  • 由于V2在分支预测、获取和硬件预取等方面做出改进,MySQL Percona发行版的性能(按每秒事务数量计算)提升了104%。
  • 最后,使用XGBoost进行的机器学习测试发现,V2的性能相较于V1平均提高了一倍。

V2与V1的性能比较数字确实令人印象深刻,但我们更感兴趣的是V2与Arm各大竞争对手的比较。很幸运,英伟达主动将其Grace CPU同英特尔Sapphire Rapids和AMD的Genoa CPU进行了比较,具体结果参见下图。

Arm Hot Chip大会揭密:加快芯片开发步伐、探索性能提升空间

英伟达Grace CPU表现出显著的每瓦性能优势。

在深入研究这些数字之前,需要注意的是Grace采用由英伟达设计的一致性结构(名为LPDDR5X)来支持V2平台。也就是说,我们可以通过两种方式观察其性能。第一是在单一服务器级别进行性能衡量,如左图所示。在这种比较中,可以看到Grace CPU的性能与Genoa基本相当,双方均较Sapphire Rapids表现出明显的优势。其中,英伟达芯片在图形分析用例中带来出色的性能表现。

第二种性能衡量方法就是通过真实应用中的功率预算,据此分析搭载不同处理器的服务器分别可以处理多少工作负载。在这种情况下,Grace成功击败竞争对手,如右图所示。在功率预算为5兆瓦的数据中心之内,可以看到Grace在各项指标上的性能几乎都达到数据中心的2倍,其中图形分析再次以最显著的优势证明了图形处理巨头的实力。

这种悬殊的差异,源自Grace CPU(及其背后的V2设计)的出色能效。Arm在V2设计中就在努力压榨每瓦性能产出,这对于重视可持续运营目标的客户来说无疑是个重要利好,同时也具备极强的经济效益。相比之下,选择英特尔或AMD芯片的客户就必须在功耗方面付出更高成本,才能获得与Arm家衍生CPU相当的性能水平。

一点看法

Arm在云数据中心领域的进步(从约四年前的几乎为零,到如今10%左右的总体份额)绝对令人印象深刻。考虑到2010年初Arm生态系统的一系列早期失误,当下的成就就更是显得难能可贵。不知道大家还记不记得当初Calxeda、Cavium、Applied Micro甚至是AMD开发的Arm处理器……它们显然都已经成了历史的眼泪,被遗忘在赢家通吃的科技战场之下。

同样的,Arm的V系列平台在高性能领域同样占据强势地位。这块业务的崛起也是令人印象深刻,因为其需要克服的第一个难题,就是如何打破“智能手机芯片商”这个固有印象。好在成功的表现让Arm摆脱了这种僵化头衔,现在几乎没有人会继续揪住这个问题不放。

Neoverse计算子系统的落地,相信会在市场上引发关注。这个平台既拥有巨大潜力、也不缺少广阔的机会空间。未来,我们期待看到会有多少杀手级应用通过计算子系统构建而成,又有哪些细分市场能够充分发挥计算子系统的业务加速优势。

至于V2,人家已经在市场上获得了巨大成功。英伟达Grace CPU与Grace Hopper超级芯片选择这套Arm架构,本身就足以巩固V2在江湖上的名号和地位。而我相信,这还只是V2平台辉煌旅途中的平凡一站。

那么,未来服务器市场是否会迎来更多基于Arm的服务器,用以满足客户不断增长的细分需求?HPE和联想已经发布了基于Arm架构的服务器平台,那戴尔家的方案会不会也在紧锣密鼓的设计当中?

除了英伟达Grace之外,V2还有没有新的增长空间?既然英伟达已经证明了Arm相较于x86 CPU能展现出显著的每瓦性能优势,会不会有其他芯片厂商愿意选择V2构建自己的超级计算平台?

最后,Arm的市场潜力还有多大?虽然目前的10%已经值得赞赏,但计算子系统加V2的组合应该还会进一步帮助Arm扩大占有率。至于最终答案,Arm应该会用接下来几个季度的实际表现向我们缓缓揭露。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2023

09/01

10:23

分享

点赞

邮件订阅