Arm 基础设施事业部高级产品经理 Mohit Taneja
Arm 基础设施事业部产品总监 Saptarshi Mondal
实现高性能定制芯片
Arm Neoverse 旨在为从云到边缘的全场景基础设施用例提供高性能和出色能效。针对需要更高性能的工作负载和用例,Arm 推出了 Neoverse V 系列。其中,Neoverse V2 核心已被行业先行者广泛部署于云、高性能计算 (HPC) 和人工智能 (AI) 领域。亚马逊云科技 (AWS) 在 re:Invent 2023 上宣布推出 AWS Graviton4 CPU。与前代 Graviton CPU 相比,Graviton4 可提供更多核心数、更大内存配置。NVIDIA 的 Grace CPU 超级芯片和 Grace Hopper 超级芯片则力求为 HPC 和 AI/ML 工作负载带来更出色的性能和能效。近期,Arm 宣布推出了新一代 Neoverse V 系列产品,即 Neoverse V3 CPU 和 Neoverse CSS V3。
Arm Neoverse 计算子系统 (CSS) 产品旨在帮助 Arm 合作伙伴以风险更低的方式,更迅速地将新 Neoverse 技术推向市场,更好地帮助客户实现差异化。基于由 Arm 工程团队配置、验证和优化的 CSS,Arm 合作伙伴可以在更高起点上推进自研定制芯片的进程,并让他们更能充分发挥内部工程技术人才的潜力,针对其工作负载和操作环境进行优化,实现更出色的性能和总拥有成本 (TCO)。此前 Microsoft 推出的 Azure Cobalt 100 CPU 正是客户与 Arm 合作将专用芯片推向市场的一大例证。
Neoverse CSS V3 延续了 Neoverse CSS 在加快上市进程和定制化方面的优势。Neoverse CSS V3 兼具卓越的性能、效率和差异化等特性,能为我们的合作伙伴提供从概念到部署新一代云计算的便捷路径。与 CSS N2 相比,CSS V3 的单芯片性能提高了 50% ,可以更有效地帮助我们的合作伙伴应对一系列新工作负载以及用例。
以下让我们来深入了解 Neoverse V3 和 CSS V3,并进一步探究它们将如何为云基础设施创造价值。
Neoverse CSS V3 概述

图 1:Neoverse CSS V3 概览
基于 Neoverse V3 CPU 打造的 Neoverse CSS V3 是一个可定制的计算子系统,由 Arm 进行系统配置、系统验证、系统认证和 PPA 优化。与传统的开发方法相比,通过 CSS,Arm 可帮助合作伙伴执行通用无差别的繁重任务,使其能够以更低的风险和成本,以及更快的时间构建专用芯片。
结合系统级创新技术,Neoverse V3 CPU 能使 CSS V3 为 SPECint2017(预估)提供比 CSS N2 高出 50% 的单芯片性能。此外,CSS V3 还为机器学习 (ML)、数据库和加密等一系列的基础设施工作负载带来了同样令人惊艳的单芯片性能提升。
Neoverse CSS V3 具备新一代基础设施平台所需的特性和功能,能为我们的合作伙伴提供生产芯片的快速途径,同时还可为其管控风险并实现超快部署。
此外,Neoverse CSS V3 还为市场带来了许多新的系统级功能:
CSS V3 构成了专用计算系统的关键构建模块,可以降低通用计算子系统的设计和验证成本,让我们的合作伙伴将更多的精力集中在其专业领域上,加速产品上市,同时降低风险并加快部署进度。CSS V3 提供多种配置,其中单芯片最多可配置 128 个 Neoverse V3 核心,并支持双芯片配置。此外还可以支持更少核数的配置(例如 32 核)。CSS V3 主要针对三纳米级工艺节点,并附带支持性的布局图和实施流程,以更大限度降低物理设计风险。
Neoverse V3 CPU 概述
Neoverse V3 CPU 在 Neoverse V2 基础上进行了大幅的架构改进。

图 2:Neoverse V3 CPU
强化的平台:云基础设施的安全性和可靠性不容小觑
这些技术创新成就了 Neoverse V3 成为一个符合我们合作伙伴及其客户需求的强化平台。
针对 TCO 进行优化的计算:云原生工作负载需要针对 TCO 进行优化定制
在标准配置和特定配置中,Neoverse V3 CPU 固有的灵活性都能显著改进实际工作负载的性能。这些出色的服务器 CPU 不仅可以适配苛刻的 AI 和 HPC 应用,还适合部署到更传统的企业级基础设施软件中。举例来说,与 Neoverse V2 相比,Neoverse V3 的 AI 数据分析性能提高了 84%,RDBMS 性能提高了 16%,加密性能提高了 9%,而整数型工作负载性能则提高了 12%。

图 3:针对云计算工作负载,Neoverse V3 相比于 Neoverse V2 的性能提升情况 (%)
总结
Neoverse V3 和 CSS V3 旨在满足愈发严苛的超大规模云基础设施需求,可以为新一代 AI、HPC 和云原生工作负载提供 TCO 更优、性能更强的基础设施构建模块,并加快产品上市步伐。Arm 正在进行大量投资,大力帮助合作伙伴将基于 Neoverse V3 平台的产品以更优惠的价格、更快的速度推向市场,助其从一开始就做好万全准备。欢迎与我们携手,共同基于 Arm 平台构建未来。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。