如今,计算正越来越专用化,通用CPU已经无法满足业界对于算力的需求。于是越来越多的科技公司基于Arm平台构建新一代系统和基础设施。例如NVIDIA、亚马逊云科技(AWS)和微软等推出了自己的定制化芯片。
在Arm高级副总裁兼基础设施事业部总经理Mohamed Awad看来,他们选择Arm的原因很简单,因为Arm独特的定位能赋予合作伙伴快速创建定制解决方案的能力,并充分利用到强大的生态系统,正是这些特性使Arm Neoverse夯实了全球AI愿景的根基。
近日,Arm宣布推出两款基于全新第三代Neoverse IP构建的新的Arm Neoverse计算子系统(CSS)。Arm Neoverse CSS是具革新意义的产品。作为一套经优化、集成和验证的平台,Neoverse CSS汇集了构成系统级芯片(SoC)核心的关键技术。
Mohamed Awad说,过去几年,Arm为何能在基础设施领域收获累累硕果?简单来说,原因有三:首先是卓越性能,Arm的工程团队坚持不懈地实现迭代提升;其次是灵活性,Arm赋能技术合作伙伴定制芯片,以支持其专用的工作负载和系统,而非采用一体适用的方案;最后是生态系统,Arm在软件、IP和芯片生态系统中提供出色性能和灵活性,从而降低配置的总成本并加速产品上市。Arm独特的定位,皆因结合这些优势,帮助合作伙伴随时随地以任何方式进行部署。Arm Neoverse CSS将这些优势演绎得淋漓尽致。
Neoverse CSS已广受头部云服务提供商、初创公司等业内各类企业青睐,并采用于云计算、网络、数据中心基础设施,以及AI等多样化的应用中。据悉,有一家合作伙伴通过使用Neoverse CSS节省了长达80人/年的工程师时间。另一个合作伙伴案例则是从项目启动到流片仅耗时九个月。
扩展产品路线图
当前,基础设施正在发生变革。头部云计算和网络企业对其数据中心、计算设备及运行其中的工作负载非常熟悉,他们高度专注于优化其基础设施的每一层,目的是让这些多样化的工作负载获得最佳性能,更重要的是获得最佳的每瓦性能。
软件和硬件在过去分别由不同的公司负责开发,而这样老旧的模式已经无法满足现在客户对性能的需求,也无法适配软件或硬件的复杂性。客户希望其部署的硬件,甚至是微架构层面,都能被优化,以便顺利运行其软件工作负载。此类联合优化很难实现,需要软硬件双方做出巨大的投入才能够完成。
Arm基础设施事业部产品解决方案副总裁Dermot O’Driscoll表示,通过与Arm的协作模式,合作伙伴可以在Arm IP的开发过程中,在对应IP的典型系统上运行其工作负载。这种协作模式直接影响Arm架构的发展方向,以及Arm在IP产品中实现微架构的方式。在交付IP之后,Arm也将为合作伙伴提供贯穿整个芯片开发周期的支持。通过模拟和仿真,Arm帮助他们评估由Arm提供的设计选择,并在开发与配置的全流程中提供支持,从而缩短产品上市进程。
Arm进一步扩展Neoverse CSS,推出了CSS N3和CSS V3。这两款新品则是分别基于新的Neoverse N3和V3核心。N系列在压缩方面取得了性能优势,可降低云服务运营商的成本,并最终降低云服务客户的成本。同样地,V系列显著提高了协议缓冲区的性能,这是在数据中心内传输数据的一项关键功能。
CSS N3的首个实例可提供32核,热设计功耗(TDP)低至40W。其可扩展性非常强,可覆盖电信、网络和DPU等一系列应用,并支持最新的PCIe和CXL I/O标准以及UCIe芯粒标准。
与CSS N2产品相比,CSS V3的单芯片性能提高了50%。CSS V3在单芯片上最多可扩展至128核,并支持最新的高速内存和I/O标准。
在人工智能(AI)类应用工作负载方面,Arm的表现也可圈可点。在AI数据分析工作负载用例中,通过改进分支预测,更好地管理最后一级缓存和相关内存带宽,以及大幅增加L2缓存,N3的性能相较于N2提升了高达196%。
与此同时,Arm也关注于生成式AI和大语言模型(LLM)工作负载。目前行业重点更多放在训练LLM上,但随着生成式AI广泛应用于实际业务场景,其工作重点将转向推理。CPU推理将是生成式AI计算应用的关键组成,但并非所有AI处理都将在CPU上进行,AI加速器也将起到重要作用。以NVIDIA为例,该公司不仅利用其领先的Hopper GPU,同时也使用了基于Neoverse V2平台的紧耦合计算芯粒Grace。这种紧耦合的CPU加上加速器配置,有助于大参数LLM,以及对检索-增强-生成(RAG)等新兴方法。
强大的生态赋能
生态系统是Arm有力的资产之一。Mohamed Awad表示,Arm独特的优势,也是Arm的强项之一就是,能够赋能广泛的生态系统进行创新。
为了让合作伙伴能够快速且成功地交付定制解决方案,Arm稍早推出了Arm全面设计(Arm Total Design)生态项目,旨在汇集合作伙伴致力于无缝交付基于Neoverse CSS的定制SoC。
Arm基础设施事业部营销副总裁Eddie Ramirez表示,Arm全面设计汇集了半导体领域的各路领先企业,囊括了芯片设计合作伙伴、IP供应商、EDA工具提供商、代工厂和固件开发商等,共同加快并简化基于Neoverse CSS的系统开发。
Arm同时宣布,Arm全面设计生态项目已吸引超过20家来自各方技术合作伙伴的加入,他们均致力于确保高性能、高效率解决方案的广泛可触及性,助力满足AI加速未来的计算需求。基于Neoverse CSS的技术,这些合作伙伴已在方方面面携手合作,从验证IP、定制固件,到在全球先进的工艺节点上打造芯粒。
芯粒已成为管理良率的常用机制,能让企业在单个芯片上利用到多种工艺节点。基于Arm全面设计生态伙伴的反馈意见,Arm打造出近期发布的芯粒系统架构(Chiplet System Architecture,CSA)。CSA旨在定义一个功能强大、支持通用的芯粒生态系统。
去年十月,Socionext成为首家宣布计划在台积公司领先的2纳米工艺上开发基于CSS芯粒的合作伙伴。这款配置32核的芯粒可与其他芯粒结合使用,提供可扩展且经济高效的计算解决方案。该设计将基于Neoverse CSS V3进行打造。
智原科技也在构建基于芯粒的服务器芯片,该芯片将搭载64颗N系列核心,并基于英特尔代工服务的18A工艺节点进行生产制造。
此外,ADTechnology将提供高性价比的16核CSS N系列边缘服务器平台,他们将与三星代工厂合作,为边缘计算释放更强大的算力。
云豹智能是Arm全面设计生态项目在中国市场的首家合作伙伴。云豹智能是一家专注于云计算和数据中心数据处理器芯片(DPU)和解决方案的领先半导体公司。Arm全面设计正帮助云豹智能将业务拓展到其他领域,并有助于其开发其他类型的基础设施系统级芯片(SoC)。
除了充满活力的硬件生态系统,Arm的软件生态系统也在迅速扩展,帮助开发者简化部署流程,同时提高采用Arm技术的硬件的生产效率。去年,Arm达到了一个重要的里程碑,80%的云原生计算基金会(CNCF)毕业项目原生支持Arm架构。
Arm Neoverse软件生态系统正在不断扩展,以满足所有开发者的需求。从主流编程语言、软件工具、所有主要Linux发行版,到支持网络、存储和大数据以及AI应用的项目,这包括软件栈各个级别的知名开源企业。此外还包括大量独立软件供应商(ISV),他们可提供各类应用和SaaS产品。这一生态系统正成为云服务提供商部署其云服务的上佳之选,以便能够充分利用Arm提供的TCO优势。超过15年在Neoverse软件生态系统的投资,让Arm实现了强大的软件支持水平,助力超过五万家公司在支持Arm的基础设施上部署关键工作负载。这也是Arm及合作伙伴生态系统降低部署成本,并提高正在部署的各类定制芯片可用性的另一种方式。
例如Oracle发布的Oracle Database 19c支持基于Arm架构的服务器,可用于云端和本地部署。Oracle Database的客户正在使用需要更高处理需求的数据,以构建日益复杂的应用。现在这些客户可以在具有可预测性能、成本更低的服务器上运行。SAP还成功地将SAP HANA Cloud移植到了基于Arm架构的AWS Graviton处理器上面,这包括迁移近300个为SAP HANA提供支持的微服务。
结语
Arm Neoverse平台的发展势头令人振奋,基于Neoverse平台的技术、系统、软件和芯片的生态繁荣,为数字经济的发展提供源源不断的动力。Arm平台是未来计算及AI的基石。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。