过去一年,我们见证了AI技术对移动设备带来的变革,设备端AI正重新定义智能手机的“智能性”。
近日,Arm宣布推出Arm终端计算子系统(CSS),为旗舰系统级芯片(SoC)提供基础计算要素,其中包括最新的Armv9.2 CPU、Arm Immortalis GPU、基于三纳米工艺生产就绪的CPU和GPU物理实现,以及最新的CoreLink系统互连和系统内存管理单元(SMMU)。

Arm终端事业部产品管理副总裁James McNiven表示,随着AI复杂性和计算需求的指数级增长,Arm不断迭代产品及解决方案,善用最新工艺节点,提供实现设备端AI的坚实基础,简化了基于Arm架构的解决方案构建流程,确保高性能与计算能力的实现,加速产品上市。
性能和效率的新标杆
专为性能和AI而设计的Armv9架构作为未来十年计算的基础,自2021年推出以来,显著提升了AI、机器学习(ML)等领域的计算能力,并增强了系统安全。同时,Arm终端CSS凭借出色的性能与可扩展性,覆盖从笔记本电脑到可穿戴设备的广泛产品,使合作伙伴能够根据需求定制解决方案。
新的Arm Cortex-X925实现了Cortex-X系列推出以来最高的同比性能提升,该CPU利用了领先的三纳米工艺节点,在3.8GHz的时钟速率和最大缓存大小的条件下,与2023年旗舰智能手机的四纳米SoC相比,其单线程性能大幅提高36%。而在AI性能方面,Cortex-X925取得了惊人的41%性能提升,可显著提高如大语言模型(LLM)等设备端生成式AI的响应能力。
新的Arm Cortex-A725 CPU将对前沿性能的不懈追求与出色的效率相结合,该CPU将针对AI和手游用例的性能效率提高了35%。这一改进也得益于更新后的Arm Cortex-A520 CPU和更新后的DSU-120,使得采用最新Armv9 CPU集群的消费电子设备可提升能效和可扩展性。
新的Arm Immortalis-G925 GPU是Arm性能最强、效率最高的GPU,在各款领先的手游应用中实现了37%的性能提升,并在多个AI和ML网络上提升了34%的性能。Immortalis-G925面向旗舰智能手机市场,而包括Arm Mali-G725和Mali-G625 GPU在内的全新高可扩展性GPU系列,则面向从高端手机到智能手表和XR可穿戴设备等广泛的消费电子设备市场。
此外,Arm在安全技术方面也取得重要进展,内存标记扩展(Memory Tagging Extension,MTE)被vivo、Google等旗舰设备采用,有效减少安全漏洞。

vivo首席芯片规划专家夏晓菲表示,vivo非常注重用户体验,在Arm CSS的技术基础之上,vivo与Arm的密切合作,共同推动开发者生态,使手机更流畅更好用,同时也为设备端带来了前沿的AI体验。vivo很高兴看到Arm终端CSS所引入的新方向,以及通过Armv9 CPU与Arm GPU,这套计算子系统将赋能新一代设备端生成式AI,从而实现沉浸式的智能移动端解决方案。
卓越的开发者创新优化软件
Arm 始终关注全球数百万的开发者,确保他们能够获得打造下一波AI应用所需的性能、工具和软件库。为了使开发者能够以最高性能快速实现这些创新,Arm推出了Arm Kleidi,其中包括面向AI工作负载的KleidiAI和面向计算机视觉应用的 KleidiCV。这意味着开发者能更容易在Arm CPU上实现AI和计算机视觉的高性能部署,进一步促进了AI应用的普及。
KleidiAI 是一套面向AI框架开发者的计算内核,使他们能够在各种设备上轻松获得Arm CPU上的最佳性能,并支持 Neon、SVE2和SME2等关键Arm架构功能。KleidiAI与PyTorch、Tensorflow、MediaPipe 等热门AI框架集成,旨在加速Meta Llama 3、Phi-3等关键模型的性能,并且还可前后兼容,以确保Arm在引入更多技术时依然能适用未来市场的需求。
Windows on Arm生态系统亦迎来丰收年,原生应用日益增多,Arm与微软合作,通过资助开源和发布面向Windows的Arm Performance Libraries(Arm 性能库)来发展这个生态系统,为用户提供流畅的原生应用体验。
可以看出,Arm致力于为合作伙伴生态系统提供所需性能,同时通过持续的软件投资,为开发者构建了一个快速且卓越的AI开发平台。相信在未来,Arm也将继续投资于Armv9的新增AI和安全功能,与生态系统伙伴紧密协作,确保开发者能够获得必要的工具和软件库,共同塑造AI应用的未来。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。