在6月13-14日的Arm技术媒体分享日上,多位Arm技术专家聚首一堂,分享了Arm在终端计算子系统(CSS)、CPU、GPU技术以及软件生态的最新进展与战略规划。Arm终端事业部智能手机市场高级总监Steve Raphael、产品管理总监Steve Hopper、高级产品经理Manish Pandey,以及安谋科技 (Arm China) 市场总监王刚和开发者生态高级经理深入解析了Arm如何塑造AI时代的计算基础,并推动生态合作,以实现更高效、更智能的计算体验。
能否请您概述一下Arm在AI智能设备领域的最新动态,以及Arm终端CSS如何在其中扮演关键角色?
Steve Raphael:过去一年,我们见证了从手机到笔记本电脑的人工智能创新浪潮,催生了AI智能手机和AI PC等新产品。AI时代正加速发展,复杂性随之不断提高,计算需求呈指数级增长。系统级芯片(SoC)设计人员、OEM厂商和软件开发者需要更好的灵活性和更多的选择,来确保各类消费市场中的设备都能够经受未来考验。
Arm终端CSS作为我们最新的计算平台,首次在终端领域为Arm CPU和GPU提供物理实现,极大地简化了基于Arm架构的解决方案构建过程,确保性能和能效的最优解。Arm在2021年推出了专为性能和AI而设计的Armv9架构,并在过去几年中提高了在矢量加速、机器学习 (ML) 等领域的计算能力,增强系统的安全性和稳健性,并增加了面向AI的功能。Arm终端CSS所具备的Armv9.2的能效优势,加之基于三纳米工艺的物理实现和持续的软件优化,使其成为合作伙伴实现下一代AI体验的基石。
Arm终端CSS可扩展应用至市面上最高性能的消费电子设备,包括新一代AI PC。其中的Cortex-X925与去年推出的Cortex-X4 CPU相比,其TOPS提高50%。终端CSS为PC市场提供专用的可扩展平台。该平台采用Cortex-X925以提供一流的单线程性能,并通过近期更新的DSU-120(在单个CPU集群内提供多达14个CPU核心)提供最佳的性能可扩展性。
能具体谈谈Arm终端CSS在性能、效率和可扩展性方面的突破性变化吗?
Steve Hopper:我们的Arm终端CSS平台集成了第二代Armv9.2 CPU集群,包括性能最强的Cortex-X925 CPU和效率最高的Cortex-A725与更新的Cortex-A520 CPU,专为高端市场设计,实现了三纳米工艺上的性能与效率新高。此外,基于第五代GPU架构的全新Immortalis-G925旗舰GPU系列,以及Mali-G725和Mali-G625,为移动设备带来了前所未有的图形处理能力。我们还提供了针对安卓系统的CSS参考软件栈和KleidiAI、KleidiCV库,为端侧AI和计算机视觉提供强大支持,确保开发者能够最大化利用Arm平台的潜能。
新的Armv9.2 CPU集群为安卓智能手机、PC和笔记本电脑等设备提供出色的性能与用户体验。该集群提供一整套实际用例的改进,集群中各个CPU组件均涵盖广泛的实际用例和工作负载。例如,Cortex-X925可处理应用启动和网页浏览的“突发”工作负载,Cortex-A725可提供常见AI工作负载和AAA游戏所需的持续性能,Cortex-A520的高效率则非常适合轻量型媒体和闲置及后台任务。所有这些增强的实际用例体验都可以扩展到各类消费技术领域,新推出的Armv9.2 CPU为主流设备和日常用户带来了更高的性能和更强大的AI功能,从而使关键用户体验指标提高30%。
面对AI和安全功能的持续演进,Arm在CPU设计上是如何平衡性能、能效与软件兼容性的?
Manish Pandey:Arm在CPU设计上采取了全方位的考量,特别是在Cortex-X925的设计之初,我们以更为胆大且积极的方式去思考性能的提升,我们专注于提升每时钟周期指令数(IPC),同时优化物理解决方案、延迟系统、操作系统、编译器和封装等多方面,确保系统性能的最大化。Cortex-X925通过经优化的三纳米工艺,辅以卓越的子系统和封装,使得新一代消费电子设备的性能分数可提高30%以上。此外,与去年推出的 Cortex-A720相比,今年Arm终端CSS中的Cortex-A725性能效率提升了35%,能效提升了25%。
Arm持续投入于解决多维度问题,确保CPU设计能满足未来应用的复杂性,并与软件生态系统紧密协同,如通过KleidiAI和KleidiCV库,为开发者提供获取最高底层硬件性能的工具和软件库。
Arm最新推出的GPU技术如何推动移动图形体验的变革?
王刚:去年,Arm推出了第五代GPU架构及一系列新的GPU,包括从Immortalis-G720到面向主流设备的Arm Mali-G620。此后,MediaTek的天玑9300 平台便搭载了Immortalis-G720。知名手机厂商vivo和OPPO的旗舰智能手机都先后采用了该平台。我们的GPU广泛应用于从智能手机到XR设备的众多产品,通过与芯片合作伙伴、OEM厂商和游戏生态的紧密合作,我们确保消费者能体验到这些突破性技术。
在Arm参考平台上进行比较时,今年推出的Immortalis-G925的性能(fps)比Immortalis-G720提高了37%。此外,在提供与Immortalis-G720 相当的游戏性能时,Immortalis-G925的功耗降低了30%。
为满足针对更复杂几何体的需求,Immortalis-G925引入了片段预处理(Fragment Prepass)的新机制。借助该图形技术,应用无需进行任何对象或原语排序,并且在处理几何工作负载时,能够更高效地减少过度绘制。通过片段预处理,我们观察到由于无需对象排序,渲染线程周期缩短高达43%。这不仅提高了性能和能效,也减少了CPU的负载。
自从在 Immortalis-G715 GPU中引入光线追踪以来,该技术正愈发普遍,其有助于创建更真实的阴影、反射和高级光照效果。Immortalis-G925持续推动光线追踪内容的改进,对复杂对象的光线追踪性能提高了52%。通过对光线追踪内容进行内部测试,我们正进一步提高其性能。例如,在游戏场景透明度方面保持相同准确度的同时,性能提升27%。开发者也可选择将游戏场景透明度的准确性略微降低,由此带来高达52%的惊人性能提升,并降低57%的内存流量。
虽然大多数AI处理工作能够在CPU上进行,但GPU为各种AI用例提供加速功能,包括图像分类、图像分割、对象检测、自然语言处理和语音转文本等。在图像处理方面(包括分割和分类),Immortalis-G925可实现41%的性能提升,表现抢眼。同时,在超级采样任务中,开发者可以使用神经网络对图像进行向上扩展,其性能可提高近30%,而在自然语言处理和语音转文本,性能可提高50%,同样十分惊艳。
Arm还致力于与游戏生态系统合作,从而带来先进的图形特性和功能。 比如Arm正在与Epic Games携手,在安卓上启用其虚幻引擎 5(Unreal Engine 5)桌面平台渲染器。与此同时,Arm还与Google和MediaTek围绕安卓动态性能框架(Android Dynamic Performance Framework,ADPF)展开合作。MediaTek 目前正在与谷歌合作,将 MediaTek 游戏自适应调控技术 (MediaTek Adaptive Gaming Technology, MAGT) 的功能合并到 ADPF 中,并且已经与多个游戏引擎实现了良好的集成。
与此同时,Arm还通过一系列GPU工具和资源,保持对游戏开发者一贯的生态系统支持。Arm Performance Studio延续Arm Mobile Studio的成功,借助扩展分析工具,进一步支持移动设备和GPU以外的一系列新工作负载、平台和设备,包括面向服务器市场的CPU和Arm Linux平台。作为Arm Performance Studio的一部分,我们新增了Arm Frame Advisor,使开发者能够更易实现图形分析和优化,从而更准确地针对其优化目标,并更快地将软件推向市场。
Arm在推动开发者生态建设方面有哪些新举措,特别是在内存安全和机密计算架构(CCA)方面?
李陈鲁:Arm非常重视安全领域,特别是内存安全,我们引入了内存标记扩展(MTE)技术,并在荣耀开发者设备中进行了初步测试。令人振奋的是,消费者现在可以在Pixel 8和vivo X100等设备上体验到MTE带来的安全保障,Chrome浏览器也开始支持MTE保护模式。此外,我们也正在研究哪些软件堆栈组件可以用Rust开发,以便为Arm平台提供更安全的基础。通过终端CSS,PC上也将会有Armv9功能,MTE、指针验证 (PAC) 和分支目标识别 (BTI) 等安全功能将引入基于Arm架构的PC 中。通过这些技术,Arm正携手开发者生态,共同推进一个更安全的计算环境。
结语
Arm在技术媒体分享日上的分享,不仅揭示了公司在AI时代计算技术的领先地位,也展现了其对开发者生态建设的深厚承诺。从高性能的终端CSS平台,到推动移动图形革命的GPU技术,再到内存安全与机密计算的前沿探索,Arm正引领一个更高效、更安全、更智能的计算时代。随着技术的不断迭代与生态合作的深化,Arm生态系统的创新潜力将进一步释放,为消费者带来前所未有的计算体验。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。