如今智能终端出现越来越多包括生成式AI在内的智能技术。对更高性能、更加智能以及更多视觉和触觉交互的需求持续飙升,这带来了比以往更大甚至更加复杂的计算需求。
为了满足定义未来计算的复杂需求,并确保数百万开发者能够轻松地在Arm架构的平台上无缝开发,Arm宣布推出2023全面计算解决方案(TCS23),TCS23提供一整套针对特定工作负载而设计与优化的最新IP,可作为一个完整系统无缝地协同工作,从而满足日益增长的移动用户体验需求。
Arm高级副总裁兼终端事业部总经理Chris Bergey告诉记者,每一年 Arm都在打磨和提升技术, TCS23是Arm连续第三年在Armv9架构上实现性能双位数的提升。其实不管是GPU性能还是AI表现,这些技术挑战需要系统级的方式解决,这就是TCS概念的缘由。
Arm中国区业务全球副总裁邹挺补充说,Arm的全面计算战略就是通过一整套针对特定工作负载而设计和优化的IP,这些IP可作为一个完整的系统,无缝地协同工作。
TCS23包含了基于全新第五代GPU架构、可实现终极视觉体验的全新Arm Immortalis GPU,助力Arm面向下一代人工智能(AI)保持性能领先的全新Armv9 CPU集群,以及可为数百万Arm开发者提供更易访问软件的全新增强技术。
Arm终端事业部产品管理总监Andy Craigen表示,在TCS23中,Arm进行了大量的投入,保证CPU、GPU协同工作,以发挥最优化的系统级效率。
视觉计算支撑最佳视觉体验
对于视觉计算来说,捕捉、创造和使用上的最佳体验是所有的关键。
Arm全新的第五代GPU架构专为满足多种图形用例而设计,这是Arm有史以来效率最高的GPU架构,在设计时还兼顾了CPU和系统。
第五代GPU架构重新定义了部分图形管道,以优化内存带宽,从而在移动设备上支持高几何负载的下一代游戏和实时3D应用,同时带来更顺畅、并与PC端和游戏主机媲美的游戏体验。
延迟顶点着色(Deferred Vertex Shading,DVS)是第五代GPU架构新引入的图形功能,可重新定义数据流,有助于合作伙伴扩展核心数量,达到更高的性能水平。DVS的优势已经在包括《原神》和《堡垒之夜》等许多流行游戏中得到体现。
全新的Arm Immortalis-G720是Arm目前性能和能效表现最为出色的GPU,与上一代产品相比,其性能和能效分别提高了15%,系统级效率更跃升了40%,从而带来更高质量的图形渲染,实现更身临其境的视觉感受。
除了Immortalis-G720之外 ,Arm也同时推出新的Arm Mali-G720和Mali-G620,旨在将高端移动图形功能快速地推向更广大的消费终端市场。
全新Armv9 Cortex计算集群
Cortex-X4是Arm迄今为止打造的最快速的CPU,与Cortex-X3相比,其性能提高15%。与此同时,基于相同工艺的全新高能效微架构可降低功耗达40%。
Arm领先的CPU性能也扩展至其全新大小核,即Arm Cortex-A720 和 Cortex-A520。Cortex-A720是业界主流CPU IP,作为新CPU集群的核心主力,可提高持续性能。而 Cortex-A520则是Arm目前最出色的高效率核心。这些全新的 CPU 设计较前几代产品实现了20%的能效提升。
制程工艺和计算能力更为紧密的结合是实现最高性能和最高效设计的关键。在新一代CPU设计中,Arm在TSMC N3E制程工艺上顺利完成了业内首个Cortex-X4流片。
Arm终端事业部产品管理高级总监Stefan Rosinger表示,Arm每一代的产品性能都有所提升,对我们来说,重点是能够为平台带来更高的效率。
Arm全新CPU集群内置可扩展性和灵活性,提供了合作伙伴所需的性能与效率,其中,DSU-120专为满足要求苛刻的多线程使用场景而设计,支持从可穿戴设备到智能手机、笔记本电脑的众多设备。
Cortex-A720能够在与Armv8架构的Cortex-A78相同的面积尺寸内,提供Armv9架构的新功能。相比于Cortex-A76集群解决方案,Cortex-A720和A520的组合方案可在面积仅增加15%的情况下,将性能提高40%,同时具备Armv9的全部优势。
软件和安全解决方案
全球有近900万个移动开发者在基于Arm架构、且为Arm架构应用进行开发。从高端游戏到区域性应用,Arm为编写更便利、更简单、更安全、更快速的软件提供了所需的灵活性和通用性。
除了硬件产品,Arm通过其开源软件库不断提升Arm IP的机器学习功能,让开发者在处理人工智能和机器学习工作负载时能充分获益。
Arm始终站在技术前沿,通过不断提升硬件的机器学习功能,让开发者能充分利用AI和ML工作负载的优势。
Arm NN和Arm Compute Library已在安卓平台上面向Google应用开放,目前已拥有超一亿的日活用户,助力开发者优化运行在Armv9 CPU和Arm GPU的机器学习工作负载。
所有新CPU均支持64位计算和Armv9安全创新功能,能够抵御更高级别的数字威胁。通过 Armv9 CPU,Arm在整个移动生态系统中持续成功部署Arm内存标记扩展(MTE)功能,以消除占所有软件漏洞高达70%的内存安全漏洞。
Chris Bergey解释说,Arm在十年前就开始陆续将64位处理器推向市场,从32位向64位计算的过渡期是一个缓慢的过程,而只有64位才是正确的方向。“支持64位不光保证了更高的性能,也进一步夯实了计算安全。从Arm的角度看,作为一个面向广泛市场应用的IP供应商,针对诸如物联网及更小型计算平台的应用,我们处理器核心提供32位的支持。”
Arm将持续构建基础平台,以满足不断增长的计算需求,并始终专注于性能和效率的提升。通过与广泛的生态系统伙伴保持密切的合作,Arm为每一代消费级设备提供所需的性能、效率和智能支持,助力拓展数字生活方式。
功耗和性能是Arm在每一次产品迭代时持续追求的关注点,通过优异的算法实现功耗效率及性能同步的提升。生成式AI和大型语言模型也在向移动终端发展,Arm确保AI可以很好地在Arm架构上运行。
Chris Bergey认为,未来大语言模型会运行在混合(hybrid)环境,除了云端,本地设备运行AI的隐私和能源效率也至关重要,在能效方面比云端更具优势。
结语
Arm 2023全面计算解决方案是一个移动计算平台,目的是通过CPU和GPU技术,为沉浸式游戏体验和智能AI应用提供支持。
Arm与合作伙伴有着密切的合作,联合进行市场开发,在终端产品上实现设计创新。
Arm拥有最优秀的IP、广大的合作伙伴以及对于软件生态系统的持续投资的承诺,这一切的集成让Arm的产品能成为市场首选。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。