作者:Arm 高级副总裁兼物联网事业部总经理 Paul Williamson
当前,开发者正在利用安全且性能增强的技术实现小型低功耗嵌入式系统的开发,赋能过往无法想象的语音、视觉和振动等 AI 应用,而这些应用正在改变着世界。
嵌入式领域正经历一场深刻的变革。连接设备正逐渐演变为可根据所收集的数据自行做出决策的系统。相较于在物联网网关或云端进行数据处理而言,在更接近采集源之处完成数据处理的方式,将有望加快决策速度、减少延迟、解决数据隐私问题、降低成本并提高能效。
很多应用领域都在推升边缘计算在性能和功能方面的需求,诸如工业自动化、机器人、智慧城市和家居自动化等。在过去,这类系统中的传感器要简单得多且互不相连,然而,现在人工智能 (AI) 和机器学习 (ML) 提升了本地智能化水平,在端侧即可完成决策的制定,这在过去使用的简单控制算法是无法实现的。
AI 时代通用处理器的演进
多年以前,开发者专注于把逻辑和控制算法作为软件开发的核心,然而,随着数字信号处理 (DSP) 算法的出现,为诸多功能增强的语音、视觉和音频应用提供了支持。
这种应用开发的转变进入到了全新时代,且正在影响计算架构的设计。我们现已发展到以推理作为算法开发的主要核心,这一阶段带来了对计算性能、能效、延迟、实时处理和可扩展性等方面新的或更高的要求。
行业的需求不仅在新处理器加速器方面,也包括通用处理能力的提升,以便能为开发者提供必要的平衡,并支持直播视频中的特征检查或人物检测等应用。
几年前,开发者在创建噪声消除应用时还只能依赖基于频率的滤波器。而如今,开发者可以通过将滤波与 ML/AI 模型和推理相结合来提高应用的性能和功能。为了使这些开发任务更加高效,并尽可能无缝地为用户服务,对处理器和工具的需求也与日俱增。
促进边缘侧和端侧设备的智能化
这项演进与革新是由 ML 所驱动,但同时也面临着诸多技术的挑战。经过多年的尝试,试图打造一套普适于物联网及嵌入式设备的开发方法,已促使着行业转变物联网开发的方式,以释放规模化扩展的无限可能性。
当前,开发者正在利用安全且性能增强的技术实现小型低功耗嵌入式系统的开发,赋能过往无法想象的语音、视觉和振动等应用,而这些应用正在改变着世界。各种版本的编程语言和 Transformer 模型将很快在具有全新计算功能的物联网边缘设备中占据一席之地。这无疑为开发者带来梦寐以求的更多可能性。
在开发演进与革新的过程中,为了满足开发者对硬件的需求,几年前 Arm 在 Armv8.1-M 架构中引入了Arm® Helium™ 矢量处理技术。Helium 为小型低功耗嵌入式设备的 ML 和 DSP 应用带来了显著的性能提升。此外,它还提供单指令多数据 (SIMD) 功能,由此将 Arm Cortex®-M 设备的性能提升到全新水平,并支持预测性维护和环境监控等应用。
Helium 提高了 DSP 和 ML 性能,加快了信号调节(例如滤波、噪声消除和回声消除)和特征提取(音频或像素数据)的速度,继而能将之传输到采用神经网络处理器的分类中。
实现智能边缘侧的功能
我们可以看到,很多 Arm 的合作伙伴都在他们最新的产品中引入了 Helium 技术,由此助力开发者在网络最远端的受限设备上发挥 ML 功能的优势。2020 年二月,Arm 推出了采用 Helium 技术的 Cortex-M55 处理器,Alif Semiconductor 于 2021 年九月推出了首款基于 Cortex-M55 的芯片,并在其 Ensemble 和 Crescendo 产品系列中部署了搭载 Helium 的 Cortex-M55 处理器。此外,奇景光电 (Himax) 也采用了配备 Helium 的 Cortex-M55 于其下一代 WE2 AI 处理器,并以由电池供电的物联网设备中的计算机视觉系统为目标应用领域。
2022 年四月, Arm 推出了第二款支持 Helium 的 CPU——Arm Cortex-M85。瑞萨电子在 embedded world 2022 和 embedded world 2023 上曾就 Cortex-M85 进行过技术演示。演示中,Plumerai 通过瑞萨电子 RA MCU 技术大大加快了其推理引擎速度。作为一家开发基于摄像头实现人物检测的完整软件解决方案的公司,Plumerai 相信,性能的提升将确保该公司的客户可充分利用更庞大、更准确的 Plumerai 人物检测 AI 版本,同时提供更多的产品功能并延长电池续航时间。2023 年十一月,Arm 推出了第三款采用 Helium 技术的 CPU——Cortex-M52,这是一款专为人工智能物联网 (AIoT) 应用而设计的处理器,可为小型低功耗嵌入式设备的 DSP 和 ML 应用带来显著的性能提升,无需专用 NPU 即可在端点中部署更多计算密集型ML 推理算法。
随着硬件的发展,开发者所面临的软件复杂性也日益增加,因而需要新的开发流程来创建结合高效设备驱动程序的优化ML 模型。为生态系统提供的软件开发平台和工具也必须紧跟硬件而演进,这一点至关重要。
如今由 Arm 和第三方提供的多种工具可用于支持终端用户创建 AI 算法。数据科学家在离线环境中创建好模型后,即可使用相应的工具来优化模型,以便在基于Arm Ethos™-U 的 NPU 上运行模型,或在基于 Cortex-M 的处理器上使用 Helium 指令。
Qeexo 是第一家为边缘设备实现端到端 ML 自动化的公司,其 AutoML 平台提供了直观的用户界面 (UI),允许用户对传感器数据进行收集、清理和可视化呈现,并使用不同的算法来自动构建 ML 模型。Keil 微控制器开发套件 (Keil MDK) 等传统嵌入式工具是对 MLOps 工具的有益补充,并有助于建立用于验证复杂软件工作负载的 DevOps 流程。由此,嵌入式、物联网和 AI 应用程序最终汇聚于软件开发者都熟知的单一开发流程中。
边缘的潜能正在逐步被发掘。当前对提升微控制器性能的需求还在不断增长,特别是诸如声控门锁、人物检测识别、带有预测性维护的联网电机控制,以及数不胜数的其他高端 AI 和 ML 应用等任务。
我们相信,在正确技术的加持下,开发者可以重新构想边缘和端侧设备,并在性能、成本、能效与隐私等这些受限设备中的关键要素之间取得适当平衡,让未来的嵌入式开发实现 AI 计算的应用。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。