随着人工智能(AI)不断对我们的日常生活产生越来越大的影响,其推理任务也逐渐从云端迁移到边缘侧和端侧。
Arm物联网事业部业务拓展副总裁马健告诉记者,将计算资源部署于边缘和终端,在提升响应速度与可靠性、节省带宽资源、保护隐私与数据安全,以及降低成本等方面都具有明显优势。
近日,Arm宣布推出Arm Ethos-U85神经网络处理器(NPU),以及全新物联网参考设计平台——Arm Corstone-320,以加速实现语音、音频和视觉系统的部署,促进未来多模态智能应用的全方位部署。
Arm第三代面向边缘AI的NPU产品
物联网的兴起极大推动了边缘计算设备的普及,这些系统开始具备更强的处理能力和连接性,使得数据处理更加靠近数据源。随着机器学习(ML)和AI技术的发展,智能设备不仅能够执行任务,还能够学习和适应。
近来,伴随着Transformer与大模型的发展,AI模型的普适性、多模态支持,以及模型微调效率都有了质的突破,加上低功耗的AI加速器和专用芯片被集成到终端设备中,边缘智能正变得越来越自主和强大。
Arm多年来不断开发边缘AI加速器,以满足边缘侧和端侧不断增长的推理工作负载需求。此前两款成功的NPU产品——Arm Ethos-U55和Ethos-U65,为边缘侧和端侧AI应用带来了高性能、高能效的解决方案。
与上一代产品相比,Ethos-U85性能提升四倍,能效提高20%,同时,其MAC单元可从128个扩展到2048个(在1GHz时,算力实现4TOPs),能够为诸如工厂自动化和商用或智能家居摄像头等需要更高性能的应用提供有力的支持。
Ethos-U85提供了与前几代 Ethos U 系列相同的一致工具链,因此合作伙伴能够利用现有的投资,达到无缝的开发者体验。更重要的是,全新Ethos-U85 NPU支持了TensorFlow Lite和PyTorch等AI框架。
于2017年问世的Transformer架构彻底改变了生成式AI,并成为许多新型神经网络的首选架构。Transformer架构将推动新的应用,特别是面向视觉和生成式AI用例中,对于理解视频、填充图像的缺失部分或分析来自多个摄像头的数据以进行图像分类和目标检测等任务非常有效。
大模型在边缘AI落地面临模型成熟度、边缘AI平台开发等挑战,而Ethos-U85 可原生支持Transformer架构和卷积神经网络(CNN)以实现AI推理。
随着微处理器被部署到诸如工业机器视觉、可穿戴设备和消费者机器人等更多高性能的物联网系统中,Ethos-U85专为与Arm领先的Armv9 Cortex-A CPU相结合而设计,以加速处理ML任务,并为更广泛的更高性能设备提供高能效的边缘推理能力。
迄今,Arm Ethos NPU系列产品已有逾20家授权许可合作伙伴,其中,Alif Semiconductor和英飞凌是全新Arm Ethos-U85 NPU的早期采用者。
全新物联网参考设计平台
随着语音、音频和视觉功能融合到物联网(IoT)中,物联网设备与其周围环境交互、解读和感知的方式发生了彻底的变化。从前难以想象的广泛新应用和功能正逐步被发掘。而这将推动物联网设备和技术实现重大的创新与变革。
边缘AI既带来了机遇,也带来了挑战。在设计边缘AI芯片和系统时,需要在计算能力和能效之间找到合适的平衡。高性能的处理能力往往伴随着更高的功耗,而边缘设备往往对功耗和成本都有着严格限制。
马健表示,Arm架构天然具备优异的能效。在产品设计中实现低功耗设计是Arm与生俱来的DNA,能帮助广大的合作伙伴降低能耗和成本。
与此同时,随着越来越多的数据在边缘被处理,数据安全和隐私保护变得尤为重要。这要求芯片设计必须包含加密和安全功能。边缘用例五花八门,传统物联网市场存在碎片化,为了更好地统一多样化的应用要求,达到规模化效益,软件定义和适于软件移植的标准更是必不可少。Arm在IP、参考设计和软件标准上持续投入,从而帮助整个边缘AI生态应对这些挑战。
Arm一贯秉承构建通用计算平台和生态的策略,不仅平衡性能与能效,更将软件的可扩展性和系统应用的开发成本作为一个关键的考量因素,进而助力生态系统合作伙伴实现最低的总拥有成本(TCO)。
“我们认为只有普适性的通用计算平台才可能达到规模化,进而更好地实现丰富的软件支持。期待未来通过大模型和多模态,物联网碎片化问题可以得到更好的改进,AI会从一个单一功能到多功能,甚至是向通用 AI 的方向演进,这样的演进方式也非常适合搭载Arm推出的通用处理器,不管是嵌入式处理器还是应用处理器,还是处理器上实现的统一的工具链以及对操作系统(OS)和中间件的软件支持。”马健说。
Arm Corstone-320物联网参考设计平台集成了Arm最高性能的Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的Ethos-U85 NPU,为语音、音频和视觉等广泛的边缘AI应用提供所需的性能,例如实时图像分类和目标识别,或在智能音箱上启用具有自然语言翻译功能的语音助手。
该参考设计平台涵盖了软件、工具和支持,其中包括Arm虚拟硬件。该平台的软硬件结合特性将使开发者能够在物理芯片就绪前便启动软件开发工作,从而加速推进产品进程,为日益复杂的边缘AI设备缩短上市时间。
马健表示,软硬件必须协同工作才能释放AI处理的最大潜能。Arm不仅仅聚焦处理器IP,更是在软件与工具链方面加强投资,以满足更简单、快速的高性能边缘AI系统的开发需求,支持诸多AI算子与应用在Arm计算平台上的优化运行,使边缘AI在Arm平台上“枝繁叶茂”。
展望AI加速器的未来,AI正处于非常迅速的发展初期,尤其是边缘AI。Arm将持续通过强大的产品组合,对新的Transformer模型提供原生的支持,对工具链保持一致、易用的特性,帮助整个物联网生态更容易实现AI和ML的转型。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。