新闻重点:
Arm 控股有限公司(纳斯达克股票代码:ARM,以下简称“Arm”)今日宣布推出 Arm® Ethos™-U85 神经网络处理器 (NPU),是 Arm 迄今性能最高且能效最佳的 Ethos NPU 产品,以及全新物联网参考设计平台——Arm Corstone™-320,以加速实现语音、音频和视觉系统的部署。
Arm 高级副总裁兼物联网事业部总经理 Paul Williamson 表示:“随着边缘人工智能 (AI) 的部署规模持续扩大,芯片创新者必须应对日趋复杂的系统和软件、不断激增的 AI 性能需求,以及加速产品上市进程的压力。与此同时,软件开发者需要更加一致、简化的开发体验,并能更轻松地与新型的 AI 框架和库实现集成。此次 Arm 推出的新技术满足了加速边缘 AI 部署不断增长的要求。从初创企业到全球最大的微控制器厂商,每家企业都将 Arm 技术视作首选平台,以构建其从云端到边缘侧的 AI 解决方案。”
Arm Ethos-U85 NPU:Arm 全新第三代面向边缘 AI 的NPU 产品
与上一代产品相比,Ethos-U85 性能提升四倍,能效提高 20%,同时,其 MAC 单元可从 128 个扩展到 2048 个(在 1GHz 时,算力实现 4 TOPs),能够为诸如工厂自动化和商用或智能家居摄像头等需要更高性能的应用提供有力的支持。Ethos-U85 提供了相同的一致工具链,因此合作伙伴能够利用现有的投资,达到无缝的开发者体验。更重要的是,全新 Ethos-U85 NPU 支持了 TensorFlow Lite 和 PyTorch 等 AI 框架。
Ethos-U85 支持 Transformer 架构和卷积神经网络 (CNN) 以实现 AI 推理。Transformer 架构将推动新的应用,特别是面向视觉和生成式 AI 用例中,对于理解视频、填充图像的缺失部分或分析来自多个摄像头的数据以进行图像分类和目标检测等任务非常有效。
随着微处理器被部署到诸如工业机器视觉、可穿戴设备和消费者机器人等更多高性能的物联网系统中,Ethos-U85 专为与 Arm 领先的 Armv9 Cortex®-A CPU 相结合而设计,以加速处理机器学习 (ML) 任务,并为更广泛的更高性能设备提供高能效的边缘推理能力。
迄今,Arm Ethos NPU 系列产品已有逾 20 家授权许可合作伙伴,其中,Alif Semiconductor 和英飞凌是全新 Arm Ethos-U85 NPU 的早期采用者。
Alif Semiconductor 联合创始人兼总裁 Reza Kazerounian 表示:“新一代边缘 AI 应用的 ML 工作负载需要以节能的方式提供高性能表现。Alif 是业界首家推出基于 Arm Cortex-M55 和 Ethos-U55 的边缘 AI 解决方案的企业,我们非常高兴并期待 Arm 再次推出全新的 AI 技术,Ethos-U85 NPU,它将为我们新一代 Ensemble 系列微控制器和融合处理器带来所需的计算性能,助力实现未来边缘 AI 和视觉用例。”
英飞凌工业 MCU、物联网、无线和计算业务高级副总裁 Steve Tateosian 表示:“边缘 AI 用例日趋复杂,想要把握 AI 时代的机遇离不开安全、高性能的计算系统。我们期待在与 Arm 长期的合作伙伴关系基础上,通过 Arm Ethos-U85 及其对边缘 AI 部署所提供的 Transformer 架构支持,进而让这些复杂的系统成为可能。”
Corstone-320:全新物联网参考设计平台,加速语音、音频和视觉系统的部署
Arm Corstone-320 物联网参考设计平台集成了 Arm 最高性能的 Cortex-M CPU——Cortex-M85、Mali™-C55 ISP和全新的 Ethos-U85 NPU,为语音、音频和视觉等广泛的边缘 AI 应用提供所需的性能,例如实时图像分类和目标识别,或在智能音箱上启用具有自然语言翻译功能的语音助手。该参考设计平台涵盖了软件、工具和支持,其中包括 Arm 虚拟硬件。该平台的软硬件结合特性将使开发者能够在物理芯片就绪前便启动软件开发工作,从而加速推进产品进程,为日益复杂的边缘 AI 设备缩短上市时间。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。