以机器人和自动驾驶等技术为代表的新技术正在重新定义人机交互的模式,智能视觉变得必不可少。因为机器系统必须通过视觉等感官理解周围环境,做出相应的决策和行动,视觉信息为自动驾驶和机器人提供了关键的安全和避障能力。
视觉对于人机交互也至关重要,机器视觉可以通过捕捉人类的表情、手势和动作,从中理解人类的意图和情感,改善AI与人类的沟通和合作。
近期,Arm宣布推出针对视觉应用设备的Arm智能视觉参考设计,全新参考设计首次将Arm现有子系统IP与第三方IP整合,助力中国客户加速视觉应用设备开发。
智能视觉系统的发展趋势
从制造到零售等行业的自动化程度不断提高,加上机器学习和物联网的重大技术突破,使中国对视觉设备的需求以及在视觉技术方面的创新都稳步增长。
Arm物联网事业部业务拓展副总裁马健告诉记者,智能视觉系统的技术发展趋势呈现为:
云、边、端的协同。由于视频数据巨大的数据量以及诸如自动驾驶等应用的实时性要求决定了智能视觉系统需要能够将计算和决策任务分布在云、边和终端设备上,并实现协同工作。AI模型要经过不断的训练才能保持它的准确度。而训练通常是在云端进行,在云端训练好的模型必须能够持续下放到边缘侧。
AI加持。智能视觉系统依赖深度学习模型和神经网络,提高图像的分析和识别能力,并利用强化学习和自主自适应学习,使系统能够从环境中不断学习和改进,并适应新的场景和任务。
在机器学习方面,Arm通过与各主要框架供应商(如TensorFlow)积极合作,以确保这些主流框架能够在所有Arm产品组合中实现无缝运行。同时,Arm也是开源社区软件库的重要贡献者之一。
算力支持。由于复杂的模型和算法,大规模的图像数据处理实时性、高精度、高并发等要求,智能视觉系统需要提供越来越强大的计算资源和算力支持。
此外,智能视觉系统的广泛应用也引发了对隐私和安全性的关注,未来的趋势是采用加密、匿名化等技术手段保护用户的隐私,同时加强系统的安全性,防止被恶意攻击和滥用。
智能视觉芯片架构的演进
伴随着智能视觉系统的技术趋势,智能视觉芯片架构从功能固定难以编程的 DSP 和 ASK,发展到通用性强易编程的CPU架构,以及到现在最先进的综合CPU、ISP图像处理器、NPU AI加速器、VPU视频编解码器、GPU图形处理器的异构SoC片上系统。
随着视觉应用设备需求的持续增长,客户希望能够将自己的IP集成到这些解决方案中,从而获得更多灵活性,以实现产品差异化并集成更广泛的功能。Arm智能视觉参考设计结合Arm与安谋科技市场领先的IP,提高设备本身处理能力,增强机器学习能力,同时加速开发进程。
安全是物联网的一个根本基础,Arm分别从认证标准、IP实践到软件赋能等多个方面确保产业安全达标。比如在认证标准方面,Arm持续推动安全性最佳实践的共同标准,如PSA Certified与PARSEC等;在IP实践方面,Arm通过包括适用于Cortex-A与Cortex-M的Arm TrustZone等产品组合令最终客户可以放心部署从云到端的物联网应用。
Arm智能视觉参考设计采用成熟的Arm CPU IP作为基础,安谋科技为此设计贡献的玲珑VPU提供了紧凑、多格式和高效的视频编解码器,以及周易NPU的高达4TOPS的机器学习(ML)加速,使该参考设计可以支持机器视觉的用例。
安谋科技智能物联及汽车业务线负责人赵永超表示,AI及5G技术的进步,在加速视觉应用技术与各领域深度融合的同时,也进一步促进了国内智能视觉产业生态的繁荣。Arm 智能视觉参考设计通过集成安谋科技玲珑VPU和周易NPU,并由安谋科技将Arm IP与安谋科技自研IP进行集成和验证,可进一步满足国内客户在不同场景下的差异化视频处理需求,提高机器学习与视频处理工作时的负载表现,从而加速视觉应用产品的创新落地。
马健补充说,差异化是客户重点追求方向之一,Arm选择与安谋科技合作,结合双方领先的IP产品 ,并由安谋科技进行集成和验证,帮助中国的客户满足中国市场的需求。“如果客户有图像处理和ISP方面的自研IP,可以通过安谋科技或第三方的芯片设计公司快速整合IP,并且在此参考设计基础上进行集成和验证,达到产品量产的阶段。”
打造Arm智能视觉生态
Arm在移动基础设施、智能物联网方面的广泛部署夯实了Arm架构的坚实生态。
多年来,Arm全球合作伙伴已将Arm技术成功部署在其视觉应用解决方案中,包括晶晨半导体、安凯微电子、星宸科技等中国合作伙伴。
Arm正式宣布“Arm智能视觉合作伙伴计划”,该计划汇集软件、硬件、系统集成商伙伴,帮助设计者与开发者加速将其生产就绪的视觉应用设备推向中国市场。加入该计划的合作伙伴将与视觉应用生态厂商紧密合作,共同优化产品与开发者体验,加速推向市场。目前已有十多家来自智能物联网的芯片设计、系统集成、AI 算法、开发平台等国内领先企业均已加入该项计划。
生态伙伴可借由Arm虚拟硬件(Arm Virtual Hardware,AVH)的形式获取Arm智能视觉参考设计的虚拟模型,助力软件开发者在芯片完备前先着手开发并优化代码。该参考设计具备可信任的底层IP技术,在增强安全、可移植性与兼容性方面,已取得Arm SystemReady IR与PSA Certified Level 2等重要的业界标准认证。
比如百度飞桨已经实现了基于飞桨的视觉模型库和Arm虚拟硬件的整合适配。作为软件设计合作伙伴加盟,诚迈科技日前成为中国第一个Arm批准的ISP调优伙伴。厦门星宸科技通过了PSA安全认证,展示了智能视觉界领军者对安全和隐私保护重视程度的提高。
结语
随着AI和大模型一日千里的发展,智能视觉技术将继续在所有垂直行业得到更广泛的应用,视觉将无处不在。在视觉成为一种普世能力的趋势下,预先集成、预先验证的标准化子系统会为加速视觉产品设计和创新提供坚实的基础,这也是Arm和安谋科技携手为中国市场打造智能视觉参考设计的初衷。
“欢迎有兴趣的客户评估和使用Arm智能视觉参考设计,设计出更多创新的视觉系统。实现这个愿景需要整个生态系统的协同合作,Arm欢迎更多的伙伴加入我们,共同创建智能视觉的未来。”马健如是说。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。