----Bing.Yan ICSD ISG
在机器视觉普及的时代,图像传感器作为其“眼睛”有着越来越多的各样的应用。安森美(onsemi)的图像传感技术通过不断地技术创新,力求满足越来越广泛的市场领域需要。如今,越来越多的家庭和企业安装摄像头做监控,据Yole统计,预计到2030年底,此市场将增长两倍。因此,消费者需要有更优秀的图像质量、更可靠和更长电池寿命的设备,来提升整体使用体验。由于这些相机通常会被放置在难以更换电池或充电的位置,因此低功耗成为一个关键需求。对此,安森美推出了一些低功耗的高质量图像传感技术,场景覆盖智能门禁、安防摄像头、增强现实(AR)/虚拟现实(VR)/扩展现实(XR)头戴装置、机器视觉和视频会议等。比如其中的智能运动侦测唤醒技术(smart Wake on Motion),非常适用于对运动侦测有需求的低功耗物联网设备,例如安防领域的智能门铃门锁等。
安森美的Hyperlux LP系列图像传感器即具备上述的Wake on Motion低功耗技术。在增强了设备的侦测能力的同时,有效地降低功耗。Hyperlux LP系列同时具有高分辨率的非常优秀的图像解析力,客户可以根据使用情况,选用500万分辨率的AR0544、800万分辨率的AR0830或2000万分辨率的AR2020。另外此产品系列还采用堆叠式架构设计,能最大限度地减少产品体积,最小型号小如一粒米,成为受尺寸限制困扰的紧凑型设备的理想选择,大大适应了相关领域产品的发展需求。下面,将针对Wake on Motion低功耗技术做一些较为详尽的介绍。
顾名思义,wake on motion即为运动侦测唤醒,即当传感设备检测到前方某距离内有移动物体时,则退出休眠状态,进入工作状态,这样降低了功耗,保证了设备在需要工作的状态才工作,其他时候可以通过休眠节电。
传统的wake on motion实现一般基于被动红外传感器(PIR)。这种传感器应用广泛,但存在误触发率高的问题,导致系统功耗优化有限,产生50%左右的功耗额外消耗。
针对PIR的误触发问题,安森美推出智能运动侦测唤醒技术,其方案是采用图像传感器融合PIR进行运动侦测唤醒。核心关键在于在很低的功耗下赋予图像传感器运动侦测能力。该方案采用了独有的Motion-DCT 算法,结合图像传感器的scale或binning技术在获取的较低分辨率图像上快速实时准确地做出运动侦测。该方案的特点为:
方案示例如下图。从图中可见,左侧采用了PIR和图像传感器两方进行运动侦测并反馈到CPU处理器。该方案有两种使用策略:Cascade级联和Parallel并行。具体含义为:
此方案适用的参数范围为:
AR0830运动侦测技术支持感兴趣区域选择功能,以进一步降低系统功耗。即:将整幅图像分成若干区域,供用户选择是否使用该区域图像做运动侦测,以避免无效区域,从而降低算法的计算量,提升检测速度及降低功耗。
如下图展示的一个区域选择示例。图中,将整幅图像分成了5X5的区域块,选取了A,B,C三个方块区域作为MASK区域,即不感兴趣区域,不参与运动侦测计算,其他方块区域作为感兴趣区域参与运动侦测计算。除ABC区域外的任何区域中检测到运动物体,则该区域将得到一个运动标记。以上区域划分和设定均可以由图像传感器的寄存器操作完成。
下图是在实际应用场景中的示例:
可以看到,在该图中,只有中间区域被选作了感兴趣区域。而我们对画面进行运动捕捉block 分区,只需关注开启区域的运动检测,像上图中典型的可视门铃场景内存在树木花草,一旦有什么“风吹草动”或者小动物经过,很可能系统就开启误报,而可编程的运动捕捉区域,可以很好的降低这种误报。配合PIR,通过sensor自带的运动捕捉和超级低功耗模式,可以让整机系统电池使用时间延长40%。
安森美图像传感器AR0830采用的Motion-DCT运动侦测算法基本原理是计算每帧Gr像素的DCT和,并比较两个连续帧之间DCT和的差异。如果差值等于或大于预定义阈值,则检测到物体运动发生。
如前所述,安森美的智能运动侦测唤醒技术采用图像传感器融合PIR进行运动侦测唤醒,且该方案有两种使用策略模式:Cascade和Parallel。下面详细介绍一下。
需要注意的是,Cascade和Parallel两种模式互斥,同时只能选其一。
在实际产品应用的时候二者特点或区别在于:
下图是当人在垂直于光轴方向水平走过摄像头时候的运动侦测准确率情况:
下图是当人沿光轴方向径直走向摄像头时候的运动侦测准确率情况:
可以看到:
另外,此方案的功耗性能为:
Host CPU wake up + image sensor – 800~1200mw
Host CPU wake up + image sensor +Wifi module – 1.2~1.8W
总体而言,在前述的适用参数范围内,该方案具备良好的适用性和准确性能以及低功耗的显著特点。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。