作者: 安森美智能感知事业部Geoff Ballew
如今,摄像头已随处可见,工厂、车辆、公共建筑、街道……其数量还在不断增多。大部分摄像头依靠图像传感器将场景中的光线转换为电子图像,因而推升了对图像传感器的需求。但图像传感器种类繁多,功能特性各不相同,设计人员需要熟悉不同传感器的不同功能特性,才能为特定应用选择合适的摄像头。
乘用车摄像头搭载量激增,有些豪华车型甚至配有十几个摄像头。汽车制造商需要添加更多传感器以提升安全性,还需考虑每个摄像头的经济成本和占用空间,这为其带来了挑战。于是,汽车制造商开始寻找解决方案,希望用一个摄像头捕获同时针对人眼视觉和机器视觉优化的图像。人眼视觉与机器视觉所适用的图像质量存在区别,需要权衡取舍,因此实施这一方法同样难度不小。
人眼视觉
人眼视觉系统对像素间亮度强弱差异的感知与机器视觉算法不同。人眼对亮度的感知是非线性的,也就是说,如果所在环境中光子数量增加一倍,眼睛感知到的亮度也只增加了一倍。这需要调整用于人眼视觉的摄像头图像以对应其动态范围,从而将人眼感知的较亮区域和较暗区域的细节充分放大。此外,我们对一般颜色和 LED 光源的闪烁十分敏感(这一问题日益普遍),因此如果摄像头导致颜色失真,即使图像清晰且其他方面的质量很高,也会影响人类的视觉体验。对于后视摄像头等辅助驾驶的被动安全系统,驾驶员也比机器视觉系统有优势,因为如果图像有缺,驾驶员会自动发现,而此时无需依赖摄像头。虽然这不会引发重大安全事故,但摄像头丧失用处也会带来不便,因此,驾驶员不会依赖摄像头图像,而是更多地进行主动判断。
机器视觉
与人眼视觉不同,使用机器视觉的自动化系统会查看图像中每个像素的数字值,因此其对光子数呈线性反应。与用于人眼视觉的图像不同,因此必须调整以输出对应于测量像素值的图像。此外,机器视觉系统必须经过编程或采用特殊的错误检测硬件才能检测出图像缺陷。缺少该硬件的系统可能无法正常工作,且不会告知驾驶员其功能已受损或无法运行。对于像自动紧急制动这样的主动安全系统,如果出现故障,误报将导致系统在无碰撞危险时实施制动,而漏报会使系统在发生危险时完全失灵,从而造成严重的后果。如果驾驶员使用此类辅助系统,则需要显示信息来指示其功能不全,但可能无法发出功能受损的警告。部分系统会提醒驾驶员其功能受损或“不可用”,它们通常依赖特殊的硬件功能来检测传感器中的错误或故障。此类功能须遵循汽车安全完整性等级 (ASIL) 等相关的行业标准,支持 ASIL 的传感器将具有检测和报告故障的功能,可提高安全性。以上就是用于机器视觉的传感器与用于人眼视觉的传感器需要进行不同配置的两个原因。
120 度视场传感器 RYYCy 图像,经过彩色处理
使用单个摄像头实现观察和感知的传感器解决方案
好消息是,部分传感器已具备同时适用于人眼和机器视觉的出色功能,且可进行优化并输出两路同步数据流,助力工程师设计可同时用于人眼和机器视觉功能的摄像头系统。这样一来,汽车制造商只需在车内的特定位置部署一个摄像头,最大限度地减小占用空间并降低系统成本,获得可针对两种工作负载应用优化的图像。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。