在本系列上一篇文章里,我们为大家介绍了 Jetson Nano 2GB 安装 CSI 摄像头的方法,以及最基础的启动指令。在本篇文章中,我们将向大家展示如何通过 OpenCV 调用 CSI/USB 摄像头。
本期我们会带着大家使用这个摄像头,执行一些很实用的图像处理(image processing)应用,至于计算机视觉(computer vision)的应用,将在下一期里带着大家一起操作。
什么是图像处理?什么又是计算机视觉?如果您有所混淆的话,这里先做个基本说明,二者之间的区隔还是很明显的:
图像处理:输入为图像,输出也是图像
过程中对于图形进行一些应用处理,例如颜色空间(color space)转换、图像格式转换、尺寸转换、角度转换、图像合成等操作,最基本的就是将摄像头的图像读入,显示在屏幕上,并写入磁盘,这就形成一个最简单的录像功能。
计算机视觉:输入为图像,输出为信息
在输入的图像/视频中,找到特定信息的技术,例如基于颜色的追踪、物体边缘的检测、将图像的像素转成信号直方图(histogram)等计算,甚至于车道查找(lane finding)、人脸检测(face detection)等,都属于计算机视觉的范畴,其输入为一张图像,但输出的是某类从图像中淬炼出来的信息。
在 Jetson Nano 2GB 搭建的 JetPack 4.4.1 版本里,内建 OpenCV 4.1.1 版本的开发环境,这是目前图像处理、计算机视觉领域使用率最高的开发工具,因此我们就用 OpenCV 搭配 CSI 摄像头来做图像处理项目。
这里使用 Jetson Nano 2GB 的自带的 gedit 全文编辑器来撰写代码,编程语言使用 Jetson Nano 2GB 预安装的 Python 3.6 版本,由于相关所需的开发环境都已经由 JetPack 4.4.1 完整提供,因此不需要再执行额外的安装,非常简便。
我们可以将视频数据认知为由连续的图像所组合,因此在这里全部以视频处理作为示范,比较动态。至于图像的处理方式,请自行调整代码,二者之间的差异主要在写入磁盘以及是否需要循环指令的部分,如下表:
实现摄像头录像功能
这个功能主要执行三个动作:
从摄像头读入图像
给定文件名
写入磁盘中
这些动作在 OpenCV 都有非常简单的对应指令可以操作,详细代码如下:
本代码以“ESC”键结束录像。
将读入的图像执行缩放
这个功能主要执行三个动作:
摄像头读入图像
调用 cv2.resize 函数进行图像尺寸改变,选择插值方式(cv2.INTER_NEAREST)
在屏幕上显示
完整代码如下:
本代码以“ESC”键结束录像。
将读入的图像执行旋转
这个功能主要执行 4 个动作:
从摄像头读入图像
找出图像中心点
调用 cv2.getRotationMatrix2D() 函数进行旋转
显示:本范例显示 90 度/ 180 度/ 270 度
详细代码如下:
本代码以“ESC”键结束录像。
本文介绍了 3 种在 Jetson Nano 2GB 上,结合 CSI 摄像头与 OpenCV 做的很实用的图像处理应用,应该很容易上手。后面将为您介绍几个常用的计算机视觉应用情况。
好文章,需要你的鼓励
香港大学等机构研究者开发的PHYX基准测试评估了AI模型的物理推理能力,结果显示即使最先进的GPT-4o等多模态模型在此类任务上的准确率仅为32.5%-45.8%,比人类专家低29%以上。PHYX包含3000个跨六大物理领域的多模态问题,要求模型整合领域知识、符号推理和现实约束理解。分析发现模型存在视觉推理错误、过度依赖文本描述和数学公式等关键缺陷,为未来开发物理感知AI系统提供了重要指导。
QwenLong-CPRS是阿里巴巴千问文档团队开发的创新上下文压缩框架,专为解决大型语言模型处理长文本的效率和"迷失在中间"问题。该技术通过自然语言引导的动态优化、双向推理层、基于语言建模的标记评价和窗口并行推理四大创新,实现了高达21.59倍的上下文压缩率和显著的性能提升。研究表明,配备QwenLong-CPRS的小型模型甚至能超越专业长上下文模型,为高效处理海量文本开辟了新途径。
这项研究介绍了MOOSE-Chem3,一种通过模拟实验反馈进行化学假设排序的创新方法。传统的预实验排序仅依靠大型语言模型的内部推理,而该研究提出的实验引导式排序方法则利用先前实验结果来优化决策。研究团队基于三个领域假设构建了高保真模拟器,并验证了其对124个真实化学假设的预测准确性。他们开发的CSX-Rank方法通过功能聚类和反馈分析,将找到最优假设所需的实验次数减少了一半以上,即使在嘈杂条件下也表现出色,为化学研究提供了更高效的探索路径。
FullFront是一项创新研究,首次全面评估多模态大语言模型在前端工程完整流程(从设计概念化到视觉理解再到代码实现)中的能力。研究通过精心设计的基准测试,包括网页设计、网页感知问答和网页代码生成三大核心任务,发现即使最先进的模型在精细视觉感知(如元素对齐、大小和间距)方面表现远低于人类专家,且在复杂布局和交互功能实现上仍存在显著局限。研究揭示了闭源模型普遍优于开源模型,但所有模型与人类专业水平间仍存在巨大差距,为未来AI辅助前端开发工具的改进提供了重要方向。