在本系列上一篇文章中,我们带领大家掌握了颜色空间动态调节技巧。在本篇文章中,我们将带领大家了解 OpenCV。
前面连续几篇在 Jetson Nano 2GB 上,执行多个简单且实用的 Python 的 OpenCV 项目,都是轻松调用 JetPack 预装的 OpenCV 就能实现的功能,不需要额外安装其他库,包括人脸与眼睛检测的范例。
JetPack 为 Jetson Nano 2GB 安装的 OpenCV,是经过 NVIDIA 特调过的,因为 Jetson Nano 2GB 的目的是要成为边缘计算设备。由于各项计算资源都相对局限,因此 JetPack 所提供的 OpenCV 主要保留计算机视觉中最常用的基础功能。
以下就整理几个 Jetson Nano 2GB 上最常遇到的 OpenCV 问题:
1. 这个 OpenCV 是什么版本?
答:这里检查 OpenCV 版本的方法有很多种,下面两种是最简单的:
(1) 直接执行 opencv_version (如下截屏):
(2) 由于这里的 OpenCV 使用 dpkg 工具进行安装,因此可以使用以下指令检查版本:
第二种方法还能看到安装了支持 Python 的版本,以及 Samples 范例。
2. 这个 OpenCV 支持哪个 Python 版本?
答:JetPack 为 Jetson Nano 2GB 安装了 2.7 与 3.6 两个版本 Python 开发环境,可以分别执行以下指令去分别确认。
表示这个 OpenCV 支持 2.7 与 3.6 这两个版本的 Python。
3. 这个 OpenCV 支持 CUDA 计算?
答:这里有个最简单的指令“opencv_read_cuda”,在任何地方执行,显示如下:
这里得到的答案颇令人意外,居然是“NO”,表示不支持 CUDA。
这是因为前面所说,为了节省 Jetson Nano 2GB 的计算资源,因此这个 OpenCV 只提供最基本计算机视觉的功能,连 NVIDIA 自己的 CUDA 支持部分也去除。如果需要使用支持 CUDA 功能的 OpenCV 版本,需要从 OpenCV 官网下载源代码进行安装,这类教材网上有很多,请自行处理。
4. 这个 OpenCV 支持哪些库?
答:最简单的方式就是直接检查已安装的 lib 内容,请执行以下指令:
可以根据上述列表找出已安装的列表。
5. 如何取得 OpenCV 完整的安装与支持信息?
答:可以在 python 里汇入 cv2 之后,执行 cv2.getBuildInformation(),如下图:
下面还有非常多的信息,例如与 C/C++ 有关的(如下截屏):
已安装的模组(如下截屏):
例如上图就能看到对 FFMPEG、GSTREAMER 与 v4l/v4l2 的支持版本。
对 Python 的支持(如下截屏):
信息内容非常多,请自行阅读。
6. 需要升级对 Python 的支持?例如执行 pip3 install opencv-python 或 sudo apt install python3-opencv
答:这两种方式都会产生问题,建议不要使用。
以上针对 NVIDIA JetPack 为 Jetson Nano 2GB 所提供的 OpenCV 开发环境,以及大部分开发者最常见的问题,提供一个简单整理。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。