机器视觉,为行业数字化打开了新的“视”界,是实现行业自动化和智能化的必要手段,这也使得越来越多的学生、研究者及开发者们学习并研究机器视觉技术。
贾志刚便是其中一员,他的另外一个身份是 “OpenCV 学堂” 的创办人。同时,作为 CSDN 博客专家以及 51CTO 视频学院认证讲师,贾志刚在图像特征提取匹配、识别等方面有较深入的研究,拥有 10 年以上图像处理项目实践经验和教学经验。
“机器视觉技术是一门涉及人工智能、计算机科学、图像处理等领域的交叉学科,不断在寻找更创新、更有效率的方式实现生产落地,”贾老师说。
在哔哩哔哩平台上,“OpenCV 学堂”的铁粉已经达到近 3 W 人,贾老师专门针对这些对视觉感兴趣、想自学 CV 开发或者想转行到视觉领域的各位开发者,录制了各类关于 CV 开发技术与案例实战的课程。
但是在长期的开发与培训中,贾老师还是遇到了一些困扰。学员经常发各种图像文件要求老师给出思路与方法,但是苦于没有合适的工具软件,对学员此类问题答疑效率极差,需要反复进行长时间的沟通。不仅如此,在机器视觉项目开发中经常需要向客户快速演示,以证明公司的技术能力,获取客户信任,但是由于没有好的算法演示工具套件,项目的预研跟评估流程很长,效率很低,与客户期望时间相去甚远。
“我们需要一个工具套件帮助老师更好地设计教学案例与算法演示,通过嵌入机器视觉领域必备知识点案例教学与算子支持,更具说服力地向学生展示机器视觉的强大力量,保证学生的学习更加有的放矢,更好地培养合格的机器视觉领域的技术人才。”贾老师表示。
同样,这也适用于那些需要向客户演示机器视觉项目,证明自己技术能力的企业用户。
于是,贾老师决定亲自率领团队开发一套名为 OpenMV (Open Machine Vision Toolkit) 的针对机器视觉技术方向的开源教学工具软件。
既然是工具套件,首先要选择一个硬件载体,这需要考虑到教学场景使用的便捷性与成本,同时兼顾运行速度与深度学习模型加速等因素。贾老师和他的团队将目光看向了 NVIDIA Jetson Nano 4GB 开发套件。
“这个平台具备 1 个网口和4 个 USB 插口,支持 HDMI 输出,是一款性价比超高,同时可以演示传统图像处理与深度学习推理的实验平台。”贾老师说,“外接了显示器与鼠标键盘之后就完成了硬件平台搭建。”
基于硬件选型与配置,软件系统选择开源计算机视觉库 OpenCV 作为传统视觉算法支撑,同时 OpenCV4.x 版本 DNN (Deep Neural Network) 模块有非常好的深度学习推理部署支持,通过 NVIDIA CUDA 实现推理加速。软件选择的开发语言是 Python,主要考虑到 Python 语言是人工智能与深度学习场景下开发者使用最广泛的语言,同时学习成本跟时间消耗相对来说比较低,对开发团队完成项目开发比较有利。界面开发框架选择 PyQT5,深度学习推理支持 OpenCV DNN 与 TensorRT 两种框架,传统图像处理与分析算法支持选择 OpenCV 库作为支持。针对 OpenCV 中模板算法进行优化,实现了支持多角度、多目标、多尺度的模板匹配,针对 OpenCV 测量模块缺失的问题,团队开发了一套基于梯度差分、快速边缘测量的算法模块,两个模块均已集成到 OpenMV 工具套件中,方便老师在教学场合演示。
自定义对象检测模型推理演示
谈到自研的这套 OpenMV 工具套件的开发目标,贾老师表示,希望能帮助高职院校培养更多既懂传统 OpenCV 算法,又懂深度学习,从训练到部署都合格的视觉开发工程师们,也希望能成为企业展示自己机器视觉技术实力的利器。未来,团队还会脚踏实地、全力以赴,用匠心做好后续开发工作,持续改进与提升产品质量,在 NVIDIA 高性能硬件加持下,为教育市场与高职院校视觉相关课程建设打磨更多的有用产品。
像贾老师及团队一样的开发者朋友们可以免费报名参加 GTC 的 Jetson 边缘 AI 开发者日活动。NVIDIA 专家将在活动上介绍最新的 Jetson 硬件、软件和合作伙伴。此外还有 CUDA 编程等精彩议题。内容包括:
(https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessionstab=16566177511100015Kus&search=Jetson#/session/1675122992275001FUuE)
(https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessionstab=16566177511100015Kus&search=Jetson#/session/1675125146374001Sj7X)
(https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessionstab=16566177511100015Kus&search=CUDA#/session/1666205357204001Efly)
另外,GTC 期间更有一场以 Jetson 平台为主题的专家交流分会,届时参加者可以与 NVIDIA 嵌入式平台工程师开展深度问答。这场互动交流会提供了一个独家机会,让您可以以团队或个人形式与 NVIDIA 产品幕后人员见面,答疑解惑。活动席位有限,先到先得。
复制链接粘贴至浏览器进行注册:
https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessionstab=16566177511100015Kus&search=Jetson#/session/1670472065129001rf2z
Jetson “百万开发者”有奖征集活动正在火热进行中。作为 Jetson “百万开发者”的一员,感谢您陪伴 Jetson 走过的开发之路。无论是企业、工程师、发烧友还是学生,我们相信每一位开发者都和 Jetson 有着不一样的故事。快来参与有奖征集活动,说出您与 Jetson 的故事,无论是开发创造的经典案例,还是学习构建的心得体验,都欢迎您畅所欲言,更有惊喜好礼等您拿!
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。