在上一篇文章中,我们已经体验了”10行Python代码的威力”,可以明显感觉到 ”Hello AI World”的内容绝非一般应用的“Hello World”那么简单。在本篇文章中,我们将为大家介绍如何更换模型以获得不同的效果。
当然,这个项目有一个特色,那就是它非常有效地利用了“预训练模型”!事实上,在深度学习应用过程中,“训练模型”是需要耗费相当大量的时间与计算资源的,这个过程对于初学者来说难度非常高,因此想要让初学者轻松上手,就必须提供“最简单”、“最有效”的入门方式,“支持预训练模型”就是一种非常好的方法。
看一下上一篇“10lines.py”里的第5行代码:
5 |
net = jetson.inference.detectNet("ssd-mobilenet-v2", threshold=0.5) |
我们只要将粗体底线的“ssd-mobilenet-v2”部分进行置换,就能调用不同的预训练模型,去改变您想要检测的类型结果。这些预训练模型的来源主要有二:
在前面“项目安装”一文中,执行过程的“Download Models”部分就是下载这些预训练模型以及所需要的配套文件,下载脚步会将这些文件放置到对应的路径中,并且在C++主代码内已经做好设置。这是本文所要说明的内容。
这个部分由于牵涉更多的设定,因此会在后面的文章中进行说明。本系统已建立的模型列表如下图:
上面的模型,都是由NVIDIA为大家用高性能级别的GPU服务器,耗费数天时间所训练出来的模型,效果与质量都是很好的。前面三种都是以91类的COCO数据集训练出来的物件检测模型,三种模型直接的差异主要在性能与置信度之间。后面7种模型都是“单类”模型,它们均只能识别一种物件,我们可以对同一个视频去改变不同的模型,看看输出的结果如何,就能清楚“更换模型去改变功能”这句话的意思。
上表中与代码有关系的是第二行“CLI argument”,也就是我们只要将前面指令中的粗体底线(“ssd-mobilenet-v2”)进行置换,例如调用ped-100这个模型,就只能检测“pedestrians (行人)”这类物件,请将模型代码部分改成“pednet”,如此第5行内容就变成:
5 |
net = jetson.inference.detectNet("pednet", threshold=0.5) |
如果只想检测“dog(狗)”的话,就将模型代号改为“coco-dog”,去调用DetectNet-COCO-Dog这个预训练的模型,代码如下:
5 |
net = jetson.inference.detectNet("coco-dog", threshold=0.5) |
这么轻松的方式,就能改变调用的模型,去得到不同的结果。
为了更有效地体验不同模型的识别效果,我们用视频文件作为输入源,就更容易感受到它们之间差异,这里用系统自带的 /usr/share/visionworks/sources/data/pedestrians.mp4作为输入源,以此将10lines.py代码修改成如下:
1 2 3
4 5
6 7 8 9 10 |
import jetson.utils input = jetson.utils.videoSource( "/usr/share/visionworks/sources/data/pedestrians.mp4") output = jetson.utils.videoOutput("display://0")
import jetson.inference net = jetson.inference.detectNet("pednet", threshold=0.5)
while output.IsStreaming(): img = input.Capture() detections = net.Detect(img) output.Render(img) output.SetStatus("Performance {:.0f}FPS".format(net.GetNetworkFPS())) |
|
|
(使用ped-100模型,只检测出“Pededtrians(行人)”物件)
(使用DetectNet-COCO-Dog模型,只检测出 “Dog(狗)” 物件)
如何,是不是很简单呢?请自行尝试更换其他的模型,当然也可以将输入源改成摄像头,用你周遭的物体来试试效果。
最后,我们来看一个预训练好的模型,以系统预设的SSD-Mobilenet-v2为例,主要文件存放在
~/jetson-inference/data/networks/SSD-Mobilenet-v2里面,浏览一下里面的内容:
1 |
|
可以看到以下的列表:
第一个“ssd_coco_labels.txt”存放着这个模型的类别名称,您可以打开看看。
第二个“ssd_mobilenet_v2_coco.uff”就是预训练好的模型文件,附加文件名为.uff的通常是Tensorflow训练的模型,再转换过来的中间格式。
第三个文件的末尾附加名“.GPU.FP16.engine”代表是TensorRT所建立的加速引擎,支持GPU的FP16格式。
如果检查ped-100模型的话,会看到不一样的内容,执行以下指令:
1 |
|
可以看到以下的列表,这样的内容肯定就是由Caffe框架训练出来的模型。
好文章,需要你的鼓励
OpenAI和微软宣布签署一项非约束性谅解备忘录,修订双方合作关系。随着两家公司在AI市场竞争客户并寻求新的基础设施合作伙伴,其关系日趋复杂。该协议涉及OpenAI从非营利组织向营利实体的重组计划,需要微软这一最大投资者的批准。双方表示将积极制定最终合同条款,共同致力于为所有人提供最佳AI工具。
中山大学团队针对OpenAI O1等长思考推理模型存在的"长度不和谐"问题,提出了O1-Pruner优化方法。该方法通过长度-和谐奖励机制和强化学习训练,成功将模型推理长度缩短30-40%,同时保持甚至提升准确率,显著降低了推理时间和计算成本,为高效AI推理提供了新的解决方案。
中国科技企业发布了名为R1的人形机器人,直接对标特斯拉的Optimus机器人产品。这款新型机器人代表了中国在人工智能和机器人技术领域的最新突破,展现出与国际巨头竞争的实力。R1机器人的推出标志着全球人形机器人市场竞争进一步加剧。
上海AI实验室研究团队深入调查了12种先进视觉语言模型在自动驾驶场景中的真实表现,发现这些AI系统经常在缺乏真实视觉理解的情况下生成看似合理的驾驶解释。通过DriveBench测试平台的全面评估,研究揭示了现有评估方法的重大缺陷,并为开发更可靠的AI驾驶系统提供了重要指导。