在上一篇文章中,我们已经体验了”10行Python代码的威力”,可以明显感觉到 ”Hello AI World”的内容绝非一般应用的“Hello World”那么简单。在本篇文章中,我们将为大家介绍如何更换模型以获得不同的效果。
当然,这个项目有一个特色,那就是它非常有效地利用了“预训练模型”!事实上,在深度学习应用过程中,“训练模型”是需要耗费相当大量的时间与计算资源的,这个过程对于初学者来说难度非常高,因此想要让初学者轻松上手,就必须提供“最简单”、“最有效”的入门方式,“支持预训练模型”就是一种非常好的方法。
看一下上一篇“10lines.py”里的第5行代码:
5 |
net = jetson.inference.detectNet("ssd-mobilenet-v2", threshold=0.5) |
我们只要将粗体底线的“ssd-mobilenet-v2”部分进行置换,就能调用不同的预训练模型,去改变您想要检测的类型结果。这些预训练模型的来源主要有二:
在前面“项目安装”一文中,执行过程的“Download Models”部分就是下载这些预训练模型以及所需要的配套文件,下载脚步会将这些文件放置到对应的路径中,并且在C++主代码内已经做好设置。这是本文所要说明的内容。
这个部分由于牵涉更多的设定,因此会在后面的文章中进行说明。本系统已建立的模型列表如下图:
上面的模型,都是由NVIDIA为大家用高性能级别的GPU服务器,耗费数天时间所训练出来的模型,效果与质量都是很好的。前面三种都是以91类的COCO数据集训练出来的物件检测模型,三种模型直接的差异主要在性能与置信度之间。后面7种模型都是“单类”模型,它们均只能识别一种物件,我们可以对同一个视频去改变不同的模型,看看输出的结果如何,就能清楚“更换模型去改变功能”这句话的意思。
上表中与代码有关系的是第二行“CLI argument”,也就是我们只要将前面指令中的粗体底线(“ssd-mobilenet-v2”)进行置换,例如调用ped-100这个模型,就只能检测“pedestrians (行人)”这类物件,请将模型代码部分改成“pednet”,如此第5行内容就变成:
5 |
net = jetson.inference.detectNet("pednet", threshold=0.5) |
如果只想检测“dog(狗)”的话,就将模型代号改为“coco-dog”,去调用DetectNet-COCO-Dog这个预训练的模型,代码如下:
5 |
net = jetson.inference.detectNet("coco-dog", threshold=0.5) |
这么轻松的方式,就能改变调用的模型,去得到不同的结果。
为了更有效地体验不同模型的识别效果,我们用视频文件作为输入源,就更容易感受到它们之间差异,这里用系统自带的 /usr/share/visionworks/sources/data/pedestrians.mp4作为输入源,以此将10lines.py代码修改成如下:
1 2 3
4 5
6 7 8 9 10 |
import jetson.utils input = jetson.utils.videoSource( "/usr/share/visionworks/sources/data/pedestrians.mp4") output = jetson.utils.videoOutput("display://0")
import jetson.inference net = jetson.inference.detectNet("pednet", threshold=0.5)
while output.IsStreaming(): img = input.Capture() detections = net.Detect(img) output.Render(img) output.SetStatus("Performance {:.0f}FPS".format(net.GetNetworkFPS())) |
|
|
(使用ped-100模型,只检测出“Pededtrians(行人)”物件)
(使用DetectNet-COCO-Dog模型,只检测出 “Dog(狗)” 物件)
如何,是不是很简单呢?请自行尝试更换其他的模型,当然也可以将输入源改成摄像头,用你周遭的物体来试试效果。
最后,我们来看一个预训练好的模型,以系统预设的SSD-Mobilenet-v2为例,主要文件存放在
~/jetson-inference/data/networks/SSD-Mobilenet-v2里面,浏览一下里面的内容:
1 |
|
可以看到以下的列表:
第一个“ssd_coco_labels.txt”存放着这个模型的类别名称,您可以打开看看。
第二个“ssd_mobilenet_v2_coco.uff”就是预训练好的模型文件,附加文件名为.uff的通常是Tensorflow训练的模型,再转换过来的中间格式。
第三个文件的末尾附加名“.GPU.FP16.engine”代表是TensorRT所建立的加速引擎,支持GPU的FP16格式。
如果检查ped-100模型的话,会看到不一样的内容,执行以下指令:
1 |
|
可以看到以下的列表,这样的内容肯定就是由Caffe框架训练出来的模型。
好文章,需要你的鼓励
数字孪生技术正在改变网络安全防御模式,从被动响应转向主动预测。这种实时学习演进的虚拟副本让安全团队能够在威胁发生前预见攻击。组织可以在数字孪生环境中预演明日的攻击,将防御从事后反应转变为事前排演。通过动态更新的IT生态系统副本,团队可在真实条件下压力测试防御体系,模拟零日漏洞攻击并制定应对策略,从根本上重塑网络安全实践方式。
NVIDIA联合多所大学开发的Omni-RGPT实现了AI视觉理解的重要突破,首次让AI能同时精准理解图像和视频中用户指定的任何区域。通过独创的Token Mark机制,该系统解决了传统方法在视频中容易"跟丢"目标的问题,在视觉问答、区域描述等多项任务上达到最先进水平,为教育、安防、内容创作等领域的AI应用奠定了基础。
Linux内核开发面临动荡时期,Rust语言引入引发摩擦,多名核心开发者相继离职。文章介绍了三个有趣的替代方案:Managarm是基于微内核的操作系统,支持运行Linux软件;Asterinas采用Rust语言开发,使用新型framekernel架构实现内核隔离;Xous同样基于Rust和微内核设计,已有实际硬件产品Precursor发布。这些项目证明了除Linux之外,还有许多令人兴奋的操作系统研发工作正在进行。
这项由中国人民大学等机构合作完成的研究提出了Virgo系统,发现仅用5000个纯文本推理案例训练就能让AI在视觉推理任务上达到顶级商业系统水平。研究证实推理能力具有跨模态通用性,为更经济高效地开发多模态AI系统指明了新方向,同时也揭示了AI感知反思能力不足的局限性。