TAO系列09-物件检测的模型训练与优化-1

物件检测（object detection）或物件定位（object location）是目前普及度最高的人工智能应用，也是过去几年中神经网络发展最迅猛的领域，短短几年之中创造出非常多优异的经典算法。

物件检测(object detection)或物件定位(object location)是目前普及度最高的人工智能应用，也是过去几年中神经网络发展最迅猛的领域，短短几年之中创造出非常多优异的经典算法，并且各有所长，如今在数量与质量上都还持续进化中，这现象其实也是造成使用者很大困扰之处，因为究竟哪种神经网络最适合您的使用场景，最终还是得经过实际验证之后才能确认。

TAO工具非常高效地协助我们解决这个难题，让我们在不了解各种神经网络结构与算法、也不熟悉Tensorflow或Pytorch这些复杂框架之前，不用撰写任何C++或Python代码，就能非常轻易地训练好深度学习模型，并且快速验证不同网络模型的性能与效果，这估计能减少能降低80%以上的前期学习与评估的时间成本。

在TAO的cv_samples里提供多个物件检测算法，包括detectnet_v2、dssd、ssd、facenet、fast_rcnn、lprnet、mask_rcnn、retinanet、unet、ssd、yolo_v4等十多个物件检测范例，每一个流程与本系列前一个“8-图像分类的模型训练”的范例是一致的，因此这里只挑选目前普及度较高的ssd神经网络进行示范就行。

首先进入Jupyter操作界面，打开cv_samples/ssd/ssd.ipynb脚本，然后按照以下步骤逐步执行：

环境变量配置与路径映射（Set up env variables and map drives）：

在系列文章“5-视觉类训练脚本的环境配置”内有详细的讲解，这里只要对下面两变量进行处理就可以：

%env KEY=<您的NGC秘钥>
将“%env LOCAL_PROJECT_DIR=YOUR_LOCAL_PROJECT_DIR_PATH”改成“os.environ["LOCAL_PROJECT_DIR"] = os.getcwd()”

然后执行这部分的4个指令快

安装TAO启动器（Install the TAO launcher）：

跳过第一个安装指令块，执行“!tao info”指令块就行。

准备数据集与预训练模型（Prepare dataset and pre-trained model）

数据集处理通常是模型训练过程比较消耗人力的步骤。这里推荐不使用脚本里的步骤去下载与解压缩，因为这里指向的下载位置在国外网站，这对大部分使用者是很困扰的，因此最好自行手动下载处理。

TAO的物件检测模型训练支持KITTI标注格式，这里使用的范例数据集与系列文章“7-视觉数据格式处理与增强”是同一套，如果前面实验已将下载的话就复制一份过来就行，也可以重新在https://pan.baidu.com/s/1WcRt9ONqsYhLRmL8Rg8_YQ（密码855n），下载data_object_image_2.zip与data_object_label_2.zip到ssd.ipynb相同目录下，然后执行以下指令进行解压缩：

cd ~/tao/cv_samples/ssd # 请根据您实际路径

unzip -u data_object_image_2.zip -d data

unzip -u data_object_label_2.zip -d data

会在这个工作目录下生成 data/training/image_2、data/training/label_2与data/testing三个子目录，其中训练用数据量为7481张图片、测试数据量为7518张。

如果有自己的数据集想要转到TAO来进行训练，除了先将标注格式转成KITTI之外，最好也遵循上面的路径结构，这样就不需修改spec目录下相关配置文件里面的设定值，对初学者是最便利的方式。

接着调用generate_val_dataset.py，从训练数据中提取10%内容作为校验用途，存放在data/val目录，于是在data/training下面的图像与标注文件数量就剩下6733个。然后执行“2.3 Generate tfrecords”指令块，将训练与校验数据集都转成tfrecords格式，分别存放在对应的路径之下。
如果要配合迁移学习功能的话，接下来就是从NGC下载合适的预训练模型。这里选择的是 ”nvidia/tao/pretrained_object_detection:resnet18” ，最终下载的模型文件为89MB大小的resnet_18.hdf5模型文件。

只要这个数据集整理步骤做得完整，后面的部分就会很简单。

提供训练用配置文件（Provide training specification）

在TAO所有范例里，配置文件是所有内容的精华之处，这必须由专业算法工程师群进行调试，不仅要这些神经网络的结构与算法有足够深入的了解，还需要经过足够长的重复调试过程，才能调试出一个够完整的优化参数组合，这部分是英伟达非常庞大精英人力与成本的所提炼出来的精髓。

物件检测应用的设定组，比前面的图像分类要复杂很多，虽然初学者没有能力去做细节参数的调整，但还是得了解一下主要结构，对于学习深度神经网络会有很大的帮助。

在ssd项目的specs目录下有5个配置文件，其中与训练相关的有4个，但实际使用到的就是ssd_train_resnet18_kitti.txt与ssd_retrain_resnet18_kitti.txt这两个配置文件。

前者是提供给首次训练模型时使用，后者是对修剪过的模型进行再训练时候用，两者的内容几乎一样，主要差异在配合迁移学习功能的部分，前者使用“pretrain_model_path”指向从NGC下载的预训练模型，后者使用“pruned_model_path”指向后面会操作的“修剪过的模型”，其他参数都一样。

现在就以ssd_train_resnet18_kitti.txt配置文件来做说明，里面总共有6个参数组：

ssd_config：

这是根据网络种类所命名，不同网络的配置组内容都不太一样，例如yolov3范例的配置组为“yolov3_config”，以此类推。每种神经网络都有截然不同的参数内容，在ssd网络有12个参数得设定，而yolo_v4网络有将近20个，所以网络之间的配资是不能套用或互换。如果未来要开发自己的特殊模型，最好从现有的20范例里面去挑选，就能以该网络的配置文件为基础进行修改。

关于这个配置组的内容就不多时间去说明，初学者先不要贸然去修改，以免训练过程发生不可预期的错误，或者模型效果不好。

training_config：

执行训练时的一些参数设定，这是使用者能进行调整的部分，包括以下部分：

batch_size_per_gpu：根据执行训练的GPU总显存进行调整
num_epochs：训练回合数，这里设定为80
enable_qat：开启QAT训练模式，这里预设值为 ”false”，表示不开启
checkpoint_interval：每多少回合生成一次模型文件，这里预设值为1
learning_rate、regularizer与optimizer：如果对ssd有深入了解的，可以进一步调整。

evaluation_config：

这些存放模型评估的一些参数，可以根据计算设备的显存值调整batch_size大小，不过这些并不影响训练的结果。

nms_config：

NMS(Non-maximum suppression)非极大抑制应用的目的，是要消除多余的框，找到最佳的物体检查位置。

augmentation_config：

这部分的参数内容请参考系类文章“7-视觉数类的数据增强”，有详细的说明。虽然没办法进入TAO源码（未开放）去确认，但这项参数设定组应该显示在物件检测模型训练过程中，已将“数据增强”功能加进来，这对提高模型精准度会起到很大的效果。

dataset_config：

这里最主要配置数据源的路径，以及类别 ”key:value” 对的映射关系；

一组data_source：

里面包含tfrecords_path与image_directory_path两个路径设定；

多组target_class_mapping：

每一组对应的 ”key” 是数据集的原始类别名称，后面映射的 ”value” 是训练后模型的识别分类。

例如这里使用的KITTI数据集中，原始分类有“car/ van/ cyclist/ person_sitting/ pedestrian/ DontCare/ tram/ truck/ misc”等9种分类，经过映射后只保留“Car/ cyclist/ pedestrian”三个分类，没有在映射组里的分类就会忽略，例如truck、misc等

如果使用自己的数据集训练模型，这部分需要自行调整到合适的类别对应，否则训练的结果也不能实现您要达到的识别效果。

一组validation_data_sources：

包括label_directory_path与label_directory_path，存放校验数据集的图像与标注路径。

以上6组配置在每个物件检测模型的配置文件中都有，但是配置内容不尽相同，TAO已经为所支持的网络都提供优化过的参数内容，初学者只要直接使用就可以，等日后有更深入的掌握，再试着去修改这些参数。【待续】

来源：业界供稿

0赞

好文章，需要你的鼓励

TAO系列09-物件检测的模型训练与优化-1

来源：业界供稿

2022

04/26

16:46

分享

点赞

“4个9”韧性的背后，西云数据以技术与运营加速企业数字化创新

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: