在开始使用TAO模型训练工具之前,我们必须先对其操作原理有个基础的理解,因为这套工具能支持30多种神经网络的深度学习,并且横跨视觉类与对话类两种不同领域,究竟是如何做到的?
前面介绍的内容中提过,在TAO工具使用两个不同的Docker容器,去面对视觉类与对话类的模型训练,分别是基于Tensorflow与PyTorch框架。
不过英伟达将复杂的调用工作进行高度的抽象化处理,以启动器CLI指令作为统一的执行接口,并且为每个神经网络提供对应的配置文件组,透过指令集与配置文件的组合,将操作的逻辑变得非常简单,开发人员只要熟悉这套指令集,就能非常轻松地驾驭所有TAO支持的神经网络,进行高效率的模型训练任务。
因此在操作TAO工具之前,首先得对CLI指令集与配置文件有个初步的了解。
这个指令集的语法非常简单,主要是下面三部分所组成:
tao <task> <sub-task> <args>
上面所有的信息,可以用tao info --verbose指令,查询到不容版本容器所支持的神经网络类型。
当我们单纯执行tao <task>的时候,就会进入对应的容器里,例如:
以下6种指令是所有模型都具备的功能:
到这里应该能够感受到这个CLI指令集的便利之处,开发人员只要好好记住这组指令,不需要撰写任何C++或Python代码,甚至不需要了解任何一个神经网络的结构与算法,就能非常轻松地面对这么多种复杂的模型训练任务。
这里需要透过TAO提供的范例来说明配置文件的细节,这里以视觉类的范例为主,请执行下列指令下载范例文件:
$ $
$ $ |
wget --content-disposition https://api.ngc.nvidia.com/v2/resources/nvidia/tao/cv_samples/versions/v1.3.0/zip -O cv_samples_v1.3.0.zip unzip -u cv_samples_v1.3.0.zip -d ./cv_samples_v1.3.0 rm -rf cv_samples_v1.3.0.zip && cd ./cv_samples_v1.3.0 |
在cv_samples_v1.3.0文件夹里有20+个子目录,每个子文件夹就对应一个神经网络,下面都有个别的specs子目录,里面就存放对应的配置文件。
每个项目应该是由不同的技术人员所处理,在文件格式与命名方式也不尽相同,大部分是.txt纯文件格式,有些则使用.yaml或.json格式,因此需要针对个别项目,去深入了解每个配置文件里的各项参数。
下面是TAO视觉类模型训练工具的工作流图,每个项目里的配置文件,都是为不同阶段的任务提供所需要的参数。
这里以英伟达发展的detectnet_v2神经网络作为范例,里面的配置文件内容比较完整,包括以下7个文件:
这些文件是配合整个执行流程的步骤:
这里的参数设定,是整个TAO训练模型过程中技术含量最高的环节,我们所能修改的部分大概就是“training_config”组里的”batch_size_per_gpu”与“num_epochs”这两个参数,以及确认“dataset_config”组里的每一个“target_class_mapping”对应是否正确。
其他参数的调整是需要对个别神经网络的结构预与算法有足够了解,如果没有把握的话,建议就使用英伟达已经优化过的参数。
后面的推理验证与导出模型的步骤,留在实际项目执行的时候再做说明。到此应该能清楚,在TAO模型训练阶段,需要的就是xxx_tfrecords_xxx.txt、xxx_train_xxx.txt与xxx_retrain_xxx.txt这三个配置文件,后面两个文件的内容几乎一样,只有调用的预训练模型不一样,这样就能让事情变得更加单纯。
整个TAO训练工具的内容,主要就是围绕着CLI指令集与配置文件的组合处理,如此一来,开发人员只要掌握这两个部分,就能轻松驾驭大部分的模型训练任务【完】
好文章,需要你的鼓励
谷歌发布代理支付协议AP2,支持AI代理代表用户自动购物和决策。该开放协议获得60多家商户和金融机构支持,旨在实现AI平台、支付系统和供应商间的互操作性。协议要求两级审批机制:意图授权和购物车授权,确保交易可追溯。支持全自动购买和加密货币支付。万事达、美国运通、PayPal等主要金融服务商已表示支持。
NVIDIA Research推出了革命性的UDR系统,让用户可以完全自定义AI研究助手的工作策略。该系统解决了传统研究工具固化、难以专业化定制的问题,支持任意语言模型,用户可用自然语言编写研究策略,系统自动转换为可执行代码。提供三种示例策略和直观界面,实现了AI工具的民主化定制,为专业研究和个人调研提供了前所未有的灵活性。
CrowdStrike在其年度Fal.Con 2025大会上发布了智能代理安全平台和智能代理安全团队两款新产品,旨在应对AI时代日益增长的安全需求。新平台基于企业图谱架构,统一企业遥测数据,配备AI优化查询语言。Charlotte AI AgentWorks提供无代码平台,让安全团队可轻松构建和部署可信安全代理。智能代理安全团队则通过AI驱动的代理直接服务客户,解决传统防御无法应对AI速度威胁的问题。
加州大学圣地亚哥分校研究团队创建了首个"野生"乐谱理解AI测试平台WildScore,通过807个来自Reddit音乐社区的真实问题,系统评估了多模态AI模型的乐谱解读能力。测试结果显示,即使最先进的GPT-4.1模型准确率也仅为68%,在节拍识别等方面表现尤其困难。研究揭示了AI在专业符号系统理解方面的局限性。