TAO系列03-安装TAO模型训练工具

英伟达将大部分应用透过Dcoker容器技术进行封装，并且为了协助开发人员更加轻松地使用这些软件，英伟达特别开发一个nvidia-pyindex工具，将应用安装的过程变得更加简单，TAO训练工具也不例外。

完整的TAO安装流程请参考 https://docs.nvidia.com/tao/tao-toolkit/ 里的“TAO Toolkits Quick Start Guide”，目前这个工具只支持x86电脑的Ubuntu操作系统，以下列出最基本的硬件需求：

CPU：推荐8核以上，最好支持AVX2以上指令集，否则某些神经网络的模型训练会出现失败的状况，例如detectnet_v2。
内存：推荐32GB以上，至少也需要16GB。
GPU卡：推荐32GB显存的计算卡，至少需要8GB。
存储：推荐使用SSD硬盘，至少使用7200RPM转速的机械硬盘。

以上系统要求是容易达到的，目前测试过用8GB显存的RTX 2070或3070都能顺利执行训练任务，但是显存大小对模型训练的计算有很大的影响，另外一款RTX A4000配置16GB GDDR6显存，是性价比相当好的一个选择。

操作系统与安装NVIDIA驱动

至于操作系统方面，推荐Ubuntu 18.04或20.04桌面版，这两个都是经过测试兼容性比较好的版本，接下去只要在上面执行以下指令，安装好NVIDIA的GPU驱动即可，要求为455以上版本，目前测试到495版本也是很稳定：

sudo apt-get install software-properties-common

sudo add-apt-repository ppa:graphics-drivers/ppa

sudo apt-get install nvidia-driver-495

sudo reboot

执行以上指令之后必须重启系统才会生效，重启后执行nvidia-smi，如果出现以下画面就表示驱动已经安装成功。

TAO系列03-安装TAO模型训练工具

安装TAO所需要的配套环境：

如今英伟达大部分应用都使用Docker容器技术进行封装，并且使用Jupyter作为操作工具，因此使用之前是必须先安装好docker、nvidia-docker、Jupyter这些软件，最后安装virtualenv这个Python虚拟环境并非必要的，如果对Python不熟悉的使用者，建议按照说明进行安装预配置。

安装docker操作环境：以下步骤都是标准的流程，不多做说明

sudo apt install -y ca-certificates curl gnupg lsb-release

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg \ --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg

echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

sudo apt update

sudo apt install -y docker-ce docker-ce-cli containerd.io

测试 docker 的安装，请执行以下指令：

$	sudo docker run hello-world

如果显示以下信息，就表示这部分的安装是成功的：

TAO系列03-安装TAO模型训练工具

由于docker指令的执行是需要权限的，但如果每次都需要在前面加上”sudo”再输入密码的话，就会变得较为繁琐，可以执行以下操作去免除 “sudo” 权限：

sudo addgroup --system docker

sudo adduser $USER docker && newgrp docker

sudo groupadd docker && sudo usermod -aG docker $USER

现在就能为您节省很多麻烦！

Docker登录NGC：只要登录一次就行

$$	export KEY='在NGC生成的密钥' docker login -u '$oauthtoken' --password-stdin nvcr.io <<< $KEY

TAO系列03-安装TAO模型训练工具

最后显示 “Login Succeeded” 就表示登录成功，只要没有在NGC上重新生成密钥，这个登录就只要执行一次就可以，不需要每次开机都登陆。

安装nvidia-docker2：以下步骤也是标准的流程，不多做说明

curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)

curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt-get update && sudo apt-get install -y nvidia-docker2

sudo systemctl restart docker

测试 nvidia-docker2 的安装，请执行以下指令：

$	docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

如果出现以下信息，表示nvidia-docker2也安装完成：

TAO系列03-安装TAO模型训练工具

这里显示的内容虽然与本机的nvidia-smi完全一样，不过前者是本机所得到的信息，这里是容器所执行的显示结果。

安装Jupyter Lab交互式环节

sudo apt install python3-pip

sudo pip3 install -U pip

sudo pip3 install jupyter jupyterlab

# 设置登录密码

export PW=’自行提供‘

python3 -c "from notebook.auth.security import set_password;

set_password('$PW','$HOME/.jupyter/jupyter_notebook_config.json')"

启用Jupyter Lab：

$ $	cd <您的工作目录> jupyter-lab --ip 0.0.0.0 --port 8888 --allow-root --no-browser

现在就能用浏览器（推荐使用Chrome）输入<IP_OF_MACHINE>:8888，输入前面自行设定的密码，就能进入Jupyter工作环境，会以执行命令的位置作为工作的根(root)路径。

安装Python的虚拟环境（非必要）

英伟达为TAO开发的一个Python版本启动器(launcher)，为了确保使用环境的隔离，在官方安装文件里使用virtualenv创建Python的虚拟工作环境，但是经过测试验证，使用conda虚拟技术或者完全不使用虚拟环境，也都能正常运作，请根据自己的实际状况进行处理。

如果要使用virtualenv虚拟工具的话，请按照以下步骤进行安装：

pip3 install virtualenv virtualenvwrapper

# 创建目录用来存放虚拟环境

mkdir $HOME/.virtualenvs

# 在~/.bashrc中添加行：

export WORKON_HOME=$HOME/.virtualenvs

export VIRTUALENVWRAPPER_PYTHON=/usr/bin/python3

source /usr/local/bin/virtualenvwrapper.sh

# 保存并退出

source ~/.bashrc

# 创建名为”tao”的 Virtualenv

mkvirtualenv tao -p /usr/bin/python3

# 关闭“tao”虚拟环境

deactivate

# 重新启动 “tao”虚拟环境

workon tao

以上就完成所有配套所需要的软件，接下去就开始安装TAO的工作元件。

安装TAO的工作元件：

TAO的启动器：可以在virtualen或conda虚拟环境下

pip3 install nvidia-pyindex

pip3 install nvidia-tao

# 检查安装

tao info

如果安装正常的话，会看到下面信息：

TAO系列03-安装TAO模型训练工具

这边会看的“~/.tao_mounts.json wasn't found”的信息，这是因为我们还未去执行路径映射的任务，所以没有这个文件是正常的，现在表示TAO启动器已经安装完成。

下载TAO镜像文件：

虽然在标准执行的流程中，我们不需要事先下载镜像到本机里，但由于这个高达15GB的镜像文件是放置于境外的英伟达原厂服务器上，在国内的实际操作过程中并不是太稳定，因此推荐在执行任务之前，先执行独立的镜像下载工作。

TAO的视觉类(CV AI)与对话类(Conv AI)的镜像文件是不一样的，分别在以下链接：

视觉类容器：https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tao/containers/tao-toolkit-tf
对话类容器：https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tao/containers/tao-toolkit-pyt

请执行以下指令，将两个容器都先下载到模型训练设备上：

# 下面版本请根据实际状况进行调整

export TAO_CV_VER=v3.21.11-tf1.15.4-py3

docker pull nvcr.io/nvidia/tao/tao-toolkit-tf:$TAO_CV_VER

# 下面版本请根据实际状况进行调整

export TAO_CONV_VER=v3.21.11-py3

docker pull nvcr.io/nvidia/tao/tao-toolkit-pyt:$TAO_CONV_VER

下载完毕之后用docker images指令检查，看看是否如下图的信息：

TAO系列03-安装TAO模型训练工具

这样就已经完成整个TAO模型训练的开发环境。【完】

来源：业界供稿

英伟达

0赞

好文章，需要你的鼓励

TAO系列03-安装TAO模型训练工具

来源：业界供稿

2022

03/17

09:12

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

思科与英伟达扩大合作，助力企业加速应用AI技术

黄仁勋CES记者会实录：AI扩展没有物理限制，英伟达只专注做好两件事

英伟达推进合作，旨在加速人工智能代理在医疗保健研究中的应用

市值一夜蒸发6400亿！回顾英伟达被调查始末，华为或成最终赢家？

面临AMD及自身内部挑战，英伟达Green 500主导地位受到威胁

英伟达数据中心收入继续增长，“Blackwell平台逐渐步入正轨”

英伟达继续努力，希望推动AI融入包括HPC在内的一切领域

英伟达最新Blackwell机板配备四GPU、双Grace CPU且功耗为5.4千瓦

英伟达产能一路扩大，主权AI惠及全球各国

要超越英伟达，AMD还须十年时间

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: