全名为NVIDIA GPU Cloud的NGC中心,是近年来英伟达用来统筹应用资源的云中心,本身并不具备任何计算功能,主要就是“应用资源分类整理”用途,将英伟达绝大部分与GPU开发相关的工具包、开发包、机器学习预训练模型等等,全部集中在这上面,方便开发人员集中使用与下载开发资源。
登录 http://ngc.nvidia.com 就能进入NGC中心(如下图),不过这个入口的更新频率很高,首页所看到的内容可能跳转至其他地方。网页最左边的“Explore Catalog”与右上角的“用户名(未登录之前为Guest)”,大致是固定的。
目前NGC将所有资源区分为以下五大类:
这里存放着“以应用为单位”的综合信息内容,因为每个应用都需要用到一个以上的容器、预训练模型、Helm管理模块或资源,在NGC里存放数百个这些元件,如果让开发者自行搜索的话,的确是一件相当费劲的工作。
英伟达将个别应用所需要的相关信息,先整理好并存放在这个分类里,让使用者可以非常轻松地掌握每个应用所需要的资源列表,目前已经整理好50+个应用,包括TAO对话AI、ASR自动语音识别、NLP自然语言处理等等,还在陆续增加当中。
下面截屏是在”Query”栏输入”tao”后,会出现10个已经整理好的应用:
当点击“TAO Toolkit-Conversational AI”之后,就会进入下面“Overview” 截图的内容,显示在NGC中心里,目前有1个容器、10个预训练模型与8项资源与这个应用是有关的,当然这些数字未来是有可能改变的。
点击“Entities”就能看到如下图,列出每个元件的名称以及进入该元件说明的链接:
这样就能很轻松地掌握每个应用完整的资源信息。
Docker是非常好的用于封装应用软件的容器技术,封装的镜像能提供完全独立的执行环境,这样能有效地解决多种应用的同时运作。
由于英伟达的各种开发套件之间,仍有可能存在CUDA/CUDNN/TensorRT这些底层库的版本兼容问题,另外包括Python各种数学库之间的版本依赖,经常造成软件安装的困难度。
英伟达将大部分开发套件与工具包,以不同应用场景或功能组合的形式,用Docker技术进行封装,例如TAO开发工具就有for Conv AI、for CV与for Lanuage Model三种镜像,而DeepStream有6种以上的镜像。
使用镜像技术,开发者只需要在工作平台上安装最基础的GPU驱动、docker管理器与nv-docker解析器,就能非常轻松地使用这些应用。目前NGC上已经有将近200个容器镜像,可以免费使用。
这是一组针对Kubernetes集群的管理与运维的工具,配合docker技术执行应用软件的部署与管理,与GPU计算没有直接关联,通常使用在数据中心、云平台上,对各种部署的GPU应用进行管理与监控,其中Nvidia Network Operator Helm Chart是最重要的基础元件,对这方有需求的读者可以从这个元件开始上手。
这里提供300+个预训练好的人工智能模型,包括图像分类、对象检测、语言翻译、文本到语音、推荐引擎、情感分析等等,主要配合迁移学习(transfer learning)的用途,或者直接拿来作为体验演示用途。
这里的所有模型都是经由最专业的技术人员,根据不同数据精度在英伟达最高端设备进行训练,在精确度与性能上都经过优化处理,包括NVIDIA Tensor Core GPU,这样的预训练模型能为开发人员节省非常大量的模型训练时间。
这里存放的内容,就是为创建深度学习模型的分步说明和脚本,例如用于Jupyter环境的.ipynb脚本,还有一些使用相关的指导文件或范例代码。
以上简单介绍了NGC的内容,英伟达为开发人员提供非常丰富与优异的资源,若能好好善用NGC的功能,就能在人工智能的应用开发上得到事半功倍的效果。
要使用这些资源的第一件事情,就是要申请NGC账号,这个账号与英伟达开发者申请的账号是互相独立的,因此需要单独申请。本文最后就是带着大家去申请一个账号,并且申请一组密钥,这样就能轻松使用NGC的内容。
后面仍需要要完成进一步的账号确认工作,回复NGC所发送的确认邮件,才能完成完成整个账号创建工作。
由于密钥只有在创建时候能看到内容,日后无法在独立查询,请自行复制做好记录这组组密钥在整个训练过程以及最后推理时都需要用到,非常关键,如果遗忘的话就得重新在创建一组,而前面所训练的模型,可能就得重新再做一次。
本文只是将NGC的内容做个简单的介绍,以及讲解创建账号、生成密钥的过程,更多关于的详细使用说明,请访问https://docs.nvidia.com/ngc/ngc-overview/index.html。【完】
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。