全名为NVIDIA GPU Cloud的NGC中心,是近年来英伟达用来统筹应用资源的云中心,本身并不具备任何计算功能,主要就是“应用资源分类整理”用途,将英伟达绝大部分与GPU开发相关的工具包、开发包、机器学习预训练模型等等,全部集中在这上面,方便开发人员集中使用与下载开发资源。
登录 http://ngc.nvidia.com 就能进入NGC中心(如下图),不过这个入口的更新频率很高,首页所看到的内容可能跳转至其他地方。网页最左边的“Explore Catalog”与右上角的“用户名(未登录之前为Guest)”,大致是固定的。
目前NGC将所有资源区分为以下五大类:
这里存放着“以应用为单位”的综合信息内容,因为每个应用都需要用到一个以上的容器、预训练模型、Helm管理模块或资源,在NGC里存放数百个这些元件,如果让开发者自行搜索的话,的确是一件相当费劲的工作。
英伟达将个别应用所需要的相关信息,先整理好并存放在这个分类里,让使用者可以非常轻松地掌握每个应用所需要的资源列表,目前已经整理好50+个应用,包括TAO对话AI、ASR自动语音识别、NLP自然语言处理等等,还在陆续增加当中。
下面截屏是在”Query”栏输入”tao”后,会出现10个已经整理好的应用:
当点击“TAO Toolkit-Conversational AI”之后,就会进入下面“Overview” 截图的内容,显示在NGC中心里,目前有1个容器、10个预训练模型与8项资源与这个应用是有关的,当然这些数字未来是有可能改变的。
点击“Entities”就能看到如下图,列出每个元件的名称以及进入该元件说明的链接:
这样就能很轻松地掌握每个应用完整的资源信息。
Docker是非常好的用于封装应用软件的容器技术,封装的镜像能提供完全独立的执行环境,这样能有效地解决多种应用的同时运作。
由于英伟达的各种开发套件之间,仍有可能存在CUDA/CUDNN/TensorRT这些底层库的版本兼容问题,另外包括Python各种数学库之间的版本依赖,经常造成软件安装的困难度。
英伟达将大部分开发套件与工具包,以不同应用场景或功能组合的形式,用Docker技术进行封装,例如TAO开发工具就有for Conv AI、for CV与for Lanuage Model三种镜像,而DeepStream有6种以上的镜像。
使用镜像技术,开发者只需要在工作平台上安装最基础的GPU驱动、docker管理器与nv-docker解析器,就能非常轻松地使用这些应用。目前NGC上已经有将近200个容器镜像,可以免费使用。
这是一组针对Kubernetes集群的管理与运维的工具,配合docker技术执行应用软件的部署与管理,与GPU计算没有直接关联,通常使用在数据中心、云平台上,对各种部署的GPU应用进行管理与监控,其中Nvidia Network Operator Helm Chart是最重要的基础元件,对这方有需求的读者可以从这个元件开始上手。
这里提供300+个预训练好的人工智能模型,包括图像分类、对象检测、语言翻译、文本到语音、推荐引擎、情感分析等等,主要配合迁移学习(transfer learning)的用途,或者直接拿来作为体验演示用途。
这里的所有模型都是经由最专业的技术人员,根据不同数据精度在英伟达最高端设备进行训练,在精确度与性能上都经过优化处理,包括NVIDIA Tensor Core GPU,这样的预训练模型能为开发人员节省非常大量的模型训练时间。
这里存放的内容,就是为创建深度学习模型的分步说明和脚本,例如用于Jupyter环境的.ipynb脚本,还有一些使用相关的指导文件或范例代码。
以上简单介绍了NGC的内容,英伟达为开发人员提供非常丰富与优异的资源,若能好好善用NGC的功能,就能在人工智能的应用开发上得到事半功倍的效果。
要使用这些资源的第一件事情,就是要申请NGC账号,这个账号与英伟达开发者申请的账号是互相独立的,因此需要单独申请。本文最后就是带着大家去申请一个账号,并且申请一组密钥,这样就能轻松使用NGC的内容。
后面仍需要要完成进一步的账号确认工作,回复NGC所发送的确认邮件,才能完成完成整个账号创建工作。
由于密钥只有在创建时候能看到内容,日后无法在独立查询,请自行复制做好记录这组组密钥在整个训练过程以及最后推理时都需要用到,非常关键,如果遗忘的话就得重新在创建一组,而前面所训练的模型,可能就得重新再做一次。
本文只是将NGC的内容做个简单的介绍,以及讲解创建账号、生成密钥的过程,更多关于的详细使用说明,请访问https://docs.nvidia.com/ngc/ngc-overview/index.html。【完】
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。