NGC为越来越多的AI容器添加了模型、模型脚本和行业解决方案;NGC-Ready企业级服务器和支持服务的新浪潮推动了GPU加速AI的发展。
无论是为了推进科学进步,还是构建自动驾驶汽车,或是基于海量数据获得业务洞察力,数据科学家、研究人员和开发者都需要强大的GPU算力,以及适用的软件工具。
AI很复杂,构建模型的过程可能非常耗时。容器技术对于简化复杂的部署和工作流程起着至关重要的作用。
在GTC 2019,NVIDIA进一步扩充了NGC(NGC是一个包含了深度学习、机器学习、HPC等基础软件的软件中心),加入了预先训练的AI模型、模型训练脚本和行业专用软件堆栈。
借助这些新工具,无论技术水平高低,都能够通过AI快速轻松地实现价值。
数据科学家的时间非常宝贵,然而构建模型所需的计算资源很大。如果他们花费数小时甚至数天从源头开始编译框架却出现了错误,将会影响其生产力和收入并降低竞争优势。
成千上万的数据科学家和开发者已开始使用NGC中性能优化的深度学习框架容器,如TensorFlow和PyTorch,这些框架容器每月更新一次。如此一来,他们就能避开耗时且容易出错的部署流程,转而专注于构建解决方案。
NGC为那些希望追赶最新计算趋势潮流的公司降低了入门门槛。而对于那些已经走在潮流中的公司来说,NGC又让他们能够以更快的速度实现更大的价值。
许多AI应用程序都有共同的需求:分类、对象检测、语言翻译、文本转语音、推荐引擎、情感分析等等。在使用这些功能开发应用程序或服务时,根据您的用例对一个预先训练的模型进行调整,要比从头开始快得多。
NGC的新模型注册为数据科学家和研究人员提供了最常用的AI模型库,让他们能够由此启程,对AI应用程序进行重新训练和基准测试,并快速进行构建。
NGC企业帐户持有者还可通过托管私有注册,在其机构和团队中进行模型上传、共享、以及版本化。模型注册可通过https://ngc.nvidia.com和命令行界面进行访问,因此用户可将其部署于混合云环境中,并为其机构提供对版本化模型的有限的访问权限。
NGC还提供模型训练脚本,利用NVIDIA Tensor Core赋力的混合精度可为其提供最佳的实践效果,使NVIDIA Turing和Volta GPU相较于前几代在进行训练和推理时能实现3倍的性能提升。
通过提供经过精确度测试和融合测试的模型和训练脚本,NGC能够帮助用户对其最为重要的NVIDIA深度学习资产进行集中化和管理。
跨行业的高效工作流程始于预先训练的模型,然后使用新的数据执行迁移学习训练。接下来,再对网络进行精简和优化,然后部署到边缘设备上进行推理。将这些预先训练的模型与迁移学习相结合,就无需耗费高昂的成本从头开始,大规模收集数据、添加标签并训练模型,能够让业内专家快速启动深度学习工作流程。
但是,训练、优化和部署的细节却因行业而异。NGC如今面向智慧城市和医学影像领域提供了具有针对性的工作流程。
在智慧城市领域, 用于流式传输分析的NVIDIA迁移学习工具包提供为智能视频分析工作负载量身定制的迁移学习,例如对象检测和摄像头视频帧分类。然后通过面向智慧城市的NVIDIA DeepStream SDK ,将经过重新训练、优化和精简的模型部署到NVIDIA Tesla或Jetson平台。
在医学影像领域,NVIDIA Clara Train SDK使医疗机构能够先使用预先训练的MRI扫描模型进行器官分割,然后使用迁移学习来根据该机构的数据集对这些模型进行改进。Clara Train会生成优化模型,然后使用NVIDIA Clara Deploy SDK进行部署,以便日后为新患者的扫描结果提供更强大的分割能力。
由全球顶级系统制造商提供的NGC-Ready系统已经过NVIDIA验证,因此数据科学家和开发者能够以最优方式加速运行深度学习和机器学习工作负载。
基于NVIDIA V100 GPU的旗舰系统,具有640个Tensor Core和高达32GB的内存。为实现最大限度的利用率,由全新NVIDIA T4 GPU赋力的系统在各种加速工作负载中均展现了出色的性能,包括机器学习、深度学习、虚拟桌面和HPC。
AI的跨行业应用迅猛飙升。这就需要IT团队能够支持不同用户群的各类新型工作负载、软件堆栈和硬件。在应用环境发生变化的时候,最大限度地减少系统停机时间、保持用户工作效率至关重要。
为解决这一问题,我们推出了NVIDIA NGC支持服务,提供企业级支持以确保NGC-Ready系统实现最优运行,并最大限度地提高系统利用率和用户工作效率。这些全新服务使IT团队能够直接与NVIDIA相关专家取得联系,快速解决软件问题,最大限度地缩减系统停机时间。
NGC支持服务可通过NGC-Ready系统销售商获取,思科现已针对其思科 UCS C480 ML提供此服务,该产品采用了NVIDIA V100系统,经NGC-Ready验证。HPE将于6月份起针对其HPE ProLiant DL380 Gen10服务器提供此服务,该服务器采用NVIDIA T4系统,经NGC-Ready验证。其他几家OEM也将在未来几个月内开始销售这些服务。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。