数以万计的 NVIDIA GPU、NVIDIA Quantum-2 InfiniBand 以及全栈式 NVIDIA AI 软件即将登陆 Azure;NVIDIA、微软和多家全球企业将使用该平台进行快速、经济的 AI 开发和部署

美国加利福尼亚州圣克拉拉 – 2022 年 11 月 16 日 – NVIDIA 于今日宣布与微软展开一项为期多年的合作,双方将共同打造全球最强大的 AI 超级计算机。微软 Azure 的先进超级计算基础设施,结合 NVIDIA GPU、网络和全栈式 AI 软件为此超级计算机赋能,以帮助企业训练、部署和扩展包括大型、先进模型在内的AI。
Azure 的云端 AI 超级计算机包括强大、可扩展 ND 与 NC 系列虚拟机,其专为 AI 分布式训练和推理而优化,是首个采用 NVIDIA 先进 AI 堆栈的公有云,并添加了数以万计的 NVIDIA A100 和 H100 GPU、NVIDIA Quantum-2 400Gb/s InfiniBand 网络和 NVIDIA AI Enterprise 软件套件在平台上。
在此次合作中,NVIDIA 将使用 Azure 的可扩展虚拟机实例来研究并进一步加快生成式 AI 的发展。生成式 AI 是正在迅速兴起的 AI 领域,其中像 Megatron Turing NLG 530B这样的基础模型是无监督、自学习算法的基准,这些算法被用来创造新的文本、代码、数字图像、视频或音频。
两家公司还将合作优化微软的 DeepSpeed 深度学习优化软件。NVIDIA 的全栈式 AI 工作流和软件开发工具包皆专为 Azure 进行了优化,并将提供给 Azure 企业客户。
NVIDIA 企业计算副总裁 Manuvir Das 表示: “AI 技术正在加速发展,行业的采用速度也在同时加快。基础模型上的突破引发了研究浪潮、培育了新的初创企业并启动了新的企业应用程序。我们将与微软一同为研究者和企业提供最先进的 AI 基础设施和软件,使他们能够充分利用 AI 的变革性力量。”
微软云与 AI 事业部执行副总裁 Scott Guthrie 表示:“AI 正在掀起整个企业和工业计算的下一轮自动化浪潮,帮助企业机构在变幻莫测的经济环境中得以事半功倍。我们与 NVIDIA 合作,打造全球可扩展性最强的超级计算机平台,为微软 Azure 上的每家企业提供最先进的 AI 功能。”
通过 Azure 上的 NVIDIA 计算 与 Quantum-2 InfiniBand 实现可扩展峰值性能
微软Azure的AI优化虚拟机实例采用了 NVIDIA 最先进的数据中心 GPU,并且是首个搭载 NVIDIA Quantum-2 400Gb/s InfiniBand 网络的公有云实例。客户可以在单个集群中部署数千 GPU 来训练最具规模的大型语言模型,大规模地构建最复杂的推荐系统以及实现生成式 AI。
目前的 Azure 实例采用了 NVIDIA Quantum 200Gb/s InfiniBand 网络和 NVIDIA A100 GPU。未来的实例将集成 NVIDIA Quantum-2 400Gb/s InfiniBand 网络和 NVIDIA H100 GPU。结合 Azure 先进的计算云基础设施、网络和存储,这些通过 AI 优化的产品将为任何规模的 AI 训练和深度学习推理工作负载提供可扩展的峰值性能。
加速 AI 的开发和部署
另外,该平台将支持广泛的 AI 应用和服务,包括微软 DeepSpeed 和 NVIDIA AI Enterprise 软件套件。
微软 DeepSpeed 将使用 NVIDIA H100 Transformer 引擎来加速基于 Transformer的模型,这些模型可用于大型语言模型、生成式 AI 和编写计算机代码等应用。该技术将 8 位浮点精度能力应用于 DeepSpeed,大大加快了 Transformer 的 AI 计算速度,使其吞吐量达到 16 位运算的两倍。
被全球企业广泛采用的 NVIDIA AI 平台软件 NVIDIA AI Enterprise 已通过认证并支持搭载 NVIDIA A100 GPU 的微软Azure 实例。未来的软件版本将增加对搭载 NVIDIA H100 GPU 的 Azure 实例的支持。
NVIDIA AI Enterprise 包括用于语音 AI 的 NVIDIA Riva 以及 NVIDIA Morpheus 网络安全应用框架,可简化从数据处理和 AI 模型训练到仿真和大规模部署等AI工作流中的每一步。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。