Ian Finder,加速高性能计算基础架构高级项目经理
当前,使用大规模AI模型执行大量任务的趋势正在改变AI的构建方式。在微软Build 2020上,我们利用Azure最先进的AI超级计算和支持下一代AI的新型大规模AI模型,分享了我们“AI at Scale”的愿景。大规模模型的优势在于,仅需使用AI超级计算,基于海量数据,对其进行一次大规模训练,而后模型就能通过自身“微调”,基于更小的数据集及资源来处理不同的任务、应对不同的领域。模型参数越多,就越能更好地捕获数据之间的细微差别。例如,我们的Turing Natural Language Generation(T-NLG)模型具有170亿参数,能够理解语言,因此可以在第一时间回答问题或总结首次看到的文件。此类自然语言模型,比一年前最先进的模型大得多,与早期以图像为中心的模型相比,更是大出好几个数量级,而且支持Bing、Word、Outlook和Dynamics中的任务。
为训练此类大规模的模型,需要将具备专用AI加速器的数百台机器组合成为大型集群,这些加速器通过机器内部和机器之间的高带宽网络互连。为使所有微软产品具备全新自然语言生成和理解的能力,并支持OpenAI完成“建立安全的通用AI”的使命,我们不断在Azure中构建这样的集群。我们最新的集群具备强大的聚合计算能力,因此被称为AI超级计算机,其中有一台专为OpenAI打造,已跻身全球前五大公开发布的超级计算机。得益于这台超级计算机,OpenAI在5月发布了其1750亿参数GPT-3模型,该模型可完成多种未进行过针对性训练的任务,如诗歌写作或翻译。
我们在管理大规模计算集群、领先网络设计和软件堆栈(包括Azure机器学习、ONNX运行时和其他Azure AI服务)时,所采取的方法与我们的AI at Scale 战略保持高度一致。一路以来的创新将使Azure能够更好地满足客户各种规模的AI需求。例如,在NDv2虚拟机系列中,Azure是第一个,也是唯一一个提供NVIDIA V100 Tensor Core GPU虚拟机集群的公有云,这些集群通过高带宽、低延迟的NVIDIA Mellanox InfiniBand网络互连。这种创新如同将高端赛车行业所开创的汽车技术,应用于我们日常驾驶的普通汽车。
OpenAI首席执行官Sam Altman表示:“若要将AI发展成为通用智能,那么在某种程度上就需要强大的系统来训练日益强大的模型。如今我们终于拥有了所需的算力。Azure AI及其超算能力为我们提供了领先的系统,让我们能够加速创新进程。”
通过不断创新,Azure宣布推出全新ND A100 v4虚拟机系列,这是我们迄今为止功能最强大、可扩展性最强的AI虚拟机。该虚拟机可根据需求,通过数百台虚拟机调用八至数千个互连NVIDIA GPU。
最基本的ND A100 v4虚拟机系列由一台虚拟机和八个NVIDIA Ampere A100 Tensor Core GPU组成。但如同人脑由相互连接的神经元组成一样,ND A100 v4集群可以扩展到数千个GPU,且每台虚拟机都具有1.6TB互连带宽,这是前所未有的。每个GPU均具有专属200GB/s NVIDIA Mellanox HDR InfiniBand连接,兼容所有拓扑结构。数十、数百甚至数千个GPU均可连接到同一个Mellanox InfiniBand HDR集群进行工作,从而实现任何级别的AI目标。由于专用的GPU互连带宽比任何其他公有云产品高16倍,因此可以更快地实现任何AI目标,如从零开始训练模型、继续使用自己的数据进行训练或针对特定任务进行微调等。
ND A100 v4虚拟机系列由内置全新Azure AMD Rome的平台提供支持,该平台所有主要系统组件均符合最新的硬件标准,如PCIe Gen4。PCIe Gen 4和NVIDIA第三代NVLINK架构可为每台虚拟机实现最快的GPU互连,使数据在系统中的传输速度提升2倍以上。
大多数客户无需开展任何技术工作,即可将其计算性能提升至基于上一代NVIDIA V100 GPU的系统的2至3倍。如果客户使用具备结构化稀疏加速、高精度Tensor Core核心和多实例GPU(MIG)功能的全新A100,可将性能提高多达20倍。
NVIDIA加速计算总经理兼副总裁Ian Buck表示:“Azure利用NVIDIA最先进的计算和网络功能构建了一个令人难以置信的大型云端AI平台。其具备的弹性架构,可将NVIDIA A100 GPU上的单一分区扩展至数千个通过NVIDIA Mellanox InfiniBand互连的A100 GPU。得益于该弹性架构,Azure客户可运行全球最高要求的AI工作负载。”
ND A100 v4虚拟机系列运用VM Scale Set等Azure核心可扩展模块,可对任何规模的集群进行自动、动态且透明的配置,让所有人在任何地方都可以实现各种规模的AI,甚至可以在数分钟内按需对AI超级计算机进行实例化。随后,便可使用Azure机器学习服务,独立访问虚拟机或启动、管理整个集群的训练任务。
ND A100 v4虚拟机系列和集群目前可供预览,之后将成为Azure产品组合中的标准产品,让所有人都能够在云端挖掘AI at Scale的潜力。
好文章,需要你的鼓励
串流技术正打破传统游戏边界,让"即点即玩"的畅快体验触手可及,不仅重塑了玩家的游戏方式,更将引领整个产业迈向云端加速迈进。
高通宣布收购越南 AI 研究公司 VinAI 的生成式 AI 部门,金额未披露。这标志着高通持续扩张 AI 工具领域。VinAI 由前 DeepMind 研究科学家 Hung Bui 创立,开发多种生成式 AI 技术。此次收购将增强高通在 AI 解决方案方面的能力,有望为多个行业和消费者带来创新。
GameForge AI 是一款基于人工智能的游戏开发平台,可帮助用户轻松创建自己的游戏世界。本文介绍了 GameForge AI 的功能和使用方法,包括创建角色、场景和任务等。虽然 AI 生成速度较慢,但平台对游戏设计师、桌游爱好者和学生等用户都很有吸引力。与其他 AI 创作工具相比,GameForge AI 更注重构建复杂的叙事驱动型世界。