将AI超级计算带给客户

ND A100 v4虚拟机系列和集群目前可供预览，之后将成为Azure产品组合中的标准产品，让所有人都能够在云端挖掘AI at Scale的潜力。

Ian Finder，加速高性能计算基础架构高级项目经理

当前，使用大规模AI模型执行大量任务的趋势正在改变AI的构建方式。在微软Build 2020上，我们利用Azure最先进的AI超级计算和支持下一代AI的新型大规模AI模型，分享了我们“AI at Scale”的愿景。大规模模型的优势在于，仅需使用AI超级计算，基于海量数据，对其进行一次大规模训练，而后模型就能通过自身“微调”，基于更小的数据集及资源来处理不同的任务、应对不同的领域。模型参数越多，就越能更好地捕获数据之间的细微差别。例如，我们的Turing Natural Language Generation（T-NLG）模型具有170亿参数，能够理解语言，因此可以在第一时间回答问题或总结首次看到的文件。此类自然语言模型，比一年前最先进的模型大得多，与早期以图像为中心的模型相比，更是大出好几个数量级，而且支持Bing、Word、Outlook和Dynamics中的任务。

为训练此类大规模的模型，需要将具备专用AI加速器的数百台机器组合成为大型集群，这些加速器通过机器内部和机器之间的高带宽网络互连。为使所有微软产品具备全新自然语言生成和理解的能力，并支持OpenAI完成“建立安全的通用AI”的使命，我们不断在Azure中构建这样的集群。我们最新的集群具备强大的聚合计算能力，因此被称为AI超级计算机，其中有一台专为OpenAI打造，已跻身全球前五大公开发布的超级计算机。得益于这台超级计算机，OpenAI在5月发布了其1750亿参数GPT-3模型，该模型可完成多种未进行过针对性训练的任务，如诗歌写作或翻译。

我们在管理大规模计算集群、领先网络设计和软件堆栈（包括Azure机器学习、ONNX运行时和其他Azure AI服务）时，所采取的方法与我们的AI at Scale 战略保持高度一致。一路以来的创新将使Azure能够更好地满足客户各种规模的AI需求。例如，在NDv2虚拟机系列中，Azure是第一个，也是唯一一个提供NVIDIA V100 Tensor Core GPU虚拟机集群的公有云，这些集群通过高带宽、低延迟的NVIDIA Mellanox InfiniBand网络互连。这种创新如同将高端赛车行业所开创的汽车技术，应用于我们日常驾驶的普通汽车。

前沿创新规模空前

OpenAI首席执行官Sam Altman表示：“若要将AI发展成为通用智能，那么在某种程度上就需要强大的系统来训练日益强大的模型。如今我们终于拥有了所需的算力。Azure AI及其超算能力为我们提供了领先的系统，让我们能够加速创新进程。”

通过不断创新，Azure宣布推出全新ND A100 v4虚拟机系列，这是我们迄今为止功能最强大、可扩展性最强的AI虚拟机。该虚拟机可根据需求，通过数百台虚拟机调用八至数千个互连NVIDIA GPU。

最基本的ND A100 v4虚拟机系列由一台虚拟机和八个NVIDIA Ampere A100 Tensor Core GPU组成。但如同人脑由相互连接的神经元组成一样，ND A100 v4集群可以扩展到数千个GPU，且每台虚拟机都具有1.6TB互连带宽，这是前所未有的。每个GPU均具有专属200GB/s NVIDIA Mellanox HDR InfiniBand连接，兼容所有拓扑结构。数十、数百甚至数千个GPU均可连接到同一个Mellanox InfiniBand HDR集群进行工作，从而实现任何级别的AI目标。由于专用的GPU互连带宽比任何其他公有云产品高16倍，因此可以更快地实现任何AI目标，如从零开始训练模型、继续使用自己的数据进行训练或针对特定任务进行微调等。

ND A100 v4虚拟机系列由内置全新Azure AMD Rome的平台提供支持，该平台所有主要系统组件均符合最新的硬件标准，如PCIe Gen4。PCIe Gen 4和NVIDIA第三代NVLINK架构可为每台虚拟机实现最快的GPU互连，使数据在系统中的传输速度提升2倍以上。

大多数客户无需开展任何技术工作，即可将其计算性能提升至基于上一代NVIDIA V100 GPU的系统的2至3倍。如果客户使用具备结构化稀疏加速、高精度Tensor Core核心和多实例GPU（MIG）功能的全新A100，可将性能提高多达20倍。

NVIDIA加速计算总经理兼副总裁Ian Buck表示：“Azure利用NVIDIA最先进的计算和网络功能构建了一个令人难以置信的大型云端AI平台。其具备的弹性架构，可将NVIDIA A100 GPU上的单一分区扩展至数千个通过NVIDIA Mellanox InfiniBand互连的A100 GPU。得益于该弹性架构，Azure客户可运行全球最高要求的AI工作负载。”

ND A100 v4虚拟机系列运用VM Scale Set等Azure核心可扩展模块，可对任何规模的集群进行自动、动态且透明的配置，让所有人在任何地方都可以实现各种规模的AI，甚至可以在数分钟内按需对AI超级计算机进行实例化。随后，便可使用Azure机器学习服务，独立访问虚拟机或启动、管理整个集群的训练任务。

ND A100 v4虚拟机系列和集群目前可供预览，之后将成为Azure产品组合中的标准产品，让所有人都能够在云端挖掘AI at Scale的潜力。

来源：业界供稿

0赞

好文章，需要你的鼓励

将AI超级计算带给客户

前沿创新规模空前

来源：业界供稿

2020

08/21

17:59

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: