加速HPC与AI融合 NVIDIA发布全系列新品赋能科学计算原创

作者：李祥敬

在近日举行的SC2020期间，NVIDIA则推出了包括NVIDIA A100 80GB GPU、NVIDIA HGX AI超级计算平台、NVIDIA DGX Station A100以及NVIDIA Mellanox 400G InfiniBand等一系列的产品，将AI超级计算推向了一个新的高度。

每年ISC、SC公布的TOP榜单可谓是HPC领域最受关注的事件之一，因为业界不光关注厂商的排名，还关注这些上榜的系统背后的架构情况，比如使用了什么CPU和GPU等。

在今年ISC2020上，TOP10的HPC中，有8台系统采用了NVIDIA GPU、InfiniBand网络技术，或同时采用了两种技术，其中包括美国、欧洲和中国领跑的HPC系统。

如今，AI和数据分析已成为科学计算中的新需求，而NVIDIA一直不断创新，借助软硬结合的解决方案，加速了HPC与AI的融合进程。而在近日举行的SC2020期间，NVIDIA则推出了包括NVIDIA A100 80GB GPU、NVIDIA HGX AI超级计算平台、NVIDIA DGX Station A100以及NVIDIA Mellanox 400G InfiniBand等一系列的产品，将AI超级计算推向了一个新的高度。

AI超级计算全球最强GPU：NVIDIA A100 80GB GPU

针对现在日益负载的HPC与AI工作负载，特别是面向深度学习与机器学习等应用，NVIDIA推出了A100 80GB GPU，其可以称为目前AI超级计算全球最强GPU。因为，A100 80GB GPU基于NVIDIA Ampere架构，为其带来了突破性的特性。

借助第三代Tensor Core核心，通过全新TF32，NVIDIA A100 80GB GPU将上一代Volta架构的AI吞吐量提高多达20倍。通过FP64，将HPC性能提高多达2.5倍。通过INT8，将AI推理性能提高多达20倍，并且支持BF16数据格式。

凭借其多实例GPU（MIG）技术，NVIDIA A100 80GB GPU可分割为多达7个GPU实例，每个实例具有10GB内存。该技术是一种安全的硬件隔离方法，在处理各类较小的工作负载时，可实现GPU最佳利用率。对于如RNN-T等自动语言识别模型的AI推理，单个A100 80GB MIG实例可处理更大规模的批量数据，将生产中的推理吞吐量提高1.25倍。

在计算性能提升的同时，NVIDIA A100 80GB GPU基于A100 40GB的多样化功能，采用HBM2e技术，可将A100 40GB GPU的高带宽内存增加一倍至80GB，提供每秒超过2TB的内存带宽。这使得数据可以快速传输到全球最快的数据中心GPU A100上，使研究人员能够更快地加速其应用，处理最大规模的模型和数据集。

同时，依托第三代NVLink和NVSwitch互连技术，NVIDIA A100 80GB GPU之间的带宽增加至原来的两倍，将数据密集型工作负载的GPU数据传输速度提高至每秒600gigabytes。

目前，NVIDIA A100 80GB GPU已经支持NVIDIA HGX AI超级计算平台。NVIDIA HGX AI超级计算平台将NVIDIA GPU、NVIDIA NVLink 、NVIDIA InfiniBand网络以及全面优化的NVIDIA AI和HPC软件堆栈的全部功能整合在一起，以提供最优越的应用性能。

由于GPU内存比上一代提升一倍，HGX服务器中搭载的A100 80GB还可训练具有更多参数的最大模型，如GPT-2，能够为研究人员和工程师们提供空前的速度和性能，助力实现新一轮AI和科学技术突破。

同时，源讯、戴尔科技、富士通、技嘉科技、慧与、浪潮、联想、云达科技、超微预计将于2021年上半年，提供基于HGX A100集成底板的系统，该集成底板搭载4-8个A100 80GB GPU。

一体式AI数据中心：NVIDIA DGX Station A100

NVIDIA全球唯一的千兆级工作组服务器NVIDIA DGX Station A100正式发布。作为开创性的第二代人工智能系统，DGX Station A100加速满足位于全球各地的公司办公室、研究机构、实验室或家庭办公室中办公的团队对于机器学习和数据科学工作负载的强烈需求。

DGX Station A100的AI性能可达2.5petaflops，是唯一一台配备四个通过NVIDIA NVLink完全互连的全新NVIDIA A100 Tensor Core GPU的工作组服务器，可提供高达320GB的GPU内存，能够助力企业级数据科学和AI领域以最速度取得突破。

DGX Station A100配备四组80GB或40GB NVIDIA A100 Tensor Core GPU，比上一代DGX Station提速4倍以上，对于诸如BERT Large训练与推理等复杂的对话式AI模型，其性能提高近3倍，让数据科学和AI研究团队能够结合自身工作负载和预算来选择系统。

DGX A100系统将配备全新NVIDIA A100 80GB GPU使每个DGX A100系统的GPU内存容量增加一倍（最高可达640GB），从而确保AI团队能够使用更大规模的数据集和模型来提高准确性，承载更大规模的数据中心工作负载。

作为服务器级的系统，DGX Station A100无需配备数据中心级电源或散热系统，却具有与NVIDIA DGX A100数据中心系统相同的远程管理功能。当数据科学家和研究人员在家中或实验室办公时，系统管理员可轻松地通过远程连接，执行任何管理任务。

DGX Station A100也是唯一支持NVIDIA多实例GPU（MIG）技术的工作组服务器。借助MIG，单一DGX Station A100最多可提供28个独立GPU实例以运行并行任务，并可在不影响系统性能的前提下支持多用户。

全新DGX A100 640GB系统也将集成到企业版NVIDIA DGX SuperPOD解决方案，使机构能基于以20 个DGX A100系统为单位的一站式AI超级计算机，实现大规模AI模型的构建、训练和部署。

据悉，配备A100 80GB GPU的NVIDIA DGX SuperPOD系统将率先安装于英国的Cambridge-1超级计算机，以加速推进医疗保健领域研究，以及佛罗里达大学的全新HiPerGator AI超级计算机，该超级计算机将赋力这一“阳光之州”开展AI赋能的科学发现。

目前，DGX Station的用户已经遍布教育、金融服务、政府、医疗健康、和零售等行业，其中包括宝马集团、德国人工智能研究中心、NTT Docomo、太平洋西北国家实验室（PNNL）等。

NVIDIA DGX Station A100和NVIDIA DGX A100 640GB系统将于本季度通过全球NVIDIA合作伙伴网络经销商供货。NVIDIA DGX A100 320GB用户可选择升级。

最快网络性能：NVIDIA Mellanox 400G InfiniBand

通常AI应用需要更快，更智能，更具扩展性的网络，而Mellanox InfiniBand一直是AI超级计算的最佳网络解决方案，今天NVIDIA正式推出了面向AI超级计算的业界最强大的网络解决方案——下一代NVIDIA Mellanox 400G InfiniBand，为AI开发人员和科学研究人员提供了最快的网络互连性能。

第七代Mellanox InfiniBand NDR 400Gb/s产品提供超低延迟，并在上一代产品的基础上实现了数据吞吐量翻倍，同时增加了新的NVIDIA网络计算引擎，实现了额外的加速。

Mellanox NDR 400G InfiniBand交换机，可提供3倍的端口密度和32倍的AI加速能力。此外，它还将框式交换机系统的聚合双向吞吐量提高了5倍，达到1.64petabits/s，从而使用户能够以更少的交换机，运行更大的工作负载。

网络协同技术已经彻底改变HPC行业，传统的以CPU为中心的数据中心架构很多功能需要CPU处理，而过渡到以数据为中心的新体系结构要求网络高速且有效，这意味着它们必须把更多的功能从CPU卸载到网络中的其他地方。第三代NVIDIA Mellanox SHARP技术使InfiniBand网络能够卸载并加速深度学习训练操作，使AI加速能力提高32倍。与NVIDIA Magnum IO软件栈相结合，可开箱即用，加速科学计算。

基于Mellanox InfiniBand架构的边缘交换机的双向总吞吐量可达51.2Tb/s，实现了具有里程碑意义的每秒超过665亿数据包的处理能力。基于Mellanox InfiniBand的模块化交换机的双向总吞吐量将达到每秒1.64petabits，比上一代产品高5倍。

而且，Mellanox InfiniBand架构基于业界标准，以确保前后代产品兼容性，并保护数据中心投资。基于该架构的解决方案预计将于2021年第二季度提供样品。

结语

从此次NVIDIA发布的产品可以看到，NVIDIA为AI超级计算提供了全面的技术方案，包括GPU、网络以及一体化的产品组合。而依托全新的NVIDIA Ampere架构，NVIDIA让GPU在加速HPC与AI融合方面更进了一步，赋能科技计算。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

加速HPC与AI融合 NVIDIA发布全系列新品赋能科学计算 原创

来源：至顶网计算频道

2020

11/17

08:38

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

NVIDIA Blackwell 现已在云端全面可用

专访DeepMind CEO：我们距离实现AGI只需5-10年

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

加速HPC与AI融合 NVIDIA发布全系列新品赋能科学计算原创