搭上A100“列车”:全球HPC中心驶入NVIDIA AI超级计算“快车道”

NVIDIA Ampere架构和Mellanox InfiniBand网络推动全球AI超级计算的发展。

NVIDIA Ampere架构和Mellanox InfiniBand网络推动全球AI超级计算的发展。

全球各地的超级计算中心都在采用NVIDIA Ampere GPU架构,以满足从药物研发到能源研究等各个领域对更强大的AI模型日益增长的需求。

富士通宣布加入这一行列,为日本产业技术综合研究所(AIST)的AI Bridging Cloud Infrastructure(ABCI)提供全新的百亿亿次系统,性能可达600 petaflops。

过去五年,随着AI在研究中的广泛使用,模型的复杂性已飙升三万倍。在科学应用中,这些庞大的数据集可保存在内存中,有助于最大程度地减少批处理,并实现更高的吞吐量。

为推动新一波的研究,NVIDIA推出了采用HBM2e技术的NVIDIA A100 80GB GPU。它将A100 40GB GPU的高带宽内存增加一倍,达到了80GB,提供每秒超过2 TB的内存带宽。

采用全新NVIDIA A100 80GB GPU,使更大规模的模型和数据集可在内存中,以更快的内存带宽运行,从而为工作负载实现更大的计算量,并更快速地取得结果。通过减少节点间的通信,仅使用一半的GPU,就能将AI训练性能提高1.4倍。

NVIDIA还推出了全新NVIDIA Mellanox 400G InfiniBand架构,使数据吞吐量增加一倍,并提供全新网络计算引擎,实现了额外的加速。

欧洲紧跟超级计算浪潮

欧洲正在崛起。意大利校际联盟CINECA发布了全球最快的AI超级计算机Leonardo系统。它基于14,000个NVIDIA Ampere架构GPU和NVIDIA Mellanox InfiniBand网络构建,AI性能可达10 exaflops,由法国Atos公司进行构建。

除Leonardo外,还有越来越多的欧洲系统采用了得到EuroHPC计划支持的NVIDIA AI平台。德国Jülich超级计算中心最近推出了在欧洲上线的首个基于NVIDIA GPU的百亿亿次AI系统,成为欧洲最强大的AI平台。这一新系统由Atos设计,被命名为JUWELS,是一台性能达到2.5 exaflops的AI超级计算机,在最新TOP500榜单上排名第七。

此外,还包括卢森堡的MeluXina超级计算机、IT4Innovations国家超级计算中心、捷克共和国最强大的超级计算机、斯洛文尼亚马里博尔信息科学研究所的Vega超级计算机。

Linköping University正计划基于NVIDIA DGX SuperPOD基础设施,打造瑞典最快的AI超级计算机——BerzeLiUs。预计它将为前沿研究提供300 petaflops的AI性能。

NVIDIA正在开发Cambridge-1,这是一款80节点的DGX SuperPOD,具备400 petaflops 的AI性能。Cambridge-1将成为英国最快的AI超级计算机,被用于英国学术界、业界和初创企业在AI和医疗健康领域的合作研究。

北美势头喜人

北美也在追赶百亿亿次AI超级计算的浪潮。美国国家能源研究科学计算中心(NERSC)正在采用NVIDIA AI技术在Perlmutter上开展项目,其系统搭载6,200个A100 GPU。目前,NERSC称其AI性能为3.9 exaflops。

NVIDIA Selene是基于DGX SuperPOD构建的集群,为大规模GPU集群提供了公共参考架构,该架构可在数周内完成部署。NVIDIA DGX SuperPOD系统在Green500最高效的超级计算机榜单中排名第一,以每瓦26.2 gigaflops创造了新的功效世界纪录,并且为MLPerf inference开创了八个新的性能里程碑。

佛罗里达大学和NVIDIA正在构建全球学术界最快的AI超级计算机,旨在提供700 petaflops的AI性能。此次合作使佛罗里达大学步入了美国领先的AI大学行列,推进了学术研究,并可协助应对佛罗里达州最复杂的挑战。

在阿贡国家实验室,研究人员将使用24个NVIDIA DGX A100系统构建的集群,扫描数十亿种药物,以寻找COVID-19的治疗方法。

洛斯阿拉莫斯国家实验室、慧与和NVIDIA开展合作,致力于提供下一代技术,以加速科学计算。

亚太众多机构齐上阵

NVIDIA Ampere架构还将为亚太地区的超级计算机提供大力支持。韩国搜索引擎NAVER与日本即时通讯服务公司LINE采用由140个DGX A100系统构建的DGX SuperPOD,具备700 petaflops的AI峰值性能,能够游刃有余地扩展自然语言处理模型和对话式AI服务的研发。

日本海洋研究开发机构(JAMSTEC)正在使用NVIDIA A100 GPU和NVIDIA InfiniBand升级其地球模拟器(Earth Simulator)。预计该超级计算机的AI峰值性能将达到624 petaflops,HPC最大理论性能达到19.5 petaflops,将在当今TOP500超级计算机中名列前茅。

印度高级计算发展中心(C-DAC)正在调试该国最快、最大的AI超级计算机——PARAM Siddhi – AI。该超级计算机由42个DGX A100系统组成,具备200 exaflops的AI性能,帮助应对医疗健康、教育、能源、网络安全、航天、汽车和农业领域的挑战。

全球科学研究从未像如今一般飞速发展,前景可期!

来源:业界供稿

0赞

好文章,需要你的鼓励

2021

03/24

17:03

分享

点赞

邮件订阅
白皮书