作为业内最权威的AI基准测试,每一次MLPerf评测结果都在刷新业内纪录,不断突破AI系统性能。
根据MLPerf公布的最新一期榜单 ,NVIDIA DGX和戴尔、富士通、技嘉、浪潮、联想、宁畅和超微等公司所提供的各种搭载NVIDIA技术的系统取得了出色成绩,实现了全球最快的AI模型训练速度。
此次性能评测基于最新MLPerf Training V1.0基准,分为固定任务(Closed)和开放任务(Open)。其中,固定任务要求使用相同模型和优化器,衡量同一深度学习模型在不同软硬件上的性能,广受厂商和客户看重;开放任务则放开对深度学习模型及精度的约束,侧重深度学习模型及算法优化的能力,旨在推进ML模型和优化的创新。
MLPerf V1.0基准测试涵盖了8类极具代表性的机器学习任务,分别为图像识别(ResNet)、医学影像分割(3D-UNet)、目标物体检测(SSD)、目标物体检测(Mask R-CNN)、语音识别(RNN-T)、自然语言理解(BERT)、智能推荐(DLRM)以及强化机器学习(MiniGo)。其中,ResNet50和BERT作为计算机视觉和自然语言理解中最具代表性的AI模型,竞争最为激烈。
成绩背后的真实力
这是NVIDIA生态系统第四次参加MLPerf的训练测试,也是NVIDIA A100 GPU第二次参与MLPerf测试。
由于GPU、系统、网络和AI软件的协同效应,在最新一轮的基准测试中,只有NVIDIA及其合作伙伴运行了所有八类工作负载,占所有提交的四分之三以上,而且取得了非常优秀的成绩。
与去年的分数相比,NVIDIA在性能上提高了多达3.5倍。而对于需要最高性能的大规模工作,NVIDIA创纪录地调集了4096个GPU的资源,超越了所有其他参与者。
这样NVIDIA AI平台在最短的时间内完成了模型训练,在商用提交类别的所有八项基准测试中都创下了性能纪录。
根据最新全球TOP 500榜单,基于NVIDIA DGX SuperPOD的Selene是全球最快的商用AI超级计算机。而Selene在MLPerf商用系统类别的所有八项测试中均创下纪录。
此外,在芯片对比中,NVIDIA A100 GPU在商用系统类别的所有八项测试中均创下纪录,这有赖于NVIDIA工程师的努力,例如其找到了一种使用CUDA Graphs启动完整神经网络模型的方法。
CUDA Graphs是一个涵盖NVIDIA CUDA操作及其依赖项的软件包,其消除了AI模型由大量独立的内核组成而导致的CPU瓶颈。NVIDIA SHARP软件能够在网络交换机内整合多项通信工作,从而减少网络流量和等待CPU的时间。
CUDA Graphs和SHARP的结合,使数据中心能够使用有史以来最多的GPU进行训练,轻松应对诸如自然语言处理等AI模型参数。
总体而言,从下图所示的结果能够看出,NVIDIA在两年半的时间内将性能提高了多达6.5倍,充分证明了包括GPU、系统和软件在内的全栈式NVIDIA平台的实力。
MLPerf的价值
MLPerf由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学等顶尖学术机构发起成立,是影响力最广的国际AI性能基准评测。
MLPerf能够帮助用户做出明智的采购决策。它得到了包括阿里巴巴、Arm、百度、谷歌、英特尔和NVIDIA在内的几十家行业领导者的支持,测试透明且客观。
MLPerf基准测试是多个AI平台之间透明、公平的对比,能够展示其在不同真实应用场景中的实际性能。
德国癌症研究中心DKFZ医学影像计算负责人Klaus Maier-Hein认为,作为行业标准的MLPerf基准测试提供了相关的性能数据,能够帮助IT机构和开发者找到合适的解决方案,以加速特定项目和应用。
另外,MLPerf基准测试帮助三星简化了产品的选择流程,提供了一种公开、直接的评估方法,能够对各家平台供应商进行统一标准的评估。
台积电OPC部门正在与NVIDIA工程团队合作,将其Maxwell模拟和逆向光刻技术引擎移植到GPU上,并实现了显著的速度提升。MLPerf基准测试是决策流程中的一个重要环节。
据悉,NVIDIA在最新测试中所使用的所有软件都可以从MLPerf资源库中获得,并会陆续将这些代码添加到NVIDIA的深度学习框架和容器中,用户可在NVIDIA的GPU应用软件中心NGC上获得这些框架和容器。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。