美国东部时间12月1日,国际权威AI基准测试MLPerf™公布最新一期训练(Training)榜单V1.1。浪潮信息提交了AI服务器所有8项单机测试的固定任务(Closed Division)成绩,并斩获其中7项冠军。
MLPerf™是影响力最广的国际AI性能基准评测,本次测试吸引谷歌、微软云、英伟达、浪潮信息、百度、戴尔、联想等14家公司及科研机构参与,共提交180项固定任务成绩,6项开放任务成绩。固定任务要求参赛各方使用与参考模型等价的模型和限定的优化器,对于实际用户评测AI计算系统性能具备很强的参考意义,也一直是MLPerf™中角逐最激烈及主流厂商最关注的领域。
本次性能基准评测涵盖了8类极具代表性的机器学习任务,分别为图像分类(ResNet)、医学影像分割(U-Net3D)、目标物体检测(SSD)、目标物体检测(Mask R-CNN)、语音识别(RNNT)、自然语言理解(BERT)、智能推荐(DLRM)以及强化学习(MiniGo)。
浪潮AI服务器在单机系统测试的全部8项固定任务中,获得7项冠军。其中,AI服务器NF5688M6获得医学影像分割、目标物体检测(Mask R-CNN)、自然语言理解、智能推荐4项冠军;AI服务器NF5488A5获得图像分类、目标物体检测(SSD)、语音识别3项冠军。
全栈AI能力 引领AI训练速度突破
凭借卓异的软硬件系统优化能力,浪潮AI服务器将MLPerf™训练基准的单机效率进一步提升至新的高度。相比半年前的MLPerf™ AI训练榜单V1.0,浪潮AI服务器将医学影像识别、语音识别、智能推荐和自然语言处理任务的单机AI训练速度提升18%、14%、11%和8%。
MLPerf™作为国际最权威的AI性能基准测试,不断刷新业内的AI训练速度。目前,浪潮信息是MLPerf™基准测试中医学影像分割、目标物体检测(Mask R-CNN)、自然语言理解、智能推荐、图像分类、目标物体检测(SSD)、语音识别7项AI任务的单机最快训练速度保持者。浪潮AI服务器在图像分类训练中每秒可处理27400张图片、在目标物体检测训练中每秒可处理12600张图片、在语音识别训练中每秒可处理8000段语音,引领全球AI训练速度突破,凸显出顶级AI服务器在AI模型训练效率上的巨大价值。
浪潮AI服务器在MLPerf™基准评测中的出色表现,得益于在AI计算系统创新上卓越的系统设计能力和全栈优化能力。在硬件层面,针对AI训练中常见的密集IO传输瓶颈,浪潮AI服务器以领先设计大幅降低通信延迟,极大提升了AI训练效率;同时,针对高负载多GPU协同任务调度,对NUMA节点与GPU之间的数据传输进行全面优化和深度调校,确保训练任务中的数据IO无阻塞;在散热层面,针对目前业界功率最高的A100-SXM-80GB(500W) GPU,浪潮率先开发的先进冷板液冷系统,确保GPU在全功率甚负载下依然稳定工作,将AI计算系统的性能发挥到极致。
MLPerfTM 2021年度收官 浪潮信息共获44项第一
MLCommons每年组织2次MLPerf™ 推理性能测试和2次MLPerf™ 训练性能测试。本次成绩公布意味着MLPerf™ 2021年度4次性能测试正式收官。浪潮AI服务器共斩获44项第一,名列MLPerfTM2021年度冠军榜首。
2021年,浪潮AI服务器在MLPerfTM数据中心AI推理场景的总32项任务中斩获17项冠军,在边缘AI推理场景的总31项任务中斩获16项冠军,从云到边全面领先;在单机AI训练场景的16项任务中浪潮AI服务器共斩获11项冠军。
2021年,浪潮AI服务器NF5488A5、NF5688M6以及边缘服务器NE5260M5参加到MLPerfTM竞赛中,各斩获18项、15项及11项冠军。
NF5488A5是全球首批上市的A100服务器,在4U空间支持8颗第三代NVLink互联的A100 GPU和2颗AMD Milan CPU,同时支持液冷和风冷散热技术。NF5688M6是面向大规模数据中心优化设计的具备极致扩展能力的AI服务器,支持8颗A100 GPU和两颗Intel Ice Lake CPU,支持多达13张PCIe Gen4的IO扩展卡。NE5260M5通过极致优化的信号和电源等系统设计,兼容高性能CPU和多种AI加速卡,通过减震降噪优化和严苛的可靠性测试,机箱深度430mm较普通服务器缩短近二分之一,满足空间受限的边缘计算场景部署需求。
浪潮信息是全球领先的AI计算厂商,AI服务器市场份额全球第一,中国市场份额已连续五年稳居第一。浪潮信息致力于AI计算平台、资源平台和算法平台的研发创新,并通过元脑生态与AI领先企业共同推进AI产业化和产业AI化进程。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。