6月30日,国际权威AI性能基准评测平台MLPerf,发布了基于Training V1.0 的最新标准测试结果。宁畅 AI服务器X640 G40和X660 G45,分别以48.43、28.64成绩,取得固定任务(closed)赛道,单机服务器系统的MASK R-CNN、U-NET3D两项AI场景世界性能第一。

MASK R-CNN、U-NET3D是重量级图像目标检测以及图像分割模型,其应用场景包括自动驾驶、医疗图像分析、监控、工业检测等,是典型数据中心应用模型。而第一成绩背后是每秒分析5040张X光照片、57000张图片以及570余次训练迭代的,单机服务器世界极限处理速度。
MLPerf基准测试在国际AI领域有极高影响力,其基准联盟已有谷歌、Intel、NVIDIA、微软、Facebook等超50家成员。
新纪录诞生
宁畅方面介绍,本次MLPerf Training V 1.0测试,共有16家国际一线厂商在固定任务(closed)赛道,提交了91个单机系统配置,并于DLRM、MASK R-CNN、Resnet50、SSD、U-NET3D等8个AI场景下,产生超百项测试成绩。
MLPerf测试的AI场景包含固定任务(Closed)和开放优化(Open)两个赛道,固定任务(Closed)更侧重公平性,参与测试的各计算系统基于同一套参数运行。
搭载英特尔第三代至强可扩展处理器、Optane BPS大容量持久内存以及NVIDIA A100 Tensor Core GPU的宁畅X640 G40以及X660 G45,从众多机型配置中“杀出”,以48.43、28.64分钟成绩夺得MASK R-CNN、U-NET3D场景的单机世界性能第一,取得新世界性能纪录。
在MASK R-CNN、U-NET3D测试中,单机服务器系统需要运行29GB、21GB的原始图像数据,并通过分析与迭代最终完成模型训练。而完成过程所耗费时间越少,则印证系统性能越强。
除获得以上两项性能冠军外,在横向比较搭载同400W功耗GPU的单机服务器系统,宁畅X660 G45在DLRM(推荐系统)、SSD(目标检测)固定任务赛道,以1.92、8.51分钟成绩取得世界性能第一。


夺冠MLPerf的唯一初创公司
X640 G40支持多种GPU拓扑结构,针对不同AI场景和训练模型进行互联优化,以满足不同类型客户需求。

X660 G45是专为深度学习训练开发的高性能计算平台,满配8颗GPU并采用600GB/s 的NVLink总线高速互联。每个GPU还可搭配HDR 200Gb/s InfiniBand网络和NVMe SSD高速缓存,助用户搭建GPU高速集群。结合近500TB本地存储容量,可极大缩短用户AI模型训练时间。

本次MLPerf测试,宁畅是唯一取得冠军成绩的初创服务器厂商。而就在6月20日,宁畅还取得了8项SPEC CPU2017的同CPU配置服务器世界性能第一。2020年的MLPerf测试中,宁畅服务器更是打破了超10项世界性能纪录。
对于本次夺冠,宁畅工程师介绍MLPerf测试比拼的是厂家对服务器底层硬件与软件的理解和优化能力,而这些“能力”来源于对用户应用场景的深入理解与实践。宁畅团队专注服务器研发、生产已有15年之久,拥有近百万台服务器生产部署经验,可为用户提供全栈服务器定制化服务。
作为智能算力定制专家,宁畅创立的2020年便已有近千家企业、用户采购宁畅服务器产品,收到定制咨询350余次,累计落地服务器定制方案170项,宁畅用户已覆盖互联网、金融、电信等数十个行业,出货量数以万计。
 0赞
0赞好文章,需要你的鼓励
 推荐文章
                    推荐文章
                  虽然ChatGPT等AI工具正在快速改变世界,但它们并非无所不知的神谕。ChatGPT擅长"令人信服的错误",经常提供有偏见、过时或完全错误的答案。在健康诊断、心理健康、紧急安全决策、个人财务规划、机密数据处理、违法行为、学术作弊、实时信息监控、赌博预测、法律文件起草和艺术创作等11个关键领域,用户应避免完全依赖ChatGPT,而应寻求专业人士帮助。
Meta超级智能实验室联合佐治亚理工学院开发出RECAP训练方法,通过故意给AI模型误导性开头来训练其纠错能力。该方法显著提升了大语言模型的安全性(12.3%)、抗攻击能力(21.0%)和推理质量,同时减少过度拒绝问题。RECAP无需额外计算资源,能让AI模型学会自我反思和批判性思维,为构建更可信的AI系统提供了新思路。
微软重启三里岛核反应堆的协议确认了AI革命与能源现实主义的融合。亚马逊和谷歌也达成类似协议,共同押注核能为AI未来提供最可行的动力路径。到2030年代,数据中心用电量可能媲美大国水平。国际能源署预测全球电力需求到2050年将增长六倍。核电厂90%的容量因子使其独特适合数据中心需求。世界核协会估计,当前全球398GW核能产能必须在2050年前至少增长两倍。
奥地利科学技术研究院团队深入研究微缩浮点数格式NVFP4和MXFP4的实际性能,发现现有量化方法效果不佳。他们开发了微旋转GPTQ算法和QuTLASS计算库,在保持模型精度的同时实现显著加速:B200芯片上达到2.2倍端到端提升,RTX5090上实现4倍加速,为AI推理优化提供了新的解决方案。
 
             
                 
                     
                     
                    