作为业内最权威的AI基准测试,每一次MLPerf评测结果都在刷新业内纪录,不断突破AI系统性能。
根据MLPerf公布的最新一期榜单 ,NVIDIA DGX和戴尔、富士通、技嘉、浪潮、联想、宁畅和超微等公司所提供的各种搭载NVIDIA技术的系统取得了出色成绩,实现了全球最快的AI模型训练速度。
此次性能评测基于最新MLPerf Training V1.0基准,分为固定任务(Closed)和开放任务(Open)。其中,固定任务要求使用相同模型和优化器,衡量同一深度学习模型在不同软硬件上的性能,广受厂商和客户看重;开放任务则放开对深度学习模型及精度的约束,侧重深度学习模型及算法优化的能力,旨在推进ML模型和优化的创新。
MLPerf V1.0基准测试涵盖了8类极具代表性的机器学习任务,分别为图像识别(ResNet)、医学影像分割(3D-UNet)、目标物体检测(SSD)、目标物体检测(Mask R-CNN)、语音识别(RNN-T)、自然语言理解(BERT)、智能推荐(DLRM)以及强化机器学习(MiniGo)。其中,ResNet50和BERT作为计算机视觉和自然语言理解中最具代表性的AI模型,竞争最为激烈。
成绩背后的真实力
这是NVIDIA生态系统第四次参加MLPerf的训练测试,也是NVIDIA A100 GPU第二次参与MLPerf测试。
由于GPU、系统、网络和AI软件的协同效应,在最新一轮的基准测试中,只有NVIDIA及其合作伙伴运行了所有八类工作负载,占所有提交的四分之三以上,而且取得了非常优秀的成绩。
与去年的分数相比,NVIDIA在性能上提高了多达3.5倍。而对于需要最高性能的大规模工作,NVIDIA创纪录地调集了4096个GPU的资源,超越了所有其他参与者。
这样NVIDIA AI平台在最短的时间内完成了模型训练,在商用提交类别的所有八项基准测试中都创下了性能纪录。
根据最新全球TOP 500榜单,基于NVIDIA DGX SuperPOD的Selene是全球最快的商用AI超级计算机。而Selene在MLPerf商用系统类别的所有八项测试中均创下纪录。
此外,在芯片对比中,NVIDIA A100 GPU在商用系统类别的所有八项测试中均创下纪录,这有赖于NVIDIA工程师的努力,例如其找到了一种使用CUDA Graphs启动完整神经网络模型的方法。
CUDA Graphs是一个涵盖NVIDIA CUDA操作及其依赖项的软件包,其消除了AI模型由大量独立的内核组成而导致的CPU瓶颈。NVIDIA SHARP软件能够在网络交换机内整合多项通信工作,从而减少网络流量和等待CPU的时间。
CUDA Graphs和SHARP的结合,使数据中心能够使用有史以来最多的GPU进行训练,轻松应对诸如自然语言处理等AI模型参数。
总体而言,从下图所示的结果能够看出,NVIDIA在两年半的时间内将性能提高了多达6.5倍,充分证明了包括GPU、系统和软件在内的全栈式NVIDIA平台的实力。
MLPerf的价值
MLPerf由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学等顶尖学术机构发起成立,是影响力最广的国际AI性能基准评测。
MLPerf能够帮助用户做出明智的采购决策。它得到了包括阿里巴巴、Arm、百度、谷歌、英特尔和NVIDIA在内的几十家行业领导者的支持,测试透明且客观。
MLPerf基准测试是多个AI平台之间透明、公平的对比,能够展示其在不同真实应用场景中的实际性能。
德国癌症研究中心DKFZ医学影像计算负责人Klaus Maier-Hein认为,作为行业标准的MLPerf基准测试提供了相关的性能数据,能够帮助IT机构和开发者找到合适的解决方案,以加速特定项目和应用。
另外,MLPerf基准测试帮助三星简化了产品的选择流程,提供了一种公开、直接的评估方法,能够对各家平台供应商进行统一标准的评估。
台积电OPC部门正在与NVIDIA工程团队合作,将其Maxwell模拟和逆向光刻技术引擎移植到GPU上,并实现了显著的速度提升。MLPerf基准测试是决策流程中的一个重要环节。
据悉,NVIDIA在最新测试中所使用的所有软件都可以从MLPerf资源库中获得,并会陆续将这些代码添加到NVIDIA的深度学习框架和容器中,用户可在NVIDIA的GPU应用软件中心NGC上获得这些框架和容器。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。