在最新MLPerf基准测试中,NVIDIA H100和L4 GPU将生成式AI和所有其他工作负载带到了新的水平,Jetson AGX Orin则在性能和效率方面都有所提升。

作为独立的第三方基准测试,MLPerf仍是衡量AI性能的权威标准。自MLPerf诞生以来,NVIDIA的AI平台在训练和推理这两个方面一直展现出领先优势,包括最新发布的MLPerf Inference 3.0基准测试。
NVIDIA创始人兼首席执行官黄仁勋表示:“三年前我们推出A100时,AI世界由计算机视觉主导。如今,生成式AI已经到来。”
“这正是我们打造Hopper的原因,其通过Transformer 引擎专为GPT进行了优化。最新的MLPerf 3.0凸显了Hopper的性能比A100高出4倍。”
“下一阶段的生成式AI需要高能效的新的AI基础设施,以训练大型语言模型。客户正在大规模采用Hopper,以构建由数万颗通过NVIDIA NVLink和InfiniBand连接的Hopper GPU组成的AI基础设施。”
“业界正努力推动安全、可信的生成式AI取得新的进展。而Hopper正在推动这项重要的工作。”
最新MLPerf结果显示,NVIDIA将从云到边缘的AI推理性能和效率带到了一个新的水平。
具体而言,在DGX H100系统中运行的NVIDIA H100 Tensor Core GPU在每项AI推理测试(即在生产中运行神经网络)中均展现出最高的性能。得益于软件优化,该GPU在9月首次亮相时就实现了高达54%的性能提升。
针对医疗领域,H100 GPU在3D-UNet(MLPerf医学影像基准测试)中的性能相比9月提高了31%。

在Transformer引擎的加持下,基于Hopper架构的H100 GPU在BERT上的表现十分优异。BERT是一个基于transformer的大型语言模型,它为如今已经得到广泛应用的生成式AI奠定了基础。
生成式AI使用户可以快速创建文本、图像、3D模型等。从初创公司到云服务提供商,企业都在迅速采用这一能力,以实现新的业务模式和加速现有业务。
数亿人现在正在使用ChatGPT(同样是一个transformer模型)等生成式AI工具,以期得到即时响应。
在这个AI的iPhone时刻,推理性能至关重要。深度学习的部署几乎无处不在,这推动了从工厂车间到在线推荐系统等对推理性能的无尽需求。
L4 GPU精彩亮相
NVIDIA L4 Tensor Core GPU在本次MLPerf测试中首次亮相,其速度是上一代T4 GPU的3倍以上。这些加速器具有扁平的外形,可在几乎所有的服务器中提供高吞吐量和低延迟。
L4 GPU运行了所有MLPerf工作负载。凭借对关键的FP8格式的支持,其在对性能要求很高的BERT模型上取得了非常惊人的结果。
除了出色的AI性能外,L4 GPU的图像解码速度快了10倍,视频处理速度快了3.2倍,同时图形和实时渲染性能提高了4倍以上。
这些加速器两周前在GTC上发布并已通过各大系统制造商和云服务提供商提供。L4 GPU是NVIDIA在GTC上发布的AI推理平台产品组合中的最新成员。

软件和网络在系统测试中大放异彩
NVIDIA的全栈式AI平台在一项全新MLPerf测试中展现了其领先优势。
被称之为网络划分(network-division)的基准测试将数据传输至一个远程推理服务器。它反映了企业用户将数据存储在企业防火墙后面、在云上运行AI作业的热门场景。
在BERT测试中,远程NVIDIA DGX A100系统提供高达96%的最大本地性能,其性能下降的原因之一是因为它们需要等待CPU完成部分任务。在单纯依靠GPU进行处理的ResNet-50计算机视觉测试中,它们达到了100%的性能。
这两个结果在很大程度上要归功于NVIDIA Quantum Infiniband网络、NVIDIA ConnectX SmartNIC以及NVIDIA GPUDirect等软件。
Orin在边缘的性能提升3.2倍
另外,相较于一年前的结果,NVIDIA Jetson AGX Orin模块化系统的能效提高了63%,性能提高了81%。Jetson AGX Orin可在需要AI的狭小空间内以低功率进行推理,包括在由电池供电的系统上。
专为需要更小模块、更低功耗的应用而开发的Jetson Orin NX 16G在本次基准测试中首次亮相便大放异彩。其性能是上一代Jetson Xavier NX处理器的3.2倍。
广泛的NVIDIA AI生态
MLPerf结果显示,NVIDIA AI得到了业内最广泛的机器学习生态系统的支持。
在这一轮测试中,有十家公司在NVIDIA平台上提交了结果,包括华硕、戴尔科技、技嘉、新华三、联想、宁畅、超微和超聚变等系统制造商和微软Azure云服务。
他们所提交的结果表明,无论是在云端还是在自己的数据中心运行的服务器中,用户都可以通过NVIDIA AI获得出色的性能。
NVIDIA的众多合作伙伴也参与了MLPerf,因为他们知道这是一个帮助客户评估AI平台和厂商的很有价值的工具。最新一轮结果表明,他们今天所提供的性能将随着NVIDIA平台的发展而不断提升。
用户需要的是“多面手”
NVIDIA AI是唯一能够在数据中心和边缘计算中运行所有MLPerf推理工作负载和场景的平台。其全面的性能和效率让用户能够成为真正的赢家。
用户在实际应用中通常会采用许多不同类型的神经网络,这些网络往往需要实时提供答案。
例如,一个AI应用可能需要先理解用户的语音请求,对图像进行分类、提出建议,然后以人声作为语音来回答用户。每个步骤都需要用到不同类型的AI模型。
MLPerf基准测试涵盖了这些以及其他流行的AI工作负载,所以这些测试能够确保IT决策者获得可靠且可以灵活部署的性能。

用户可以根据MLPerf的结果做出明智的购买决定,因为这些测试是透明的、客观的。该基准测试得到了包括Arm、百度、Facebook AI、谷歌、哈佛大学、英特尔、微软、斯坦福大学和多伦多大学在内的广泛支持。
可以使用的软件
NVIDIA AI平台的软件层NVIDIA AI Enterprise确保用户能够从他们的基础设施投资中获得最佳的性能以及在企业数据中心运行AI所需的企业级支持、安全性和可靠性。
这些测试所使用的所有软件都可以从MLPerf库中获得,因此任何人都可以获得这些领先的结果。
各项优化措施不断地被整合到NGC(NVIDIA的GPU加速软件目录)上的容器中。本轮测试中提交的每项工作均使用了该目录中的NVIDIA TensorRT优化AI推理性能。
请阅读这篇技术博客,深入了解提高NVIDIA MLPerf性能和效率的优化措施。
好文章,需要你的鼓励
TPU与GPU之间的竞争正在重塑AI硬件市场格局。GPU基于并行处理,能处理多样化任务,而TPU专门针对张量矩阵运算进行优化。谷歌TPU采用类似RISC的设计理念,通过限制功能来提升特定运算效率。随着Meta计划在2027年采购数十亿美元的TPU芯片,Anthropic宣布使用百万TPU训练Claude模型,TPU生态系统正在获得发展动力,对英伟达的GPU霸主地位构成挑战。
Meta与华盛顿大学联合研究团队开发出无需人类标注的AI评判官自我训练框架。该方法通过生成合成对比数据、自我判断筛选和反复学习,使110亿参数的AI评判官在多项视觉语言任务中超越GPT-4o等大型模型,成本仅为传统方法的1%,为AI自主学习和评估开辟新路径。
本文提出2026年AI发展十大预测,包括AI估值修正、投资泡沫持续、AGI不仅依赖大语言模型、AI代理将加剧工作替代等。作者强调社会接受度对技术发展的重要性,认为成功企业将重构运营模式以AI为核心,同时指出政府仍将重视STEM教育而忽视社会科学的价值。
华中科技大学团队开发出4DLangVGGT技术,首次实现AI系统对4D动态场景的语言理解。该技术突破传统方法需要逐场景训练的限制,能跨场景通用部署。系统结合几何感知和语义理解,不仅能识别物体还能描述其时间变化过程。实验显示在多项指标上超越现有方法1-2%,为机器人、AR/VR、智能监控等领域提供重要技术支撑。