AI计算力正在成为新一轮科技革命和产业变革的重要方法和工具。如今,AI已进入大规模推理时代。
MLPerf是影响力最广的国际AI性能基准评测,其推理性能评测涵盖使用广泛的六大AI场景,比如计算机视觉、自然语言处理、推荐系统、语音识别等,每个场景采用最主流的AI模型作为测试任务,每一任务又分为数据中心和边缘两类场景。
MLPerf凭借其透明性和客观性使用户能够做出明智的购买决定。该基准测试得到了包括亚马逊、Arm、百度、谷歌、哈佛大学、英特尔、Meta、微软、斯坦福大学和多伦多大学在内的广泛支持。
在近日公布的MLPerf AI推理基准测试结果中,NVIDIA协众多产品继续一骑绝尘,其中NVIDIA H100 GPU创造多项世界纪录、A100 GPU在主流性能方面展现领先优势、Jetson AGX Orin在边缘计算方面处于领先地位。
NVIDIA H100 GPU
NVIDIA H100 GPU基于Hopper架构,该芯片与两年前推出的上一代Ampere芯片相比,性能提升4.5倍。

NVIDIA H100 GPU首次亮相MLPerf AI推理基准测试便表现不俗,其提高了本轮测试所有六个神经网络中的单加速器性能标杆,它在单个服务器和离线场景中展现出吞吐量和速度方面的领先优势。
BERT是MLPerf AI模型中规模最大、对性能要求最高的的模型之一。Hopper在流行的用于自然语言处理的BERT模型上表现出色部分归功于其Transformer Engine。
Transformer Engine结合了数据格式和算法,并可通过所使用的Transformer机器学习系统加速硬件性能。
据悉,H100 GPU还将参加未来的MLPerf训练基准测试。
NVIDIA A100 GPU
作为市场主流产品,NVIDIA A100 GPU继续在主流AI推理性能方面展现出全方位领先,
在数据中心和边缘计算类别与场景中,A100 GPU赢得的测试项超过了任何其他提交的结果。A100还在6月的MLPerf训练基准测试中取得了全方位的领先,展现了其在整个AI工作流中的能力。
A100还在6月的MLPerf训练基准测试中取得了全方位的领先,展现了其在整个AI工作流程中的能力。
自2020年7 月在MLPerf上首次亮相以来由于NVIDIA AI软件的不断改进,A100 GPU的性能已经提升了6倍。
NVIDIA AI是唯一能够在数据中心和边缘计算中运行所有 MLPerf 推理工作负载和场景的平台。
NVIDIA Jetson AGX Orin
人工智能(AI)的实效性、物联网设备的采用以及边缘计算的性能都在近期取得了显著的进步,进而释放了边缘AI的潜能。
NVIDIA Jetson AGX Orin模块是NVIDIA Jetson 家族的最新成员并且在其中具有最强大的性能。Orin将NVIDIA Ampere架构GPU和强大的Arm CPU内核集成到一块芯片中。

在边缘计算方面,NVIDIA Orin运行了所有MLPerf基准测试,是所有低功耗系统级芯片中赢得测试最多的芯片。
在上一轮基准测试中,Orin的运行速度和平均能效分别比上一代 Jetson AGX Xavier模块高出5倍和2倍。
在能效方面,Orin边缘AI推理性能提升多达50%。
目前,Orin现已被用在NVIDIA Jetson AGX Orin开发者套件以及机器人和自主系统生产模块,并支持完整的NVIDIA AI 软件堆栈,,包括自动驾驶汽车平台(NVIDIA Hyperion)、医疗设备平台(Clara Holoscan)和机器人平台(Isaac)。
广泛的NVIDIA AI生态系统
MLPerf结果显示,NVIDIA AI得到了业界最广泛的机器学习生态系统的支持。
在这一轮基准测试中,有超过70项提交结果在NVIDIA平台上运行。例如,Microsoft Azure提交了在其云服务上运行NVIDIA AI的结果。
此外,10家系统制造商的19个NVIDIA 认证系统参加了本轮基准测试,包括华硕、戴尔科技、富士通、技嘉、慧与、联想、超微等。
结语
AI加速落地,而不管是训练还是推理,都离不开坚实的算力支撑。NVIDIA以全面的产品组合覆盖从云到数据中心、边缘的AI场景,MLPerf的测试结果展现了NVIDIA产品的实力,赋能企业AI的部署与应用。
好文章,需要你的鼓励
IBM在量子开发者大会上发布两款新型量子处理器。Quantum Nighthawk配备120个量子比特和218个新一代可调耦合器,比前代产品增加20%耦合器,可执行复杂度提升30%的电路。Quantum Loon是实验性处理器,展示了实现极低错误率和高效错误恢复的所有组件。IBM计划2026年底确认首批量子优势案例,并于2029年交付大规模容错量子计算平台。
斯坦福大学等机构联合开发的CIFT系统首次解决了机器人"近视眼"问题,通过精确控制真实数据和合成数据的混合比例,让机器人在陌生环境中的表现提升54%以上。该系统包含多视角视频增强引擎MVAug和数据组合优化策略,能够预测数据失效的"去相干点",确保机器人学习真正重要的任务特征而非环境表象,为实用化通用机器人奠定了重要基础。
VDURA数据平台第12版本通过扩展元数据计算、添加系统级快照功能和支持叠瓦磁记录硬盘来降低每TB成本。新版本引入弹性元数据引擎,可动态扩展元数据节点,将元数据操作性能提升最多20倍。快照功能支持即时的节省空间的数据集时点副本。SMR硬盘支持通过智能写入放置引擎,在不影响吞吐量的情况下每机架增加25-30%容量。
香港中文大学研究团队开发的Search-R3系统成功解决了大语言模型推理与搜索分离的问题,通过两阶段训练让AI在深度思考过程中直接生成搜索向量。该系统在多个领域测试中显著超越现有方法,特别是启用推理后性能提升明显,为AI系统设计提供了推理与搜索统一的新范式,展现了从专门化向通用化发展的重要方向。