9月23日,全球权威AI基准评测MLPerf™公布最新榜单Inference(推理) V1.1,在最受关注的固定任务(Closed)测试中,浪潮获得15项冠军,戴尔、高通、英伟达分别获得8项、5项和4项冠军。
MLPerf™是影响力最广的国际AI性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立。2020年,非盈利性机器学习开放组织MLCommons基于MLPerf™基准测试成立,其成员包括谷歌、Facebook、英伟达、英特尔、浪潮、哈佛大学、斯坦福大学、加州大学伯克利分校等50余家全球AI领军企业及顶尖学术机构,致力于推进机器学习和人工智能标准及衡量指标。目前,MLCommons每年组织2次MLPerf™ AI训练性能测试和2次MLPerf™ AI推理性能测试,为用户衡量设备性能提供权威有效的数据指导。
MLPerf™推理V1.1 AI基准测试固定任务(Closed)包括数据中心(共16个项目)和边缘(共14个项目)两大场景。在数据中心场景下设置6个模型,分别是图像识别(ResNet50)、医学影像分割(3D-UNet)、目标物体检测(SSD-ResNet34)、语音识别(RNN-T)、自然语言理解(BERT)以及智能推荐(DLRM),其中Bert、DLRM和3D-Unet设有高精度(99.9%)模式。除3D-UNet模型任务只考察Offline离线推理场景性能外,其他模型任务按照Server在线推理和Offline离线推理两种应用场景分别进行性能测试。边缘场景AI模型在数据中心场景的6个模型基础上删减了智能推荐(DLRM)模型,并增加目标物体检测(SSD-MobileNet)模型,所有模型均有Offline离线推理场景和SingleStream单流推理两个场景。
固定任务(Closed)要求参赛各方使用相同模型和优化器,这对于实际用户评测AI计算系统性能具备很强的参考意义,也一直是MLPerf™中角逐最激烈及主流厂商最关注的领域。此次共有英伟达、英特尔、浪潮、高通、阿里巴巴、戴尔、HPE等19家厂商参与到固定任务(Closed)测试竞赛中,其中数据中心场景收到了754项成绩提交,边缘场景收到了448项成绩提交,共1199项成绩提交。
在固定任务的全部30个项目中,浪潮获得15项冠军,位居冠军数量第一,这也是浪潮连续第四次位居MLPerf™ AI基准测试冠军数量榜首。

此次MLPerf™的开放任务(Open)赛道允许参赛方对模型进行任意处理,参加者有cTuning、Krai等6家厂商,数量较上届有下降。此外,本次MLPerf™还共有NVIDIA、浪潮、高通以及戴尔等5家厂商在功耗任务上提交了结果,功耗评测或将成为未来MLPerf™的关注重点之一。
好文章,需要你的鼓励
华盛顿大学Pedro Domingos教授提出的张量逻辑是一种革命性的AI编程语言,它通过将逻辑推理与张量代数在数学层面统一,实现了符号AI和神经网络的深度融合。该语言仅使用张量方程这一种构造,就能优雅地实现从Transformer到形式推理、从核机器到图模型等多种AI范式,更重要的是开辟了在嵌入空间中进行可靠推理的新方向,有望解决大型语言模型的幻觉和不透明性问题,成为推理、数学和编码模型的理想语言。
中科院研究团队发现AI模型存在严重的跨语言推理缺陷:英语训练优秀的模型在其他语言上表现平平。研究揭示了三个重要规律:首次平行跃迁现象、平行扩展法则和单语言泛化差距,证明当前AI过度依赖英语特有模式而非通用推理能力。通过"并行训练"策略,仅增加一种平行语言就能将跨语言能力提升115%,为构建真正全球化AI系统指明方向。
科技巨头IBM今日宣布推出新的区块链数字资产平台,专为金融机构和受监管企业设计。该平台名为"数字资产避风港",将为银行、企业和政府提供比特币、以太坊、稳定币和代币化资产的安全管理服务。平台由IBM与数字钱包基础设施提供商Dfns合作开发,支持超过40个公链和私链的全生命周期管理,并集成第三方身份验证和反洗钱合规工具。
卡内基梅隆大学和斯坦福大学研究团队提出RLAD方法,让AI学会像人类一样先从解题过程中总结经验,再运用这些"推理抽象"指导解题。该方法使用双AI协作训练,在AIME 2025等数学竞赛中比传统方法提升44%准确率,甚至实现了弱AI指导强AI的现象,为构建更智能的AI系统提供了新思路。