9月23日,全球权威AI基准评测MLPerf™公布最新榜单Inference(推理) V1.1,在最受关注的固定任务(Closed)测试中,浪潮获得15项冠军,戴尔、高通、英伟达分别获得8项、5项和4项冠军。
MLPerf™是影响力最广的国际AI性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立。2020年,非盈利性机器学习开放组织MLCommons基于MLPerf™基准测试成立,其成员包括谷歌、Facebook、英伟达、英特尔、浪潮、哈佛大学、斯坦福大学、加州大学伯克利分校等50余家全球AI领军企业及顶尖学术机构,致力于推进机器学习和人工智能标准及衡量指标。目前,MLCommons每年组织2次MLPerf™ AI训练性能测试和2次MLPerf™ AI推理性能测试,为用户衡量设备性能提供权威有效的数据指导。
MLPerf™推理V1.1 AI基准测试固定任务(Closed)包括数据中心(共16个项目)和边缘(共14个项目)两大场景。在数据中心场景下设置6个模型,分别是图像识别(ResNet50)、医学影像分割(3D-UNet)、目标物体检测(SSD-ResNet34)、语音识别(RNN-T)、自然语言理解(BERT)以及智能推荐(DLRM),其中Bert、DLRM和3D-Unet设有高精度(99.9%)模式。除3D-UNet模型任务只考察Offline离线推理场景性能外,其他模型任务按照Server在线推理和Offline离线推理两种应用场景分别进行性能测试。边缘场景AI模型在数据中心场景的6个模型基础上删减了智能推荐(DLRM)模型,并增加目标物体检测(SSD-MobileNet)模型,所有模型均有Offline离线推理场景和SingleStream单流推理两个场景。
固定任务(Closed)要求参赛各方使用相同模型和优化器,这对于实际用户评测AI计算系统性能具备很强的参考意义,也一直是MLPerf™中角逐最激烈及主流厂商最关注的领域。此次共有英伟达、英特尔、浪潮、高通、阿里巴巴、戴尔、HPE等19家厂商参与到固定任务(Closed)测试竞赛中,其中数据中心场景收到了754项成绩提交,边缘场景收到了448项成绩提交,共1199项成绩提交。
在固定任务的全部30个项目中,浪潮获得15项冠军,位居冠军数量第一,这也是浪潮连续第四次位居MLPerf™ AI基准测试冠军数量榜首。
此次MLPerf™的开放任务(Open)赛道允许参赛方对模型进行任意处理,参加者有cTuning、Krai等6家厂商,数量较上届有下降。此外,本次MLPerf™还共有NVIDIA、浪潮、高通以及戴尔等5家厂商在功耗任务上提交了结果,功耗评测或将成为未来MLPerf™的关注重点之一。
好文章,需要你的鼓励
谷歌宣布为Chrome iOS版推出新功能,用户可在工作和个人谷歌账户间轻松切换,无需反复登录登出。该功能支持托管账户浏览,实现严格的数据分离,工作账户的标签页、历史记录和密码等本地数据与个人浏览完全隔离。随着企业不再提供公司手机,员工常需在个人设备上访问公司资源,此更新有助企业允许员工使用自选设备。
以色列理工学院和希伯来大学研究团队通过创新的"对调训练"实验,首次系统性地揭示了大语言模型认知偏见的真正来源。研究发现,AI模型的32种认知偏见主要源于预训练阶段而非微调阶段,这一发现颠覆了此前的认知,为开发更公正的AI系统指明了新方向。
OpenAI宣布其最新实验性推理大语言模型在2025年国际数学奥林匹克竞赛中达到金牌水平。尽管机器在数学推理、代码生成等认知任务上表现卓越,但这并不意味着它们具备真正的智能。机器缺乏知识迁移能力、情感理解、自我意识、内在动机等关键特征。它们无法像人类那样灵活适应新环境,也不具备主观体验和意识。真正的智能需要多方面综合能力,而非仅仅在特定任务上的优异表现。
约翰霍普金斯大学团队开发了VLV系统,仅用1000美元成本就能达到GPT-4o级别的AI图像描述效果。该系统巧妙组合现有的视觉编码器、扩散模型和语言模型,通过两阶段训练实现高质量图像描述。测试显示VLV在重建质量和人类评价方面与顶级商业模型相当,同时具备出色的空间理解和创意组合能力,为AI技术普及化提供了新思路。