榜单发布人、清华大学计算机系长聘翟季冬教授介绍说,AIPerf是面向智能算力评估的国际性排行榜,其于2020年首次在中国超级算力大会上发布榜单。相比传统超算性能排行榜,AIPerf榜单是对智能算力评测领域的有效补充。


清华大学翟季冬教授发布AIPerf榜单
“中国的智算、超算等算力发展非常迅速,许多省市都建设了智算中心。”翟季冬说,对于公众而言,人们需要一个简单明晰的指标来了解“哪个智算中心的算力更强”“智算中心的算力到底如何”等问题,AIPerf就是在此背景下诞生的。
今年的AIPerf延续了2024年的做法,包含三部分:采用经典卷积模型评价智能算力训练性能的AIPerf、以大语言模型训练效果评价智能算力性能的AIPerf-LLM、以大模型推理效能评价智能算力性能的AIPerf-Inference。
据介绍,AIPerf测试程序具有“提供一个分数”“可变计算规模”“计算有人工智能意义”“多机通信可以少但不能没有”等特点,其得分结果对于可测评系统的训练性能有直观反映。
在今年的排行榜上,北京超级云计算中心提交的两台新机器榜上有名,分别位列该榜单第一、第三位。作为,位于榜首的“新面孔”,北京超级云计算中心以NVIDIA RTX5090打造的系统,共有1194个节点,总卡数近万张;此前的榜首、由鹏城实验室与华为公司联合打造的AI计算系统——“鹏城云脑II”屈居次席。
基于AIPerf-LLM,翟季冬发布了以“大模型训练能力”作为区分的算力排行榜。在可测的若干智能计算系统中,北京超级云计算中心、阿里云部署在复旦大学的智算集群等位列前茅。
AIPerf-Inference有两个榜单,分别为“吞吐榜”和“延迟榜”,以适应不同推理任务的不同特征需要。其中,在“吞吐榜”上,北京超级云计算中心2台智算系统、新疆数算电科技技术有限责任公司和北京清程极智科技有限公司共同开发的系统位列榜单 Top3。

张云泉研究员和翟季冬教授为上榜单位(部分)颁发证书
随着AI的发展,我们计划增加一个以大模型Tokens调用性能为评测基准的榜单AIPing (aiping.cn),评测不同MaaS平台的服务性能。现在还在筹划阶段,希望征求一下同行领域专家的建议。翟季冬说,目前团队已经在这方面做了一些准备和测试工作,“今年只是抛一个砖,未来希望有更多的MaaS(模型作为服务)平台开展性能测试”。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。