榜单发布人、清华大学计算机系长聘翟季冬教授介绍说,AIPerf是面向智能算力评估的国际性排行榜,其于2020年首次在中国超级算力大会上发布榜单。相比传统超算性能排行榜,AIPerf榜单是对智能算力评测领域的有效补充。


清华大学翟季冬教授发布AIPerf榜单
“中国的智算、超算等算力发展非常迅速,许多省市都建设了智算中心。”翟季冬说,对于公众而言,人们需要一个简单明晰的指标来了解“哪个智算中心的算力更强”“智算中心的算力到底如何”等问题,AIPerf就是在此背景下诞生的。
今年的AIPerf延续了2024年的做法,包含三部分:采用经典卷积模型评价智能算力训练性能的AIPerf、以大语言模型训练效果评价智能算力性能的AIPerf-LLM、以大模型推理效能评价智能算力性能的AIPerf-Inference。
据介绍,AIPerf测试程序具有“提供一个分数”“可变计算规模”“计算有人工智能意义”“多机通信可以少但不能没有”等特点,其得分结果对于可测评系统的训练性能有直观反映。
在今年的排行榜上,北京超级云计算中心提交的两台新机器榜上有名,分别位列该榜单第一、第三位。作为,位于榜首的“新面孔”,北京超级云计算中心以NVIDIA RTX5090打造的系统,共有1194个节点,总卡数近万张;此前的榜首、由鹏城实验室与华为公司联合打造的AI计算系统——“鹏城云脑II”屈居次席。
基于AIPerf-LLM,翟季冬发布了以“大模型训练能力”作为区分的算力排行榜。在可测的若干智能计算系统中,北京超级云计算中心、阿里云部署在复旦大学的智算集群等位列前茅。
AIPerf-Inference有两个榜单,分别为“吞吐榜”和“延迟榜”,以适应不同推理任务的不同特征需要。其中,在“吞吐榜”上,北京超级云计算中心2台智算系统、新疆数算电科技技术有限责任公司和北京清程极智科技有限公司共同开发的系统位列榜单 Top3。

张云泉研究员和翟季冬教授为上榜单位(部分)颁发证书
随着AI的发展,我们计划增加一个以大模型Tokens调用性能为评测基准的榜单AIPing (aiping.cn),评测不同MaaS平台的服务性能。现在还在筹划阶段,希望征求一下同行领域专家的建议。翟季冬说,目前团队已经在这方面做了一些准备和测试工作,“今年只是抛一个砖,未来希望有更多的MaaS(模型作为服务)平台开展性能测试”。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。