5月10日,第十届ASC世界大学生超级计算机竞赛总决赛在中国科学技术大学落下帷幕。北京大学、中国科学技术大学分获冠亚军,中国科学技术大学获e Prize计算挑战奖,浙江大学获最高计算性能奖,其他多队也取得佳绩。
正式决赛的首日,24支队伍向AI语言大模型、超级团队赛和HPL&HPCG基准测试三道赛题展开比拼。

本届比赛e Prize计算挑战奖的指定赛题是AI语言大模型。ASC组委会提供了100GB高质量中文数据集,要求参赛队基于此数据集分别实现15亿、179亿参数的2个AI语言大模型。参赛队需要自行设计模型训练策略并完成模型训练过程,在追求极致性能的同时,还要满足精度约束等严苛条件,使得这道赛题极具挑战性。
南方科技大学代表队表示:“前期我们研究了很多大模型相关论文,学习如何进行并行优化、主流分布式训练框架等。但是拿到这个赛题时还是非常惊讶,因为179亿参数的模型真的很大,对显存、GPU等资源及并行计算优化的要求远远超出我们的预期,但这让我们意识到大模型真的很伟大!”

青海大学表示:“这个赛题非常契合ChatGPT等大模型的最新研究热点。针对这个赛题,我们进行了充分的准备,在算法如注意力机制等方面进行了充分的优化,所以还是挺有信心的。”

本届超级团队赛由24支队伍通过抽签组成4个超级团队,每个超级团队需包含一支线上参赛队伍,以跨团队合作的形式共同完成决赛首日公布的量子线路采样模拟的赛题。
随机量子线路的采样问题因为其巨大的经典模拟复杂度被认为是展示量子计算优越性的最佳候选者。2019年谷歌量子人工智能团队发表基于悬铃木量子芯片的随机量子线路采样实验,宣称其经典模拟时间需要花费超算一万年,而量子实验仅需200秒,因此展示了量子优越性。本届比赛的赛题是通过一个基于张量网络的算法来模拟53比特12循环的悬铃木量子线路,并计算谷歌实验中采样出来的1024个末态比特串样本的严格振幅以及这些样本的随机交叉上熵保真度。相较于传统的模拟算法,基于张量网络的量子线路模拟方法能够大大加速模拟的过程,将谷歌宣称的一万年模拟时间缩短到数十秒,达成超过10亿倍的性能提升。量子线路的高效经典模拟方法能够帮助人们对量子计算优越性有一个更为清晰的认知,与此同时也能助力量子硬件以及量子实验的设计、测试以及验证。
东道主中国科学技术大学团队展现出超强团队合作和分享精神:“我们在群里共享了优化代码,希望超级团队都能更好地完成这道赛题。”山西大学团队表示:“在群里我们会实时讨论遇到的各种问题,中国科学技术大学团队甚至愿意来我们的机器上调试代码。”台湾新竹清华大学团队表示:“与团队成员沟通了Code运行方式、算法优化及如何在不同的集群上运行Code等,对如何更好地完成这个赛题有很大帮助。”

在HPL计算基准性能测试中,浙江大学以每秒109万亿次浮点运算性能的佳绩名列榜首。他们设计搭建了“1机8卡”异构加速系统,在3000W总功耗约束下,将更多功耗分配给GPU进行应用运算,并结合精细的控制优化,实现整体系统109万亿次/秒的HPL持续浮点运算性能。浙江大学代表队表示:“我们在科研中偶然发现GPU chassis集群方案,大胆应用在这次竞赛,取得了很好的效果。”

在总决赛的线上赛道,台湾新竹清华大学以每秒19万亿次浮点运算性能领先。参与线上赛道的有4支队伍,均使用亚马逊云计算平台进行比赛。

ASC超算竞赛采用国际最通用的超级计算机浮点性能基准测试程序HPL,这也是全球超算TOP500排行的主要依据。ASC竞赛规则要求各参赛队伍自行设计超算系统,在总功耗3000W约束下正确完成包括HPL计算性能基准测试在内的各项计算任务。
ASC世界大学生超级计算机竞赛是由中国发起组织,并得到亚洲及欧美相关专家和机构支持,旨在通过大赛平台推动各国及地区间超算青年人才交流和培养,提升超算应用水平和研发能力,发挥超算的科技驱动力,促进科技与产业创新。ASC超算大赛迄今已举行至第10届,吸引超过万名世界各国大学生参赛,是全球最大规模的超算竞赛。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。