5月10日, 第十届世界大学生超级计算机竞赛总决赛在中国科学技术大学落下帷幕。在持续五天的总决赛中,北京大学夺取大赛总冠军,中国科学技术大学名列亚军。中国科学技术大学获得e Prize计算挑战奖,浙江大学获得最高计算性能奖,其他高校也取得不俗佳绩。
正式决赛的第二天,24支队伍展开激烈角逐。向机器学习分子动力学应用DeePMD、气候水文模式应用WRF-Hydro以及决赛现场公布的神秘赛题海洋数值模式FVCOM三道赛题发起最后的冲击。

DeePMD赛题要求参赛队伍学习使用人工智能+科学研究的方法,进行机器学习分子动力学的前沿探索。参赛选手需要对DeePMD的模型构建过程有深入认识,并使用高性能的手段优化训练过程。这道赛题将考验参赛大学生对大规模高性能硬件的调度优化能力,并引导他们对AI+Science+HPC新范式建立直观认识。
WRF-Hydro气候水文耦合模式在水文气象领域有非常广泛的应用,如洪水预测、区域水文气候影响评估、水资源季节性预测以及陆-气耦合研究等。本次大赛WRF-Hydro赛题有离线、耦合两种运行方式,既包含区域洪水预测,又包含水文气候、陆-气耦合模拟,将综合考验参赛队对水文模式的算法理解和优化能力。
神秘应用为海洋数值模型FVCOM,是基于无结构网格、有限体积法、三维原始方程的海洋模型,能很好地实现近岸水环境模拟。这道赛题要求参赛者深入了解海洋数值模式,针对经典的内外模算法问题进行优化,重点考察参赛队对数值模型计算过程的理解和优化能力。
AI语言大模型是本届比赛e Prize计算挑战奖的指定赛题。比赛过程中,中国科学技术大学队引入了多种业界前沿的大模型并行策略、计算加速算法和显存优化机制,均衡考虑训练速度及loss收敛性,获得了最高分。中国科学技术大学队队员吴天铭表示:“这道赛题是在ChatGPT火起来之前就出来了,我们为此做了很多功课。不久后ChatGPT爆火,我们就已提前理解了它是怎么运作的,所以觉得ChatGPT‘神奇也不神奇’。”
本届比赛的超级团队赛题是随机量子线路采样模拟。由南方科技大学、哈尔滨工业大学(深圳)、兰州大学、上海交通大学、齐鲁工业大学、香港中文大学等组成的超级团队中有多个高校队跑出佳绩,总分领先其他各组位列第一。哈尔滨工业大学(深圳)队表示:“超级团队赛是取各队的平均分作为成绩,我们认为每个队伍都应该发挥专长、互相帮助。在齐鲁工业大学和兰州大学的帮助下,我们改变了优化思路,取得了较好的效果,并且将优化后的代码共享给了兄弟队伍。”

兰州大学、哈尔滨工业大学(深圳)、上海交通大学、齐鲁工业大学、南方科技大学、香港中文大学联队
谈到超级团队赛的参赛体会,南方科技大学队表示:“我们队平台性能高且稳定,所以主要承担跑分的任务,最终取得了满分,这是我们这个超级团队共同努力的结果。超级团队赛非常有意思,让队伍之间加强了交流,我们在群里不仅讨论超级团队赛题,也会讨论其他的赛题。”

另外,在昨日进行的HPCG基准测试的成绩中,中山大学以2147.03Gflops排名第一。

在线上总决赛中,香港中文大学取得AI大模型赛题第一,并以618.924Gflops的成绩获得HPCG基准测试的最佳成绩。


ASC 世界大学生超级计算机竞赛是由中国发起组织,并得到亚洲及欧美相关专家和机构支持,旨在通过大赛平台推动各国及地区间超算青年人才交流和培养,提升超算应用水平和研发能力,发挥超算的科技驱动力,促进科技与产业创新。ASC超算大赛迄今已举行至第10届,吸引超过万名世界各国大学生参赛,是全球最大规模的超算竞赛。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。