5月10日,第十届ASC世界大学生超级计算机竞赛总决赛在中国科学技术大学落下帷幕。北京大学、中国科学技术大学分获冠亚军,中国科学技术大学获e Prize计算挑战奖,浙江大学获最高计算性能奖,其他多队也取得佳绩。
正式决赛的首日,24支队伍向AI语言大模型、超级团队赛和HPL&HPCG基准测试三道赛题展开比拼。
本届比赛e Prize计算挑战奖的指定赛题是AI语言大模型。ASC组委会提供了100GB高质量中文数据集,要求参赛队基于此数据集分别实现15亿、179亿参数的2个AI语言大模型。参赛队需要自行设计模型训练策略并完成模型训练过程,在追求极致性能的同时,还要满足精度约束等严苛条件,使得这道赛题极具挑战性。
南方科技大学代表队表示:“前期我们研究了很多大模型相关论文,学习如何进行并行优化、主流分布式训练框架等。但是拿到这个赛题时还是非常惊讶,因为179亿参数的模型真的很大,对显存、GPU等资源及并行计算优化的要求远远超出我们的预期,但这让我们意识到大模型真的很伟大!”
青海大学表示:“这个赛题非常契合ChatGPT等大模型的最新研究热点。针对这个赛题,我们进行了充分的准备,在算法如注意力机制等方面进行了充分的优化,所以还是挺有信心的。”
本届超级团队赛由24支队伍通过抽签组成4个超级团队,每个超级团队需包含一支线上参赛队伍,以跨团队合作的形式共同完成决赛首日公布的量子线路采样模拟的赛题。
随机量子线路的采样问题因为其巨大的经典模拟复杂度被认为是展示量子计算优越性的最佳候选者。2019年谷歌量子人工智能团队发表基于悬铃木量子芯片的随机量子线路采样实验,宣称其经典模拟时间需要花费超算一万年,而量子实验仅需200秒,因此展示了量子优越性。本届比赛的赛题是通过一个基于张量网络的算法来模拟53比特12循环的悬铃木量子线路,并计算谷歌实验中采样出来的1024个末态比特串样本的严格振幅以及这些样本的随机交叉上熵保真度。相较于传统的模拟算法,基于张量网络的量子线路模拟方法能够大大加速模拟的过程,将谷歌宣称的一万年模拟时间缩短到数十秒,达成超过10亿倍的性能提升。量子线路的高效经典模拟方法能够帮助人们对量子计算优越性有一个更为清晰的认知,与此同时也能助力量子硬件以及量子实验的设计、测试以及验证。
东道主中国科学技术大学团队展现出超强团队合作和分享精神:“我们在群里共享了优化代码,希望超级团队都能更好地完成这道赛题。”山西大学团队表示:“在群里我们会实时讨论遇到的各种问题,中国科学技术大学团队甚至愿意来我们的机器上调试代码。”台湾新竹清华大学团队表示:“与团队成员沟通了Code运行方式、算法优化及如何在不同的集群上运行Code等,对如何更好地完成这个赛题有很大帮助。”
在HPL计算基准性能测试中,浙江大学以每秒109万亿次浮点运算性能的佳绩名列榜首。他们设计搭建了“1机8卡”异构加速系统,在3000W总功耗约束下,将更多功耗分配给GPU进行应用运算,并结合精细的控制优化,实现整体系统109万亿次/秒的HPL持续浮点运算性能。浙江大学代表队表示:“我们在科研中偶然发现GPU chassis集群方案,大胆应用在这次竞赛,取得了很好的效果。”
在总决赛的线上赛道,台湾新竹清华大学以每秒19万亿次浮点运算性能领先。参与线上赛道的有4支队伍,均使用亚马逊云计算平台进行比赛。
ASC超算竞赛采用国际最通用的超级计算机浮点性能基准测试程序HPL,这也是全球超算TOP500排行的主要依据。ASC竞赛规则要求各参赛队伍自行设计超算系统,在总功耗3000W约束下正确完成包括HPL计算性能基准测试在内的各项计算任务。
ASC世界大学生超级计算机竞赛是由中国发起组织,并得到亚洲及欧美相关专家和机构支持,旨在通过大赛平台推动各国及地区间超算青年人才交流和培养,提升超算应用水平和研发能力,发挥超算的科技驱动力,促进科技与产业创新。ASC超算大赛迄今已举行至第10届,吸引超过万名世界各国大学生参赛,是全球最大规模的超算竞赛。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。