2024 ASC世界大学生超级计算机竞赛(ASC24)总决赛于4月9日-13日在上海大学成功举行。作为ASC专家委员会主席,图灵奖得主、田纳西大学杰出教授杰克·唐加拉(Jack Dongarra),不远万里专程前来参加ASC24总决赛,并与参赛的同学们进行面对面的亲切交流,为ASC超算大赛的科技新青年们带来了新的启迪与鼓舞。
Jack Dongarra与参赛队员在比赛现场合影
在ASC24决赛现场,Jack Dongarra认真观摩了每一个参赛队伍的工作,并和参赛队员进行深入交流,询问他们有没有遇到什么问题,使用了什么样的集群策略,针对3000瓦的规则要求是如何控制功耗的……Jack Dongarra不仅希望了解参赛队伍在技术和策略上的创新,还鼓励学生们多多分享经验和学习心得。
面向参赛的青年队员们,Jack Dongarra分享了关于成长与发展的四点建议:“第一点是必须热爱你的事业,并追随这份热爱去工作;第二点是学会预期失败,失败是过程中的一部分,不会总是成功的,要从失败中汲取教训;第三点是应该尝试解决具有挑战性的问题,不要满足于解决简单问题,去解决那些真正能够测试和提升能力的问题;第四点是围绕你的想法和工作积极与他人建立连接,与他人交流分享你的想法,获取反馈的同时给予他人反馈,与他人共同成长。”这些建议不仅为学生们提供了面对学术挑战的策略,也为他们的个人成长和职业发展指明了方向,鼓励他们在追求卓越的旅途中不断前行。
在同期举办的第33届国际超算高峰论坛(HPC Connection Workshop)中,Jack Dongarra围绕“An Overview of High Performance Computing and Future Requirements”做了精彩分享,Dongarra讨论了基准测试的重要性和局限性,以及人工智能和机器学习在高性能计算中的应用和影响。演讲指出了HPC硬件的持续变革,以及算法和软件必须适应硬件进步的必要性,展望了高性能计算、深度学习和边缘计算等领域的未来发展潜力。
Jack Dongarra 国际超算高峰论坛报告分享
作为ASC24评委,Jack Dongarra认真聆听了参赛队伍的评审答辩,并就其优化方案及效果进行了深入交流。他非常注重评估队伍的技术创新、性能优化、团队协作能力、问题解决思路以及答辩技巧,他的专业反馈对于参赛队伍来说极为宝贵。
在ASC24闭幕式暨颁奖典礼上,Jack Dongarra对参赛学生在3000瓦功耗限制下设计、构建、调整和优化HPC系统,并进行基准测试和科学应用探索提出了表扬。“看到你们如此努力地解决问题,花费数小时让应用程序不仅能够运行起来,还能够高效地运行,这是非常振奋人心的。”Jack Dongarra如是说。他强调了计算科学作为数学、计算机科学和领域科学融合的重要性,并认为这次竞赛是一次宝贵的学习经历,希望参赛者能够更好地理解协作的重要性,期待看到他们成为下一代计算科学家。
Jack Dongarra ASC24闭幕式致辞
Jack Dongarra认为ASC竞赛已经形成了独特的文化,谈及参加ASC超算竞赛的感受, Dongarra提到:“我多次来到ASC,每次来这里都很愉快。ASC是一个让年轻研究人员聚在一起,非常激烈地一起解决问题的活动。每次看到同学们对ASC的兴奋程度以及最后的成功,都很有趣。当然,在这个过程中会遇到失败,我很期待听到同学们是如何克服这些问题的。看到这些年轻的研究人员从事并克服这些挑战总是很有吸引力。”
作为ASC超算竞赛的专家委员会主席,杰克·唐加拉教授不仅是竞赛的坚定支持者,而且积极投身于与青年学生的互动交流,希望通过自己的分享,鼓舞充满活力的超算新人。相信杰克·唐加拉教授的指导和鼓励将持续激励超算年青一代在未来的学习和研究中不断探索与创新,从而为超算技术的进步和科技产业的繁荣贡献自己的力量。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。