还有几天,一年一度的全球规模最大的超算盛会—ISC2019就将在德国法兰克福召开,会上将公布全球超算TOP500排行榜。近年来,中国超算取得了举世瞩目的进步,不仅有“天河二号”“神威·太湖之光”连续5年雄踞全球超算Top500榜首,还在2016~2017年连续两年摘得“戈登贝尔奖”。但在取得辉煌成绩的背后,我们也应清醒的意识到,中国距离真正意义上的超算强国还有相当长的一段路要走。
细究超算技术及产业化现状,我国在超算能耗、软件应用、人才等方面,有一系列待补齐的短板,如果不能克服这些挑战,在超算领域,都不能算作真正意义的强大。
我国超算系统曾因耗电量巨大陷入争议漩涡:一个十万亿亿次的超算中心能耗甚至相当于一个小型核电站;国内某超算中心的年耗电量约为2亿度,电费超过1亿元。
未来,随着数据量不断激增,计算力进一步提升到百亿亿次、千亿亿次超算,“功耗墙”更将是一道难以逾越的挑战,降低能耗成为HPC发展的趋势。
国外的专家曾经质疑过中国超算“仅仅为了跑分”、“用不起来”,此观点有失偏颇。
在国家相关政策支持下,我国先后重点支持了物理化学、天文、气候气象、生物医药、新能源、流体仿真、大飞机、石油勘探地震成像等领域的超级计算应用,推动并研制出一批知识产权的行业应用软件。近年来,受惠于“互联网+”政策和国内几家互联网大厂的资金人才优势,互联网、物联网、人工智能领域的超算应用也发展迅猛。
但整体而言,我国超算软件应用领域还是较窄,民用商业软件发展滞后,广泛的民生领域应用有待开发。超算应用“阳春白雪”问题仍然有待解决,超算的社会效益和社会贡献还没有充分发挥出来。
超算人才严重不足,成为我国超算发展路上一大掣肘。据HPC wire近期报道,“高性能研究计算机的专业性人才需求量很大,一些以大学为中心的研究所,职位空缺几个月甚至几年”,中国超算行业面临同样的窘境。
超算领域人才“既要懂计算机编程、又要熟悉应用领域”的天然高门槛,让年轻后备人才望而却步。我国超算应用软件的研发人员大部分分散在一些小的实验室、研究所,或者依附在以硬件研发为主的国家重点实验室,仅在核物理、石油、气象、地球物理等个别领域建有专门的国家重点实验室,但是未形成合力。学科人才和资源发展不均衡,导致研发方向和人才队伍发展受阻。
罗马不是一日建成的,中国超算产业短板的弥补,也不能期待一蹴而就。目前,国内有部分单位、企业,在缺乏宏观规划的情况下,盲目投入大量人力物力财力发展超算,不仅不能解决问题,还会造成超算资源浪费。
正如人的成长,不能缺少生理发展的每个阶段一样,技术的发展,也需要每一步都稳扎稳打,不能急功近利。发展超算,是场“持久战”,应戒骄戒躁,不能抱希望于走捷径。广大地方单位及企业应加大发展关键领域核心技术打造,加强自主创新和开放创新,以创新技术实现超算中心性能提升,节能降耗;在软件应用层面,应以应用需求为主线,结合产业和用户迫切需求进行技术研发布局,与用户协同开展研发,拓展应用领域,让超算实现“平民化”,惠泽于民;高校、企业联合培育超算人才,加大课程体系建设和社会实践机会,以满足行业长远需求。
“不积跬步无以至千里”,只有中国超算企业、研究机构、高校等单位脚踏实地、共同集中精力克服超算短板,逐步完善中国高性能计算生态环境,才能够推动中国超算可持续发展,使中国成为真正的科技强国。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。