7月18日,由中国智能计算产业联盟与全国信标委算力标准工作组共同主办的2024中国算力发展专家研讨会在京召开。院士专家们齐聚一堂,共同探索超智融合技术的发展路径。
本次研讨会以“超智融合技术路线下的趋势与发展”为主题,中国科学院院士陈润生,中国科学院院士钱德沛,中国工程院院士郑纬民,北京应用物理与计算数学研究所研究员袁国兴,国家信息中心信息化和产业发展部主任单志广,中国科学院计算技术研究所研究员张云泉,中国科学院计算技术研究所研究员谭光明,中国信通院云计算与大数据研究所所长何宝宏,中国科学院计算机网络信息中心研究员陆忠华,中国科学院大学教授、博士生导师徐俊刚,广东智能研究院副院长钱诚等专家、学者应邀参会。
“人工智能大模型是新质生产力的代表,大模型和超级计算的融合发展十分重要,我国需要认真地去布局、去考虑。”陈润生院士表示。
超智融合成为先进计算发展趋势
“大模型的迅猛发展彰显出新质生产力的特质,但目前也遇到了算力瓶颈。鉴于中国在超算领域拥有深厚技术积累,希望超智融合能有效化解这一挑战。”张云泉介绍研讨背景时说道。
在当今数字化、智能化的时代浪潮中,算力已成为推动经济社会发展的核心驱动力。千行百业的计算场景纷繁复杂,单一计算架构无法应对。“现在的应用越来越复杂,不同应用需要不同的算法,对计算机也有不同的要求。”袁国兴指出。
而超智融合兼具超算的强大处理能力与智算的算法优化能力,可满足计算应用多元的算力需求,因此融合发展已是大势所趋。
实际上,超智融合技术也成为近年来全球计算领域热点话题。今年5月的国际超算大会上,在“重塑超算(Reinventing HPC)”这一主题下,超智融合相关方案已遍地开花,众多高性能计算(HPC)系统以异构架构设计思路集成了CPU、GPU以及NPU。
对此,钱德沛院士认为,“超智融合实践过程中,一方面是用AI的方法来求解传统超算问题,另一方面AI也在影响传统计算机的结构,包括在做的算网融合,将来也应该是在AI赋能前提下发展的。”
在我国,超智融合技术已被应用于超算互联网的建设中。通过链接全国超算、智算中心,智能调度各类算力资源,并深度整合计算资源、软件资源、应用解决方案资源,构建起一体化算力服务平台,为社会提供高效、便捷的算力服务。
国家超算互联网4月正式上线以来,已有超过200家应用、数据、模型等服务商入驻国家超算互联网,并提供超过3200款商品。这些商品覆盖科学计算、工业仿真、AI模型训练等领域,可满足全社会对先进计算服务的需求。
超智融合的挑战与应对
超智融合虽展现出美好的发展前景,但当下仍面临一些挑战。
首先,要实现超算与智算深层次的有机融合,基础理论还有待突破。“大模型与智算的发展,不只是应用层面的模型和算法上改进,还需要从基础理论角度去有所突破。”陈润生院士认为,“一味的堆芯片并不可取,根本上还要向人脑学习,以更低能耗实现更高性能。”
“超智融合也需完整的AI软件栈支撑,要从形成大模型的基本理论开始。”钱德沛院士同样认为。
其次,在技术路径上,需要从底层技术与体系结构,完成软硬协同创新。“超算和智算差别极大,两者本质是不同的系统。”陈润生剖析道,“超算依靠时间复杂度,跑完程序结果就出来了;而智算依靠的是空间复杂度,需要先把所有的知识训练好。”
“传统超算和智算的训练,对底层基础设施要求并不一样,也需要判断在什么场景下应实现兼容统一,又在哪些场景下需凸显其独特性。”何宝宏补充道。
“目前大模型训练中,虽然一些国家超算中心已经能够提供支撑,但还应该重点围绕国产算力芯片发展十大关键软件,进一步实现软硬件协同优化。”郑纬民院士认为。
“未来一体化算力体系的构建要避免‘以偏概全’或‘以全概偏’,做好算力资源和业务应用的统筹衔接,避免无应用需求、无服务质量保证、无调度体系的算力互联及脱离实际应用需求的算力设施布局。”单志广表示。
专家们认为,未来在技术路线通用性和专用性的选择上,更倾向于保持一定的通用性。尤其在技术和方法论仍在持续发展的背景下,应保持芯片、系统与软件的普适性,为研究提供广阔空间,深化底层理论与方法的探索。
“超智融合的进程将沿着超算支撑AI应用(for AI),用AI技术改进超算(by AI),超智实现内生融合(being AI)三个阶段清晰演进。在最终的being AI阶段,计算机系统将呈现内在的智能特性,人工智能不再是一种外加的能力,而成为计算机的核心属性和基本组成,可能计算的能力或者智能化的水平,会远远超过我们今天的超算或智算。”对于未来计算技术发展,钱德沛院士勾勒出美好蓝图。
会上,举办了主权级大模型创新联合体成立仪式,并启动了《2024中国算力发展研究报告之超智融合技术路线与趋势》编撰工作。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。