
开幕式与致辞:聚焦核心方向,共话发展挑战
开幕式上,主持人Sheng Di研究员与陶鼎文研究员介绍,本次会议聚焦算法、应用系统、系统软件与中间件、软硬件协同架构设计四大核心方向,涵盖高性能与可扩展计算关键领域。同时,会议设置了算法与计算模型、系统与体系结构设计等五大热点研究主题,并安排两场重要圆桌讨论,分别探讨“未来百亿亿次计算的发展方向”及“HPC与AI结合推动科学研究”。

Jack Dongarra教授通过视频致辞指出,在计算架构异构化、AI/ML工作负载兴起的背景下,CoDesign研讨会对推动软硬件协同设计意义重大,强调本届会议聚焦的异构系统架构等方向中“集成”的重要性。

钱德沛院士则强调人工智能已成为高性能计算发展的核心力量,模型规模增长带来算力需求指数式上升,同时能源消耗成算力发展瓶颈,建议通过推动异构架构、加强国际合作等应对挑战。
主题报告与技术分享:前沿成果频出,探索突破路径
会议期间,多位专家学者带来精彩的主题报告与技术分享。

卢宇彤教授围绕“高效能计算的协同设计与碎片化挑战”指出,系统碎片化影响算力协同与开发效率,软硬件及运行环境的协同设计是关键,还展望了高性能计算发展的十大趋势。

Shuaiwen Leon Song教授介绍了Together AI的“AI加速云”平台,其自研的推理引擎和优化策略表现优异,体现出构建全球级AI计算基础设施的野心。

Thomas C. Schulthess教授展示了瑞士CSCS建设的云原生超算平台ALPS,该平台支持弹性资源调度,秉持“科学即服务”理念,将支撑多个大型科研项目。

Xian-He Sun教授聚焦“内存墙”问题,提出相关理论和模型,介绍的Hermes系统通过优化数据流动方式突破性能瓶颈,强调未来计算系统应“以数据为中心”。
此外,众多专家学者还就大模型训练优化、超级计算机架构、调度算法、内存问题解决、数据压缩工具应用等方面分享了前沿技术成果与研究进展。
圆桌讨论:深入剖析热点,凝聚发展共识

在“未来百亿亿次计算的发展方向”及“HPC与AI结合推动科学研究”两场圆桌讨论中,专家们各抒己见。
关于HPC与AI结合,卢宇彤教授认为现阶段应坚持通用架构;Thomas Schulthess教授等认为更高集成度的CPU–GPU耦合架构是未来方向;对于AI辅助科学编程,专家们存在不同看法;同时指出Transformer并非AI for Science通用架构解法。
在未来百亿亿次计算方向,专家们探讨了Zeta Scale的定义、实现的必要性,以及系统可靠性等问题,认为Zeta Scale的追求是系统工程命题,系统功耗、系统可靠性是规模扩展的核心障碍。
本次CoDesign 2025国际研讨会为全球高性能计算领域的专家学者搭建了高效的交流平台,分享的前沿成果与达成的共识,将有力推动全球高性能计算与AI融合的发展,为应对未来计算领域的挑战与机遇提供重要指引。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。