HPE日前向英国三所大学捐赠了三台Apollo迷你超级计算机集群,以帮助英国建立Arm超级计算专业技术及推广旗下的Apollo设备。
三所大学分别为爱丁堡大学的爱丁堡并行计算中心(EPCC),布里斯托尔大学和莱斯特大学。此举是为期三年的Catalyst英国计划的一部分,安装将于2018年夏季完成。
三所大学的计算机集群大致相同,由HPE设计、构建和支持,集群含64个HPE Apollo 70系统,每个Apollo 70系统配有两个32核Cavium ThunderX2处理器及由16个带Mellanox InfiniBand互连DDR4 DIMM组成的128GB内存。
操作系统是个HPC SUSE Linux Enterprise Server。预计每个集群将占用两个电脑机架,共耗电约30KW。
即是说每个安装的内核为4096个,共12288个内核。
布里斯托尔大学HPC研究小组负责人Simon McIntosh-Smith教授表示,“布里斯托尔曾通过EPSRC资助的GW4 Isambard项目及欧洲FP7资助的Mont-Blanc 2项目积累了经验,我们有信心在生产环境中探索基于Arm的超级计算机用于实际工作负载的部署...... HPE Apollo 70 HPC系统将首次令我们能够将我们的经验应用到探索跨InfiniBand的扩展上,我们期望这些结果对于我们的工业和学术合作伙伴具有重要意义。“
爱丁堡大学EPCC主任Mark Parsons教授在一篇事先准备的文稿里补充表示,“EPCC非常高兴能够参与Catalyst英国计划......这是我们第一台基于ARM的大规模超级计算机。Arm处理器超级计算技术如要获得成功,我们就需要建立一个强大的软件生态系统,EPCC会将英国许多重要科学应用移植到我们的HPE Apollo 70系统中。”
莱斯特大学科学和技术设施委员会DiRAC高性能计算(HPC)设备中心主管Mark Wilkinson博士表示,Catalyst英国计划令我们中心可以探索Arm系统支持HPC工作流程的潜力,“包括模拟引力波和行星的形成、地球观测科学模型和基础粒子物理计算“。
他表示,中心的培训课程组合里配有基于ARM的集群有助于“确保工业界和学术界里下一代英国HPC专家拥有必要的技能,以利于HPC专家在解决最复杂的研究问题时能使用最合适和最具成本效益的硬件”。
HPE表示,Catalyst英国计划将与英国工业界合作,利用Arm系统功能共同开发应用程序和工作流程。计划将为研究人员提供培训,为他们提供知识和技能,以期他们将来能从事基于ARM系统的工作,计划的重点放在E级计算上,即每秒可执行百亿亿次计算的计算机。
上述这些可能离这些64节点Apollo集群还有一段距离,但却为英国研究人员和HPC工作人员提供一些掌握复杂机器技能和学习专业知识的途径。
例如,富士通公司的百亿亿次级计算机Post-K将使用ARMv8 及扩展、可扩展的定制CPU内核,用于支持FP16半精度数学运算(更多细节可参考https://www.nextplatform.com/2017/08/09/fujitsu-bets-deep-leaning- hpc-divergence/ ),节点数大于10,000,功耗接近30MW,不妨与Apollo集群的30KW功耗比较一下。
Parsons教授表示,一台英国百亿亿次级计算机在5年内可能消耗30MW,成本在4.5到5亿之间,需要200到300个机架。为了有个比较,他表示英国2017年贡献给CERN款项为1.32亿美元。英国能承担得起百亿亿次级系统吗? 他表示,“这会是英国在HPC方面学术投资的大幅加码。”
您能否在工业上和科学上论证钱值得花?Parsons教授表示,“是的,有必要。”
教授告诉记者,他认为至2025年左右英国可能会拥有一个百亿亿次级系统,数千万个甚至数亿个内核。该系统可以运行1亿到5亿个线程。他表示,“没人知道这样的系统能用在什么地方,”这也就是为什么学习是如此的重要。
Parsons教授认为,HPC在硬件和软件方面的创新严重不足,他表示百亿亿次级的创新有需要。 Arm处理器的使用将有助于刺激这方面的创新。
记者问到x86开发是否已经停滞。他表示,“任何大公司都需要挑战者。”
他认为英国目前在高性能计算支出方面并不具有竞争力:例如,德国的支出要大得多。日本、中国、美国和欧洲都在采取行动。Parsons告诉记者,“我认为英国应该拥有一两个百亿亿次级系统,否则我们将被抛在后面。”
老板是软银的Arm基础设施/ HPC工具高级总监David Lecomber表示,“我认为百亿亿次级系统物有所值,值得我们花钱。”
不过,如果买得起系统,要运行它还得先学习, Catalyst英国计划和三所大学要做的就是学习。
好文章,需要你的鼓励
这项研究提出了HoPE(混合位置编码),一种针对视觉语言模型的新型位置编码技术,专门解决长视频理解的挑战。传统位置编码技术在处理长视频时表现不佳,HoPE通过两个创新解决了这一问题:混合频率分配策略(为空间信息分配高频,时间维度使用零频率)和动态时间缩放机制(根据视频速度灵活调整时间编码)。实验证明,HoPE在长视频理解和检索任务上分别提升了8.35%和22.23%,为AI更准确理解长视频内容开辟了新途径。
东京大学研究团队推出MangaVQA基准和MangaLMM模型,专门用于评估和提升AI对日本漫画的理解能力。MangaVQA由526个高质量手动创建的问答对组成,用于评估AI系统对漫画内容的深入理解;MangaOCR则专注于漫画页内文本识别。基于这两个基准,研究团队从开源多模态模型Qwen2.5-VL微调出MangaLMM,能同时处理文本识别和内容理解任务。实验显示,即使是GPT-4o等顶尖商业模型在处理漫画的独特复杂性时也面临挑战,而专门训练的MangaLMM表现出色。
这项研究由ISTA和谷歌研究院联合开发的"影响力蒸馏"方法,通过利用二阶信息为训练样本分配最优权重,实现了大语言模型训练数据的高效选择。该方法在数学上有坚实理论支持,并创新性地引入"地标"近似技术,仅需计算少量样本的精确影响力,再高效传播到其他样本,大幅降低计算成本。实验证明,该方法在多种模型和任务上均优于或匹配现有技术,同时实现了高达3.5倍的速度提升,为大模型训练开辟了更高效的路径。
来自哈佛大学等顶尖学府的研究团队在这篇论文中挑战了传统观念,认为Token压缩不仅仅是提高AI模型运行效率的工具,更应成为生成式AI模型设计的核心原则。研究表明,精心设计的Token压缩策略可以促进多模态深度整合、减轻AI"幻觉"问题、增强处理长序列输入的能力,并提高训练稳定性。论文详细分析了现有方法的局限性,并提出了算法创新、强化学习指导和硬件协同设计等未来研究方向。