HPE日前向英国三所大学捐赠了三台Apollo迷你超级计算机集群,以帮助英国建立Arm超级计算专业技术及推广旗下的Apollo设备。
三所大学分别为爱丁堡大学的爱丁堡并行计算中心(EPCC),布里斯托尔大学和莱斯特大学。此举是为期三年的Catalyst英国计划的一部分,安装将于2018年夏季完成。
三所大学的计算机集群大致相同,由HPE设计、构建和支持,集群含64个HPE Apollo 70系统,每个Apollo 70系统配有两个32核Cavium ThunderX2处理器及由16个带Mellanox InfiniBand互连DDR4 DIMM组成的128GB内存。
操作系统是个HPC SUSE Linux Enterprise Server。预计每个集群将占用两个电脑机架,共耗电约30KW。
即是说每个安装的内核为4096个,共12288个内核。
布里斯托尔大学HPC研究小组负责人Simon McIntosh-Smith教授表示,“布里斯托尔曾通过EPSRC资助的GW4 Isambard项目及欧洲FP7资助的Mont-Blanc 2项目积累了经验,我们有信心在生产环境中探索基于Arm的超级计算机用于实际工作负载的部署...... HPE Apollo 70 HPC系统将首次令我们能够将我们的经验应用到探索跨InfiniBand的扩展上,我们期望这些结果对于我们的工业和学术合作伙伴具有重要意义。“
爱丁堡大学EPCC主任Mark Parsons教授在一篇事先准备的文稿里补充表示,“EPCC非常高兴能够参与Catalyst英国计划......这是我们第一台基于ARM的大规模超级计算机。Arm处理器超级计算技术如要获得成功,我们就需要建立一个强大的软件生态系统,EPCC会将英国许多重要科学应用移植到我们的HPE Apollo 70系统中。”
莱斯特大学科学和技术设施委员会DiRAC高性能计算(HPC)设备中心主管Mark Wilkinson博士表示,Catalyst英国计划令我们中心可以探索Arm系统支持HPC工作流程的潜力,“包括模拟引力波和行星的形成、地球观测科学模型和基础粒子物理计算“。
他表示,中心的培训课程组合里配有基于ARM的集群有助于“确保工业界和学术界里下一代英国HPC专家拥有必要的技能,以利于HPC专家在解决最复杂的研究问题时能使用最合适和最具成本效益的硬件”。
HPE表示,Catalyst英国计划将与英国工业界合作,利用Arm系统功能共同开发应用程序和工作流程。计划将为研究人员提供培训,为他们提供知识和技能,以期他们将来能从事基于ARM系统的工作,计划的重点放在E级计算上,即每秒可执行百亿亿次计算的计算机。
上述这些可能离这些64节点Apollo集群还有一段距离,但却为英国研究人员和HPC工作人员提供一些掌握复杂机器技能和学习专业知识的途径。
例如,富士通公司的百亿亿次级计算机Post-K将使用ARMv8 及扩展、可扩展的定制CPU内核,用于支持FP16半精度数学运算(更多细节可参考https://www.nextplatform.com/2017/08/09/fujitsu-bets-deep-leaning- hpc-divergence/ ),节点数大于10,000,功耗接近30MW,不妨与Apollo集群的30KW功耗比较一下。
Parsons教授表示,一台英国百亿亿次级计算机在5年内可能消耗30MW,成本在4.5到5亿之间,需要200到300个机架。为了有个比较,他表示英国2017年贡献给CERN款项为1.32亿美元。英国能承担得起百亿亿次级系统吗? 他表示,“这会是英国在HPC方面学术投资的大幅加码。”
您能否在工业上和科学上论证钱值得花?Parsons教授表示,“是的,有必要。”
教授告诉记者,他认为至2025年左右英国可能会拥有一个百亿亿次级系统,数千万个甚至数亿个内核。该系统可以运行1亿到5亿个线程。他表示,“没人知道这样的系统能用在什么地方,”这也就是为什么学习是如此的重要。
Parsons教授认为,HPC在硬件和软件方面的创新严重不足,他表示百亿亿次级的创新有需要。 Arm处理器的使用将有助于刺激这方面的创新。
记者问到x86开发是否已经停滞。他表示,“任何大公司都需要挑战者。”
他认为英国目前在高性能计算支出方面并不具有竞争力:例如,德国的支出要大得多。日本、中国、美国和欧洲都在采取行动。Parsons告诉记者,“我认为英国应该拥有一两个百亿亿次级系统,否则我们将被抛在后面。”
老板是软银的Arm基础设施/ HPC工具高级总监David Lecomber表示,“我认为百亿亿次级系统物有所值,值得我们花钱。”
不过,如果买得起系统,要运行它还得先学习, Catalyst英国计划和三所大学要做的就是学习。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。