扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在地质勘探、珍贵矿物采集以及地质变化研究领域,对于科学技术器材配备以及高性能计算环境的要求高。这项科学研究需要非常严谨,要求百密而无一疏。中国地质大学每年都要为全国各个有关行业输送大量人才,为国家地质建设发展作出巨大贡献。而就在这背后,中国地质大学武汉分院近日再度发力,成功的搭建了云计算平台,这也为其更好的培养人才增加了砝码。下面我们就来看看中国地质大学(武汉)云计算平台搭建始末。
首先将平台以后资源进行整合是建立云计算平台的基础工作!曙光公司在中国地质大学拥有大量高性能计算集群平台,包括材化学院、物理与数学学院、环境学院、地空学院。部署系统4套,应用领域涵盖了数学物理、环境、石油、材料化学等多个学科。曙光公司拥有得天独厚的优势,可以根据用户的要求整合整个校园地区分散的超级计算资源,构建本地区的综合计算平台,不存在任何兼容性问题和技术障碍。这一要求得以满足,校方可以放心大胆的开展后续工作。
为中国地质大学武汉分院搭建云计算平台的是我国高性能计算领导厂商曙光,曙光与高校合作已经不是第一次了,下面让我们首先谈谈曙光给出的硬件解决方案,曙光为中国地质大学(武汉)云计算平台提供的天潮5000A高性能计算集群硬件系统包括计算子系统、存储子系统、网络子系统、管理诊断子系统以及基础架构子系统五个部分,系统整体架构如下图所示:
图为曙光“云计算”解决方案拓扑结构图
中国地质大学(武汉)云计算平台是由曙光5000A在基础架构上进行了创新和改进,采用HPP(Hyper Parallel Processing)体系架构,融合了Cluster和MPP两种计算机的优势;曙光5000A的计算节点以TC2600系列刀片产品为主,也可以配置曙光其他服务器产品。既可以使用全限速无阻塞的Infiniband 网络构建通讯网络,也可以使用冗余万兆级联的分区无阻塞Ethernet互联网络;配置存储系统,既可以配置简单易用的DAS存储,又可以构建高性能的FC或Infiniband SAN存储,提供较高的聚合I/O带宽等。
计算子系统高性能计算节点部分共包括92个曙光CB65-F刀片服务器,共提供了736个2.6GHz处理器核心和1.5TB内存,另外还提供了两台胖计算节点,具备超强的计算能力,理论峰值运算速度高达8.87Tflops(每秒8.87万亿次浮点运算)。
曙光提供的存储子系统硬件部分是基于目前业界领先的高速Infiniband互联之上的全局共享并行IO架构,包括4个数据服务器、1个元数据服务器、一套12T的一级实时存储和一套二级备份存储,软件部分基于成熟的Lustre并行文件系统,数据块分散存储于4个存储管理节点,降低数据丢失风险。和曙光集群管理软件结合,对文件系统部署、文件系
统管理、文件系统快速恢复提供良好支持。(下图为存储结构示意图)
图为中国地质大学(武汉)高性能计算平台存储结构示意图
由于地质学的特殊性,曙光为其云计算平台设计了三套互联网络!基于Infiniband的高速通信网络和基于千兆管理维护网络和千兆作业调度网络,IB网络和千兆以太网专网专用并互为备份。
管理诊断子系统和高集成度硬件控制单元也是此套方案亮点之一,新一代曙光5000A超级计算机系统具备业界最为完善的管理、诊断系统设计。全新管理平台包括内嵌于服务器节点的高集成度服务器硬件控制单元以及功能全面的管理软件系统Gridview HPC 2.0
服务器硬件控制单元集成了IPMI2.0、KVM over IP、虚拟媒体、散热控制以及电源管理等功能,能够对服务器节点实现硬件级别的全面资源管理。服务器硬件控制单元完全独立于操作系统,通过RJ45端口接入千兆管理网络,配合Gridview管理软件实现对全部硬件资源的统一监控和管理。
大规模视频切换系统基于SKVM over IP技术,支持本地视频维护以及基于网络的远程诊断,并具备极强的扩展能力,是目前业界作为领先的视频管理解决方案。
图为GRIDVIEW管理界面
除了安全性能,在散热设计上为了满足中国地质大学(武汉)超高密的系统散热要求,服务器内部设计了多处专用散热通道,每个通道保障不同部件的散热。通过独立散热通道,对部分发热量的部件形成隔离空间,强制形成前后空气对流,避免对周围部件的散热影响。整个系统风扇采用冗余结构设计、能快速识别并能快速更换损坏风扇,有效保障系统的稳定性和系统良好运行环境。
中国地质大学(武汉)学院采用92台刀片式服务器CB65-F作为计算节点,峰值性能达到8.87Tflops。
CB65-F是曙光公司最新研发的新一代刀片式服务器产品,并专为HPC进行优化设计,单节点linpack效率超过80%。其在国内拥有大量部署,如下图所示为CB65-F的系统结构图,两颗处理器通过AMD Hypertransport总线直接实现互联,互联带宽高达8GB/s。每个处理器通过集成的内存控制器访问四通道内存系统。南桥芯片基于高性能的HT2100,实现2个高速PCIEx8和2个千兆以太网扩展。
除上述硬件外,中国地质大学武汉学院选用曙光8-way 64位服务器A950系统作为胖计算节点。共采用2台曙光8-way A950服务器、16颗AMD 64位2.5GHz shanghai CPU构建胖计算节点,提供640G flops的主频峰值计算能力。曙光A950的优势在于CPU以及内存的扩展能力,系统支持最多达32个CPU的并行编程,并行支持所有的编程模式(共享变量和消息传递),具有极高的编程可移植性。同时系统64位和32位的全方位的支持使得其再开发和使用高性能计算机软件更加容易,可移植性更强。8P系统中采用交叉互联架构实现相距最远的两颗处理器之间最大hops数由直连架构4跳减为3跳,由此大大降低了CPU访存时延:
图为A950八路64位服务器系统总体结构图
中国地质大学为了测试运行环境,对运行大型机的机房环境及设备运行环境进行实时监测:
中国地质大学(武汉)分院表示:学院云计算平台的建立,对我国地质勘探等研究领域的贡献不可估量。感谢曙光高性能计算在地质研究领域多年来积累的丰富经验,正是出色的技术实力和行业经验的结合,帮助了中国地质大学(武汉)云计算平台的搭建与实际应用的需求。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者