扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
客户简介
国内某高校为了提高科研质量,保证学校科研工作的顺利完成,该校希望能够构建一个学校的“内部云”,把校内的各个学院所需要的科研系统统一部署在这个“内部云”系统之上,完成统一的部署和管理。
为了解决不同学科对高性能计算的实际需求问题,这套高性能计算系统将用于满足包括石油地震处理、材料化学、水文应用、GIS系统等不同的数值科学模拟方面计算需求。因此,这套系统对于计算性能的要求极高,对于稳定性要求极强,存储量要求极大,可管理性要求极为成熟。在国内著名的高性能计算解决方案提供商——曙光公司以及中科院计算所的协助下,建立完成了用于构建自身“云计算”的高性能计算基础平台。
解决方案
根据用户的需求,曙光公司和中科院计算所涉及了一套完善的高性能计算解决方案。这套方案采用的高性能计算机系统基于通用的集群架构,通过高速网络将上百个节点的计算能力汇聚到一起,可以支持大规模并行计算任务。
集群是当前主流的高性能计算机体系结构之一,技术成熟、性价比高,曙光公司多年来一直致力于研发基于集群架构的通用高性能计算机系统,是国内最大的集群高性能计算机产品和解决方案供应商,市场份额达到30%左右。
根据用户需求,这套方案在选择曙光天潮5000A系列超级计算机构建高性能计算集群系统的基础上进行了改进。它融合了Cluster和MPP两种计算机的优势;曙光5000A的计算节点以TC2600系列刀片产品为主,也可以配置曙光其他服务器产品。既可以使用全限速无阻塞的Infiniband 网络构建通讯网络,也可以使用冗余万兆级联的分区无阻塞Ethernet互联网络;配置存储系统,既可以配置简单易用的DAS存储,又可以构建高性能的FC或Infiniband SAN存储,提供较高的聚合I/O带宽等。
曙光天潮5000A系列超级计算机曾在2008年12月发布的TOP500排行榜中进入前10名,本方案就是采用与之一致的系统架构。曙光TC5000A面向10-200Tflops级别超大规模高性能计算需求,具有可自由伸缩、高度可管理、高可用、高性能价格比等诸多优点,是曙光公司超级服务器的又一顶峰之作。曙光TC5000A高性能计算机解决了大规模集群部署、高效能计算、跨平台管理、跨操作系统管理、系统软硬件运行状态监控等混合平台应用等一系列技术难题,整体技术在国内具有领先水平,达到国际同期同类产品的先进水平。
曙光公司为用户提供的天潮5000A高性能计算集群硬件系统包括计算子系统、存储子系统、网络子系统、管理诊断子系统以及基础架构子系统五个部分,系统整体架构如图1所示:
解决方案拓扑结构
二方案内部拓扑则如图2所示
方案内部结构示意
优异的计算性能
为满足用户对于计算性能方面的需要,此次方案中的计算子系统高性能计算节点部分共包括92个曙光CB65-F刀片服务器,该服务器为双路设计,采用了AMD“上海”处理器的升级版——六核伊斯坦布尔处理器,共提供了736个2.6GHz处理器核心和1.5TB内存。
“伊斯坦布尔”处理器产品与现有的AMD皓龙4核处理器接口兼容,并在功耗设计相同的情况下,性能提升高达30%。6核心皓龙处理器“伊斯坦布尔”采用了45纳米制造工艺,具备6MB三级缓存,并集成有双通道DDR2内存控制器、兼容Socket F接口,功耗大约只有40瓦。AMD“伊斯坦布尔”6核皓龙处理器充分利用了现有的平台基础架构以及低成本、高能效的DDR-2内存,有助于降低系统的采购成本。和上一代的“上海”相比,核心数量提升,并继续提高了处理器上总线的速度。
另外,在此次案例中还提供了两台胖计算节点,具备超强的计算能力,理论峰值运算速度高达8.87Tflops(每秒8.87万亿次浮点运算)。充分满足了该高校对于计算性能的要求。
超高的计算密度
在社会高度发展的今天,空间成本愈发明显。而曙光公司此次解决方案超高的计算密度成为了此次项目的一大亮点。曙光研制了具有自主知识产权的双路四核和四路四核高密度刀片主板和基于该主板的中国第一款7U高度的10片工业标准刀片服务器,该刀片服务器采用全内置的ConnectX DDR二层交换模块,全内置的管理Ethernet网交换模块,可以实现单机箱最高40CPU,160核的超高计算密度,并实现了单节点内部的OpenMP并行计算。这些高密度计算的特性有效的节约了用户的空间成本。
超大的存储空间
此次高性能计算解决方案采用了目前业界领先的高速Infiniband互联之上的全局共享并行IO架构,包括4个数据服务器、1个元数据服务器、一套12T的一级实时存储和一套二级备份存储,软件部分基于成熟的Lustre并行文件系统,数据块分散存储于4个存储管理节点,降低数据丢失风险。和曙光集群管理软件结合,对文件系统部署、文件系统管理、文件系统快速恢复提供良好支持。
一级存储是在计算过程中,用于存放计算所需的原始数据集、临时数据以及暂存计算结果的高性能磁盘存储。在一级存储中,采用曙光企业级磁盘阵列DS8314FF,配置8个FC主机接口,配备8Gb/s高速Cache,最大扩展可支持224多块磁盘,直接接入SAN光纤交换机网络。
二级存储则用于存放那些需较长时期保存的数据,如结果数据、一些公共的数据资源,或用户希望长期存放的其它数据。在二级存储中,采用曙光企业级磁盘阵列DS2412FA,配置8个FC主机接口,配备4Gb/s高速Cache,最大扩展80块磁盘,直接接入SAN光纤交换机网络。
超低功耗
在能源成本日益严重的今天,节能环保成为了整体社会的基调。由于在此次的高性能计算解决方案中采用了刀片设计,使得此次项目可以比常规机架式解决方案节电节约20%耗电;它采用了液冷系统散热技术,比常规空调制冷节约30%空调耗电;同时,方案中采用节能软件和作业调度相结合,系统全年预计可节约20%的耗电。
双重保险的水冷散热
此次高校用户的高性能计算解决方案是国内大规模机群系统首次采用水冷系统的解决方案,通过使用水冷系统,降低了高性能计算系统对客户机房的要求,同时提高了冷却效率。水冷系统的设计实现了水电分离,保证了系统的安全性。
同时水冷系统还包括备份的被动散热系统,可以在水冷失效的情况下保证系统的正常运行,提高了系统的稳定性。
总之,作为面向国民经济建设和社会发展的重大需求的新一代高性能计算机,曙光5000A适用于各种大规模科学计算和工程计算,完全可以满足用户的需求,并能在未来3-5年内保持一定的技术先进性。
杜绝浪费的资源整合
在此次方案中,曙光公司根据用户的要求整合整个校园地区分散的超级计算资源,构建本地区的综合计算平台,不存在任何兼容性问题和技术障碍。
卓越的管理系统
在此次的解决方案中,曙光公司不仅提供了先进的高性能计算硬件解决方案,同时,曙光5000A高性能计算机还提供了丰富的软件系统,包括操作系统、编译器、调试器、函数库、并行通信库、全局共享并行文件系统等基础软件,以及曙光公司专门为业内高级用户开发的Gridview2.0综合监控管理系统和业界领先的PBS GridWorks作业管理软件,帮助用户从硬件、系统、应用、能耗、用户行为等各个层面上都可以方便有效地管理自身的高性能计算中心。
总结
自从云计算的概念提出以来,无论是内部云建设还是外部云服务,云计算似乎一直是国际厂商争夺的市场。从某种意义上说,由于云计算对于计算性能的高要求,国际大厂商的确有着自身的竞争优势。我们看见,对于计算性能的高要求成为了国内厂商进入云计算的门槛。
但是,曙光公司凭借自身过硬的技术,凭借自身优秀的产品,凭借自身科学的解决方案,为该高校用户建立了优秀的内部云基础平台,这无疑是国内厂商为自身高性能计算技术的一次强有力的证明。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者