科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道高性能计算清华大学工程物理系高性能集群方案

清华大学工程物理系高性能集群方案

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

先进原则,利用先进的计算机技术建设一套完整的科学计算的集群系统。经济原则,系统采用广泛应用且具有良好性能价格比的产品,既考虑节省投资,又保证产品的先进性和可用性。

来源:ZDNet 2010年11月15日

关键字: 曙光 高性能计算 集群

  • 评论
  • 分享微博
  • 分享邮件

  1. 曙光4000集群系统方案

  1.1.方案背景

  清华大学工程物理系拟采购机群并行计算机一套,用于教学和科研工作。

  1.2.方案设计原则

  针对前面分析的用户需求,曙光公司制定出如下的方案设计原则

  实际原则,从实际应用出发,遵照实际情况确定方案的选择与实施。

  先进原则,利用先进的计算机技术建设一套完整的科学计算的集群系统。

  经济原则,系统采用广泛应用且具有良好性能价格比的产品,既考虑节省投资,又保证产品的先进性和可用性。

  安全原则,系统应该受到严格的安全监控,保证系统的正常运行。

  扩展原则,系统支持动态扩展,在系统性能需要提升时,可以很方便地进行扩展。

  2. 方案概述

  清华大学工程物理系拟采购机群并行计算机一套,用于教学和科研工作。根据用户需求,曙光公司配备的集群系统由1个管理/存储节点、8个计算节点、一套千兆以太网络、一套百兆以太网络、机柜系统、电源系统、SKVM系统、硬件监控系统以及其他附件组成。

  2.1.系统框架图

  曙光公司通过四套网络(千兆计算网,百兆备份网,SKVM网,IIC网)将管理节点、计算节点以及控制设备和监控设备连接起来,组成一个充满活力的集群系统,这个集群系统具备以下几个特点:

  1.管理节点和计算节点分开:能够充分利用计算节点的计算能力,将管理任务分配给管理节点大大地提高了计算节点的运算能力。

  2.百兆备份网络:百兆以太网的作用是在千兆以太网出现故障的时候仍然能够提供不间断的计算服务,并且百兆以太网还提供了绝大多数的管理功能

  3.SKVM网络:使得管理节点就像管理本地计算机一样轻松,并且这样的事情可以在几百米以外完成。

  4.管理监控网络:采用基于硬件采集的监控系统,不占用系统资源,做到主板级的监控。

  提供千兆外部连接,用户可以通过千兆网络连接到管理节点从而使用整个集群系统。

  2.2.硬件配置

3. 方案特点和优势

  多种复合功能的节点机子系统:管理节点同时具备了管理节点、存储IO节点、登陆节点等多种功能,更加有利于用户和管理者解决问题。

  高性能的节点机:具有内存带宽高,内存延迟低,系统访问能力强等强大的优势,在多处理器系统上体现了近乎线性的性能加速比。

  64位应用和32位应用相结合:基于Opteron处理器的64位系统完全兼容32位计算,已经有了相当多的64位操作系统支持(这点上较Nocona有较大优势)。

  强大的系统整合能力:曙光公司在高性能计算领域在国内公司起步最早,在很多方面取得了丰富的经验,具备很强的系统整合能力以增强整个集群系统的单一系统映象功能。

  方便的监控系统:基于硬件设备的监控系统完全独立于其他网络,不占用任何其他的网络资源,利用主板上的板卡进行资源收集本身对系统的CPU和内存占用微乎其微,可以实现整个系统的资源监控,如机箱温度、电压、CPU使用率、内存使用率、IO使用率、网络使用率等等。

  先进的SKVM系统:可以实现超过64个节点机的远程控制(最大可以支持到1024个节点),可以将终端拉到距离节点机500米以外的地方对整个集群系统进行完全类似于本地操作的控制,其方便的切换功能使得系统管理员在管理整个集群的时候非常方便。

  双网共存的网络架构:系统采用了千兆以太网(计算网)和百兆以太网(管理备份网络)相结合的网络系统。计算网络用来提供高带宽的高速节点间通信,管理备份网络使用百兆以太网络,主要的作用是提供了一套完整的千兆网络的备份,并且百兆网络上提供了大量的系统监控网络流,利用附加的百兆以太网络,可以在完全不占用系统千兆网络资源的情况下实现系统的网络层的监控,如IO利用率,网络利用率等。

  管理节点的外部连接功能:管理节点上集成了两块千兆以太网卡,其中一个提供内部千兆网络的连接,一个提供整个系统同外部Internet环境的千兆连接。

  面向用户和网格的系统管理软件:DCMM提供了非常直观的系统监控功能,DCMS提供了强大的系统管理功能,DCIS提供了强大的系统安装和备份功能,Mterm则提供了一个美观的视图界面,用来操作集群中的任意计算机。

  4. 附件

  4.1.相关编纂人员介绍

  张瑞

  所学专业:计算机自动控制

  所在部门:曙光公司北京平台

  所做工作:曙光公司北京平台售前工程师,服务器、集群产品技术咨询、方案制作

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章