科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道高性能计算Platform LSF为清华大学HPC提供可信赖的作业调度和管理

Platform LSF为清华大学HPC提供可信赖的作业调度和管理

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

作为我国最早开展高性能计算(HPC)研究的单位之一,清华大学早在2005年开始自建高性能计算平台,如今,高性能计算平台二期工程已经于今年4月正式投入使用。

来源:ZDNet China 2011年10月10日

关键字: 浪潮 高性能计算 百亿亿次 Platform Computing

  • 评论
  • 分享微博
  • 分享邮件

作为我国最早开展高性能计算(HPC)研究的单位之一,清华大学早在2005年开始自建高性能计算平台,如今,高性能计算平台二期工程已经于今年4月正式投入使用。清华高性能计算平台(二期)拥有“探索100”百亿次集群计算机,集群机采用最新Intel Xeon X5670处理器,740个计算节点,系统理论峰值超过100TFlops,计算能力在全国高校居首位,能很好地服务于清华大学交叉学科的研究,并为校内外用户提供高性能计算资源、并发算法开发、高性能计算相关资讯等各类服务。

打造百亿次集群计算机

2009年清华大学成立了地球系统科学研究中心,并联合计算机系、环境系、核能研究院等院系成立了全球变化研究院,致力于研究全球气候变化背景下地球系统科学的前沿课题及其产生的社会经济影响。“超级计算平台是全球气候变化研究、地球系统科学研究必备平台,为此,清华大学启动了以“探索100”百亿次集群计算机为核心的清华高性能计算平台二期工程的建设,借助高性能计算平台还原或预测地球自然变化过程,实现对洋流、大气、地壳等的仿真研究。” 清华大学计算机系高性能所高工张武生介绍说。

在“高标准、高要求、高起点”建设原则指导下,清华大学与浪潮集团合力打造的清华高性能计算平台(二期)通用CPU计算性能达到了每秒104万亿次,GPU计算性能达到每秒68万亿次,总计算性能为每秒172万亿次,是我国在地球系统模拟领域速度最快的超级计算机,也是目前我国高等院校性能最高的计算平台。清华高性能计算平台(二期)内存总容量达到30TB,共享存储系统容量1PB,系统功率包括制冷系统功率不到350千瓦。除了卓越的计算能力,清华高性能计算平台(二期)还实现了两个关键点:第一,采用超异构并行可扩展架构,使得整体应用效能比其他架构提升了25%;第二,为了达到低能绿色设计理念,超算系统的计算节点采用了高密度的刀片式服务器设计,能够自动调整的智能液冷系统也大大降低了能耗,使得整体系统能耗降低了30%,年电费节约100万。

Platform LSF提供可信赖的作业调度和管理

清华大学超百万亿次超级计算机系统应用环境非常复杂,其应用领域覆盖了物理、化学、应用数学、材料、力学、自动化、计算机、核技术、航空航天、生物信息、石油、电机、医学、地质等众多学科,这就要求高性能计算集群平台的作业调度系统必须能对各个应用软件具有非常良好的支持,即作业调度系统要与各个商业应用软件具有良好的接口和后台支撑,同时还必须支持各种开源软件,以确保各种应用软件在集群环境下的稳定应用。

清华大学采用了Platform LSF作业调度系统对高性能计算平台进行管理和调度。张武生介绍说,清华大学HPC平台(一期工程)也采用了Platform LSF,实践证明Platform LSF有两大优点,一是稳定性非常好,从来没发生作业或者节点丢失的问题;二是可用性好,LSF提供了丰富的参数配置,通过组合的方式就能满足各种不同的配置需求。此外,Platform公司给我们的高性能计算提供了强有力的支持,利于我们快速响应用户需求。

Platform LSF是业界领先的最为广泛使用的分布式批处理中间件,它可以用于提供PaaS服务, 并支持网格化SaaS。Platform LSF在可靠性、响应时间、可操作性、可维护性等方面有较大的优势,表现在:

 高可靠性。随着机群系统的逐步扩大,依赖于机群系统的人越来越多,机群系统的故障将导致数百、乃至数千分布世界各地的员工工作受到影响,甚至直接影响到产品的测试、验证乃至发布。LSF具有高可靠性,其机群系统的平均无故障时间大于99.95%,即一个季度,停机时间小于一个小时。

 100%可信赖的作业调度和管理。LSF提供的透明远程执行机制以及通过JobStarter提供的作业运行环境自适应机制可以确保作业调度和运行的正确性。

 高可扩展性。Platform LSF单一机群管理的CPU数已经向10000 ~ 20000等更多CPU方向展。

 良好的可操作性,支持在线修改。Platform LSF支持在线修改,支持系统管理员根据用户需求的变化,动态地修改系统配置,不影响作业的运行和用户的使用。

 良好的可维护性。Platform LSF支持机群系统的在线升级和维护。系统管理员可以在不影响作业的运行和用户使用的情况下,替换新的系统服务程序,进行系统在线升级和维护。

张武生表示,Platform 作业调度系统确保了整个集群的负载平衡,提高了作业运行效率,大大降低了作业运行的成本,为清华大学高性能计算提供了可信赖的作业调度和管理。

清华大学高性能计算平台(二期)目前已经承担起联合国政府间气候变化专门委员会第五次评估报告(IPCC-AR5)气候模拟、预测、评估试验的计算任务,而这个计算任务以往都只有发达国家参加,此次中国是加入的唯一发展中国家。除此之外,该平台还为973、863计划和国家自然基金等项目提供计算支持,用户覆盖了物理、化学、应用数学、材料、力学、自动化、计算机、核技术、航空航天、生物信息、石油、电机、医学、地质等众多学科,为清华大学交叉学科的研究提供了有力的保障。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章