扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:ZDNetserver频道 2013年3月15日
关键字: IBM Platform Computing HPC 高性能计算
ZDNet至顶网服务器频道 03月15日 编译: 在IBM System x系列的硬件环境中,IBM Platform Computing的解决方案具备良好定义的文件部署模型,易于构建动态的云基础设施,以及大型的HPC应用部署、集群管理和网格应用。
IBM Platform Computing主要包括五大产品,分别为IBM Platform LSF、IBM Platform HPC、IBM Platform Symphony、IBM Platform MPI和IBM Platform Cluster Manager。其中Platform LSF和Platform HPC并称为高性能计算平台,本文将为您重点介绍IBM Platform HPC的产品信息和功能。
IBM Platform HPC提供完整的集群管理功能,从集群部署管理到工作负载管理监控,且易于安装和使用,便于集群实现快速高效的部署,包括传统HPC应用程序和其他应用。
与以往需要安装整合多重软件包不同,IBM Platform HPC提供了统一的管理功能集,可简化应用程序集成过程,使得最终用户可以专注于开发应用程序而不是集群的管理。它具有一个统一的Web门户网站,管理员和用户均可通过其来访问和管理集群中的资源。
由于在成本效益、灵活性方面表现出色,选择的余地也较多,基于开源软件和Linux操作系统的集群主宰了高性能计算(HPC)领域,尤其是开源软件成为众多HPC专业人士之选。
但是,部署开源集群的复杂性和对成本效益的不利影响使它们颇受争议。缺乏IT 支持的技术计算用户通常必须身兼系统管理员的身份,才能管理其集群上的 HPC 应用程序及工作负载。因此,这些领域专家将大量时间和精力用于管理基础架构,而不是专注于实现成果。
他们或是忙于自行构建、管理集群基础架构,或是只能通过在工作站上运行自己的应用程序而在性能方面做出妥协,这对于需要快速运算的领域来说无疑是一大灾难。
IBM Platform HPC通过易于使用且基于 Web 的界面来部署、管理并使用其 HPC 集群,从而最大限度地缩短最终用户设置和管理集群所需的时间,并使这些用户能够专注于开发应用程序而不是管理基础架构。它提供了一个由IBM单点支持的集成环境,图1描述了IBM Platform HPC组件之间的关系。
图1
统一的 Web 门户网站
IBM Platform HPC最常用的功能是通过一个统一的基于Web的门户网站来实现的。这种“单一窗口”方式使系统资源和工具的状态简单直观,而不需要使用多个界面来查看不同的功能。该Web门户网站是基于公共的平台管理控制台,同时也用于管理其他IBM Platform产品,不过专为小到中等规模的HPC集群设计。
界面包括一个集成的辅助设备,并提供了丰富的产品配置使用文本说明文档集。用户可以在使用和配置之前,先阅读一下在线帮助。安装过程一结束,用户即可通过主机的Web门户GUI(图形用户界面)来管理HPC集群。图2展示了管理员身份登陆时,GUI帮助选项下拉菜单突出显示的初始视图。
门户网站的页面左侧垂直分栏,分为三个子设置选项:有关工作的部分(提交到集群的工作),资源(集群的元素)和设置(与门户网站本身相关),没有管理员权限的用户只能看到“工作”选项卡。
图2 管理员身份登陆时的初始页面
集群设置
若想成功操作集群,需要安装和设置的软件元素有许多,这些元素包括Linux操作系统,驱动程序和软件,以及InfiniBand或其他高速网络结构,消息传递库以及集群上所使用的应用程序。重要的是,在集群的每个系统上的所有元素均以一致的方式安装,而且在硬件发生故障或为集群添加更多硬件时,这些配置易于重置。
工作负载管理
为了有效地在多个用户之间共享集群的资源,并保持一定的工作队列有效利用集群资源,适当的批处理调度是很有必要的。IBM Platform HPC具备了相当于IBM Platform LSF快速版的智能作业调度和工作量管理功能。而且不同于快速版的是,它不局限于100个节点的集群。
集成应用程序脚本和模板
IBM Platform HPC包括一个为常用应用程序指定模板的工具,用以简化采用这些应用程序的作业提交过程。
该版本不支持由IBM流程平台管理器提供的复杂作业流程,如图5所示的是一组安装过程中的应用模板示例,可通过点击“另存为”和“修改”控件来从这些样本中创建自己的应用模板。
图3 应用模板
工作负载和系统监控与报告
在集群配置完毕后,IBM Platform HPC还提供了以下功能:监控集群资源和作业状态,在发生资源短缺或非正常情况下发出警报,并生成集群吞吐量和利用率的报告。有了这些功能,用户可以快速了解当前集群资源的使用情况,由谁在操作,以及现有负载利用的有效率,这些监控设施是由IBM Platform Application Center所提供的。
商用Platform MPI库
高性能计算集群经常采用分布式模型将一个计算问题分为几个部分,这几个部分可同时在一个集群的主机上并行运算,这往往需要采用集群互连架构使得主机共享进度信息,通常采用一种消息传递机制来实现。对于这种消息传递类型,采用最广泛的标准为(MPI )接口标准,详见以下网站:http://www.mpi-forum.org
GPU调度
用于高性能计算的图形处理单元(GPU),有时也称为通用图形处理单元(GPGPU),在高性能计算领域中广为流行。IBM Platform HPC还提供了GPU调度套件供选择,该套件包含“component-platform-lsf-gpu”部件,出于调度的目的,将NVIDIA GPU识别分类为LSF资源。该套件还添加了GPU温度监测、错误检查和纠正(ECC)的计数功能。
IBM Platform HPC 支持各行各业的技术计算用户,例如制造业、石油和天然气、生命科学及高等教育和研究等,且包含丰富的即取即用功能集,易于使用。通过基于Web的界面来部署、管理并使用HPC集群,减少 HPC环境的复杂性和加速解决问题,赋予高性能技术计算用户强大的能力。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。