扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在近日召开的英特尔2010年高性能计算研讨会上,来自中国石油东方地球物理公司研究院处理中心的总工程师赖能和先生,和我们分享了其如何最大限度利用HPC中心资源的经验,而这个经验想必对于很多HPC中心都是适用的。
中国石油东方地球物理公司研究院处理中心的总工程师赖能和先生
不过,在进入主题之前,还是有必要介绍一下中国石油东方地球物理公司。它的全称应该是中国石油集团东方地球物理勘探有限责任公司(英文缩写BGP)是中国石油天然气集团公司的控股公司。
东方地球物理公司是以地球物理勘探业务为主体,集物探主业、多元开发、旅游接待、公共事业为一体的跨国经营企业。主要从事国内外陆地、浅海地震勘探及综合物化探采集、处理、解释,以及与地球物理(化学)勘探有关的技术及装备研发、产品研制、技术引进与产品销售,国内外技术工程承包与劳务输出等。兼营物探监理,旅游宾馆服务,通讯及工程服务,建筑工程及安装,物业管理、服务及经营等。
到2004年底,公司国内业务分布在12个省区15个油田,国际业务分布在全球4大洲27个国家,作业队伍达到40支,累计为60多个国际油公司和国家油公司提供地球物理技术服务。综合实力位居全球物探公司第四位,陆上市场份额居全球第一位。
公司具有独特的一体化技术服务优势,集野外采集、数据处理、资料解释、装备制造、软件开发等业务于一体,具有全面、系统、强大的服务功能。拥有系统、完善的自主科技研发体系,先后挂牌CNPC物探技术研发中心和国家人事部博士后科研工作站、石油大学硕士研究生工作站。形成了以复杂区勘探技术、开发地震技术、物探软件研发、浅海OBC处理技术和非地震CEMP技术、新区新领域综合研究等为代表的一批具有国内、国际领先水平的技术系列。拥有自主知识产权的系列软件产品,包括地震采集设计系统KLSeis、地震资料处理系统GRISYS、地震资料解释系统GRIStation、处理解释一体化软件系统GEOEAST V1.0等软件产品。
因此,作为该公司研究院处理中心的总工程师,赖能和先生拥有丰富的一线经验,也对HPC的资源优化有着深刻的体会。毕竟作为一家商业化运营的,完全自负盈亏的公司,如果最大限度利用好手头上现有资源,都是一个长久性的话题。
赖能和总结的一些关于提高CPU利用率的思路
对于HPC中心来说,从使用效率上讲,CPU的利用率是最为关键的问题,毕竟HPC中心的主要投资是在计算能力上,如果计算能力不能充分的释放,也就意味着投资的贬值。反过来,如果CPU的利用率可以得到最大的保证,那么也就代表着HPC计算效率的提升。
不过提高CPU利用率的思路也是很清楚明了的,大体上可以分成软件和硬件两个部分,软件方面要求更高效的编程优化,尤其是并行编程优化,而在硬件方面则要从最大限度降低数据传输瓶颈入手,以减少CPU等待的时间,当数据流通充分时,CPU也就将一直处在繁忙的状态,不过要做到这一点则需要许多系统性的改进。
优化措施一:内存扩容 立竿见影PC用户都有一些体会,每次系统的升级,都会伴随着内存容量的提升,从原来的DOS,到后来的Windows 95/98、Windows 2000以及最新的Windows 7,作为最主要的数据周转中心,内存对于HPC的重要性不言而喻。所以HPC中心的优化改造就要先从内存入手。
通过测试可以发现,计算节点的内存容量从4GB提高到8GB时,CPU效率提高了2倍,而所付出的成本比新购买服务器显然划算多了
而当内存从8GB再提高到16GB时,512处理器的集群的效率表现也获得了巨大的提升
不过,赖能和也表示,当内存容量从16G升级至24G后,性能提高就不是太明显了,但他强调这里面跟算法有关系。一直升上去也是一门非常大的学问。所以,性能的优化是离不开软件算法的改进。
优化措施二:采用更高效的存储系统当解决了内存瓶颈后,HPC计算节点的数据瓶颈也将向外移,此时负责数据外部交换的存储设备就承载了巨大的访问压力,而如果能进一步提高这一子系统的性能与效率,对于提高HPC的计算效率也无疑是有明显帮助的。
在存储系统的体系中,负责数据访问索引的文件系统有着重要的作用,而传统的NFS(网络文件系统)已经不适用于大规模的数据存取访问,为此BGP改用了IBM的GPFS(General Parallel File System,通用并行文件系统),使CPU的运行效率提升了2倍
GPFS的盘阵与DAS盘阵的性能对比,可见大并行计算也需要大并行存储的支撑
针对BGP的数据特点,采用了网络存储性能更高的NAS系统来代替传统的DAS系统,从而获得了2倍的I/O并发速度,同时也节省了大量的HBA卡
另外,BGP还引入了虚拟带库(VTL)来提高备份的效率,也大大提高了HPC中心的运行效率(备份窗口大大缩短)
与VTL相配合的,是一套完整的新开发的备份系统,可以自动的定制化的完成各站点的统一备份工作,也大大提高了HPC中心的运行效率,同时也提高了数据安全性,降低了人员维护强度
优化措施三:绿色节能 开源不忘节流对于HPC中心的效率优化,除了挖掘计算设备本身的潜能之外,还意味着在交付同等甚至更高的计算力的同时,能耗也有进一步的降低,这样从单位功率的性能供给方面来看,也是一个效率优化的重点,毕竟最终都要体现在成本上,花费更少的能源干更多的事,在成本意义上与花更少的时间干更多的事是基本一样的,这对于一家商业公司尤为重要。而BGP也充分认识到了这一点。
根据相关硬件平台的能源管理规范,BGP开始了集群节点节能软件,以让能源消耗水平与性能供给水平尽量吻合,即高性能供给时能源供给也相应提高,而在低负载与空负载时,也尽量降低能耗供给水平,从而做到“开源节流”
这套节能软件所带来的效益十分明显,而随着节点的增多,其所带来的效益也将相继扩大,这对于电力成本的消减的好处是不言而喻的
未来的HPC中心优化设想伴随着计算机相关硬件技术的进步,在未来,HPC中心也将与时俱进的更新换代,而在这个过程中也是有讲究的。那么,对于更为关注效率的BGP来说,赖能和也列举出未来重点观察的方向,它们将在提高HPC中心效率以及性价比方面将具备巨大的潜力。
在前面已经说过,存储I/O的性能对于很多HPC应用的性能都有巨大的影响,在更新的存储的文件系统之后,物理层面上的硬件更新也将提到日程上来,而现有的存储I/O技术也有多种选择,原本在企业应用中的分层存储在HPC领域也将得以广泛的采用
赖能和单独强调了固态盘(SSD)的威力,相较传统硬盘,其在提供更强大的读写性能的同时,能耗也大幅度降低,个能耗不仅仅是其自身的功耗,还包括其所需要的散热功耗,尤其SSD的发热明显小于传统硬盘,也意味着未来的HPC中心如果全面换装SSD的话,其所需要的制冷功率也会相应降低,而这就是成本!
服务器集群架构已经是当前HPC的主体架构,而这种主要基于MPI的架构体系对于互联通道的要求也非常高,相对于昂贵的Infiniband,以及效率并不尽如人意的千兆(Gbps)网卡,新一代的万兆级(10Gbps)以太网卡正在跃跃欲试,如果成本降到合理范围内,无疑是HPC中心的幸事,赖能和表示,10Gbps将是未来HPC应用的一个关键,虽然前途还不是十分明朗,但潜力非常可观
在绿色方面,HPC中心还有很多潜力可挖,比如从机器级向机房机扩展,并且对单机的性能与功耗做更好的调优,以及更智能的周边外围设备的管理等等,这都将会给HPC中心带来新的变化与可观的成本影响
最后,当然还是回到更先进的CPU上面,赖能和强调,在未来的1年中,我们将会迎来更多的新CPU,当然其主角就是英特尔未来新一代的Sandy Bridge与Westmere-EX,而这些CPU中都有引人瞩目的亮点,关键的前提就是针对自己的HPC应用需求,来选择最合适的CPU与相应的计算设备