扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共5页)
2.2. 软件
高性能计算基础设施中的软件包括两大类:
1,高性能计算机操作系统(高性能计算中间件)
高性能计算机操作系统不仅包括节点机上运行的操作系统,还包括使得并行计算机众多部件协同工作,对外提供单一系统映像的各种软件,如:MPI并行环境、用户管理工具、作业调度系统、系统管理工具等。
2,应用软件
高性能计算中的应用软件可以分为3个种类:
科学计算类
主要是大量的开源/免费软件,另外包括一些公司开发经营的收费软件。应用行业包括气象、物理、化学、生物、医学等领域。
工程计算
基本上是收费软件,用户通过购买license的形式获得使用授权,价格较高,以力学、热学、声学、电磁学等分析为主,应用行业包括航空、航天、汽车、船舶、建筑、机械、能源等领域;
非数值计算类
高性能并行计算的应用范围不断拓展,其更大的应用市场在非数值计算领域。如并行数据库,并行数据挖掘等。
2.3. 人才
高性能计算技术人员团队也属于高性能计算基础设施建设的范围。
高性能计算机系统需要系统管理员对系统进行运营管理维护,值得庆幸的是:标准化的高性能集群系统大大降低了系统使用管理的难度,高性能计算机操作系统中的管理工具也在很大程度上简化了系统管理人员的操作,并提高了系统可靠性。
对于拥有较大规模高性能计算机的计算中心来说,其业务不仅包括计算及存储服务,还包括对高性能计算用户的应用支持,技术培训,项目合作等。保持一支稳定的、一定规模的、具有技术支持、技术开发和高级技术咨询能力的、以客户应用为核心的专职人才队伍非常重要。
计算中心的主要业务可能包括:
(一)、提供随需而变的高性能计算资源,包括硬件和软件
(二)、技术支持服务
并行软件设计和实现
并行程序移植
高性能计算机系统技术
高性能计算相关软件的应用
高性能计算系统环境的使用(作业管理系统、开发环境)
网格计算
网络系统(远程、安全)
(三)、高级技术咨询服务
并行软件、专用软件、共享或商业软件的用户定制开发;
提供程序并行化、移植、优化、定制等各种开发服务;
提供高级数学建模、算法设计服务;
提供虚拟产品设计中以CAE应用(结构分析,流体分析,热分析,电磁场分析,或多场耦合分析)为核心的工程咨询服务;
培训服务:系统技术,并行编程,计算方法,软件使用,基于高性能计算的创业,网格计算等;
为高性能计算机硬件厂商、应用软件厂商提供并行编程、系统技术、演示体验中心、用户测试等服务;
为各类打算购置高性能计算平台的用户提供技术咨询;
软件传播、交流和共享服务。
(四)、网格计算技术研发和应用
网格平台的搭建;
应用网格的开发;
基于网格技术的资源共享
而掌握高性能计算应用的人需要精通自己的应用学科、计算机系统架构、并行编程、并行算法、高级语言和系统技术,并且高性能计算机系统需要系统管理、网络技术、系统维护和运行等专业人员。
3.高性能计算基础设施建设中要考虑的主要问题
3.1.对计算能力的需求
从总体上来说,应用对高性能计算能力的要求是无止境的。但是,在系统建设时,需要根据各种客观条件系统建设的规模,使得系统建设更合理,重点要考虑的因素包括:
1,项目预算
包括目前可用的预算和以后可以追加的预算。
2,应用阶段的不同需求
使用高性能计算机系统的用户是有区别的,表现在对高性能计算的应用成熟程度上。对于刚进入高性能计算的用户,其对高性能计算的需求更多地处于潜在状态,需要时间来挖掘。
3,并行应用软件的可扩展性
各种并行应用软件的可扩展性不同。使用高性能并行计算,理想的加速比是线性以至超线性的,但能达到理想加速比的情况不是很多,尤其是在大规模并行处理时。对于相当多的并行软件,单个作业调用的处理器达到一定数目之后,使用更多的处理器并不能带来相应的性能提升。
当然,这也并不是说更多的处理器不能发挥作用。可以同时运行多个并行应用程序,对于同一个程序也可以同时运行多个作业,从而使用更多的处理器资源。
4,系统的用户数目
为实现较大的系统建设规模,提高系统使用效率,高性能计算机系统一般是一个单位(院系,学校,部门,城市)共同投资,资源共享。在这种情况下,使用高性能系统的用户比较多,对计算能力的需求也相对较大。各个用户使用资源的时间段可能有交叉,对计算资源的需求也不会是各个用户需求的累加。
3.2.需要更多的考虑软件和应用
高性能计算机系统建设中,一个最常见的误区就是:用户过多关注硬件,而忽视了软件和系统的应用,这个问题在设备采购时尤其明显。
“重硬轻软”是国内高性能计算机项目采购中的普遍问题。选择性价比高、性能稳定的硬件自然是合适的,但很多用户在设备采购时还没有系统应用的经验,造成对系统的软件和应用重视不够,这样就会使得用户在采购时可能过于看中低价格或迷信国外知名品牌。在项目采购完成后,进入应用阶段,才感觉到软件匮乏,厂家缺少对应用的支持,系统运行不起来。
高性能计算系统是一个相对复杂的系统,而高性能计算的应用软件更是浩如烟海、不胜枚举。这些软件中,大量的是公开源代码的free软件,需要在目标平台上编译优化,需要更多的来自高性能计算机厂商的技术支持和服务。
3.3.能耗和散热
高性能计算机在提高卓越计算性能的同时,也在大量地消耗电能,并散发出相应的热量。高性能计算机系统需要精确计算系统的能耗,不断提高能耗比(每瓦性能),并应对大规模并行系统的散热问题。
面向高性能系统设计中,已经尽可能考虑了系统功耗和散热问题,并不断提高能耗比。
上海超级计算中心使用的曙光4000A超级计算机为例,峰值性能达到10万亿次,2004年投入使用。处理器为Opteron 850处理器,主频2.4GHz,功耗为95瓦;如果使用AMD Barcelona核心的4核处理器,主频仍然选择2.4GHz,则每个处理器的性能为原来的8倍(4个核心,每个核心性能提高2倍),而处理器的功耗仍然为95瓦;也就是说,现在建设峰值性能达到10万亿次的高性能计算机,功耗仅是3年前的八分之一,或者说,系统能耗比为3年前的8倍。
当然,不仅仅是处理器,系统的架构也在趋向于节能设计。使用刀片式集群,可以使得高性能计算机系统的能耗比进一步提高。
3.4.计算密度
在传统的概念中,高性能计算机是“庞然大物”。在系统规模达到一定程度后,高性能计算机系统的占地面积也是一个大问题。如日本的地球模拟器高性能计算机,占地面积达到3500平米,相当于4个网球场的占地面积。
高性能计算机一直在追求高的计算密度,即在相对小的体积内提供更强的计算能力。提高计算密度,将有效减小高性能计算机的占地面积,降低对机房的要求,减少系统建设成本,同时,还可以减少空调设备、整体能耗,从而降低系统的运营成本。
提高计算密度需要提高计算单元的密度,并解决由此带来的更为苛刻的系统散热问题。
使用刀片服务器作为计算单位的曙光5000百万亿次超级计算机,其规划占地面积仅为200平米,实现了很高的计算密度。
3.5.高性能计算机系统的管理维护
高性能计算机系统由众多的计算单位、交换设备、存储设备等构成,复杂的系统需要对用户提供单一系统映像,并提供相应的管理工具,以降低系统管理员的工作难度,减少操作失误,提高系统可靠性。
3.6.系统的可扩展性
高性能计算机系统需要充分考虑系统的可扩展性。在系统成功运行一定时间后,对计算资源的需求会大大增加,为了有效保护原来的投资,最理想的是对原来采购的系统进行扩容,而不是重新建设一个新系统,除非有其他方面的原因或有特殊的考虑。
3.7.整体拥有成本
整体拥有成本(TCO)是高性能计算系统建设的一大要素。高性能计算系统在设备的一次性采购完成后,必须(或可能)的费用还包括:
1,软件升级费用
2,厂家技术服务费用,尤其是应用层面的高级技术支持服务
3,质保期后的服务费用
4,高级技术培训的费用
在高性能计算机系统的建设中,不应该仅仅看重设备一次性采购的费用,还要考虑不同厂家的质保期,技术服务的费用,软件升级的时限及其费用,从而作出整体拥有成本最低的选择。
3.8.高性能计算机的使用效益
高性能计算基础设施的建设是相对较大的投资,需要充分发挥其作用,把系统用好。
高性能计算是一种先进的科研和生产手段,使用好并行计算机系统有一定的门槛。很多用户购置了高性能计算机后,系统不能发挥很好的使用效益,甚至应用不起来,造成了资源的浪费,并影响了科研或生产工作的进行。
提高系统的使用效益,包含了两层含义:
1,提高计算资源的利用率。高性能计算系统上需要部署经过优化的并行应用,搭配合理高效的作业调度策 略,使得系统的使用效率达到较高的水平;
2,提高应用水平,就是使高性能计算机算出来的结果更有用。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者