扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:袁斌 2005年8月31日
关键字: InfiniBand 超级计算机 联想 深腾6800 高性能计算
清华大学的郑玮民教授举了另一个例子说明高性能计算蓬勃发展的原因:“去年,就有一名教授通过高性能计算得出的结果抢先完成了关于水稻基因方面的研究,并抢在其他国家之前发表了其研究结果,最终还因为该论文获得了院士称号。从某种意义上说,他的这个院士是算出来的。”
不过,高性能运算的蓬勃发展,也产生了一些技术、应用方面的问题。例如,随着系统规模的扩大,高性能计算机在效率、功耗、成本、体积、应用可扩展性等方面都会面临一系列的新问题。其中,效率一直是高性能计算机最为突出的关键性问题之一,高性能计算机实际利用效率的提高意味着用户可以花更少的钱买到更多的实际性能。
优化解决效率瓶颈
高性能服务器的峰值性能与实用性能差距巨大。90年代初的向量机实用性能效率能到40%~50%,而目前基于Cluster架构的巨型机实用效率仅仅能到10%~20%,其主要原因是用户使用模式的多样化、复杂化和通信速率、延迟限制等。基于现有SMP+Cluster架构,高性能服务器峰值运算速度在达到1000万亿次后将面临体系结构的重大瓶颈。
在硬件方面,采用延迟更小的连接技术,可以明显提高机群的效率。清华大学郑玮民教授表示,清华大学的高性能计算机群采用了Infiniband连接技术,其效率在80%左右;作为对比,同等规模的、采用千兆以太网进行节点连接的系统,效率还不到60%。
除此以外,各供应商基本都采用了系统优化、应用优化等方式。联想公司表示,在系统层面上,要根据用户应用的特点,对系统进行定制设计和整体优化,使得系统可以很好地满足应用的需求。例如,联想深腾6800超级计算机经过优化后,在HPL、TPC、MM5 等国际测试认证中,取得了世界领先的性能指标,尤其是其整机实际运算效率高达78.5%,列当时世界TOP500 高端通用计算机的第1位。
在应用层面上,要根据应用中问题定义、数学模型以及核心算法的特点,分析应用的访存特征、通信特征、计算特征等,对应用在高性能计算机上的实现进行细致的优化,充分发挥高性能计算机系统软硬件固有的潜能。例如,联想在典型气象应用RegCM 的调优中,通过编译器优化、关键指令替换、表查询优化、并行化通信、I/O优化等多种应用调优手段,将整体性能提升了54.9%。
此外,从应用与系统匹配的层面上,还需要通过专业的资源管理和作业调度技术,将应用的需求与系统的资源很好地匹配起来。联想LJRS 可以在保证应用公平调度的前提下,最大限度地提高计算机的整体利用效率。例如,作为国家网格主结点的联想深腾6800 超级计算机,采用LJRS对外提供服务,使得机器的月平均利用率达到了92.19%。曙光公司表示,除了系统优化、应用优化以及调度系统,曙光还在节点系统层采用操作系统优化方案设计,如研发曙光轻载操作系统,以更好地满足应用需求。
耗电瓶颈
由于大规模的计算机群的存在,高性能计算机群的耗电问题确实是到了一个非常严重的地步。“以前,其他院系的人都认为将高性能计算机群放在我们这,(编者注:指清华大学计算中心)是我们占了很大便宜。其实,我还希望将机群放在其他系呢,每个月4万元的电费可不是小数目。”清华大学的郑玮民教授表示,“为了降低机群的运行费用,我们甚至还自行开发了一些相关软件。”
用户有这方面的迫切需求,供应商也有相应的计划。实际上,在基于传统方式来构建高性能机群时,厂商一方面要针对行业细分应用考虑系统结构设计的均衡发展(计算能力、存储能力、带宽、延迟及I/O 等五个方面),采用低功耗设计的处理器,另一方面也需要综合考虑系统的可靠性、可用性、可维护性、性能价格比,功耗、密度、冷却系统、运行环境等因素,并最终找到其均衡点。
在处理器方面,英特尔公司表示,其下一代的处理器将更适合高性能计算。例如,开发代号为Bensley的下一代至强处理器的性能提高1.75倍,带宽提高2.5倍,其性能功率比可以提高3.5 倍;同样,在明年面世的开发代号为Montecito 的安腾2处理器,性能会比目前的安腾2处理器高出2.5 倍,在带宽方面会提高3 倍,并且功耗降低20%。英特尔公司数字企业事业部服务器市场战略和企业技术总监Jason Waxman 表示,尽管Montecito 还没有正式推出,但在超级计算方面已经有了很多的订单。
AMD公司表示,Opteron(皓龙) 处理器的功耗仅为35~89W。同时,Opteron 处理器采用了直接内存控制技术,处理器的功耗指标已经包括了内存控制部分,如果考虑到竞争产品在前端总线方面的能耗,Opteron处理器的能耗优势更大。同时,Opteron 处理器还支持优化电源管理的AMD PowerNow!技术,这项技术能够让操作系统根据处理器的负荷量,动态地调整电源供应,从而减少计算机系统的整体能源消耗。
联想公司的肖利民博士认为,在系统方面,高性能系统中存储结构的能量消耗比重很大,从存储结构角度优化能量消耗是重要的低功耗手段,多体存储构结不仅减少了系统访存的功耗和延迟,增加了访存的带宽,同时方便进行系统功耗管理。同时,系统级的能量管理技术是重要的低功耗技术。通过低功耗支撑技术(如动态电压调节, 部件运行的多功耗模式,存储系统的划分,模块化的互连网络等),系统软件对系统进行全局管理。
在低功耗技术方面,联想的主要工作是集中在将芯片级低功耗设计、子系统级低功耗设计以及全系统低功耗管理等多个层次结合起来,既研究在每个层次内如何降低功耗,又综合多种低功耗设计技术,实现全系统整体的功耗管理,以有效解决大规模高性能计算机的功耗问题。曙光表示,当前曙光已有成熟的服务器节点及机群基础构件散热技术和冷却技术,如灵动散热技术等。在电源功率管理技术方面曙光也正在积极展开研究。
应用瓶颈
高性能计算应用目前主要集中在工业、科研和学术领域。在第25 次Top500 排行榜上,共有468 台超级计算机应用于工业、科研和学术领域。实际上,高性能计算在信息化应用和商业计算领域大有用武之地。可以这样说,只有高性能计算在信息化应用和商业计算中真正普及,我们才能迎来一个高性能计算普及化的时代。
在推动高性能计算普及方面,曙光也做了大量工作。在应用解决方案方面,曙光成功构建了行业内首个高性能计算实验室,并成立了HPC 解决方案中心,旨在为用户方案提供免费测试服务,消除用户对机群业务运行效率、总体成本、功能、应用环境、可管理性、高可用性等方面的疑虑,为用户提供良好的售前咨询支持以及扩展方案市场,协助用户进行难度较高的各种应用测试和为用户提供更加适合于其应用的产品方案,推进高性能计算平民化进程。
联想表示,在高性能应用拓展方面,联想的工作主要集中在两个方面:首先是针对传统的科学工程计算应用,如科研、石油、气象、生物等,联想提供深腾1800 计算机群和深腾6800 超级服务器。在应用解决方案方面,建立了包括行业应用软件研发、调试、优化以及IT /行业复合型人才培养的综合体系。例如在石油行业方面,联想与众多第三方ISV合作,基于联想高性能服务器产品开展了地震资料处理、油藏模拟、数字油田方面的应用移植、优化和开发,帮助用户建立实用的应用解决方案。
其次是针对商业计算领域的应用,如电子政务、企业信息化、教育城域网、网络游戏等,联想推出了深腾2600 商用机群服务器产品和深腾IA64 系列服务器产品。此外,联想还在后台数据服务、高可用服务、负载均衡、搜索引擎、数据挖掘等典型商业应用方面做了很多的开发、移植和优化工作。
体系瓶颈
实际上,关于高性能计算的最重要争论是高性能计算机到底应该是通过机群方式做,还是通过一台大机器来做。这些争论从90年代初就已经开始,而到目前为止这样的争论还是没有明确的答案。
肖利民博士认为,从目前的技术发展趋势来看,机群在未来数年内还将继续统治全球高性能计算机市场,基于机群架构的高性能计算机系统仍有很大的发展潜力和较大的创新空间。例如,2005年6月21日在德国召开的ISC2005会议上公布了最新的世界超级计算机TOP500列表,从中我们可以看到,基于机群架构的高性能计算机系统共有383台(其中,基于机群的有304台,基于星群的有79台),机群系统仍然是当今高性能计算机的主流体系结构。
当然,从世界范围来看,目前也有一些新的高性能计算机体系结构开始初露端倪, 如IBM 采用嵌入式多核技术实施其BlueGene,Cray采用流处理器技术实现其Cascade,Sun采用Sea of Memory、Proximity互连等技术实现其Hero系统。但国际上这些针对百万亿次到千万亿次量级高性能计算机系统关键技术的研究才刚刚起步,仍面临很多的问题和挑战,如传统的存储墙问题、具有拓扑感知的互连技术、十万量级处理器规模的应用可扩展性问题等等。未来几年,这些新型体系结构迅速取代机群架构成为高性能计算机市场主流体系结构的可能性不大。
经科技部批准,联想承担了国家863计划“千万亿次高性能计算机关键技术预先研究”课题,重点研究未来千万亿次级高性能计算机的体系结构及其关键软硬件方案,据悉目前相关的工作已全面启动。
在体系架构上,曙光认为当前正面临高性能体系架构创新的前夜,国内外学术及产业界正在做相关的研究工作,但这种颠覆性的体系架构创新不会马上到来,会有三到四年的孕育期。曙光已全面展开新型高性能计算机体系架构的预研,原型系统预期会在2006 年年底出现。
高性能计算节点的选择
目前的品牌机群的结点大多采用机架服务器,塔式服务器只在极少数用户自制机群中使用,近几年,刀片服务器有时也被用作机群结点,但因其标准不统一、软件不成熟、应用有局限、成本偏高等因素,刀片服务器一直没有成为主流的机群结点。不过,刀片式服务器为高密度、可扩展、集中式管理、动态快速部署高性能机群提供一个非常好的解决方案,是未来机群技术的发展趋势。郑玮民教授表示,选用2 路的机架服务器在性能价格比方面比较合适。他说,由于英特尔处理器在设计上的原因,4 路服务器并不能充分利用到4个处理器的运算性能,会形成数据交换上的瓶颈。(责任编辑:刘燕之)
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者