扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
百万亿次到千万亿次的“能效关”
从近年来全球TOP500高性能计算机排行榜来看,TOP500中几年来第1名和第500名均保持6-8年的时间,也就是说当今的第一名在6-8年后则排名到第500名,而8-10年后微处理器芯片就可达到本年度TOP第500名的浮点性能。2008年6月,全球第一台Linpack测试峰值千万亿次(Petaflops)计算机(IBM Roadrunner)出现,我们期待8年后,也就是2016年,千万亿次超级计算时代的真正到来,也就是说千万亿次将是全球TOP500排行榜的入门槛。
千万亿次计算时代意味着什么?所谓千万亿次计算是指每秒进行1千万亿次双精度浮点运算,这是当前中国服务器企业研制的最快超级计算机曙光5000A 系统的近6倍。如果说在10万亿次计算时代我们可以基于商品化处理器部件、交换部件、存储部件、开源操作系统等构建工业标准化机群来满足我们在计算密集、I/O密集等多个领域的应用需求,那么在未来的几年,伴随应用对计算能力的进一步需求,例如,在生物医学领域进行蛋白质电子态的计算、药物发明中的遴选过程、蛋白质折叠等需求、航空航天制造领域进行的发动机燃烧模拟和机翼设计模拟、气象领域的短期天气预报、局部突发性灾难预报(如洪水、海啸)、核能领域的完全等离子分析、纳米技术领域的复合材料结构分析和功能预测、新材料的发明、天体物理学领域的超新星三维模拟等这些应用都需要持续100 T flops以上的计算性能,有些应用甚至需要1Petaflops的持续应用性能,我们再基于机群架构来构建高性能计算机,不仅面临扩展性、可靠性、均衡性、可编程性、管理复杂性等诸多挑战,其中功耗已经成为制约千万亿次超级计算机系统研发的主要因素之一。
“当前每个节点耗电在300到1500瓦之间,而一个机柜耗能在20到30千瓦左右。以百万亿次超级计算机-曙光5000A为例,其采用近4000颗四核处理器构建,总内存容量达64TB,存储容量达500TB,总体功耗达到700千瓦,其每年的电费开销预期将高达1000万元人民币以上,这个效能数字虽然在世界目前的高性能计算机里面已经是相当优越的了,但依旧让我们普通人感到十分震惊,而2010年一台持续千万亿次超级计算机系统可能需要消耗20兆瓦或更高的功耗,其每年的电费开销也将高达1亿元人民币以上。” 国家高性能计算机工程研发中心副主任 曾宇给我们算了这样一笔帐。
1亿元!当前全球恐怕也找不出几个实验室能满足这样的能耗要求吧!同时能源的价格也在飞速增长,未来千万亿次超级计算机系统的能源消耗预期可能将远高于以上估算,因此我们不难发现,高性能计算机的“效能关”已经实实在在的摆在了我们的面前,只有不断提高HPC的能效,我们的千万亿次才能普及,而不是只能局限在部分领域的“科技奢侈品”。 而对于这一点我们的政府直管部门已经清楚地认识到了,并已经在前不久投入了专项资金来进行高效能计算机方面的研究,从而为我国在高性能计算机进一步突破打下坚实的基础。
高性能到高效能的“技术关”
目前我国最快的高性能计算机曙光5000A的系统使用率将达到70%以上,Linpack值将达到160T以上,另外计算节点16核SMP,胖节点达到32核SMP,单核心可用内存高达128G, 同时实现了单节点内的多路并行,这些都保证的曙光5000的超高的计算效能,也是曙光5000A值得称道的一点,但是我们也不得不看到,随着IBM千万亿次的突破,我国发展千万亿次的目标迫在眉睫,而这其中能效自然是无法回避的难题,而从高性能思路转向高效能思路我们首先要面对的是“技术关”,那么我国现在在高性能效能方面的技术又是什么情况呢?
长期以来,业界在服务器节能技术方面做了大量的努力,研究主要集中在三个方面:芯片级节能技术,如CPU功耗控制、CPU频率调整、芯片级冷却技术、低功耗专用芯片部件等;基础架构级节能技术,如存储致冷、高效率电源、水冷及液态金属致冷机柜、智能温控风扇等;系统级节能技术,如基于作业调度的机群节点休眠、面向能耗的进程及作业级迁移等。
基于芯片级节能技术主要包括CPU功耗控制、CPU频率调整和专用低功耗部件。
CPU加工工艺的不断提升,多核及CPU中集成内存控制器,在提高性能的同时,降低了主板芯片组的功耗。另一方面,通过降低电压和频率也可以降低CPU的动态功耗,在CPU功耗控制方面,如Intel推出的动态功耗节点管理器(Dynamic Node Management)是一个内嵌于英特尔服务器芯片组的带外 (OOB) 功率管理策略引擎。它与 BIOS 和操作系统功耗管理 (OSPM) 协作,动态地调整平台功耗,从而实现服务器)性能/功耗的最大化。在专用低功耗部件研究方面,包括上海澜起公司研发的高级内存缓存AMB芯片、SSD固态电子硬盘等技术与产品。
基础架构级节能技术主要包括液冷、存储制冷、高效能电源、高效能散热冷却技术等诸多技术。
高效能散热冷却技术包括研究效率更高的散热方式和性能更好的冷却设备,如HP PARSEC体系结构(Parallel Redundant Scalable Enterprise Cooling)、IBM的机房冷却系统等。存储制冷(Stored Cooling)指预先基于制冷设备存储部分制冷能力,在需要时再有效释放,类似电池的储电功能,如IBM基于存储冷却技术的机房冷却方案。液冷技术包括水冷及液态金属制冷,由于其导热能力强并且热容更大,能够更快的缓解负载突变造成的散热压力并吸收更多的热量,在当前大型计算机中使用越来越普遍,如IBM Cool Blue机柜系统。
在解决功耗方面,除采用上述CPU功耗控制、CPU工作频率调整、液体冷却、低功耗专用芯片、芯片级冷却等技术以外,学术界和企业界也在研究系统级节能技术和产品,包括:基于负载情况动态调整系统状态、实施部分节点或部件的休眠;根据各进程能耗的不同对CPU任务队列进行调整,如将一些产生较多热量的任务从温度较高的CPU上迁移到温度较低的CPU上从而实现能耗的均衡。如国家高性能计算机工程技术研究中心开发的自适应功耗管理系统,可实现基于能效的作业调度策略,IBM PowerExecutive允许用户 “ 计量 ” 任何单一物理系统或一组物理系统的实际电力使用数据和趋势数据,并可对实际用电量进行监视,并在系统、机箱或机架层次上对数据中心中的电耗和热耗进行有效分配。
芯片级、基础架构级以及系统级节能确实能够节约部分功耗,但并不能提高机房的冷却效率,高性能计算机系统中节能和散热冷却是紧密结合在一起的,基于服务器能耗监控和制冷设备的联动可以提升冷却系统的效率,实现精确制冷。服务器能耗监控和制冷设备的联动基于完整的机房散热模型,评估机房的散热效率,并根据散热模型计算相应制冷量,调整空调的风压和风速、液冷机柜的温度、流速、机柜风扇转速以实现精确制冷的需求。
当前全球最快性能Top 500超级计算机其每瓦Gflops性能都在0.5以下,未来高效能计算机系统,其每瓦Gflops性能应在1.0GFlops per watt 以上,当前混合异构体系结构、自主节能管理、应用加速、系统级节能等技术的发展正推动这一目标的逐步实现。
可以说,未来服务器系统的节能必将向芯片、基础架构、系统、机房制冷联动全方位发展,包括芯片级节能技术、低功耗专用芯片、芯片级冷却、应用加速、液体冷却、CPU频率动态调整、功耗限制、实施部分节点或部件的休眠、根据各进程能耗的不同对CPU任务队列进行调整、基于能效的作业调度策略、基于散热模型的机房制冷联动等诸多方面。
技术节能到高效能标准才是真正的飞跃
服务器的发展发展离不开基准程序测试。有效的基准程序测试不仅可以更好的服务器的性能,更重要的是可以实现以应用效率为导向的服务器能效评价体系,而非单一的功耗度量准则,进而引导服务器厂商在高效能计算机方面进行有效的尝试。当前在服务器能效评价标准及技术方面,主要有SPECpower_ssj2008、Green Top500以及Green Grid三种评价方式,其中SPECpower_ssj2008是国际标准性能评估机构(SPEC)发布了SPECpower_ssj2008,这是业界第一项用于评测系统级别服务器的与运算性能相关的功耗基准测试工具, SPEC设计的SPECpower_ssj2008不仅可以作为一项指标来比较不同服务器之间能耗和性能,还可作为提高服务器效率的工具集来使用。而Green Top 500作为TOP500排行榜的补充,其以MFLOPS/Watt(百万次浮点运算/瓦特)来统计其性能功耗比则更加看重的是TOP500内大型集群们的能耗表现。对于能耗标准,我们不得不提的还有2007年成立的行业协会Green Grid 开发了测量数据中心效率和生产力的标准,如图所示。指标PUE(Power UsageEffectiveness,电力使用效率)=总设施耗电量与IT设备耗电量之比。应当小于2,越接近1越好;指标DCiE(DataCenter infrastructure ,数据中心基础设施效率)=IT设备耗电量x100与总设施耗电量之比,数字越大越好。这两项指标被用于将数据中心消耗在供电和冷却上的电量与数据中心的IT设备使用的电量进行比较。Green Grid最终希望为数据中心拿出一个类似于汽车每加伦英里数的指标,不过,采集能耗数据以及应用这两项指标,使其可被应用于不同机构的数据中心效率上,仍有很多工作要做。
Green Grid 评价指标
我们通过目前流行的能效评价标准不难发现这样三个问题,首先,随着我国首台突破百万亿次高性能计算机曙光5000A在效能方面的突破,标志着我国完全有能力制定能效评价标准,由国内标准走向国际标准。其次,作为国际上流行的能效评价标准发展时间并不长,我们的入门门槛并不高,只要抓住目前节能环保的大环境,我国的能效评价标准将取得长足的进步,进而引导更多行业标准的制定和出台,我们必须认识到只有制定属于我们的标准,得到行业的认可,才意味着我们拥有了核心竞争力,在高效能服务器的发展方面才不会受制于人,而丧失主动性。最后我们也必须清楚的看到服务器的能效和应用的需求密不可分,服务器能效在限制应用范围的同时,应用需求也拉动了服务器能耗技术的发展和创新,因此以应用效率为导向的服务器能耗标准的出台,不仅是单纯的功耗度量准则,更重要的是有效提升了我国高性能计算机的普及和发展,大幅度提升我国高性能计算机的国际竞争力。