科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道曙光:要高性能 更要高效能

曙光:要高性能 更要高效能

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

我们必须清楚的认识到千万亿次不仅仅是数量上的升级,技术上面对的挑战我们不能忽视,而其中关于能耗的问题则是我们考虑的重中之重

来源:ZDNet 2008年12月9日

关键字: 高效能 高性能计算 曙光

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共2页)

百万亿次到千万亿次的“能效关”

从近年来全球TOP500高性能计算机排行榜来看,TOP500中几年来第1名和第500名均保持6-8年的时间,也就是说当今的第一名在6-8年后则排名到第500名,而8-10年后微处理器芯片就可达到本年度TOP第500名的浮点性能。2008年6月,全球第一台Linpack测试峰值千万亿次(Petaflops)计算机(IBM Roadrunner)出现,我们期待8年后,也就是2016年,千万亿次超级计算时代的真正到来,也就是说千万亿次将是全球TOP500排行榜的入门槛。

千万亿次计算时代意味着什么?所谓千万亿次计算是指每秒进行1千万亿次双精度浮点运算,这是当前中国服务器企业研制的最快超级计算机曙光5000A 系统的近6倍。如果说在10万亿次计算时代我们可以基于商品化处理器部件、交换部件、存储部件、开源操作系统等构建工业标准化机群来满足我们在计算密集、I/O密集等多个领域的应用需求,那么在未来的几年,伴随应用对计算能力的进一步需求,例如,在生物医学领域进行蛋白质电子态的计算、药物发明中的遴选过程、蛋白质折叠等需求、航空航天制造领域进行的发动机燃烧模拟和机翼设计模拟、气象领域的短期天气预报、局部突发性灾难预报(如洪水、海啸)、核能领域的完全等离子分析、纳米技术领域的复合材料结构分析和功能预测、新材料的发明、天体物理学领域的超新星三维模拟等这些应用都需要持续100 T flops以上的计算性能,有些应用甚至需要1Petaflops的持续应用性能,我们再基于机群架构来构建高性能计算机,不仅面临扩展性、可靠性、均衡性、可编程性、管理复杂性等诸多挑战,其中功耗已经成为制约千万亿次超级计算机系统研发的主要因素之一。

“当前每个节点耗电在300到1500瓦之间,而一个机柜耗能在20到30千瓦左右。以百万亿次超级计算机-曙光5000A为例,其采用近4000颗四核处理器构建,总内存容量达64TB,存储容量达500TB,总体功耗达到700千瓦,其每年的电费开销预期将高达1000万元人民币以上,这个效能数字虽然在世界目前的高性能计算机里面已经是相当优越的了,但依旧让我们普通人感到十分震惊,而2010年一台持续千万亿次超级计算机系统可能需要消耗20兆瓦或更高的功耗,其每年的电费开销也将高达1亿元人民币以上。” 国家高性能计算机工程研发中心副主任 曾宇给我们算了这样一笔帐。

1亿元!当前全球恐怕也找不出几个实验室能满足这样的能耗要求吧!同时能源的价格也在飞速增长,未来千万亿次超级计算机系统的能源消耗预期可能将远高于以上估算,因此我们不难发现,高性能计算机的“效能关”已经实实在在的摆在了我们的面前,只有不断提高HPC的能效,我们的千万亿次才能普及,而不是只能局限在部分领域的“科技奢侈品”。 而对于这一点我们的政府直管部门已经清楚地认识到了,并已经在前不久投入了专项资金来进行高效能计算机方面的研究,从而为我国在高性能计算机进一步突破打下坚实的基础。

高性能到高效能的“技术关”

目前我国最快的高性能计算机曙光5000A的系统使用率将达到70%以上,Linpack值将达到160T以上,另外计算节点16核SMP,胖节点达到32核SMP,单核心可用内存高达128G, 同时实现了单节点内的多路并行,这些都保证的曙光5000的超高的计算效能,也是曙光5000A值得称道的一点,但是我们也不得不看到,随着IBM千万亿次的突破,我国发展千万亿次的目标迫在眉睫,而这其中能效自然是无法回避的难题,而从高性能思路转向高效能思路我们首先要面对的是“技术关”,那么我国现在在高性能效能方面的技术又是什么情况呢?

长期以来,业界在服务器节能技术方面做了大量的努力,研究主要集中在三个方面:芯片级节能技术,如CPU功耗控制、CPU频率调整、芯片级冷却技术、低功耗专用芯片部件等;基础架构级节能技术,如存储致冷、高效率电源、水冷及液态金属致冷机柜、智能温控风扇等;系统级节能技术,如基于作业调度的机群节点休眠、面向能耗的进程及作业级迁移等。 

基于芯片级节能技术主要包括CPU功耗控制、CPU频率调整和专用低功耗部件。

CPU加工工艺的不断提升,多核及CPU中集成内存控制器,在提高性能的同时,降低了主板芯片组的功耗。另一方面,通过降低电压和频率也可以降低CPU的动态功耗,在CPU功耗控制方面,如Intel推出的动态功耗节点管理器(Dynamic Node Management)是一个内嵌于英特尔服务器芯片组的带外 (OOB) 功率管理策略引擎。它与 BIOS 和操作系统功耗管理 (OSPM) 协作,动态地调整平台功耗,从而实现服务器)性能/功耗的最大化。在专用低功耗部件研究方面,包括上海澜起公司研发的高级内存缓存AMB芯片、SSD固态电子硬盘等技术与产品。 
 
基础架构级节能技术主要包括液冷、存储制冷、高效能电源、高效能散热冷却技术等诸多技术。

高效能散热冷却技术包括研究效率更高的散热方式和性能更好的冷却设备,如HP PARSEC体系结构(Parallel Redundant Scalable Enterprise Cooling)、IBM的机房冷却系统等。存储制冷(Stored Cooling)指预先基于制冷设备存储部分制冷能力,在需要时再有效释放,类似电池的储电功能,如IBM基于存储冷却技术的机房冷却方案。液冷技术包括水冷及液态金属制冷,由于其导热能力强并且热容更大,能够更快的缓解负载突变造成的散热压力并吸收更多的热量,在当前大型计算机中使用越来越普遍,如IBM  Cool Blue机柜系统。

在解决功耗方面,除采用上述CPU功耗控制、CPU工作频率调整、液体冷却、低功耗专用芯片、芯片级冷却等技术以外,学术界和企业界也在研究系统级节能技术和产品,包括:基于负载情况动态调整系统状态、实施部分节点或部件的休眠;根据各进程能耗的不同对CPU任务队列进行调整,如将一些产生较多热量的任务从温度较高的CPU上迁移到温度较低的CPU上从而实现能耗的均衡。如国家高性能计算机工程技术研究中心开发的自适应功耗管理系统,可实现基于能效的作业调度策略,IBM PowerExecutive允许用户 “ 计量 ” 任何单一物理系统或一组物理系统的实际电力使用数据和趋势数据,并可对实际用电量进行监视,并在系统、机箱或机架层次上对数据中心中的电耗和热耗进行有效分配。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章