科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道高性能计算以HPC为支点 照向全球的“曙光”

以HPC为支点 照向全球的“曙光”

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

提起中科曙光(下文简称曙光),估计大多数业内人士的第一个印象就是高性能计算(HPC,又称超级计算)。没错,曙光公司有着25年高性能计算的丰富经验,从创立到2003年就已经交付了1000套HPC系统,这在当时的中国IT企业中绝无仅有。

来源:ZDNetserver频道【原创】 2015年7月23日

关键字: 曙光 HPC 高性能计算

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共3页)

ZDNet至顶网服务器频道 07月23日 (文/赵效民):提起中科曙光(下文简称曙光),估计大多数业内人士的第一个印象就是高性能计算(HPC,又称超级计算)。没错,曙光公司有着25年高性能计算的丰富经验,从创立到2003年就已经交付了1000套HPC系统,这在当时的中国IT企业中绝无仅有,说它是当时中国的克雷(Cray)也并不为过。

2014年11月6日,中科曙光正式登陆中国A股市场,而此时的曙光也早已不再以HPC一技之长安身立命了,大数据、云计算也已经成为了其身上显著的标识。在今年3月份,曙光正式提出了“数据中国”战略,并在行业云、智慧城市等方面发出了更多的声音,这一切都代表了其自身业务进一步向多元化拓展的转变。不过,在曙光多元化业务拓展的背后,可以感觉到,HPC仍然是其坚固的业务基石,并将在其未来的国际化的道路上扮演重要的角色。

曙光的HPC基因与实力

全球每年有两个国际级HPC大型会议,分别是在德国举行的ISC(国际超级计算会议)与在美国举行的SC,著名的HPC TOP500排名就分别在这两个会议上发布当年的上下两期的榜单。而它们也是曙光近几年最为热衷参加并赞助的国际IT会议,由此也可以看出HPC在其总体业务国际化拓展中的地位。

至于曙光的HPC实力到底有多强,我们可以先看一看历史和一些数据。在本次ISC2015大会上所公布的第45期TOP500榜单中,曙光有5套HPC系统上榜,在中国IT厂商中名列榜首(如果按绝对的厂商排名,联想是中国第一,但由于联想基本上是继承了原来IBM x86 HPC的成果,在笔者看来不能算作是真正中国IT厂商的业绩,事实上纯以联想挂名的HPC上榜系统为3套,都部署在欧洲)。其中最早的系统可以追溯到2008年9月建成的,部署于上海超算中心的“魔方”(Magic Cube),即曙光5000A,在2008年11月TOP500榜单中名列第10,目前仍然排名第436位。而第一次进入TOP500前10名的中国自主研发的HPC系统,则是2004年上半年第23期榜单中的曙光4000A,部署于上海超算中心,当时位列第10。

2010年,曙光为深圳超算中心打造的曙光6000(代号星云“Nebulae”)在第35期TOP500榜单(2010年6月)中与冠军失之交臂,以0.5PFLOPS的RMax性能差距惜败于Cray的Jaguar(不过如果按RPeak性能排名,Nebulae则是第一)。而在2008,国内其他IT厂商只有联想的深腾7000上榜(排名第19),但深腾7000所用的服务器全部是IBM的System x,因此就国产服务器角度来讲,曙光是当之无愧的第一,而同样采用自主研发服务器上榜的另一家中国厂商的出现,则是两年之后(2010年)首次上榜的浪潮(排名第239)。

目前仍然在TOP500中出现的中国IT厂商中(由于国防科学技术大学的特殊身份,没有将其归入IT厂商范畴),除了收购IBM x86服务器资产的联想外,浪潮(2013年)与华为(2015年)各只有一套。在2015年新系统里,部署在中国的5套上榜系统中,曙光就占了3套,虽然可能有的人会说,很多厂商建造的HPC系统并没有参加TOP500的评选,但曙光也同样有这样的情况,所以TOP500的排名仍然能说明问题。

在ISC 2015的第二天,世界知名的市场数据调研公司IDC,还公布了全球HPC系统供应商的2014年全年与2015年第一季度的销售额排行榜(这个销售额不仅仅是服务器,还包括HPC基础平台软件与相关服务费用)。从中可以看到,曙光公司在2014年的HPC系统总销售收入排名全球第6(2.17亿美元),稳列中国厂商第一,甚至高于日本富士通、NEC以及法国Bull等传统HPC大厂。而在2015年第一季度的销售额,更是领先于美国老牌的克雷公司。

以HPC为支点 照向全球的“曙光”IDC公布的全球HPC系统供应商销售排名,2014年曙光名列全球第六,中国第一

根据曙光公司今年4月10日公布的2014年财报,其2014年全年销售额是27.9亿元人民币,按照IDC公布的数据,其HPC业务的销售收入约为13.5亿元人民币,将近占到了总营收的一半,从这点就可以看出曙光骨子里的HPC基因有多强大。

率领曙光团队参加ISC 2015大会的曙光总裁助理,兼高性能产品事业部总经理曹振南自豪的表示,这种基因上的优势是其他公司很难具备的,这其中主要可以归纳为两点。第一个就是公司战略与企业文化,“举个很简单的例子,一个HPC单子可能需要下好几年的功夫,因为它是考验内功的,但如果公司基因就是要看短期业绩,很多HPC项目是做不下去的。”曹振南说到,“这种企业文化是每家公司从建立之初就固化下来的,在后期很难改变,或者说改起来很痛苦。反过来,如果能吃得了HPC的苦,再做其他的IT解决方案,比如云和大数据等,则不会有什么水土不服,这是曙光的一大优势。”

以HPC为支点 照向全球的“曙光”曙光总裁助理,兼高性能产品事业部总经理曹振南,亲身参与了多个曙光重大的HPC项目

另一方面,因HPC起家而建立起来的企业文化,也对HPC技术人员有着更强大的吸引力,这也让曙光在后继的人才队伍上有着更好的积累,并最终反映在产品设计与HPC业务执行上。“虽然我们相对于国际知名厂商和部分国内厂商的企业规模并不大,但在HPC领域我们则有着最好的业务环境”,曹振南接着解释到,“因为我们非常重视HPC业务,但这块业务可能在其他公司就不那么被看重,给相应的从业人员的感觉也就大不相同。”而人才的汇集,也让曙光逐渐具备在HPC竞争中的第二个优势,即HPC的产品研发。

“我们这款刀片就是专门为HPC开发的,这在其他中国厂商里是看不到的,”曹振南拍着展台上TC4600E-LP刀片机箱笑着对我说到,“这可是中国第一台商品化的直通液冷刀片服务器,它就是为HPC设计的”。与传统的TC4600E相比,TC4600E-LP高度增加了1U(TC4600E机箱高度为5U,TC4600E-LP机箱高度为6U),而这多出来的1U就是为液冷设计准备的,其他的部分则与TC4600E完全相同(比如最显著的网络交换模块直联设计,这对于HPC应用至关重要)。

以HPC为支点 照向全球的“曙光”TC4600E-LP的6U机箱,可插10个刀片,按照整体HPC方案的配置,1个42U的机架可部署6台机箱,最多共60个刀片(可以是CPU或是GPU液冷刀片)

以HPC为支点 照向全球的“曙光”TC4600E-LP的前身TC4600E可以说是专门为HPC设计(据曙光工作人员介绍,它是目前曙光HPC方案的销售主力机型),这一点从机箱背板设计就可以看出来,最上层是10个InfiniBand直联模块对应10个刀片服务器而无需中板中转,这在当前IniniBand速度不断攀升的趋势下(最高已达100G),对于保证InfiniBand的速率稳定性有非常大的帮助,而在最下方多出的1U高度留给了统一的冷热分离的集中交换器,它将10个刀片的排出的热水与供给刀片的冷却水在总体I/O层面各自进行了整合与简化,并采用了后端设计,有效降低了液冷维护难度

以HPC为支点 照向全球的“曙光”机箱刀片插槽的中板设计(空出了两个刀片槽位),最下方的两个圆形接口就是液冷I/O阀口

以HPC为支点 照向全球的“曙光”TC4600E-LP刀片内部设计,用液冷模块代替了传统的金属散热器,除了通用的CPU刀片外,曙光目前还推出液冷的CPU+GPU与CPU-MIC(Xeon Phi)的异构计算刀片,采用了双槽位设计(本次展会并未展出)

以HPC为支点 照向全球的“曙光”TC4600E-LP刀片尾部特写,与传统TC4600E刀片相比,主要的区别是刀片下方(按刀片插入的形态,即图中的右侧)的液冷I/O阀口,它占用了多出来的1U高度。需要指出的是,传统5U高的TC4600E刀片仍然可以插入TC4600E-LP机箱里,与TC4600E-LP刀片混合使用

当然,TC4600E-LP不可能单独部署,必须配合相应的液冷机柜使用,根据其技术规格介绍,液冷部分的PUE值可达1.1,风冷部分PUE值可达1.6,整机综合PUE可达1.2。曹振南进一步介绍到,TC4600E-LP已经有了第一个商业化案例,这就是由中科院大气所主导设计的“地球系统数值模拟装置”,在本届ISC也将会有重点的介绍,在本期TOP500排名中,位列第95位,可算是中国国内采用液冷技术的HPC系统的最高排名。而在今年,曙光将把液冷HPC系统作为一个重点的推广产品,以期能进一步体现曙光HPC解决方案的差异化与技术优势。

不过,说到“地球系统数值模拟装置”又引出了液冷之外的,另一个曙光创新——3D Torus互联架构,虽然在国际上已不算新鲜(最高已经有6D互联架构),但在中国自主研发的商品化HPC产品中尚属首创。

以HPC为支点 照向全球的“曙光”曙光3D Torus互联架构示意图,图中的“圆球”代表一个交换互联节点(可以理解为HPC交换机),其以三维的6轴方向(X+/X-/Y+/Y-/Z+/Z-)进行互联节点间的互联,而每个交换节点又各连接14个计算节点与4个I/O节点,相当于每个维度方向有三个节点。基于3D-Torus架构,曙光开发出了硅立方(Si-Cube),成为了“地球系统数值模拟装置”的承载平台

以HPC为支点 照向全球的“曙光”曙光3D-Torus互联架构与“地球系统数值模拟装置”的运算架构相得益彰,最大限度满足了相关应用的通信 需求,而TC4600E-LP液冷刀片就是最基础的计算节点,TC4600E-LP刀片机箱构成了基础的超节点,一个机柜级的完整液冷单元组成了基本的立方体,最终这些立方体互联形成了硅立方

其实仔细观察曙光的液冷刀片,并没有给我一种高大上的感觉,就做工而言比ISC2015上很多国外厂商的展示品的确要差一些,而3D-Torus架构也主要是在现有的InfiniBand交换机上进行软件改良而成,没有用到定制的ASIC芯片,就极致的互联效率来说,与国际顶尖的基于定制化ASIC的6D互联架构还有明显差距,但这其实也体现出了曙光的一个产品理念——以实用为主,以低成本为先。

以HPC为支点 照向全球的“曙光”在ISC2015的曙光展台,曹振南站在“地球系统数值模拟装置”的背景宣传墙前,一把大钥匙插入地球,象征着开启地球之锁,解开地球变迁之迷,而这也正是“地球系统数值模拟装置”的任务之一

“我们毕竟是一家商业公司,相比更有噱头的展示与宣传,我们更在意客户实实在在的需求,而客户对HPC系统的要求其实很简单,就四个字:便宜、好用!”,曹振南明确的说到。也因此,曙光的产品研发策略均在满足一定性能与可靠性需求的前提下,更注重产品的性价比,即性能与成本的平衡。比如这次的液冷HPC系统,就是曙光在有着悠久历史的水冷定制系统的基础上,进一步降低成本从而推向商业化市场的产品。而曙光的HPC基因在其成本战略中仍然有着重要的作用——单独的降低成本,而没有创新的设计,并不能获得最好的效果。

另一个能体现曙光在国产HPC领域创新能力的,就是基于龙芯处理器的服务器,“我们在龙芯平台上的技术积累,绝对是其他厂商所不能比拟的,很多龙芯服务器的概念设计都是由曙光完成的,”曹振南表示,“随着龙芯的不断成熟,龙芯HPC系统将是中国自主HPC系统的一个重要方向。”而在龙芯片平台上已经有长期布局的曙光,无疑也将受益于这一天的到来,届时即使有厂商想发力,可能就会发现已经与曙光有着几年的研发差距。“不要小看这种差距,它代表了无数个跟头与陷阱,只有真的走过去了,才知道是怎么回事,”曹振南介绍到,“曙光多年来在龙芯片上的积累,在未来了终将会成为一笔有形的财富。

以HPC为支点 照向全球的“曙光”2012年就已公开展示的,采用龙芯3B的曙光刀片与曙光6000刀片机箱

除了硬件平台之外,曙光HPC基因还体现在硬件之上的HPC应用平台领域,它同样有着自己深厚的积累。比如大规模服务器集群能耗控制软件 PowerConf、大规模服务器集群管理软件Gridview、HPC集群专业计费软件ClusQuota等,其中在集群管理与调度能力方面,曙光已经在中国HPC业界树立了良好的声誉。配合曙光的硬件平台以及专业的实施与服务队伍,可以为不同类型的HPC用户提供完整的解决方案,“在HPC整体解决方案与服务能力层面,曙光完全可以说是中国市场的领导者,”曹振南自信的表示,而曙光的下一个目标,则是进军国际市场,成为世界级的HPC领先厂商。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章