扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
以自主研发为看点的曙光“龙芯”刀片服务器于4月23日正式发布,标志着我国国产服务器全线自主化和国产化终于实现。曙光公司总裁历军先生表示,龙芯刀片的成功研发,点燃了自主CPU芯片产业化的星星之火,在更多合作伙伴的参与下,必将振兴国内IT产业(详情:曙光发布龙芯刀片服务器 点燃星星之火)。
曙光公司总裁历军(右)和龙芯总设计师胡伟武(左)发布龙芯刀片服务器
文章导读:
从路线图来看,曙光公司将于年内推出基于龙芯处理器的全线服务器产品(包括四路刀片、双路~四路机架,以及保密服务器等)。本文主要揭秘本次发布的龙芯刀片服务器CB50-A,以第一手的资料为您从实物细节,内部逻辑,以及所承载的应用三个方面做全面的解读。
从路线图上来看,CB50-A是探路先锋,2010年第三季度才是龙芯服务器的井喷期
龙芯刀片服务器产品不仅具有独立的自主知识产权,还具有安全、绿色、高效节能等特性,具有其通用性使得龙芯可以无缝平滑的运行x86架构Linux系统上的应用程序。其中,曙光公司主要负责了龙芯刀片服务器的主板设计,CPU采用了龙芯公司的LoongSon 3A CPU,BIOS系统则采用了曙光公司基于PMON二次开发的龙芯BIOS,运行着红旗Redflag Linux,是一款包括基础架构、通用处理器和操纵系统软件在内的完全自主知识产权的服务器产品。
实物拆解:揭秘龙芯刀片服务器内部结构
从众多媒体的关注度来看,此次龙芯刀片服务器的发布意义非常。那么,抛开战略层面的意义不谈,其产品究竟如何,我们就现场展示的实物来细细拆解:
首先是龙芯刀片CB50-A的机箱,乍看起来很眼熟,原来是曙光TC2600刀片服务器机箱(熟悉的朋友知道,著名的超级计算机“魔方”曙光5000A,采用的就是TC2600刀片机箱)
从规格上看,TC2600刀片机箱是典型的7U规格,能插入10个计算刀片,打造之初是为了支持双路/四路AMD皓龙处理器。由于使用了模块化设计,因而其后面的网络模块、管理模块可以按需求变更。与上图不同的是,我们可以从机箱事务上看到,CB50-A龙芯刀片前面板有着独特的设计——两个2.5寸硬盘位,一个VGA输出插槽,两个USB2.0接口。下面是这款刀片的鸟瞰:
从上图我们可以看到,CB50-A左下角是两个2.5寸硬盘位,右下和中间偏左分布着两路CPU模块——包括龙芯3A处理器和四个内存插槽——我们后面会介绍局部细节。中间右边到最上面的三个散热片下面分别覆盖着北桥AMD RS780E芯片和南桥AMD SB710,还有一个不得而知。
龙芯3A内部集成了两个DDR2 / DDR3内存控制器,因此可以看出CB50-A采用了双通道内存设计,单颗龙芯3A处理器支持四根DIMMs。更多内容请见后页对于CB50-A系统设计的相关解析。
说完刀片内部(更多详细阐述请见后页),我们来看看承载CB50-A刀片的TC2600的部件:首先是中板——它负责连接十个刀片与后部I/O模块、电源模块、管理模块等。
这是集成了十个PCI-E插槽的I/O插板,CB50-A刀片服务器采用了RS780E北桥接口,提供了一条x8速的PCI-E用作对外的I/O扩展。
非常有名的Infiniband交换模块,其规格有DDR和QDR两种。这里展示的是带宽相对较少的DDR模块,其速率可达20Gbps,如果更换速度更高的QDR交换模块, 速率可达40Gbps。
pass-through(直通)模块,用以配合infiniband网络交换模块,降低其延迟并提供灵活的加速传输性能
千兆网络交换模块
管理模块,较上一代有较大改进,并不是单纯的KVM系统,管理系统不再是简单的被动监视系统状态,而是智能的根据实时功耗,确定工作的电源数,使电源工作在最佳效率曲线上,并且在调整任务的时候,利用事件寄存器自动计算每个任务的功耗,并进行转移,从而真正意义上实现智能的数据中心管理。
电源模块,每个TC2600拥有6组
CB50-A龙芯刀片服务器内部设计结构详解
下图是过去的一年中,龙芯刀片服务器从研发到完成产品的过程。经历了短短1年的时间,龙芯刀片服务器CB50-A就研发成功,着实让人惊叹,但事实上基于龙芯处理器的产品规划和技术积累早就开始了。
例如CB50-A龙芯刀片服务器使用的龙芯3A处理器,采用65nm工艺制程,原生四核架构,主频1GHz,内含两条HT超传输总线和两个DDR2/3内存控制器,架构上不输于任何主流的x86架构处理器。
龙芯3A四核处理器
从上图,可以看到Core0~Core3四个原生处理器内核,以及Scache0~Scache3四个二级缓存,两条HT1.0超传输总线(姑且先按AMD的说法这么翻译),Xbar1~Xbar2是龙芯3出彩的地方——可以将之看作是与PCI-E、北桥沟通的控制器,笔者认为其一负责HT总线的调度,另一个负责L2缓存以及MC——这比L3级缓存效率要高(实际上还需要看应用);两组DDR2/3内存控制器。可以看出,龙芯3A处理器吸收了很多Intel和AMD处理器的设计特点。
既然是设计结构详解,下面我们就来展示一下CB50-A的系统原理图和PCB线路图——
我们细看局部,首先是处理器部分,见下图。可以发现,两个龙芯3A处理器以一主一从的关系布置于系统中(上面的是从属,下面的是主处理器)。这有点类似于协处理器的布置,两个处理器通过HT-0超传输总线进行互联通讯,而左侧的两个红框部分标出的是龙芯3A处理器的双通道内存——由于龙芯3A有两个内存控制器,因此每个处理器可以控制两组双通道内存,即4个DIMMs插槽。
在这张图中,笔者发现只有主处理器(Primary)通过HT-1超传输总线连接至北桥,因此可以推测从处理器的HT-1被屏蔽了,没有启用——可能是设计复杂度的问题,也可能是双路刀片的定位,其I/O瓶颈并不出现在CPU与外部的通讯。这种做法有点像AMD刚刚发布的12核心“马尼库尔”处理器,同样该处理器屏蔽了其中一个“6核die”的一条HT总线:
如图,马尼库尔屏蔽了slave从属内核的HT-port3这条超传输总线,原因大致与上面的推测相同
以下的结构就很常规了,CB50-A采用了AMD公司的北桥和南桥芯片,其中RS780E北桥芯片以低功耗特性普遍被应用在嵌入式和小型高清主板上(因为其集成了HD3200 GPU核心),而与之搭配的南桥SB710则为系统提供了丰富的I/O接口。也因此,我们可以看到在龙芯刀片服务器的前面板上有视频输出的D-SUB接口(VGA)。从规格来看,该芯片组还支持HDMI的高清输出,这也与龙芯系列产品未来面向消费电子领域推出“高清播放机”的策略相吻合。实际上,CB50-A因为是面向科学计算的高性能刀片,因此众多PCI-E总线被统一起来用作连接背板Infiniband、管理模块和千兆网络模块的通道(VHDM通道)。
主要的芯片和结构讲到这里,其他细节碍于篇幅不在这里赘述(有兴趣的朋友可以找来相关芯片的定义对照,自行领悟)。下面独家放出一张CB50-A龙芯刀片服务器的PCB设计图:
下面我们看看CB50-A具体能跑哪些应用。
CB50-A龙芯刀片服务器应用实例图解
作为刀片服务器,CB50-A龙芯刀片不可避免的会在未来承担起国内高性能计算领域的生力军。笔者归纳了龙芯刀片服务器目前已经可以顺利部署运行的相关HPC应用:
据曙光公司总裁历军先生表示,目前龙芯刀片服务器已经可以很好的运行以上这些HPC典型应用。而未来,龙芯服务器将面向中高低端三个方面推出自己的产品,届时将有更多的应用可以再国产CPU的服务器上部署,不论是安全性还是性价比都是一次长足的飞跃。
基于龙芯处理器的曙光服务器产品预报
从龙芯产品的路线图可以看出,本次发布的双路SMP龙芯刀片服务器的产品寿命预计为4年,即:龙芯刀片诞生(2010年)-> 步入市场(2010年) -> 用户接受发展(2011年~2012年) -> 销售量减少(性能更强多下一代龙芯刀片诞生)(2013年) ->淘汰(下一代龙芯刀片推出)(2014年)。而未来曙光将会推出基于龙芯处理器的Twins高密度刀片,双路和Twins机架服务器等,2010年底至2011年初则会推出四路SMP刀片和四路SMP机架服务器,还有为特殊单位定制的保密服务器等。
龙芯产品的路线图——注意,这只是企业级的路线图(我们会在后续介绍龙芯处理器的文章中揭秘其全线路线图)
机架服务器自然是市场上的主力军,龙芯产品将覆盖所有常见机架类型(甚至包括twins机架高密度服务器)
2008年曙光发布了个人高性能计算机PHPC100,近期将发布采用了20个龙芯四核处理器的曙光PHPC200,能效比更上一层楼
早在曙光5000A发布之初,我们就知道下一代曙光6000超级计算机将部分采用龙芯刀片,相信采用龙芯处理器的高性能计算集群会很快进入我们的视野,毕竟这才是国产龙芯处理器的强势领域
龙芯二号推广之初就是以防火墙产品面市的。实际上,由于龙芯完全自主研发,因此在很多安全领域对龙芯高性能防火墙的要求很强烈,相信未来采用龙芯3A处理器的高性能防火墙会受到国内企业的进一步青睐
自主知识产权,意味着龙芯处理器在国家安全领域、保密领域有着不可替代的优势,保密服务器也将是龙芯的拳头产品
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者