中国的飞腾-火星CPU到底是不是在吹牛?

在最近于美国召开的顶级处理器技术研讨大会HOT CHIPS 27(第27届)上,来自中国的广州飞腾信息技术有限公司(Phytium Technology),着实让与会者眼前一惊,其发布的基于ARMv8指令集架构的火星(Mars)处理器被高度关注。

ZD至顶网服务器频道 08月28日 评论分析(文/赵效民):在最近于美国召开的顶级处理器技术研讨大会HOT CHIPS 27(第27届)上,来自中国的广州飞腾信息技术有限公司(Phytium Technology),着实让与会者眼前一惊,其发布的基于ARMv8指令集架构的火星(Mars)处理器被高度关注。这方面国内已经有很多媒体率先进行了报道,并将对比目标无一例外的指向了当今处理器的老大英特尔,以飞腾给出的评测数据为基准,强调了可以与当今最新的英特尔至强E5、E7处理器媲美。

不过也有的媒体觉得这可能又是一个吹牛的产品,可能中国在CPU方面的研发长期给人一种负面印象,所以这种感觉可以理解,那么飞腾是不是吹牛呢?我们就来仔细看看。

首先这个飞腾公司的确与之前广为人知的飞腾处理器有密切的渊源,它是飞腾处理器研发者——中国国防科学技术大学(NUDT)高性能处理器研究团队建立的企业。要知NUDT是目前全球最快的高性能计算机“天河二号”的研制单位,所以技术实力毋庸置疑。而这次也是飞腾处理器全面转向ARM架构的第一次亮相,但飞腾公司本身显然没有完全进入状态,打开他们的网站还是下面这个状态,看来这个官网似乎也是为HOT CHIPS大会准备的。

中国的飞腾-火星CPU到底是不是在吹牛?
飞腾公司的网站,点击产品一栏,还是这样的页面……

不过,不太重视市场宣传文档的建设是中国科技企业的传统,笔者今天就不在此多说了,下面先看看处理器本身的设计。

其实飞腾正在研发的有两款处理器,火星只是其一,另一款叫“地球”(Earth),两款CPU各自负责不同的领域,简单来说,火星更为高端,为Scale-Up做好了准备,而地球则更偏向于Scale-Out,但实际应用中,肯定不会这么绝对划分。

中国的飞腾-火星CPU到底是不是在吹牛?
飞腾正在研发的有两款处理器——火星与地球,面对不同的应用需求,火星明显更为高端,但两者在不少应用领域有所交叉覆盖

对于火星处理器本身,采用定制授权的AMRv8架构,大家都知道ARMv8有三个架构——Cortex-A53、A57、A72,但飞腾自己开发了ARMv8兼容架构,并不是上面的任何一款,这也体现出了中国在ARM领域的最高研发能力。

中国的飞腾-火星CPU到底是不是在吹牛?
火星处理器的基本规格,特别指出了浮点计算性能可达512GFLOPS

火星处理器的基本规格,64个代号为小米(此小米非彼小米)的处理器核心分布在8个核心模块(Panel),每个核心模块都有自己的缓存与内存控制芯片(CMC,Cache & Memory Chip),每个CMC内置3级缓存,并连接两个DDR3-1600内存通道,但CMC的聚合带宽为25.6GB/s,一共8个CMC,总聚合内存带宽为204.8GB/s,这个带宽已经超过了目前的至强E5V3和E7V3,前者采用4通道DDR4-2133设计,带宽68GB/s,后者4通道内存缓冲设计,最高速率3200MT/s(与内存规格无关),带宽102GB/s。不过这个带宽要小于IBM的POWER8,后者为230GB/s,但高于国产化的POWER处理器CP1(115GB/s)。

在缓存容量方面,火星处理器64个核心,二级缓存为32MB,平均每个核心512KB,与POWER8相当,高于至强处理器的每核心256KB的设计,而在CMC上还有总共128MB的L3缓存,平均每核心2MB,少于至强处理器的平均2.5MB,以及POWER8的平均8MB,所以说各有所长。

在I/O方面,火星处理器集成了两个PCIe 3.0x16控制器,I/O带宽达32GB/s,不过在这张图上,还看不出CPU之间的互联设计。

目前火星处理器采用28纳米生产工艺,主频为2GHz(要知道22纳米工艺18核心的E5V3-2699,主频是2.3GHz)可能未来会在台湾以更先进的工艺生产,封装引脚数量达3000pin,最高功耗120W,低于E5与E7的顶级型号。

中国的飞腾-火星CPU到底是不是在吹牛?
火星处理器的每个核心模块的架构,包含8个小米核心

在每个核心模块(Panel)里,可以看出是一个对称架构,中间是路由单元,8个小米核心以路由单元为界上下分为两组,每4个小米核心共享2MB的二级缓存,每个小米核心支持AArch32与AArch64运行模式,采用基于目录的缓存一致性设计,每组小米核心,置于目录控制单位(DCU,Directroy Control Unit)管理之下。

中国的飞腾-火星CPU到底是不是在吹牛?
火星处理器的小米核心架构

在每个小米核心的内部设计,可以看到有4个指令解码器,两个用于浮点计算的FP/SIMD单元,全面支持乱序执行,而流水线也较短,这也是RISC架构核心的一个特点。火星处理器宣称的双精度浮点计算性能可达512GFLOPS(64核心x每周期4运算x2GHz主频),这个性能远高于目前的至强E5V3(按2699V3规格,配合AVX2,理论浮点性能大约为350GFLOPS)和POWER8(12核心规格,理论性能大约337G左右)。那么真正的性能如何呢?对此,飞腾也给出了火星实际的测试数据,而在国内媒体的报道中,更有这样的字段:相比之下,Intel目前最强的处理器Xeon E7-8890v3和Xeon E5-2699v3的整数、浮点成绩分别是680和460,"火星”的性能足以与它们媲美。

这个性能不知道是飞腾方面提供的,还是媒体自己找的,下面我就通过SPEC网站上的数据进行整理,来看看火星处理器到底处于什么水平,除了英尔的至强E5、E7外,我还拉来了IBM的POWER8,我相信它肯定也在火星的火力范围之内,而各平台最佳性能收集截止日期为2015年8月28日。

中国的飞腾-火星CPU到底是不是在吹牛?
飞腾公司公布的火星处理器SPEC测试成绩,我们按rate_base值来理解

需要指出的是,没有看到任何国外的相关报道指出飞腾发布的数据是双CPU的数据,所以我认为这是单颗CPU的成绩,因此在至强与POWER8的成绩收集中,我也只列出单CPU的成绩,没有现成的成绩,则以最好的双插槽的成绩除以2来获得近似值,而这个值基本上会低于实际的单CPU性能,所以在此谨供参考。

中国的飞腾-火星CPU到底是不是在吹牛?
整数性能测试对比,标红星的是预估值

可以看出,媒体给出的整数性能数据有所偏差,至强E5/E7均达到了690多,而POWER8的单CPU成绩则在火星之下,总体来说火星的表现的确不错。

中国的飞腾-火星CPU到底是不是在吹牛?
浮点性能测试成绩,标红星的是预估值

可以看出,媒体给出的E5浮点性能是对的,但E7由于核心频率更高,反而超过了E5,但基本上没有人会大规模用E7来做浮点运算,而POWER8则体现出了更好的性能,不过优势微弱,总体来说火星处理器的表现已经相当不错了。

综上所述,笔者觉得飞腾公司所推出的火星处理器,在总体规格与性能上并没有吹牛,的确达到了当前CPU的高端水平,已经可以与顶尖的E5/E7/POWER8进行较量。从这个角度上说,要予以足够的肯定!要不然为什么会惊动HOT CHIPS的现场嘉宾,并获得广泛报道呢?

但是,问题在于真实的大规模应用不可能是单CPU为主的,可惜我们还没有看到火星的CPU互联设计。据分析,火星的未来目标之一是32插槽大系统,所以如果高效的互联将是一大关键,而这才是更考验整体系统水平的。所以在一点没有获得更多的信息时,我们还要保持冷静,单CPU的性能可比肩,还不能意味着系统性能可比肩,在这里笔者期待不远的将来获得更多的好消息。当然,系统性能跟上也只是一小步,后面还有广袤的生态环境需要建设,以现有的程度,综合来看,想要替换掉至强甚至POWER,还属于非常初级的阶段,从这个角度来说,还是无法媲美的。

火星与地球,一起加油,让中国的CPU真正飞腾起来吧!

来源:ZD至顶网服务器频道

0赞

好文章,需要你的鼓励

2015

08/28

21:51

分享

点赞

邮件订阅
白皮书