ZD至顶网服务器频道 08月28日 评论分析(文/赵效民):在最近于美国召开的顶级处理器技术研讨大会HOT CHIPS 27(第27届)上,来自中国的广州飞腾信息技术有限公司(Phytium Technology),着实让与会者眼前一惊,其发布的基于ARMv8指令集架构的火星(Mars)处理器被高度关注。这方面国内已经有很多媒体率先进行了报道,并将对比目标无一例外的指向了当今处理器的老大英特尔,以飞腾给出的评测数据为基准,强调了可以与当今最新的英特尔至强E5、E7处理器媲美。
不过也有的媒体觉得这可能又是一个吹牛的产品,可能中国在CPU方面的研发长期给人一种负面印象,所以这种感觉可以理解,那么飞腾是不是吹牛呢?我们就来仔细看看。
首先这个飞腾公司的确与之前广为人知的飞腾处理器有密切的渊源,它是飞腾处理器研发者——中国国防科学技术大学(NUDT)高性能处理器研究团队建立的企业。要知NUDT是目前全球最快的高性能计算机“天河二号”的研制单位,所以技术实力毋庸置疑。而这次也是飞腾处理器全面转向ARM架构的第一次亮相,但飞腾公司本身显然没有完全进入状态,打开他们的网站还是下面这个状态,看来这个官网似乎也是为HOT CHIPS大会准备的。
不过,不太重视市场宣传文档的建设是中国科技企业的传统,笔者今天就不在此多说了,下面先看看处理器本身的设计。
其实飞腾正在研发的有两款处理器,火星只是其一,另一款叫“地球”(Earth),两款CPU各自负责不同的领域,简单来说,火星更为高端,为Scale-Up做好了准备,而地球则更偏向于Scale-Out,但实际应用中,肯定不会这么绝对划分。
飞腾正在研发的有两款处理器——火星与地球,面对不同的应用需求,火星明显更为高端,但两者在不少应用领域有所交叉覆盖
对于火星处理器本身,采用定制授权的AMRv8架构,大家都知道ARMv8有三个架构——Cortex-A53、A57、A72,但飞腾自己开发了ARMv8兼容架构,并不是上面的任何一款,这也体现出了中国在ARM领域的最高研发能力。
火星处理器的基本规格,特别指出了浮点计算性能可达512GFLOPS
火星处理器的基本规格,64个代号为小米(此小米非彼小米)的处理器核心分布在8个核心模块(Panel),每个核心模块都有自己的缓存与内存控制芯片(CMC,Cache & Memory Chip),每个CMC内置3级缓存,并连接两个DDR3-1600内存通道,但CMC的聚合带宽为25.6GB/s,一共8个CMC,总聚合内存带宽为204.8GB/s,这个带宽已经超过了目前的至强E5V3和E7V3,前者采用4通道DDR4-2133设计,带宽68GB/s,后者4通道内存缓冲设计,最高速率3200MT/s(与内存规格无关),带宽102GB/s。不过这个带宽要小于IBM的POWER8,后者为230GB/s,但高于国产化的POWER处理器CP1(115GB/s)。
在缓存容量方面,火星处理器64个核心,二级缓存为32MB,平均每个核心512KB,与POWER8相当,高于至强处理器的每核心256KB的设计,而在CMC上还有总共128MB的L3缓存,平均每核心2MB,少于至强处理器的平均2.5MB,以及POWER8的平均8MB,所以说各有所长。
在I/O方面,火星处理器集成了两个PCIe 3.0x16控制器,I/O带宽达32GB/s,不过在这张图上,还看不出CPU之间的互联设计。
目前火星处理器采用28纳米生产工艺,主频为2GHz(要知道22纳米工艺18核心的E5V3-2699,主频是2.3GHz)可能未来会在台湾以更先进的工艺生产,封装引脚数量达3000pin,最高功耗120W,低于E5与E7的顶级型号。
在每个核心模块(Panel)里,可以看出是一个对称架构,中间是路由单元,8个小米核心以路由单元为界上下分为两组,每4个小米核心共享2MB的二级缓存,每个小米核心支持AArch32与AArch64运行模式,采用基于目录的缓存一致性设计,每组小米核心,置于目录控制单位(DCU,Directroy Control Unit)管理之下。
在每个小米核心的内部设计,可以看到有4个指令解码器,两个用于浮点计算的FP/SIMD单元,全面支持乱序执行,而流水线也较短,这也是RISC架构核心的一个特点。火星处理器宣称的双精度浮点计算性能可达512GFLOPS(64核心x每周期4运算x2GHz主频),这个性能远高于目前的至强E5V3(按2699V3规格,配合AVX2,理论浮点性能大约为350GFLOPS)和POWER8(12核心规格,理论性能大约337G左右)。那么真正的性能如何呢?对此,飞腾也给出了火星实际的测试数据,而在国内媒体的报道中,更有这样的字段:相比之下,Intel目前最强的处理器Xeon E7-8890v3和Xeon E5-2699v3的整数、浮点成绩分别是680和460,"火星”的性能足以与它们媲美。
这个性能不知道是飞腾方面提供的,还是媒体自己找的,下面我就通过SPEC网站上的数据进行整理,来看看火星处理器到底处于什么水平,除了英尔的至强E5、E7外,我还拉来了IBM的POWER8,我相信它肯定也在火星的火力范围之内,而各平台最佳性能收集截止日期为2015年8月28日。
飞腾公司公布的火星处理器SPEC测试成绩,我们按rate_base值来理解
需要指出的是,没有看到任何国外的相关报道指出飞腾发布的数据是双CPU的数据,所以我认为这是单颗CPU的成绩,因此在至强与POWER8的成绩收集中,我也只列出单CPU的成绩,没有现成的成绩,则以最好的双插槽的成绩除以2来获得近似值,而这个值基本上会低于实际的单CPU性能,所以在此谨供参考。
可以看出,媒体给出的整数性能数据有所偏差,至强E5/E7均达到了690多,而POWER8的单CPU成绩则在火星之下,总体来说火星的表现的确不错。
可以看出,媒体给出的E5浮点性能是对的,但E7由于核心频率更高,反而超过了E5,但基本上没有人会大规模用E7来做浮点运算,而POWER8则体现出了更好的性能,不过优势微弱,总体来说火星处理器的表现已经相当不错了。
综上所述,笔者觉得飞腾公司所推出的火星处理器,在总体规格与性能上并没有吹牛,的确达到了当前CPU的高端水平,已经可以与顶尖的E5/E7/POWER8进行较量。从这个角度上说,要予以足够的肯定!要不然为什么会惊动HOT CHIPS的现场嘉宾,并获得广泛报道呢?
但是,问题在于真实的大规模应用不可能是单CPU为主的,可惜我们还没有看到火星的CPU互联设计。据分析,火星的未来目标之一是32插槽大系统,所以如果高效的互联将是一大关键,而这才是更考验整体系统水平的。所以在一点没有获得更多的信息时,我们还要保持冷静,单CPU的性能可比肩,还不能意味着系统性能可比肩,在这里笔者期待不远的将来获得更多的好消息。当然,系统性能跟上也只是一小步,后面还有广袤的生态环境需要建设,以现有的程度,综合来看,想要替换掉至强甚至POWER,还属于非常初级的阶段,从这个角度来说,还是无法媲美的。
火星与地球,一起加油,让中国的CPU真正飞腾起来吧!
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。