CP1服务器以性能换成本?
虽然说CP1源于POWER8,从理论上讲性能应该相差无几,但由于在内存控制方面的改动,对性能带来影响是肯定的。而在峰会上的CP1介绍环节,给出了CP1参考系统的主要性能测试数据,并与英特尔的第一代E5服务器进行了比较。
不过,峰会上给出的数据有误,英特尔至强E5-2690并非是12核心的产品,而是8核心(16线程)。由于E5-2690已经是3年前的产品,笔者就此进一步整理了其他几代E5与POWER7和POWER8平台的性能,在此做一个汇总,来看看CP1在当前市场上所处的水平。主要对比的就是整数和浮点性能,成绩全面来自SPEC官方网站,均是相关平台的最佳成绩。
虽然峰会上将E5-2690的核心数标错了,但其成绩基本正确。如果CP1平台的性能为1的话,领先E5-2690的幅度为5%,但对于E5-2690 v2和v3就力不从心了,分别只有它们的81%和65%,至于目前最顶级的E5-2699 v3,则只有49%。相较POWER平台,也没有超过仍然在售的POWER7+,只有它的83%,较标准的POWER8更是不如,只有42%。
在浮点性能方面,与整数性能测试差不多,不过仍然保持了POWER8架构的浮点计算的优势传统,领先E5-2690达26%,与2690v2基本持平,同时也超过了POWER7+,但对于2690 v3和2699 v3还是有差距的,分别是它们的79%和66%,相对于老大哥POWER8,则只有47%。
CP1服务器整数与浮点性能的测试,很明显体现出了内容带宽的影响。虽然核心的架构与POWER8相同,但由于内存带宽降低了一半,性能也就随之有了明显的降低。这也是为什么我会说它以性能换价格的原因。
不过,从现在的POWER生态角度来说,价格更接地气似乎更为重要,而在性能方面,POWER8的架构也提供了借助外援加速的可能,这就是CAPI,也是RedPOWER在介绍中着重强调的。
CAPI(Coherent Accelerator Processor Interface,一致性加速器接口),是IBM宣称将POWER8开放的一个重要标志,也是OpenPOWER基金会的一个重要发力点和研发方向。
IBM CAPI工作原理,它大大降低了操作系统与设备驱动的系统开销,并打开了系统软件、中间件与企业应用的开发想象空间——透过CAPI,借助相应的ASIC或FPGA芯片进行相关算法与事务处理的定向加速,这一技术目前在x86平台上还没有出现
CAPI只是一个协议的名称,物理连接依托于PCIe 3.0总线,关键组件通过它具备直接访问CPU的内存空间(一致性) 的能力,从而大大提高了外设的运行效率,为系统总体表现“加速”。比如通过CAPI协议可以让外置的闪存PCIe卡的系统开销大幅度降低,减少了不必要的总线占用,根据IBM的内部测试,非数据传输的总线开销(指令传送与响应)可降低50倍,对降低延迟有明显好处。而这一接口,也为POWER8的开放硬件平台提供了基础。
事实上,OpenPOWER基金会的大部分成员都会专注于对CAPI的利用上,比如将外置的网络、GPU、闪存、FPGA(Field Programmable Gate Array,现场可编程门阵列)等设备直接与CPU相连接,并在此基础上,配合相应的软件应用(主要是开源软件),根据不同的主流应用场景进行开放的、定制化的系统设计。
Alpha Data采用赛灵思公司(Xilinx)的FPGA,配合CAPI开发的Alpha Data ADM-PCIE-7V3 PCIe加速卡
RedPOWER的发言人强调,借助FPGA加速卡的CAPI直连,针对键值存储数据库(KVS,Key-Value Store,比如著名的Redis就是KVS数据库的典型代表)加速后的性能,较x86服务器提升了20倍。我觉得,RedPOWER所提到的,应该就是Alpha Data的ADM-PCIE-7V3 PCIe加速卡,在赛灵思(OpenPOWER基金会银牌会员)的官方介绍中,强调该FPGA加速方案在10x X~ 100x低延迟的状况下确保将性能功耗比提升36倍,适合memcached 和NoSQL等领域的应用广泛的大数据工作负载加速引擎。
所以,单纯的CPU性能比拼,并不能代表CP1与OpenPOWER系统级平台的整体实力,而随着这类加速设计所能针对的场景越来越多,也必然会带来更多的竞争优势,配合价格成本的同步降低,显然带给x86平台的压力也会进一步加大。由于x86平台已经被英特尔事实统治,所以这又必然引出了另一个话题:OpenPOWER的开放与英特尔的开放,谁更有优势呢?
好文章,需要你的鼓励
Snap 推出 Lens Studio 的 iOS 应用和网页工具,让所有技能层次的用户都能通过文字提示和简单编辑,轻松创建 AR 镜头,包括生成 AI 效果和集成 Bitmoji,从而普及 AR 创作,并持续为专业应用提供支持。
这项研究由香港理工大学和新加坡国立大学的团队共同完成,提出了R?ec,首个将推理能力内置于大型推荐模型的统一框架。与传统方法不同,R?ec在单一自回归过程中实现了推理生成和物品预测的无缝整合。研究者还设计了RecPO优化框架,无需人工标注即可同时提升模型的推理和推荐能力。实验结果显示,R?ec在三个数据集上显著超越现有方法,在Hit@5和NDCG@20指标上分别提升68.67%和45.21%。这一突破为下一代智能推荐系统开辟了新方向。
这项研究提出了CURE框架,通过强化学习让大语言模型同时学习编写代码和生成单元测试两种能力,无需使用标准代码作为监督。团队开发的ReasonFlux-Coder模型在仅用4.5K编程问题训练后,便在多个基准测试中超越了同类模型,代码生成准确率提高5.3%,最佳N选1准确率提高9.0%。该方法不仅提升了模型性能,还提高了推理效率,同时为降低API调用成本和无标签强化学习提供了新思路。