CP1服务器以性能换成本?
虽然说CP1源于POWER8,从理论上讲性能应该相差无几,但由于在内存控制方面的改动,对性能带来影响是肯定的。而在峰会上的CP1介绍环节,给出了CP1参考系统的主要性能测试数据,并与英特尔的第一代E5服务器进行了比较。
不过,峰会上给出的数据有误,英特尔至强E5-2690并非是12核心的产品,而是8核心(16线程)。由于E5-2690已经是3年前的产品,笔者就此进一步整理了其他几代E5与POWER7和POWER8平台的性能,在此做一个汇总,来看看CP1在当前市场上所处的水平。主要对比的就是整数和浮点性能,成绩全面来自SPEC官方网站,均是相关平台的最佳成绩。
虽然峰会上将E5-2690的核心数标错了,但其成绩基本正确。如果CP1平台的性能为1的话,领先E5-2690的幅度为5%,但对于E5-2690 v2和v3就力不从心了,分别只有它们的81%和65%,至于目前最顶级的E5-2699 v3,则只有49%。相较POWER平台,也没有超过仍然在售的POWER7+,只有它的83%,较标准的POWER8更是不如,只有42%。
在浮点性能方面,与整数性能测试差不多,不过仍然保持了POWER8架构的浮点计算的优势传统,领先E5-2690达26%,与2690v2基本持平,同时也超过了POWER7+,但对于2690 v3和2699 v3还是有差距的,分别是它们的79%和66%,相对于老大哥POWER8,则只有47%。
CP1服务器整数与浮点性能的测试,很明显体现出了内容带宽的影响。虽然核心的架构与POWER8相同,但由于内存带宽降低了一半,性能也就随之有了明显的降低。这也是为什么我会说它以性能换价格的原因。
不过,从现在的POWER生态角度来说,价格更接地气似乎更为重要,而在性能方面,POWER8的架构也提供了借助外援加速的可能,这就是CAPI,也是RedPOWER在介绍中着重强调的。
CAPI(Coherent Accelerator Processor Interface,一致性加速器接口),是IBM宣称将POWER8开放的一个重要标志,也是OpenPOWER基金会的一个重要发力点和研发方向。
IBM CAPI工作原理,它大大降低了操作系统与设备驱动的系统开销,并打开了系统软件、中间件与企业应用的开发想象空间——透过CAPI,借助相应的ASIC或FPGA芯片进行相关算法与事务处理的定向加速,这一技术目前在x86平台上还没有出现
CAPI只是一个协议的名称,物理连接依托于PCIe 3.0总线,关键组件通过它具备直接访问CPU的内存空间(一致性) 的能力,从而大大提高了外设的运行效率,为系统总体表现“加速”。比如通过CAPI协议可以让外置的闪存PCIe卡的系统开销大幅度降低,减少了不必要的总线占用,根据IBM的内部测试,非数据传输的总线开销(指令传送与响应)可降低50倍,对降低延迟有明显好处。而这一接口,也为POWER8的开放硬件平台提供了基础。
事实上,OpenPOWER基金会的大部分成员都会专注于对CAPI的利用上,比如将外置的网络、GPU、闪存、FPGA(Field Programmable Gate Array,现场可编程门阵列)等设备直接与CPU相连接,并在此基础上,配合相应的软件应用(主要是开源软件),根据不同的主流应用场景进行开放的、定制化的系统设计。
Alpha Data采用赛灵思公司(Xilinx)的FPGA,配合CAPI开发的Alpha Data ADM-PCIE-7V3 PCIe加速卡
RedPOWER的发言人强调,借助FPGA加速卡的CAPI直连,针对键值存储数据库(KVS,Key-Value Store,比如著名的Redis就是KVS数据库的典型代表)加速后的性能,较x86服务器提升了20倍。我觉得,RedPOWER所提到的,应该就是Alpha Data的ADM-PCIE-7V3 PCIe加速卡,在赛灵思(OpenPOWER基金会银牌会员)的官方介绍中,强调该FPGA加速方案在10x X~ 100x低延迟的状况下确保将性能功耗比提升36倍,适合memcached 和NoSQL等领域的应用广泛的大数据工作负载加速引擎。
所以,单纯的CPU性能比拼,并不能代表CP1与OpenPOWER系统级平台的整体实力,而随着这类加速设计所能针对的场景越来越多,也必然会带来更多的竞争优势,配合价格成本的同步降低,显然带给x86平台的压力也会进一步加大。由于x86平台已经被英特尔事实统治,所以这又必然引出了另一个话题:OpenPOWER的开放与英特尔的开放,谁更有优势呢?
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。