CP1服务器以性能换成本?
虽然说CP1源于POWER8,从理论上讲性能应该相差无几,但由于在内存控制方面的改动,对性能带来影响是肯定的。而在峰会上的CP1介绍环节,给出了CP1参考系统的主要性能测试数据,并与英特尔的第一代E5服务器进行了比较。
不过,峰会上给出的数据有误,英特尔至强E5-2690并非是12核心的产品,而是8核心(16线程)。由于E5-2690已经是3年前的产品,笔者就此进一步整理了其他几代E5与POWER7和POWER8平台的性能,在此做一个汇总,来看看CP1在当前市场上所处的水平。主要对比的就是整数和浮点性能,成绩全面来自SPEC官方网站,均是相关平台的最佳成绩。
虽然峰会上将E5-2690的核心数标错了,但其成绩基本正确。如果CP1平台的性能为1的话,领先E5-2690的幅度为5%,但对于E5-2690 v2和v3就力不从心了,分别只有它们的81%和65%,至于目前最顶级的E5-2699 v3,则只有49%。相较POWER平台,也没有超过仍然在售的POWER7+,只有它的83%,较标准的POWER8更是不如,只有42%。
在浮点性能方面,与整数性能测试差不多,不过仍然保持了POWER8架构的浮点计算的优势传统,领先E5-2690达26%,与2690v2基本持平,同时也超过了POWER7+,但对于2690 v3和2699 v3还是有差距的,分别是它们的79%和66%,相对于老大哥POWER8,则只有47%。
CP1服务器整数与浮点性能的测试,很明显体现出了内容带宽的影响。虽然核心的架构与POWER8相同,但由于内存带宽降低了一半,性能也就随之有了明显的降低。这也是为什么我会说它以性能换价格的原因。
不过,从现在的POWER生态角度来说,价格更接地气似乎更为重要,而在性能方面,POWER8的架构也提供了借助外援加速的可能,这就是CAPI,也是RedPOWER在介绍中着重强调的。
CAPI(Coherent Accelerator Processor Interface,一致性加速器接口),是IBM宣称将POWER8开放的一个重要标志,也是OpenPOWER基金会的一个重要发力点和研发方向。
IBM CAPI工作原理,它大大降低了操作系统与设备驱动的系统开销,并打开了系统软件、中间件与企业应用的开发想象空间——透过CAPI,借助相应的ASIC或FPGA芯片进行相关算法与事务处理的定向加速,这一技术目前在x86平台上还没有出现
CAPI只是一个协议的名称,物理连接依托于PCIe 3.0总线,关键组件通过它具备直接访问CPU的内存空间(一致性) 的能力,从而大大提高了外设的运行效率,为系统总体表现“加速”。比如通过CAPI协议可以让外置的闪存PCIe卡的系统开销大幅度降低,减少了不必要的总线占用,根据IBM的内部测试,非数据传输的总线开销(指令传送与响应)可降低50倍,对降低延迟有明显好处。而这一接口,也为POWER8的开放硬件平台提供了基础。
事实上,OpenPOWER基金会的大部分成员都会专注于对CAPI的利用上,比如将外置的网络、GPU、闪存、FPGA(Field Programmable Gate Array,现场可编程门阵列)等设备直接与CPU相连接,并在此基础上,配合相应的软件应用(主要是开源软件),根据不同的主流应用场景进行开放的、定制化的系统设计。
Alpha Data采用赛灵思公司(Xilinx)的FPGA,配合CAPI开发的Alpha Data ADM-PCIE-7V3 PCIe加速卡
RedPOWER的发言人强调,借助FPGA加速卡的CAPI直连,针对键值存储数据库(KVS,Key-Value Store,比如著名的Redis就是KVS数据库的典型代表)加速后的性能,较x86服务器提升了20倍。我觉得,RedPOWER所提到的,应该就是Alpha Data的ADM-PCIE-7V3 PCIe加速卡,在赛灵思(OpenPOWER基金会银牌会员)的官方介绍中,强调该FPGA加速方案在10x X~ 100x低延迟的状况下确保将性能功耗比提升36倍,适合memcached 和NoSQL等领域的应用广泛的大数据工作负载加速引擎。
所以,单纯的CPU性能比拼,并不能代表CP1与OpenPOWER系统级平台的整体实力,而随着这类加速设计所能针对的场景越来越多,也必然会带来更多的竞争优势,配合价格成本的同步降低,显然带给x86平台的压力也会进一步加大。由于x86平台已经被英特尔事实统治,所以这又必然引出了另一个话题:OpenPOWER的开放与英特尔的开放,谁更有优势呢?
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。