中国的POWER处理器 三代出师
在本次峰会上,苏州中晟宏芯信息科技有限公司(简称“中晟宏芯”)总经理赵颖女士,亲自介绍了基于OpenPOWER的,中国POWER处理器的研发理念与未来的产品路线图。重头戏当然就是与IBM和OpenPOWER的代表,共同发布第一代中国POWER处理器CP1(CP=China POWER)。
(从左至右)IBM大中华区科技合作总裁及首席战略与联盟官何国伟先生、苏州中晟宏芯信息科技有限公司总经理赵颖女士、代表OpenPOWER基金会的英伟达公司全球副总裁Ashok Pandey先生共同揭幕基于POWER架构的第一款中国POWER芯片CP1,正式投入量产。CP1拥有50亿晶体管,22nm生产工艺,650平方毫米芯片面积 ,4GHz主频,最高12核心96线程,全代码透明可控
按照赵颖女士的说法,中晟宏芯就是为迎接POWER架构授权,做中国POWER处理器而成立的。它的主要职责是消化吸收POWER架构设计、处理器与高端服务器设计流程和工具。之后在此基础上,进行二次CPU内部架构的创新,最终独立设计出中国自己的POWER处理器,并积极推动系统级平台的设计与生态建设。
在中晟宏芯目前的产品规划中,CP系列处理器家族将有三代,第一代CP1已发布,其与IBM标准的POWER8处理器相比,主要的不同在于安全与内存控制模块有所不同,前者保证了中国政府所要求的“安全可控”,实现了全代码透明,而后者主要是为了降低POWER服务器的成本,以推进市场的接纳。
在CP1发布量产的同时(2015年6月),下一代CP2已经进入了产品定义阶段。在我看来,这才是真正的中国自主设计POWER处理器的开始,从总体的规格上看,CP2似乎还不如CP1高端,核心数量最高为8个(CP1与POWER8同为12个),但关键在于在CP2的设计中,来自中国的想法将占据主导地位,也就是说核心指令集架构还是POWER8,但CPU整体架构的设计将有更多的中国智慧在里面。
从某种意义上讲,我认为CP2应该是中国POWER处理器重要的“练兵”阶段,是CP系列得以顺利承上(吸收IBM POWER知识产权)启下(开始真正自主研发基于POWER核心的处理器)的关键环节。因为处理器的指令集架构并不决定具体的核心设计,到底怎样实现从理论上讲是有很大自主权的(比如同样是x86架构,但英特尔与AMD的核心设计就不一样)。而且CPU内部不仅仅CPU核心,还有很多其他单元(俗称UnCore部分)。这就像ARM提供了标准的核心架构设计Cortex,但有能力的厂商(如苹果、NVIDIA等)是可以在兼容ARM指令集(比如64bit的ARM v8)的基础上自行设计CPU核心,整合不同的功能单元。
此外,在CP2阶段,还要解决一个重大的挑战,就是像更高工艺迈进的问题。而在系统级设计方面,从CP2开始,也将向多路高端服务器进发,这其中所用到的直连总线设计已经在中晟宏芯的研发计划当中。
到了第三代,经过了CP1的摸索与CP2的试手,CP3才有可能是中国POWER处理器的集大成之作,相信那时将会转移至POWER9架构(IBM的POWER9处理器将在2017年发布),并做到完全的自主可控。而从规格上看,CP3的能力应该也与当时国际上的顶级处理器相差不大(至少要比CP2强很多),如果一切顺利,中国的POWER之处也将由此真正走上康庄大道。
与CP系列发展路线图相对应的,是中国国产POWER服务器的不断跟进。从某厂商透露的产品路线图来看来,CP1将以双插槽系统为主,这一时期还无法主攻高端平台,这仍然是IBM的天下,而到了CP2阶段,将试水8至16插槽的服务器。也就是说,基于CP系列的国产高端POWER服务器将从CP2开始,2019年正式推出。
好文章,需要你的鼓励
Snap 推出 Lens Studio 的 iOS 应用和网页工具,让所有技能层次的用户都能通过文字提示和简单编辑,轻松创建 AR 镜头,包括生成 AI 效果和集成 Bitmoji,从而普及 AR 创作,并持续为专业应用提供支持。
这项研究由香港理工大学和新加坡国立大学的团队共同完成,提出了R?ec,首个将推理能力内置于大型推荐模型的统一框架。与传统方法不同,R?ec在单一自回归过程中实现了推理生成和物品预测的无缝整合。研究者还设计了RecPO优化框架,无需人工标注即可同时提升模型的推理和推荐能力。实验结果显示,R?ec在三个数据集上显著超越现有方法,在Hit@5和NDCG@20指标上分别提升68.67%和45.21%。这一突破为下一代智能推荐系统开辟了新方向。
这项研究提出了CURE框架,通过强化学习让大语言模型同时学习编写代码和生成单元测试两种能力,无需使用标准代码作为监督。团队开发的ReasonFlux-Coder模型在仅用4.5K编程问题训练后,便在多个基准测试中超越了同类模型,代码生成准确率提高5.3%,最佳N选1准确率提高9.0%。该方法不仅提升了模型性能,还提高了推理效率,同时为降低API调用成本和无标签强化学习提供了新思路。