中国的POWER处理器 三代出师
在本次峰会上,苏州中晟宏芯信息科技有限公司(简称“中晟宏芯”)总经理赵颖女士,亲自介绍了基于OpenPOWER的,中国POWER处理器的研发理念与未来的产品路线图。重头戏当然就是与IBM和OpenPOWER的代表,共同发布第一代中国POWER处理器CP1(CP=China POWER)。
(从左至右)IBM大中华区科技合作总裁及首席战略与联盟官何国伟先生、苏州中晟宏芯信息科技有限公司总经理赵颖女士、代表OpenPOWER基金会的英伟达公司全球副总裁Ashok Pandey先生共同揭幕基于POWER架构的第一款中国POWER芯片CP1,正式投入量产。CP1拥有50亿晶体管,22nm生产工艺,650平方毫米芯片面积 ,4GHz主频,最高12核心96线程,全代码透明可控
按照赵颖女士的说法,中晟宏芯就是为迎接POWER架构授权,做中国POWER处理器而成立的。它的主要职责是消化吸收POWER架构设计、处理器与高端服务器设计流程和工具。之后在此基础上,进行二次CPU内部架构的创新,最终独立设计出中国自己的POWER处理器,并积极推动系统级平台的设计与生态建设。
在中晟宏芯目前的产品规划中,CP系列处理器家族将有三代,第一代CP1已发布,其与IBM标准的POWER8处理器相比,主要的不同在于安全与内存控制模块有所不同,前者保证了中国政府所要求的“安全可控”,实现了全代码透明,而后者主要是为了降低POWER服务器的成本,以推进市场的接纳。
在CP1发布量产的同时(2015年6月),下一代CP2已经进入了产品定义阶段。在我看来,这才是真正的中国自主设计POWER处理器的开始,从总体的规格上看,CP2似乎还不如CP1高端,核心数量最高为8个(CP1与POWER8同为12个),但关键在于在CP2的设计中,来自中国的想法将占据主导地位,也就是说核心指令集架构还是POWER8,但CPU整体架构的设计将有更多的中国智慧在里面。
从某种意义上讲,我认为CP2应该是中国POWER处理器重要的“练兵”阶段,是CP系列得以顺利承上(吸收IBM POWER知识产权)启下(开始真正自主研发基于POWER核心的处理器)的关键环节。因为处理器的指令集架构并不决定具体的核心设计,到底怎样实现从理论上讲是有很大自主权的(比如同样是x86架构,但英特尔与AMD的核心设计就不一样)。而且CPU内部不仅仅CPU核心,还有很多其他单元(俗称UnCore部分)。这就像ARM提供了标准的核心架构设计Cortex,但有能力的厂商(如苹果、NVIDIA等)是可以在兼容ARM指令集(比如64bit的ARM v8)的基础上自行设计CPU核心,整合不同的功能单元。
此外,在CP2阶段,还要解决一个重大的挑战,就是像更高工艺迈进的问题。而在系统级设计方面,从CP2开始,也将向多路高端服务器进发,这其中所用到的直连总线设计已经在中晟宏芯的研发计划当中。
到了第三代,经过了CP1的摸索与CP2的试手,CP3才有可能是中国POWER处理器的集大成之作,相信那时将会转移至POWER9架构(IBM的POWER9处理器将在2017年发布),并做到完全的自主可控。而从规格上看,CP3的能力应该也与当时国际上的顶级处理器相差不大(至少要比CP2强很多),如果一切顺利,中国的POWER之处也将由此真正走上康庄大道。
与CP系列发展路线图相对应的,是中国国产POWER服务器的不断跟进。从某厂商透露的产品路线图来看来,CP1将以双插槽系统为主,这一时期还无法主攻高端平台,这仍然是IBM的天下,而到了CP2阶段,将试水8至16插槽的服务器。也就是说,基于CP系列的国产高端POWER服务器将从CP2开始,2019年正式推出。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。