中国的POWER处理器 三代出师
在本次峰会上,苏州中晟宏芯信息科技有限公司(简称“中晟宏芯”)总经理赵颖女士,亲自介绍了基于OpenPOWER的,中国POWER处理器的研发理念与未来的产品路线图。重头戏当然就是与IBM和OpenPOWER的代表,共同发布第一代中国POWER处理器CP1(CP=China POWER)。
(从左至右)IBM大中华区科技合作总裁及首席战略与联盟官何国伟先生、苏州中晟宏芯信息科技有限公司总经理赵颖女士、代表OpenPOWER基金会的英伟达公司全球副总裁Ashok Pandey先生共同揭幕基于POWER架构的第一款中国POWER芯片CP1,正式投入量产。CP1拥有50亿晶体管,22nm生产工艺,650平方毫米芯片面积 ,4GHz主频,最高12核心96线程,全代码透明可控
按照赵颖女士的说法,中晟宏芯就是为迎接POWER架构授权,做中国POWER处理器而成立的。它的主要职责是消化吸收POWER架构设计、处理器与高端服务器设计流程和工具。之后在此基础上,进行二次CPU内部架构的创新,最终独立设计出中国自己的POWER处理器,并积极推动系统级平台的设计与生态建设。
在中晟宏芯目前的产品规划中,CP系列处理器家族将有三代,第一代CP1已发布,其与IBM标准的POWER8处理器相比,主要的不同在于安全与内存控制模块有所不同,前者保证了中国政府所要求的“安全可控”,实现了全代码透明,而后者主要是为了降低POWER服务器的成本,以推进市场的接纳。
在CP1发布量产的同时(2015年6月),下一代CP2已经进入了产品定义阶段。在我看来,这才是真正的中国自主设计POWER处理器的开始,从总体的规格上看,CP2似乎还不如CP1高端,核心数量最高为8个(CP1与POWER8同为12个),但关键在于在CP2的设计中,来自中国的想法将占据主导地位,也就是说核心指令集架构还是POWER8,但CPU整体架构的设计将有更多的中国智慧在里面。
从某种意义上讲,我认为CP2应该是中国POWER处理器重要的“练兵”阶段,是CP系列得以顺利承上(吸收IBM POWER知识产权)启下(开始真正自主研发基于POWER核心的处理器)的关键环节。因为处理器的指令集架构并不决定具体的核心设计,到底怎样实现从理论上讲是有很大自主权的(比如同样是x86架构,但英特尔与AMD的核心设计就不一样)。而且CPU内部不仅仅CPU核心,还有很多其他单元(俗称UnCore部分)。这就像ARM提供了标准的核心架构设计Cortex,但有能力的厂商(如苹果、NVIDIA等)是可以在兼容ARM指令集(比如64bit的ARM v8)的基础上自行设计CPU核心,整合不同的功能单元。
此外,在CP2阶段,还要解决一个重大的挑战,就是像更高工艺迈进的问题。而在系统级设计方面,从CP2开始,也将向多路高端服务器进发,这其中所用到的直连总线设计已经在中晟宏芯的研发计划当中。
到了第三代,经过了CP1的摸索与CP2的试手,CP3才有可能是中国POWER处理器的集大成之作,相信那时将会转移至POWER9架构(IBM的POWER9处理器将在2017年发布),并做到完全的自主可控。而从规格上看,CP3的能力应该也与当时国际上的顶级处理器相差不大(至少要比CP2强很多),如果一切顺利,中国的POWER之处也将由此真正走上康庄大道。
与CP系列发展路线图相对应的,是中国国产POWER服务器的不断跟进。从某厂商透露的产品路线图来看来,CP1将以双插槽系统为主,这一时期还无法主攻高端平台,这仍然是IBM的天下,而到了CP2阶段,将试水8至16插槽的服务器。也就是说,基于CP系列的国产高端POWER服务器将从CP2开始,2019年正式推出。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。