扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
近日,Power.org面向开发者的Power Architecture Conference 2009(PAC)大会在日本东京召开,推进Power Architecture的标准化和普及。
Power.org是IBM和Freescale的两家公司共同创建为推动Power Architecture标准化和普及的非营利性团体。
Power Architecture包含PowerPC在内的IBM Power技术。当初参与的成员也是非常有限的,曾经的成员之一P.A.Semi后来被Apple收购,因此脱离了Power.org,另外企业成员也非常少。
尽管如此,此后IBM通过收购将AMCC的嵌入式技术全部纳入PowerPC,并且IBM与印度HCL合作研究PowerPC,扩展PowerPC 400系列的市场渠道销售,以合并XilinxVertex的形式提供PowerPC。IPextreme将向Power.org会员提供IP,加快Power架构应用。虽说不如ARM和MIPS,但随着开发工具提供商的逐渐增加,已经开始有多家提供商加盟了Power.org。
Power.org从一开始就面向企业用户以外无偿募集开发成员,通过开发会员登记就可以利用各种各样的资源。其实PAC曾在2007年以Power Architecture Developer Conference这个名称召开过一次大会,之后从2008年开始改为了PAC。当初Power.org在美国召开大会的时候主要是以向开发成员进行技术方面的介绍和研讨会为宗旨的,不过从2008年开始则开始向美国之外的地区进行推广。
因此,去年Power.org分别在在欧洲(慕尼黑和巴黎)和亚洲(东京,北京,新竹)召开了PAC 2008。今年欧洲大会照常进行,亚洲地区的时间和去年一样,分别为北京10月14日、东京10月16日、最后新竹10月19日。
● 主题演讲
首先是Kaveh Massoudian介绍了Power.org到现在为止完成的一些事情。
IBM首席技术官Kaveh Massoudian,在Power.org担任相当于Treasure Officer(CFO)的工作
Power.org做的最重要的一件事就是制定了所谓的“Power ISA”规范。2005年6月,Power.org在成立1年的时候公布了最初的标准规格Power ISA 2.03,到2007年主要标准规格全部出台,2008年以后Power.org除了更新这些规格的修订本之外,还延伸了这些规格和相关规格的制定,今年也会制订各种各样的规格。
除了这些规格制订外,关联产品也相继登场。Freescale今年发表了采用Power ISA的QorIQ P4000系列和P1022,前段时间IBM还发布了采用最新SoC CPU内核的PowerPC 476FP,同日LSI Logic发布了适用于PowerPC 476FP的芯片。
上层的绿色代表Power.org取得的成果,橘色代表在技术标准方面的成果,下层的淡紫色为主要活动
QorIQ是Freescale采用Power的通信平台。P4080配置的是1.51.5GGz的8核CPU
PowerPC系统可提供高达2.5的DMIPs/MHz性能
同时,Denali发布适合PLB-6的验证IP。AMCC和TSMC合作将SOI技术用于IBM生产的PowerPC 400系列。Virtutech发表了Simics 4.2,XGI明确表示G6将获得PowerPC的支持。以上这些都是PowerPC关联产品。另外IBM在今年的HotChips大会上展示的Power7也是一款Power ISA产品。
LSI将IBM的45nm SOI和内存控制器结合起来,Denali则推出了对应PowerPC处理器总线(SoC内部用)的高速版本(另外还有PLB-4)
Power还与著名的中国台湾半导体厂商台积电(TSMC)建立了战略联盟关系,将Power架构微处理器用于TSMC的平台
Virtutech提供了一个要求运行在虚拟环境中的模拟器,在开发SoC的时候,使用Virtutech的Simics进行软件验证将从芯片开发之前开始。XGI的G6是一款还未发布的产品
HotChips上公布的8核处理器Power7采用了eDRAM的32MB L3缓存,与Power6的构造完全不同。据说由于CPU内核是基于PowerISA V2.06的,所以可以装载128个FPU寄存器
在Massoudian完成演讲并说明了Technical Initiative之后,接下来登场的是Fawzi Behmann先生。
相关厂商交付解决方案或者标准都是在从硅芯片(最下层)到终端用户产品(最上层)这个范围内的,这也是Power.org的结构。绿色是Power.org发起的,橘色是一般的解决方案
Power.org营销总监Fawzi Behmann
Fawzi Behmann比Massoudian更详细地就市场方面进行了说明。众所周知嵌入式所涉及的范围非常广,因此份额的分布也是多样化的。例如,采用ARM的设备占到了绝大多数,不过,Power在网络市场具有绝对的优势,MIPS则在STB等传统市场保持着稳定的份额。
Power Architecture在无线接入、嵌入式领域、存储、消费市场、航空/国防和高性能计算领域。上面提到的无线接入面向手机基站和服务方面的解决方案,现在3G也占据和相当大的份额。不过,如果今后能够实现3.5G/3.9G/4G,那么更高等级的Power Architecture服务也将变成现实。
LTE的基站解决方案的例子。根本上说,CPU架构与服务本身没有太大差异
IBM在HotChips上展示了一个将Power 7作为基本系统的例子。顺便来看看Blue Waters的资料,装载了2个8核芯片的芯片排列成4个模块,一个单元就是一个节点,16个节点组成一个超节点,8个超节点构成一个系统结构块。Waters展示的这个系统结构块有38个超节点构成,所以内核数就是8×2×4×16×8×38=311,按照296个计算。因为每个内核是32GFlops,所以总性能大约是10TFlops(正确说主频是4.04GHz,演算性能是32.3GFlops/Core,共计10.06PFlops)
在嵌入式方面演示的是PowerPC 476FP,不过IBM表示,已经完成开发并开始销售的PowerPC 4xx系列非常适合被中小企业大规模采用,最后他还表示Power Architecture很适合高性能计算。
在这方面,最大的市场还是嵌入式市场(基站和超级计算机领域并不是谁都可以进入的)。估计这里适合中小企业的网络设备就是NAS、STC/DTV和各种打印机等等。
可以看出在2008年的网络与通讯市场上所采用的通用处理器65%采用了Power架构
因此,尽管整个市场显得有些混乱,但份额并不是那么小,因为其中65%都被游戏平台(Wii/PS3/XBox 360都是基于PowerPC的)和汽车(基本上被引擎控制垄断)。所占份额比较大的板块通常是很容易获得资源和工具的板块,通过使用Power Architecture来创建应用,通过加强这个架构来获得更高份额。
● Freescale
接下来,Freescale公司的伊南恒志向先生进行了题为《Freescale的多核战略》的演讲。
Freescale日本营销本部总经理伊南恒志向先生
Freescale三种32位内核分别是PowerPC、ARM和ColdFire,其中PowerPC适合汽车和通讯控制处理器所使用。这些产品是基于e200针对汽车设计的,未来将尽快投入生产(图19)。另外在通信领域也反映出对多核需求的增长。为了满足这些需求,Freescale开发了从单核到8核的规模可变解决方案,为今后的扩展打下基础。
e200系列的本身性能并不高,不过由于充分利用了Full Synthesizable这个特性,所以可以在-40℃~85℃工作温度范围内运行且支持Zero Defect
eTPU是实时控制辅助处理器,专门负责处理高速复杂的时钟和输入/输出任务,使CPU能有更多的精力执行其它关键任务。MPC56xx系列安装了两个或者更多个内核,确保了性能和冗余性
如果在以前,需要集成两个或者更多功能来削减能耗和降低成本会单独采用防火墙、WAN优化和IPS/SSL Termination/Load Blanacer。Freescale与Asymmetric共同合作使得多核能够针对这种用途
据说Freescale将在提高P5系列性能的同时准备8核的产品。不过从印模尺寸来看,恐怕要推出的是32nm SOI
VortiQa是一个针对特定用途的软件解决方案
然而在多处理器环境中存在一个问题,那就是软件的开发并没有跟上。根据多处理器环境创建应用是有必要的,当性能增长,如果采用了合适的hypervisor,就可以使用之前一个操作系统对应一个CPU的环境。因此,Freescale推出了“VortiQa”。通过将MPU与VortiQa结合起来,你能够创建被用于多核MCU环境的应用。
● IBM
接下来,IBM日本公司的浅井信宏先生进行了题为《Power.org的最新信息 关于Power Architecture的差异化》的演讲。
IBM软件群组杰出工程师浅井信宏先生
他的演讲最前半部分介绍了采用Power的超级计算机,中间以Cell为编程模式为例,前半部分基本上没有什么新意,但是下半部部分稍微引起了人们的兴趣。
这是能源效率Top500的结果,当然也介绍到了TOP500
这是并列处理多个SPE的Streaming Model的情况。与之前有关程序编制的报告几乎没有差别
Virtutech的Simics与ePlatform没有太大的差异。由于与硬件架构在虚拟环境上并行地进行系统部署和试验,所以缩短了开发周期
除了“调节现有应用并切换到多核环境”的例子之外,未来还有可能出现开发成本短缺的问题。对于Freescale来说,这虽然是一个“在多核环境中创建hypervisor,将其作为单CPU环境”的一种方法,但却不是一个彻底的解决方案。彻底的解决还是需要与多核环境的用途相对应,使用一种被称为“Fire Tracker”的逆向工程。
使用这个Fire Tracker技术可以收集Gantt表格和调用树,这样就可以据此来评估性能水平。他还解释了未来IBM如何使用这个工具,不过短期内似乎还不会提供Fire Tracker或者Rhapsody。
向PowerPC中集成的Fire Tracker
基于UML进行建模,开发出一款名为Rhapsody的工具
● Denali
最后进行演讲的是Denali Software公司的木下仁先生。可能你没有听说过这个公司,不过要是提到它主办的MemCon研讨会大概你就知道了。
Denali软件项目经理木下仁先生
Denali大体上主要提供两类IP。一种是针对存储控制器、NAND闪存、PCI-e和USB高速I/F的IP,用户不需要开发相关设备的经验技术就可以将其集成到自己的SoC中。
另外一个主要产品是验证IP(Verification IP),它实现IP在SoC中的快速评测以及SoC性能的评估,从而为IP用户的决策提供理论依据。Denali提供的Verification IP可以根据侧视图生成关和观察控制测试模式,由于结合了PureSpec还可以进行试验生成和协议检查/验证以及涉及面的测量,同时还可以与多个模拟器联合起来,如果发现问题将向Denali发送PureSpec的拷贝文件,这样Denali方面就可以解决问题了。
当然验证会变得很麻烦,因为使用SoC之后,在进行共同通信的时候两个或者更多设备占用多个总线
Verification IP提供了意向设备标准,当然并不能100%覆盖(例如周边电路)
在这种情况下,Denali方面准备了与客户相同的环境
简而言之,这是一款在PureSpec处理之前进行验证的工具
另外Denali还提供了达到PureSpec高等级的PureSuite工具,该工具能够通过一系列预定义的测试来全面测量PCI-E接口认证设计来检查是否符合PCI-SIG法规遵从列表。使用这种工具用户就可以清楚地掌握SoC开发期间的成本。
● Power处理器,过去和未来最后详细地介绍一下Peter Hofstee所作的演讲,他的主题是《Power处理器,过去和未来》。
IBM杰出工程师H.Peter Hofstee博士,担任Cell SPE的首席架构师兼Cell首席科学家
首先,在80年代到2005年期间完成了单线程性能的提高。但是到2005年的时候也开始出现性能增长到极限的趋向。具体来说,Passive Power的增长速度超过了Active Power,也超出了空气冷却的范围。因此,多核处理器开始流行。不过,因为提高主频很难,所以他也并不确定这种趋势是否能保持10年时间。
根据我们熟悉的Hennesy and Petterson第四版本,随着晶体管细微化不断加速,IPC也有所加强
对比PowerPC 601和PowerPC 750GX的性能(SpecInt值),单纯从性能方面看提高了30.6倍,但是从每时钟频率×晶体管数的性能来看下滑了7.8倍。所以,即使晶体管数增加也不一定会提升性能
现在是45nm的8核,不过今后发展到32nm/22nm的16/32核。据说实现32nm大约在2011年到2013年,那么估计实现22nm大约在2015年
选择多核的原因
不过,即使增加内核数也并不一定会使得性能提高,这就是我们熟知的“阿姆达尔定律”(系统优化某部件所获得的系统性能的改善程度,取决于该部件被使用的频率,或所占总执行时间的比例)。我们很容易遇到这样一种情况,采用多核导致性能提升,涌入大量数据库Web服务器的处理量(这时候内存访问等也容易成为瓶颈),这使得提高处理并行度很难,整个系统提速,而个别处理速度降下来。因此,因为处理负载即使在晶体管增加的情况下也并不一定会增加,所以估计热量密度会暂时降低下来。
细微化继续下去,晶体管数量增加,但印模尺寸并没有增加,最后导致功率密度增大
不过,当状态稳定下来,性能就出于停滞状态,如果是混合环境可能会有其他情况。性能可能会因为采用了异构处理器而提高效率。异构多核的混合环境也有很多问题,而且要比单纯的多核环境严重得多。
随着最近GPGPU的普及,OpenCL新标准开始形成,与过去的OpenMP结合到一起。
异构处理器与传统多核的对比,包括Cell BE(分为8个SPE,每个SPEC的理论性能是25.6GFlops,总共是204.8GFlops),Power 5(1.9GHz、7.6GFlops)、Core 2 Duo(3GHz、24GFlops)、Athlon 64 X2(3GHz、24GFlops),印模尺寸增加性能随着提高
经过细微化的结果。显然可以很好地扩展PPE/SPE,因为外部I/O Pad无法最小化,所以整体扩展效果有些受影响
每个厂商针对异构环境使用的工具都是大同小异,这对多核环境来说可能更糟糕
在最后关于之前的趋势的展示很有趣,展示了微处理器在特定应用领域的变革,不过从图中来看,各种技术的完善可能会推迟达到ASIC/SoC这个定点的时间。
CPU与GPU处于两种编程环境下,而SPE正好处于两中的节点位置