科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航



ZDNet>服务器频道>处理器/组件>Intel修改Larrabee各代间隔究竟为哪般?

Intel修改Larrabee各代间隔究竟为哪般?

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

Intel取消了将Larrabee作为一款图形产品投产的计划。原因是什么?

来源:ZDNet编译 2010年01月04日

关键字:Larrabee Intel

● Intel修改Larrabee产品计划

Intel取消了将Larrabee作为一款图形产品投产的计划。原因是什么?

Intel对Larrabee产品计划作出了重大的修改。原本作为图形产品、使用45nm制程工艺的Larrabee现在恐怕要变成采用32nm的Larrabee 2了。虽然Intel向一部分HPC用户提供Larrabee,但是已经放弃来将其作为图形产品批量发售的计划。现在我们还不明确架构变更之后的Larrabee 3的动向,不过,实际上Larrabee战略的时间间隔也被修改了。

这个变化意味着什么?变得是什么,不变的又是什么?

当然,变化的是把Larrabee作为一款独立图形产品推出的计划。另一方面,不变的Intel将其与CPU融合到处理器内核中用于数据并行架构。

对于Intel来说,投入了大量的研发费用,结果却是产品不了了之。因此,通用数据并行内核的渗透计划也要推迟了。反过来,这也避免了Larrabee可能在市场方面遭遇的失败,避免了通用数据并行架构迁移所带来的负面影响。

未来将其作为一种数据并行内核推出的可能性非常大,同时Intel也很有可能在Larrabee中采用改良的ISA(Instruction Set Architecture)微架构。从后者来看,未来的发展方向将可能是更高效率。

另一方面,有人猜测在旧型号上进行芯片优化的可能性很小。尽管可能会增长像光栅引擎这样的低成本功能,但是不太可能改变基础架构。说到原因,设计Larrabee的真正目的恐怕不是针对图形的独立芯片,而是针对具体的GPU市场。

● Larrabee的目标是将数据并行内核集成到CPU中

原本作为一款产品的Larrabee将被用作把数据并行内核集成到CPU中的试验工具。如何设计出灵活、高效且编程简单的架构是它追求的目标。最终,它将像集成图形内核那样被集成到CPU中。

如果在现有x86指令集基础上扩展Larrabee指令集,那么它的方向性就一目了然了。如果不是考虑到集成CPU的话,那么就没有太大必要在CPU指令集上进行扩展。Intel将通过结合Larrabee New Instruction(LNI)和x86内核来升级x86架构。

这样看来,Larrabee的实质并不是产品本身,而是扩展指令集LNI。同时,Intel还将把向Larrabee这样的通用数据并行内核集成到CPU中。很多人认为Larrabee=图形芯片,不过如果是通过图形芯片的形式来普及通用并行内核的话,那么这可以说是一个“权宜之计”。

那么为什么Intel坚持通用数据并行内核计划呢?因为这是CPU架构发展的大方向。CPU制造商并不希望CPU朝着大规模超级CPU内核堆积在印模的这个方向发展。从客户方面来说,同构多核架构并不会提高工作负载的性能效率。

说到效率,大规模超级内核于小规模数据并行专有内核的混合体是最好的。因为数据并行可以提高以浮点运算为主导的工作负载性能,而单线程的整数运算性能不会快速提高。不过,因为Amdahl法则依然有效,所以Intel也不能抛弃大规模超级内核,异构是必然的结果。

而且,Intel和AMD等x86 CPU制造商希望将数据并行内核带入到架构中,更紧密地结合大规模超级CPU内核。有人认为在下载模式下编程适用的应用是有限的(这一点有待讨论)。而且,扩展指令集可以很好地利用x86 CISC等优点。

虽然Intel修改了Larrabee作为一款产品的开发时间间隔,但是基本方向仍然是开发出数据并行内核。所以,由于基本部分没有变,所有Larrabee的技术方向也没有改变。

Intel对未来CPU的预测(点击放大)

Intel指令集架构的演化(点击放大)

● Larrabee究竟面临什么问题?

Intel从很早就开始向一部分用户发售Larrabee的样品,让用户对其进行评估,然后获得反馈。所以,有人推测Intel修正Larrabee战略时间间隔的一个很大原因可能就是Intel得到了关于Larrabee作为图形芯片的糟糕反馈结果。

实际上,有消息称对Larrabee图形系统的评估并不理想。尤其是现有图形任务的性能效率非常糟糕。虽然我们并没有得到关于性能评价的细节,但是好像缺失存在效率方面的问题。

尤其是于GPU对比的话,每瓦能耗的性能相当地,因此据称它还不具备GPU的竞争力。有传闻称它的“性能/电力太低”。

从架构方面很容易想到会有这样的评价。

在这几个图形处理功能中,Larrabee唯一没有采用软件处理的功能是“纹理过滤”,因此,它在效率方面很难胜过那些对现有图形API进行硬件优化了的GPU。因为Larrabee是基于通用环形总线结构的,因此据推测它的总线电力效率也很低,纹理传送工作负载存在总线方面的瓶颈。实际上,适用环形总线的R600也存在着效率问题。

RV770的内部结构(点击放大)

在GPU内部,尽量减轻了内部总线的负载,这其中,图形管线上的渲染输出管道(ROP,Rendering Output Pipeline)通过硬件与存储控制器相连。这是因为ROP所涉及到的深度(Z)与Alpha(α)等数据将会占用带宽,而Larrabee的ROP也是基于CPU内核的软处理模式,为此,为了避免对内部总线的过度负载,基本都在片内的存储器上进行,不过片内的存储器容量被限定为每个核心256KB,以每个核心为单位处理Tiling(俗称:图像瓦片)成为了Larrabee的基本处理模式,而Tiling的划定将取决于绘图算法。

另一方面,对线程以及指令的控制也是有明显不同的,一般而言,现有的GPU已经对传统的API进行了最佳化的控制,而Larrabee则在提供了类似于CPU那样的高自由度的控制特性。譬如,在NVIDIA的Fermi之前的GPU,是将每个GPU的核在同一周期内共同去跑一个内核程序,而在Larrabee中,16核心可以跑不同的程序,这就意味着可以以核为单位进行使命与线程的控制,因此控制机制也相对变得更为复杂。

由此推断,我们可以得出这样的结论——Larrabee为了提高自由度也将牺牲一定的效率。因为它还不可能脱离传统的API而存在,但在对面传统的API时,Larrabee的功耗/能效比将低于现有的GPU。事实上,最初的Larrabee在芯片上几乎没有节省电力的机构,即使是在空闲状态下,功耗也很高,英特尔在CPU方面引以为荣的功耗控制技术并没有得到很好的运用。

Larrabee的结构样本(推测)

Larrabee整体结构(点击放大)

● 预计软件方面有所变化的Larrabee架构

由于现有GPU是针对图形API优化的,所以其自由度是有限制的。而Larrabee强调避开现有图形API,利用软件实现自由写入。同时,固定硬件也是瓶颈或者开销所在。因此,Larrabee图形处理的自由度要比GPU更高一些。

例如,Intel在“IEEE Visualization 2009”上发表了题为《医疗成像高保真度立体渲染到CPU、GPU和多核架构的映射》的联合论文,阐述了不适用现有图形API对医疗成像进行立体渲染的试验。据称,NVIDIA 16核GeForce GTX 280 (GT200)在立体渲染方面的性能峰值是8核Larrabee的1.5倍。

因此,如果图形软件行业受到Larrabee影响而抛弃现有图形API而适用软件的话,那么Larrabee的情况将有所改观。如果是这样的话,恐怕Larrabee就是最强的,其次是NVIDIA Fermi,第三位是AMD R800系列。不过,因为Larrabee在软件方面并没有根本性的变革,所以并不会展示出强大的吸引力。

顺便提一下,AMD现有的GPU架构相当接近现在的API优化。而且,NVIDIA Fermi正是一款瞄准了将新技术融合到现有图形API中的混合图形芯片。NVIDIA、Intel和AMD是这方面的主导厂商。总的来说,AMD预计不会在图形软件方面作太大变动,NVIDIA可能会有某些方面的变化,而Intel则会有急剧的变化。

当Intel公布Larrabee之初就引发了人们对软件变革的热烈期待。例如,2008年举行的CEDEC大会上Tim Sweeney(Epic Games创始人和首席执行官)表示:“图形API的新时代还没有来临。”2009年CEDEC大会的专题讨论会上也提出了很多不同看法。随着Larrabee的热度逐渐消退,这恐怕会成为整个业界的普遍看法吧。

这样看来,似乎Intel围绕Larrabee的图形软件策略不太可能实现,那么Intel如何调整战略,重新开始Larrabee架构的研究呢?

图形渲染通道发展历史(点击放大)

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅ZDNet技术邮件将是您的最佳途径之一。