ZDNet>服务器频道>芯片>Intel修改Larrabee各代间隔究竟为哪般？

Intel修改Larrabee各代间隔究竟为哪般？

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

Intel取消了将Larrabee作为一款图形产品投产的计划。原因是什么？

来源：ZDNet编译 2010年01月04日

● Intel修改Larrabee产品计划

Intel取消了将Larrabee作为一款图形产品投产的计划。原因是什么？

Intel对Larrabee产品计划作出了重大的修改。原本作为图形产品、使用45nm制程工艺的Larrabee现在恐怕要变成采用32nm的Larrabee 2了。虽然Intel向一部分HPC用户提供Larrabee，但是已经放弃来将其作为图形产品批量发售的计划。现在我们还不明确架构变更之后的Larrabee 3的动向，不过，实际上Larrabee战略的时间间隔也被修改了。

这个变化意味着什么？变得是什么，不变的又是什么？

当然，变化的是把Larrabee作为一款独立图形产品推出的计划。另一方面，不变的Intel将其与CPU融合到处理器内核中用于数据并行架构。

对于Intel来说，投入了大量的研发费用，结果却是产品不了了之。因此，通用数据并行内核的渗透计划也要推迟了。反过来，这也避免了Larrabee可能在市场方面遭遇的失败，避免了通用数据并行架构迁移所带来的负面影响。

未来将其作为一种数据并行内核推出的可能性非常大，同时Intel也很有可能在Larrabee中采用改良的ISA（Instruction Set Architecture）微架构。从后者来看，未来的发展方向将可能是更高效率。

另一方面，有人猜测在旧型号上进行芯片优化的可能性很小。尽管可能会增长像光栅引擎这样的低成本功能，但是不太可能改变基础架构。说到原因，设计Larrabee的真正目的恐怕不是针对图形的独立芯片，而是针对具体的GPU市场。

● Larrabee的目标是将数据并行内核集成到CPU中

原本作为一款产品的Larrabee将被用作把数据并行内核集成到CPU中的试验工具。如何设计出灵活、高效且编程简单的架构是它追求的目标。最终，它将像集成图形内核那样被集成到CPU中。

如果在现有x86指令集基础上扩展Larrabee指令集，那么它的方向性就一目了然了。如果不是考虑到集成CPU的话，那么就没有太大必要在CPU指令集上进行扩展。Intel将通过结合Larrabee New Instruction（LNI）和x86内核来升级x86架构。

这样看来，Larrabee的实质并不是产品本身，而是扩展指令集LNI。同时，Intel还将把向Larrabee这样的通用数据并行内核集成到CPU中。很多人认为Larrabee＝图形芯片，不过如果是通过图形芯片的形式来普及通用并行内核的话，那么这可以说是一个“权宜之计”。

那么为什么Intel坚持通用数据并行内核计划呢？因为这是CPU架构发展的大方向。CPU制造商并不希望CPU朝着大规模超级CPU内核堆积在印模的这个方向发展。从客户方面来说，同构多核架构并不会提高工作负载的性能效率。

说到效率，大规模超级内核于小规模数据并行专有内核的混合体是最好的。因为数据并行可以提高以浮点运算为主导的工作负载性能，而单线程的整数运算性能不会快速提高。不过，因为Amdahl法则依然有效，所以Intel也不能抛弃大规模超级内核，异构是必然的结果。

而且，Intel和AMD等x86 CPU制造商希望将数据并行内核带入到架构中，更紧密地结合大规模超级CPU内核。有人认为在下载模式下编程适用的应用是有限的（这一点有待讨论）。而且，扩展指令集可以很好地利用x86 CISC等优点。

虽然Intel修改了Larrabee作为一款产品的开发时间间隔，但是基本方向仍然是开发出数据并行内核。所以，由于基本部分没有变，所有Larrabee的技术方向也没有改变。

Intel对未来CPU的预测（点击放大）

Intel指令集架构的演化（点击放大）

● Larrabee究竟面临什么问题？

Intel从很早就开始向一部分用户发售Larrabee的样品，让用户对其进行评估，然后获得反馈。所以，有人推测Intel修正Larrabee战略时间间隔的一个很大原因可能就是Intel得到了关于Larrabee作为图形芯片的糟糕反馈结果。

实际上，有消息称对Larrabee图形系统的评估并不理想。尤其是现有图形任务的性能效率非常糟糕。虽然我们并没有得到关于性能评价的细节，但是好像缺失存在效率方面的问题。

尤其是于GPU对比的话，每瓦能耗的性能相当地，因此据称它还不具备GPU的竞争力。有传闻称它的“性能/电力太低”。

从架构方面很容易想到会有这样的评价。

在这几个图形处理功能中，Larrabee唯一没有采用软件处理的功能是“纹理过滤”，因此，它在效率方面很难胜过那些对现有图形API进行硬件优化了的GPU。因为Larrabee是基于通用环形总线结构的，因此据推测它的总线电力效率也很低，纹理传送工作负载存在总线方面的瓶颈。实际上，适用环形总线的R600也存在着效率问题。

RV770的内部结构（点击放大）

在GPU内部，尽量减轻了内部总线的负载，这其中，图形管线上的渲染输出管道（ROP，Rendering Output Pipeline）通过硬件与存储控制器相连。这是因为ROP所涉及到的深度（Z）与Alpha（α）等数据将会占用带宽，而Larrabee的ROP也是基于CPU内核的软处理模式，为此，为了避免对内部总线的过度负载，基本都在片内的存储器上进行，不过片内的存储器容量被限定为每个核心256KB，以每个核心为单位处理Tiling（俗称：图像瓦片）成为了Larrabee的基本处理模式，而Tiling的划定将取决于绘图算法。

另一方面，对线程以及指令的控制也是有明显不同的，一般而言，现有的GPU已经对传统的API进行了最佳化的控制，而Larrabee则在提供了类似于CPU那样的高自由度的控制特性。譬如，在NVIDIA的Fermi之前的GPU，是将每个GPU的核在同一周期内共同去跑一个内核程序，而在Larrabee中，16核心可以跑不同的程序，这就意味着可以以核为单位进行使命与线程的控制，因此控制机制也相对变得更为复杂。

由此推断，我们可以得出这样的结论——Larrabee为了提高自由度也将牺牲一定的效率。因为它还不可能脱离传统的API而存在，但在对面传统的API时，Larrabee的功耗/能效比将低于现有的GPU。事实上，最初的Larrabee在芯片上几乎没有节省电力的机构，即使是在空闲状态下，功耗也很高，英特尔在CPU方面引以为荣的功耗控制技术并没有得到很好的运用。

Larrabee的结构样本（推测）

Larrabee整体结构（点击放大）

● 预计软件方面有所变化的Larrabee架构

由于现有GPU是针对图形API优化的，所以其自由度是有限制的。而Larrabee强调避开现有图形API，利用软件实现自由写入。同时，固定硬件也是瓶颈或者开销所在。因此，Larrabee图形处理的自由度要比GPU更高一些。

例如，Intel在“IEEE Visualization 2009”上发表了题为《医疗成像高保真度立体渲染到CPU、GPU和多核架构的映射》的联合论文，阐述了不适用现有图形API对医疗成像进行立体渲染的试验。据称，NVIDIA 16核GeForce GTX 280 (GT200)在立体渲染方面的性能峰值是8核Larrabee的1.5倍。

因此，如果图形软件行业受到Larrabee影响而抛弃现有图形API而适用软件的话，那么Larrabee的情况将有所改观。如果是这样的话，恐怕Larrabee就是最强的，其次是NVIDIA Fermi，第三位是AMD R800系列。不过，因为Larrabee在软件方面并没有根本性的变革，所以并不会展示出强大的吸引力。

顺便提一下，AMD现有的GPU架构相当接近现在的API优化。而且，NVIDIA Fermi正是一款瞄准了将新技术融合到现有图形API中的混合图形芯片。NVIDIA、Intel和AMD是这方面的主导厂商。总的来说，AMD预计不会在图形软件方面作太大变动，NVIDIA可能会有某些方面的变化，而Intel则会有急剧的变化。

当Intel公布Larrabee之初就引发了人们对软件变革的热烈期待。例如，2008年举行的CEDEC大会上Tim Sweeney（Epic Games创始人和首席执行官）表示：“图形API的新时代还没有来临。”2009年CEDEC大会的专题讨论会上也提出了很多不同看法。随着Larrabee的热度逐渐消退，这恐怕会成为整个业界的普遍看法吧。

这样看来，似乎Intel围绕Larrabee的图形软件策略不太可能实现，那么Intel如何调整战略，重新开始Larrabee架构的研究呢？

图形渲染通道发展历史（点击放大）

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅ZDNet技术邮件将是您的最佳途径之一。

Intel修改Larrabee各代间隔究竟为哪般？

业界热点:

技术关键字: