科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道服务器组件28nm+全新架构 AMD下一代GPU规格前瞻

28nm+全新架构 AMD下一代GPU规格前瞻

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

我们检查了一下AMD下一代GPU的结构,看起来比以往更像是一个通用的向量处理器。·它基本上是一个被标协处理器和固定功能的图形硬件包围的向量处理器 ·每个计算单元都由一个4宽MIMD端口连接64-op FMAD向量处理器组组成40路SMT能力 

来源:天极网 2011年8月3日

关键字: AMD GPU CPU

  • 评论
  • 分享微博
  • 分享邮件

我们检查了一下AMD下一代GPU的结构,看起来比以往更像是一个通用的向量处理器。不断增加用于GPU计算的软件支持,今后GPU将成为一种新的协处理器。

我们许多热心读者可能早已经尝试了不只3D游戏或者GPU超频。这些天来,非3D的应用程序使用或GPU加速的另一方面都在增加——无论是整数还是FP处理,或者特定的搜索行动中巨大的本地显存带宽——在高性能和台式桌面计算领域。而且,Linux和Windows编译器现在都支持这个了——看看即将推出的微软C++AMP——共轴GPU代码可能在很多程序里共通。

然而,它能将GPU的进化方向转变为一种更灵活快速的数学协处理器或者加速器吗,就像早期在20世纪90年代的80x86处理器有80x87 FP协处理器(后来在Macs的摩托罗拉680x0CPU也一样)。看起来Intel不是唯一考虑这种方式的,虽然现在还为时过早。AMD的下一代GPU构造,一个月前在Fusion首脑会议上就展示了,期望在年底之前在Radeon HD7000系列初步实现一个28nm制程。

如果你在这个图表上看到了微软自身的期望,GPU将会朝CPU领域再进一步,使其更通用也更容易达成方案,功能能被更广泛的应用程序访问。所以,“通用协处理器”最终可能变得有意义。

在观察了其结构并与之前AMD和Nvidia产品比较之后,我得出结论下一代AMD GPU比目前GeForce线上的Nvidia Fermi更像一个“图形功能的向量处理器”。正如你所看到的,基本上我们谈论的是一个芯片内的迷你Cray超级计算机,与X86兼容的64位定址和内存管理,基本上在系统中用X86能够分享虚拟和物理内存,而且如果以某种方式通过Hyper Transport或者QuickPath(后来怀疑是由于英特尔的访问许可问题)连接了CPU,可以以自己的内存作为一个方面逐渐变为一个耦合合作处理器,以接近CPU的速度处理所有主要内存,并且没有PCLe瓶颈。

附注:是的,有人会建议PCLev3可以使用渠道或别的协议允许CPU和GPU合理的进行快速的内部处理交流,甚至由一个单一的线程解决两个内存区域,但是没有什么能打败像HTX或者QPI的超高速,低延时,缓存一致的互相连接。

你可能已经在网上看过各式各样版本的关于下一代AMD GPU构造,然而现在我们来看一看一些应该被批评的地方以及AMD着重强调的地方:

·它基本上是一个被标协处理器和固定功能的图形硬件包围的向量处理器

·每个计算单元都由一个4宽MIMD端口连接64-op FMAD向量处理器组组成40路SMT能力

·每个计算单元都各自有16KB的L1高速缓存和64KB L2缓存可以被所有的CU和CPU访问

·它兼容X86的地址,指向,甚至页面故障,内存和L2高速缓存在CPU和GPU里都是一致的

在制图过程中,这些向量单位被视为一个统一的着色器阵列,控制和帮助3D特殊功能硬件的镶嵌,几何,纹理和扫描转换和高清视频加速硬件,像往常一样。不过,在数学方面,你基本上是在寻找一个协处理器。唯一缺少的是X86指令集扩展,在汇编代码中直接处理,我希望这不会发生——X86从某点上来说已经退休了,成为历史上最原始的指令集构架,以压倒性的优势优雅的战胜了一切对手。

让我看看这个新芯片的数学能力。假设一秒钟1GHz默认矢量计算单元频率,这样它64下64位FMAD——融合64位乘加——每个周期的业务作业其矢量作为64个字宽(在首次实施时它可能任然是64x32位值,让我们暂且这样假设吧)。在计算FLOP额定值的时候,顺便提一句,每个FMAD作为两个FP ops计数。所以,在1GHz,每个计算单元理论上可以提供128 GFLOPs的双精度(或者单精度,如果只有64x32位值在该向量)吞吐量。为了配合现有的HD6970卡双精度吞吐量,你只需要7个这样的计算单位,再次假设,新的单位是基于64位之上的。16个单位的芯片将给你2个TFLOPS,这样等着你来扩大。

当然,AMD未来将会提高高端chippery的内存带宽以满足这些单位,所以我敢肯定的是384位,可能甚至512位GDDR5和超出本地内存的内存子系统会在这里出现。宽位不只增加了带宽,还将容量尽可能的提升。4GB本地RAM有2 Gbit GDDR5芯片单负荷,或者8GB的双负荷,在本地的高宽带帮助处理尽可能多的计算任务,不运行CPU也能降低延迟内存——使CPU通过共享内存管理,直接处理GPU的内存。

它将会怎样影响到Nvidia和Intel的产品呢?Intel的“Knights”家庭,原先预计从现在起可能一年内生产22nm制程的产品,就有相当的时间来运转协处理器或者只是作为CPU旁边的另一个处理器,有着X86的前端。如果通过QPI连接到其Xeon E5 Sandy Bridge/Ivy Bridge弟兄们,它可以用自己的内存系统相当快的进入所有的内存。然而,在最初Larrabee图像性能失败之后,Intel——也许是明智的——决定把重点放在这些多核矢量芯片有利可图的HPC超计算利基。如果有的话,现在这种模式看起来也相当符合新的AMD GPU打算发展计算市场的意图。

至于Nvidia,他们可以很容易的跟随AMD的方法——毕竟,Fermi在一年前已经朝“通用目标的GPGPU”方向前进了。但是,集成GPU与Intel和AMD的CPU从编程甚至物理连结方面,可能都不容易。Nvidia看起来不像有Intel的QPI许可证,仅仅有HyperTransport许可给其选择,是要坚持PCIe GPU,创建与任何CPU更紧密的连接,还是创建HyperTransport附加的GPU与相似的AMD GPU竞争一个相当较小的高端AMD CPU市场。

总而言之,如果AMD使用这个新的GPU结构到28nm的Radeon HD7000系列里,这将成为五年前GPU里出现可编程明暗器之后最大的GPU革新。我们当然希望这不会影响核图形驱动的性能和稳定性,但是一旦首字母越位,这将会有一个非常有趣的新系统——和应用程序——结构。是的,一次混合少数宽核和和数百个狭窄内核在应用程序里可能听起来是一个挑战,但是性能收益证明可能超过它。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章