GPU通用计算：ATI向左NVIDIA向右？

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

本文历数AMD与NVIDIA最近几代的GPU架构设计，并重点探讨了Fermi架构的设计，或许我们能从中理解两家厂商的不同理念以及他们对未来的发展设想。

来源：驱动之家 2009年12月31日

　　10.30亿晶体管 Fermi的CUDA核心设计

　　NVIDIA在9月底公布了Fermi的官方文档，人们终于有机会可以亲自体验到Fermi架构的强大。Fermi显卡将拥有目前最为庞大的30亿个晶体管，512个CUDA核心，采用TSMC 40nm工艺生产，虽然目前尚未得知正式产品的核心面积、频率以及TDP功耗等参数，但是仅30亿个晶体管这样庞大的规模就足以让人震撼了，想想14亿晶体管的GT200吧。

Fermi架构图

　　Fermi的设计目标是512个CUDA核心（实际上就是流处理器，NVIDIA为了推进CUDA连名称都有所改变），这512个核心分为16组SM，每组SM单元包含32个CUDA核心，而GT200中每组SM单元只包含8个流处理器，但是拥有30组SM单元，所以CUDA核心总数上反而有所增加。

SM单元的组成情况

　　每组SM单元中包含32个CUDA核心，每一个CUDA核心都拥有一个全功能的ALU逻辑运算单元和FPU浮点运算单元，其中浮点运算单元支持IEEE 754-2008标准（之前的核心仅支持IEEE 754-1985标准），新标准支持单精度和双精度下的FMA指令（Fused mutiplay-Add），这是一种同时混合乘法与加法的操作，比单独进行乘法或者加法运算要精确的多。

　　改进后的CUDA核心执行FP64双精度运算时效能大增，峰值速度可以达到单精度时的一半（双精度的运算量是是单精度运算的8倍），而GT200只能达到单精度时的1/8，竞争对手AMD的双精度效率也不过是1/5。

　　每组SM中还用16个Load/Store单元用以存储缓存（Cache）或者显存（DRAM）中寻址数据。最右边的SFU则是special function unit（特殊功能单元），可以执行正弦/余弦等数学或者插值运算。

GPU通用计算：ATI向左NVIDIA向右？

业界热点: