GPU通用计算：ATI向左NVIDIA向右？

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

本文历数AMD与NVIDIA最近几代的GPU架构设计，并重点探讨了Fermi架构的设计，或许我们能从中理解两家厂商的不同理念以及他们对未来的发展设想。

来源：驱动之家 2009年12月31日

　　9.Fermi欲出 NVIDIA胜算几何？

　　与AMD抛弃RV870这样的研发代号相似，NVIDIA新一代显卡的研发代号也不再延续GT300的名字而是命名为“Fermi”，这个名字来自于美籍意大利物理学家Enrico Fermi（恩里科费米，伟大的实验物理与理论物理学家，建立世界上第一座可控裂变反应堆，并参与原子弹研发，1938年因发现中子核反应获诺贝尔物理学奖）。如果联系到NVIDIA的高性能服务器品牌名为“Tesla”（尼古拉特斯拉，一个被世人忽略的科学天才，有兴趣的可以查找维基百科），NVIDIA在新架构上寄托的希望甚至是野心也就很明了了。

Fermi能否给NVIDIA带来好运？

　　如果说G80是NVIDIA试水通用计算的第一步解决的是有无的问题，GT200是针对G80通用计算能力不足的一次扩展，那么Fermi将是NVIDIA近几年来开发通用计算架构的一次总结，也是一次升华，其目的是设计出世界上第一款通用计算GPU（NVIDIA官方PDF语），继续推进NVIDIA的“GPU是计算的核心”构想。

　　NVIDIA在设计G80架构时还带着很大的试探心理，毕竟当时的重心依然是DX游戏应用，通用计算能力属于显卡的附属，再加上当时的工艺限制，GPU核心不可能设计的很庞大，所以G80流处理器数量较低，而且不支持双精度浮点运算。GT200中虽然支持双精度运算，但是效率比较低，Fermi吸取了前两款GPU的使用经验，针对高性能计算作了如下改进：

　　1. 提升双精度运算能力。在这一点上相比GT200改进多多，FP64双精度浮点运算能力可以达到FP32单精度峰值速度的1/2，而GT200中双精度仅有单精度运算的1/8峰值速度。

　　2. 支持ECC纠错。商业计算对数据运算的可靠性要求非常高，服务器中ECC内存必不可少，NVIDIA要想在其中分一杯羹也同样要在计算可靠性上下足功夫，Fermi的register寄存器缓存、L1/L2缓存以及显存都支持ECC纠错功能，减少了后顾之忧。

　　3. 真正的缓存结构。Fermi之前的架构都是共享内存（shard memory）结构，有些并行程序并不支持共享内存，需要真正的缓存来避免这种情况的发生。

　　4. 更大的共享内存。原来16KB大小的SM内共享内存已经不能满足越来越多的CUDA程序的要求，Fermi中每组SM单元的共享内存提高到64KB。

　　5. 更快的转换速度。Fermi是首款真正的肩负游戏应用和高性能计算的GPU架构，在两种不同的应用环境中的转换速度要尽可能地快，NVIDIA的目标是提高至少10倍。

　　6. 更快的原子操作。并行计算中需要更快的“read-modify-write”原子操作，Fermi的速度将达到GT200的5-20倍。

　　Fermi的设计目标看起来非常远大，NVIDIA倾注了大量心血用它打造真正的GPU 中央处理器，无论是游戏应用还是高性能计算都要一网打尽，那么Fermi架构能否承担这一重任呢？

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

GPU通用计算：ATI向左NVIDIA向右？

业界热点: