扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共15页)
10.30亿晶体管 Fermi的CUDA核心设计
NVIDIA在9月底公布了Fermi的官方文档,人们终于有机会可以亲自体验到Fermi架构的强大。Fermi显卡将拥有目前最为庞大的30亿个晶体管,512个CUDA核心,采用TSMC 40nm工艺生产,虽然目前尚未得知正式产品的核心面积、频率以及TDP功耗等参数,但是仅30亿个晶体管这样庞大的规模就足以让人震撼了,想想14亿晶体管的GT200吧。
Fermi架构图
Fermi的设计目标是512个CUDA核心(实际上就是流处理器,NVIDIA为了推进CUDA连名称都有所改变),这512个核心分为16组SM,每组SM单元包含32个CUDA核心,而GT200中每组SM单元只包含8个流处理器,但是拥有30组SM单元,所以CUDA核心总数上反而有所增加。
SM单元的组成情况
每组SM单元中包含32个CUDA核心,每一个CUDA核心都拥有一个全功能的ALU逻辑运算单元和FPU浮点运算单元,其中浮点运算单元支持IEEE 754-2008标准(之前的核心仅支持IEEE 754-1985标准),新标准支持单精度和双精度下的FMA指令(Fused mutiplay-Add),这是一种同时混合乘法与加法的操作,比单独进行乘法或者加法运算要精确的多。
改进后的CUDA核心执行FP64双精度运算时效能大增,峰值速度可以达到单精度时的一半(双精度的运算量是是单精度运算的8倍),而GT200只能达到单精度时的1/8,竞争对手AMD的双精度效率也不过是1/5。
每组SM中还用16个Load/Store单元用以存储缓存(Cache)或者显存(DRAM)中寻址数据。最右边的SFU则是special function unit(特殊功能单元),可以执行正弦/余弦等数学或者插值运算。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者