科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道服务器组件“开普勒”的望远镜 从传闻看GK104的真实架构

“开普勒”的望远镜 从传闻看GK104的真实架构

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

NVIDIA两年前公布的这张路线图应该还有人记得吧,按照当时的规划,Fermi架构之后NVIDIA显卡将进入Kepler时代,原本预计是在2011年底发布的,不过受限于TSMC台积电28nm工艺进展不利等多方面因素,Kepler一直拖到这个月才能发布。

来源:超能网 2012年3月15日

关键字: GPU NVIDIA 开普勒 Tesla

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共5页)

架构:源自GF104还是GF110?

显卡的规格参数也确定了,核心架构也有了准确的消息。Kepler的流处理器单元(NVIDIA也叫CUDA核心,以下统称CUDA核心)也大幅攀升,GK104将拥有1536个CUDA核心,相比GTX 580提高了2倍,NVIDIA如何在芯片面积大降的同时塞入更多的核心呢

回想前两年的情况,对NVIDIA来说开发Fermi架构的过程无疑是艰难的,它太庞大了,但抛开难产的过程不谈,Fermi架构是NVIDIA的得意之作,无论是游戏还是通用计算上都能左右逢源,Kepler显卡的架构不可能重起炉灶,必然是在Fermi架构基础上修改而来。

众所周知,Fermi家族衍生出两大核心,一个是完整版的GF100以及后续的改进型GF110,另外一个就是GF104以及后续优化的GF114(其实GF114=GF104),Kepler更像哪一个架构呢?

GF110架构:高性能、高代价

“开普勒”的望远镜 从传闻看GK104的真实架构
GF100/GF100架构示意图

首先来看GF110,它分为4组GPC,每组下辖4组SM单元,每组SM单元又有32个CUDA核心,总计有512个CUDA核心,64个纹理单元,48个ROP单元,16个曲面细分单元,搭配6组64bit显存控制器,总计384bit位宽,1536MB显存。

“开普勒”的望远镜 从传闻看GK104的真实架构
GF110架构中的每组SM单元设计

这些是看得见的参数,实际上Fermi之所以这么设计主要是为了HPC高性能计算,具体到每组SM单元中又是由32个CUDA内核为基础运算单元,每个内核又包括完整功能的整数单元和浮点单元,配备64KB L1缓存,16个LD/ST存储单元以及四个SFU多功能单元。

GF100架构用在通用计算方面的确是最合适的,16组SM意味着16个运算单元(OpenCL计算中是以SM单元数量为计算单位的,GPLBench或者Luxmark中都要看SM单元数量,AMD的现在称为CU单元),GPU通用计算上比前代GT200架构有着质的提高。

当然,GF100的代价也是巨大的,核心面积达到530mm2,发热也很恐怖,第一代GTX 480显卡甚至需要阉割部分CUDA核心才能控制住功耗和发热。

实际上游戏运算跟GPU通用计算并不是一条路,Fermi架构的为了提高数据吞吐量配置了大容量L1、L2缓存对3D游戏用处并不大,所以NVIDIA为Fermi架构准备了B计划,精简规格,提高效率,推出了GF104架构。

GF104:精简,高效

“开普勒”的望远镜 从传闻看GK104的真实架构
GF114架构示意图

GF104架构首先应用与GTX 460显卡上,GPC只有2组,SM单元数量也从16组减少到8组,但是每组SM单元的CUDA核心数提高到48个,看起来是增加了,不过在其他单元如调度器、寄存器、L1缓存没有增加的情况这意味着资源争抢的情况也多了,对数据计算来说意味着削弱,但是对图形运算来说是增强。

除了CUDA数量变化之外,GF104的L2缓存也减少了,内存控制器减少到4组,位宽256bit,曲面细分单元也减少到8组,但是纹理单元依然维持在64个,ROP单元还有32个,图形性能受损不如规格精简幅度那样大,而功耗与核心面积却大大降低了,无论是GTX 460还是之后的GTX 560 Ti、GTX 560在温度与功耗上反倒比高端显卡还要好。

“开普勒”的望远镜 从传闻看GK104的真实架构
网上流传的一张GK104架构图,明显更像GF100架构一些

那么Kepler的架构应该源自哪一个?GK104架构确信有1536个流处理器,恰好是GF110的3倍,浴室上个月就有人PS了上面这张图,显示GK104将有16组SM单元,每组SM单元变成96个CUDA核心,恰好符合1536个流处理器的特征。

初看一下似乎也很合理,不过实际情况却不是这样。这么说似乎有些马后炮的感觉,但是GK104并非GF110那样的旗舰定位,而是类似GF114这样的中高端显卡,而且有GF104成功的先例在前,NVIDIA没理由去复制GF110架构设计。

“开普勒”的望远镜 从传闻看GK104的真实架构
实际上GK104的架构更像GF114

最终的结果就是GK104的架构更像GF104,它的每组SM单元中塞下了192个CUDA核心,是GF110架构的6倍,是GF104架构的4倍,SM单元总数也不是16组,还是8组,这样总计有1536个CUDA核心,1536的数值是这么算出来的,而非GF110乘以3那样。

目前知道的架构设计就是这些,纹理单元未知,不过纹理单元是跟SM中的SFU单元对应的,GF100架构中每组SM单元有4个TA纹理寻址单元、16个TF纹理过滤单元,GF104中每组SM提高到8个TA、32个TF,GK104的纹理单元有说是128个,也有说160个,目前还没有确切消息,需要等到GK104的架构完全公布才能知晓。 

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章