扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:IT168网站 2010年2月19日
关键字:
【IT168 专稿】年初的CES 2010上,Nvidia首次公开拿出了Fermi架构高端型号GF100,展示立体多屏环绕技术3D Vision Surround的同时,内部运行了几个新的演示DEMO。近日,Nvidia终于公布了Fermi新架构显卡的型号命名“GeForce GTX 480/470”,出乎意料地跳过300系列型号直接迈入了GeForce 400系列——而企业级的Tesla计算卡也将沿袭这一命名法则。
改叫GTX400有两大原因
据了解,GTX 400系列的命名是通过激烈争论之后,直到“最后时刻”才定下的,甚至连Nvidia最亲密的合作伙伴都一直认为Fermi系列显卡应该是GTX 300系列——坊间一直传言的名字是“GeForce GTX 380/360”,这也延续了Nvidia发布新品时的规则:一个高端搭配一个低端型号——其实也是通过将高端型号的残次品通过屏蔽一部分渲染管线推出低端产品,来降低成本影响。
(原因1:避开已有型号 拒绝混淆概念)不过,早先Nvidia在OEM领域推出了Geforce 301/305等显卡,还包括移动平台的Geforce 300M系列,它们都基于GT 200架构,因此可以认为Nvidia本次将Fermi架构命名为400系列,也是为了避开已有型号的定位。另一方面来看,将Fermi定名为“Geforce GTX 400系列”也可以从一定程度上扭转NV与ATI在新一代显卡上的竞争态势。
众所周知,在GTX 200系列和HD 4800系列开始对抗的时候,ATI就因为其“小核心”策略,赢得了头筹。其产品面向中高端以下的所有群体,而放弃了最顶级性能的追求,而NV则继续着“大核心”的超强性能路线,但是因为晶体管过多导致的功耗和成本居高不下使得NV在价格竞争上处于劣势。
(原因2:时间不允许迟到 跳过一代才有竞争力)用通俗的话说,ATI精明的瞄准占据了市场绝大多数的中端和低端用户,而放弃了与NV的军备竞赛,NV则陷入了空有一身性能,却很难在中低端市场推出有利产品的被动局面。而如果说GTX 285还可以说称雄于DX10时代的话,那么当DX11时代到来的时候,Nvidia面临了来自ATI HD5000系列的强势进攻——而与之相抗衡的Fermi系列却因为架构复杂和工艺等原因难产。如今,改为GTX400系列,可以给用户以感觉:不是迟到,而是跳过了一代——因而获得舆论优势。
将GPU核心做成通用单元 Fermi最终架构极为强悍
半年过去,迟到的Fermi强调了科学计算,也就是企业级计算和通用计算的超强特性。据了解,“费米”(Fermi)集成了512个流处理器(是上一代的两倍),拥有超过30亿个晶体管,而这些流处理器使其双精度浮点运算能力超过上一代8倍。“费米”还具有ECC纠错技术,在可靠性方面保证了并行计算的顺利。另一方面,作为支持CUDA通用计算的一部分,“费米”也进一步支持C++编程环境,使得并行计算编程更加容易。(如下表)
GF100(Fermi) | GTX 295(双GPU核心) | GTX 285 | 9800 GTX+ | |
流处理器 | 512 | 2 x 240 | 240 | 128 |
纹理寻址/过滤单元 | 64/256 | 2 x 80 / 80 | 80 / 80 | 64 / 64 |
ROP单元 | 48 | 2x 28 | 32 | 16 |
核心频率 | ? | 576MHz | 648MHz | 738MHz |
Shader频率 | ? | 1242MHz | 1476MHz | 1836MHz |
显存频率 | ? GDDR5 | 999MHz GDDR3 | 1242MHz GDDR3 | 1100MHz GDDR3 |
显存带宽 | 384-bit | 2 x 448-bit | 512-bit | 256-bit |
显存容量 | ? | 2 x 896MB | 1GB | 512MB |
晶体管 | 3B | 2 x 1.4B | 1.4B | 754M |
制造工艺 | TSMC 40nm | TSMC 55nm | TSMC 55nm | TSMC 55nm |
价格 | $? | $500 | $400 | $150 - 200 |
除此之外,“费米”(Fermi)还具有L1和L2缓存(是不是有些像CPU了),新的GDDR5高速闪存也将GPU和显存之间的通讯带宽增加了一倍,而显存的容量也支持到1TB(太惊人了)。 据Nvidia的架构师表示,GF100(Fermi)架构已经革命性的将通用计算和并行结合在一起,根据IEEE 754-2008有关浮点运算的标准,“费米”(Fermi)任何一个核心的浮点性能都要好过目前最好的CPU,而新建的整数处理单元和浮点计算单元一道在最后汇聚为运算结果队列,这种拆分的并行计算使得双精度和单精度运算都保证了良好的效率。
实际上,GF100(Fermi)架构可以说是第一个真正意义上拥有片上缓存的GPU,而“费米”中的每条SM引擎都拥有一个L1 Cache,在提升通信带宽的同时降低系统延迟。另一方面所有内核之间还共享有L2 Cache,用以在众核环境下共享资源和通信。
GF100(Fermi)架构由于其每一个Core都像CPU一样具有高速缓存和自己的ECC纠错单元,因而进一步模糊了GPU在并行计算领域与CPU的界限,成为大规模CPU集群计算的竞争者——究竟是众核GPU阵列强,还是多核CPU集群强?现在我们无法得知,但是我们可以从一直以来被人诟病的GPU编程问题谈谈GF100的改进。
CUDA架构的实现途径是多种多样的,包括CUDA C、CUDA C++、OpenCL、DirectCompute、PhysX、OptiX Ray-Tracing等等不一而足。这其中既有NVIDIA自己似有的开发方式,也有开放的业界标准规范,开发商可以自由选择。而GF100利用CUDA和物理渲染的性能相比上一代GT200架构有了接近3倍左右的提升。加上GF100首次加入的ECC纠错和高速缓存,使得GF100(Fermi)成为了有史以来通用计算性能最高的GPU处理器。
而对于GPU本身的图形性能来说,Nvidia本次磨剑下了苦功夫,其几何性能相比上一代提高了8倍之多——要知道,从Geforce FX 5800到GT200系列这么多代产品也只提升了不到3倍性能。有了如此强大的几何性能,NVIDIA就可以使用细分曲面和置换贴图创建更复杂的人物、物体和场景,并保持和对手同样水平的性能,所以才有了16个多形体引擎和4个光栅引擎。
光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。
多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。GF100中有16个多形体引擎,每组SM一个,亦即每组GPC四个。
这种变化并非是简单的整合,而是融合了以前的固定硬件单元,其意义在于:16个引擎形成一体就能像CPU那样进行乱序执行(OoO)了,也就是趋向于并行计算——NVIDIA还特地为这些多形体引擎设置了一个专用通信通道,让它们在任务处理中维持整体性。
当然,这种变化复杂得要命,也消耗了NVIDIA工程师无数的精力、资源和时间。事实上可以这么说,多形体引擎正是GF100核心最大的变化所在,也是它无法在去年及时发布的最大原因。NVIDIA产品营销副总裁Ujesh Desai说过这么一句话:设计这么大的GPU实在是太TMD难了。其实,他指的并不是30亿个晶体管。
在拿到GF100显卡实物之前,关于Fermi架构我们能说的基本上也就这些了。从NVIDIA公布的这些资料看,GF100毫无疑问在专业和民用两个领域都会成为新的怪物级产品,彪悍的GPGPU通用计算和游戏几何性能令人激动。不过GF100到底会有多快?功耗和发热量能否让人接受?价格又是几何?这些更实际的问题仍然没有答案,也还要再等至少两个月才会真正揭晓。到时候AMD已经在DX11世界里寂寞了长达半年之久,NVIDIA又能否力挽狂澜、绝境重生呢?
适逢春节期间,国内一片虎年大吉的喜庆气氛,而业界一年一度的汉诺威CeBIT展会即将到来,预计届时不少厂商都会展示GeForce GTX 480/470显卡产品,也就是说他们应该能在本月底或者下月初拿到样卡,我们期待费米会给我们带来惊喜,也不枉我们的漫长等待。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者