ZDNet>服务器频道>X86-zhiding>英伟达Tesla项目CTO：打造Tesla和Tegra融合架构

英伟达Tesla项目CTO：打造Tesla和Tegra融合架构

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

英伟达公司的Tesla GPU协处理器与CUDA编程环境已经成为席卷超级计算机世界的一场强劲风暴。在媒体采访中，Tesla GPU协处理器部门CTO cott谈到了关于Tesla GPU协处理器与Tegra CPU的更多细节信息。

来源：ZDNetserver频道【编译】 2013年04月26日

ZDNet至顶网服务器频道 04月26日消息：俗话说，有心栽花花不发、无心插柳柳成荫。英伟达公司联合创始人兼CEO黄仁勋就很好地诠释了这句俗语。当初黄仁勋表示，不会进军超级计算领域，为3D游戏玩家提供出色的显卡才是该公司的运营目标。然而一晃二十年过去，英伟达公司的Tesla GPU协处理器与CUDA编程环境已经成为席卷超级计算机世界的一股强劲风暴。

大约两年前，超级计算机制造商克雷公司CTO Steve Scott——数代超级计算机与互联技术的设计者——加入了英伟达，并在Tesla GPU协处理器部门继续担任CTO一职。

在一次媒体采访中，Scott谈到了关于Tesla GPU协处理器与Tegra CPU的更多细节信息，后者于一个月之前的GPU技术大会上才刚刚公布。以下为访谈实录。

记者:我们希望了解GPU计算路线图、Denver ARM核心项目、服务器与连接以及您在这一领域所扮演的角色。

Steve Scott:黄仁勋先生已经就此做出过说明，但事实上，“Logan”Tegra的功能诉求也将通过GPU实现。我们关注的是Tegra与Tesla之间的功能过渡方案。

失去GeForce的支持，我们根本无法真正实现Tesla项目的预期效果。高性能计算这块市场还太小，不足以支撑起我们在开发具备强大竞争力的处理器时需要投入的庞大资源。这也是克雷公司放弃处理器开发甚至最近决定放弃互连技术的原因——高性能计算的蛋糕还未成规模。因此，Tesla项目已经完全转由GeForce方案实现。目前最酷的成果是，我们正在努力以GeForce为起点向Tesla延伸、并最终过渡到Tegra。所有GPU计算以及所有相关软件——例如CUDA、OpenACC及其它此类软件堆栈——如今已经出现在手机、平板设备乃至笔记本电脑等多种平台上。而在另一方面，Tesla与Tegra之间的差异也开始逐渐淡化，这是因为我们开始尝试将CPU整合到Tesla当中。

记者:二者会严格遵循项目名称来使用Tegra与Tesla处理器吗？或者说有可能采用专为移动及服务器设备打造的Denver核心衍生方案？

Scott:我们的Denver项目专注于打造一款高性能ARM v8处理器。我们的Denver 64位ARM核心将比目前大家能从ARM公司买到的任何产品都更加强劲。我们仍将推出采用ARM核心的Tegra处理器，正如我们目前推出的Cortex-A9核心，但Denver将成为高端产品的标准配置。

对于获得认证的架构，我始终严格遵循这样的原则：我们可以通过调整来改变ARM核心的性能，但绝不可能轻易改变其设计架构。一切工作必须符合ISA标准，这方面的要求非常严格。

记者:您也不能对ISA做出实质性变动？

Scott:不行。我们可以添加系统芯片功能、可以加入视频转码器、甚至可以使用不同的网络接口，但指令集必须采用由ARM核准的ISA——这一底线无法动摇。也就是说，我们可以对任何软件进行编译并使其运行在任何ARM核心上，这样就很好了。

记者:那么我们该如何看待Tesla与Tegra的发展前景？Tesla会永远存在吗，Tegra会不会走上体积更大、速度更快的路线？

Scott:作为Tesla部门的CTO，我当然希望是这样。目前我还没有放弃Tesla的明确打算。但这两个系列的产品没必要合并，我们只是打算最终推出一套融合架构。这真的是前所未有的情况。纵观历史，我们会发现打造消费级处理器与开发超级计算机处理器所遵循的是完全不同的路线。大家可以回顾当初的Cray 1、Motorola 6800或者MOS 6502，它们简直是一天一个变化。甚至就在五年前它们还与如今完全不同。

但现在每个人都会受到供电能力的制约——对于普通的手机用户来说，最重要的关注对象在于能源使用效率，因为手机电池的功率只有一瓦；而在价值上亿美元的超级计算机上，功耗性能比则成为首要考量对象。因为用电成本始终处于飙升状态。因此，未来打造超级计算机的正确方式是采用大量功耗性能比更高的小型核心。只有这样我们才能获得理想的能源使用效率。现在已经没人愿意为超级计算机开发复杂的处理器了，这样会导致能源使用率低下。

所以问题就变成：我们到底是要用很多小型核心，还是采用100个核心、或配备上千个核心。

记者:目前您已经在GPU的差异化方面进行了大量工作。您以规模化方式增加或减少CUDA核心、SM以及内存等配置的数量；并决定每款产品中各项功能的开启与关闭情况——例如到底采用虚拟化、动态并行还是Hyper-Q，采用单精度还是双精度运算等等。那么Tegra与Tesla之间是否存在类似的差异化设定？

Scott:两者的差异由边缘配置决定——例如采用哪种网络接口、拥有多大内存带宽、是否需要ECC（即错误检查及纠正功能）、需不需要处理高吞吐量的双精度浮点运算等。在高性能计算领域，这些问题的答案都是肯定的，而在移动方面，这些问题的答案又是否定的。但单就架构而言——这意味着为了提升单线程性能而采用一些重量级核心，再出于能耗考虑接入大量小型核心——二者其实是一致的。

因此我们现在可以开发Maxwell系列GPU并准备将其纳入Tesla产品线，而Tegra处理器方面则会迎来Parker系列。正如我们目前所制造的GK104、GK107以及GK110（名称皆为库存编号），三款同系列产品采用同一种基础架构。但在动态并行方面我们绝不会让步，未来推出的任何一款Tesla GPU都将搭配这项技术，虽然其最初是被应用于Tesla K20所使用的GK100中。(Scott还不知道动态并行技术何时才会被添加到未来的Tegra CPU-GPU混合处理器中。)

重点在于，一旦我们让Tegra成为计算工具、整合GPU核心并拥有同样的基础架构，我们也就具备了实现 “从手机到超级计算机”架构统一承诺的前提。这意味着我们将拥有更庞大的架构营收保障，从而为Tesla提供发展基础。

记者:就目前来看，Tesla基本是一块经过少量调整、专门用于服务器及工作站的GeForce显卡。但展望未来，Tesla与Tegra之间仍然会存在一些不同之处，您是打算把CPU与GPU同时放在同一块芯片上。

Scott:二者并不一定要放在同一块芯片上。只要为它们提供定制接口，就能实现同样的效果。

记者:英特尔公司已经把至强E3与高清显卡整合在一起。英特尔会根据情况选择开启或关闭显卡功能，从您的角度出发则是开启或关闭CPU功能，这取决于产品到底是用在工作站上还是服务器上。

Scott:这最终取决于ARM是否能在游戏领域成功取得优势，大家不妨想象游戏设备在未来的发展方向——利用ARM加GPU来取代X86加GPU。

记者:这段时间我一直在思考您进军控制台业务，从而进入特定服务器，最终登陆PC机的决定——无论这在未来意味着什么——但却单单回避了智能手机与平板设备。

Scott:重点在于，我们可以在同样的架构基础上实现目前的所有业务。但我们将继续与英特尔与AMD处理器进行互操作——这个前提非常重要，而且我们也将继续坚持这一路线——所以功能重叠是不可避免的。但大家可以想象未来X86处理器将逐渐消失在历史舞台当中，因为我们拥有了集成化ARM处理器。

Tesla与Tegra之间的区别是什么?

记者:在高性能计算领域，Tegra与Tesla的本质区别是什么？哪些因素会促使超级计算机厂商放弃Parker芯片甚至是Logan，转而通过Tegra打造超级计算机？

Scott: Tegra永远不会具备良好的网络接口，因为它并不需要；而且Tegra也不会拥有像Tesla那种级别的子系统内存容量及带宽。在某种情况下，大家可能会在Tegra中获得堆栈式内存，正如我们打算在“Volta”Tesla芯片中实现的效果，但在容量上仍然非常有限。

Tesla则永远无法获得理想的普及度，至少与我们为之投入的大量工程研究及全面解决能力相比还远远不够。然而采用同一套基础架构的开发思路使其足以作为消费级组件产品并用于组建超级计算机。

记者: Tesla产品中所使用的Denver核心到底有多强力？它有能力完全摆脱X86架构的影响吗？

Scott: 这是我们的奋斗目标。单就功能性着眼，ARM ISA与X86 ISA之间其实并无不同。ARM ISA在RISC方面显得更加纯粹，而X86处理器则完全是通过包装而转化为RISC ISA的方案。我很高兴地看到全球大部分用户都承认ARM比X86更具效率优势，但实际上这一结论并不准确。这有点像二阶效应，人们往往喜欢为市场上相对弱势的一方假设一种竞争优势。但平心而论，ARM并不具备什么功耗竞争力。

真正的优势在于，ARM采用开放式架构且具备极高的普及度，越来越多的用户使用它，并由此给产品带来创新与发展的新机遇。纵观技术发展史，支持者多的一方往往能够胜出，也就是所谓“创新者的困境”。我希望ARM在面对英特尔时能够像英特尔当初在RISC与大型机方面那样占得先机。没人敢保证历史会再次重演，但我还得再次强调，普及度高（意味着利润比例较低）、开放且用户群体更大的一方往往能在创新竞赛中获得成功。

记者:您会将未来的InfiniBand端口加入到Tesla方案当中吗？这么做是否能得到满意的结果？您会把ConnectX适配器、完整的交换机、或者像ARM服务器与Calxeda分布式交换机的组合那样为Tesla增添网络功能吗？

Scott: 当然可以。我认为大家都能从网卡提升方面获得可观回报。将路由器也整合进来则有利有弊，因为我们还需要提供创建不同强度网络方案的能力。如果处理器本身并不内置路由器芯片，那么用户则能够轻松按需求构建或庞大或精巧的网络系统。而且加入路由功能之后，我们就需要利用处理器来引导进入与发出的数据包——这些数据进程不会在处理器端结束、也并非以此为起点。这会给处理器带来更多负担，不过只要我们对配置规划得当，其效果也会非常理想。

我不能透露太多目前正在进行的工作内容，但这一切都围绕着整合而进行。我们期望到2020年之前，高性能网络生态系统中不再有第三方供应商的身影。

如果大家关注目前的全球超算五百强，肯定会发现大部分采用以太网系统的设备都处于榜单末尾——其执行效率相当差劲，即使是在Linpack基准测试中也是如此。而在表现突出的高性能计算系统中，我们会看到InfiniBand及定制网络已经成为克雷、SGI、IBM等大厂商的首选。从目前的状况推导可知，QLogic与克雷的网络体系都将被历史所淘汰，原因很简单：英特尔接手了网络业务，而克雷只能选择退出。根据我收集到的信息，BlueGene也将逐渐淡出视野，因为目前BlueGene没有放出任何路线图计划。K计算机所采用的富士通Tofu网络在商业化领域的发展前景也不明朗。SGI目前使用的是定制网络，但我不知道这样的情况还能持续多久。

那么幸存者还有谁？好像只有Mellanox了。Mellanox的突出贡献是什么？基本上，他们成功将至强服务器接驳为计算集群。如果英特尔公司开始打造专有集成网络体系，那么Mellanox公司就算不至于元气大伤——我不想给大家留下误导性结论——但受到威胁肯定是在所难免的。

记者:对此我也深有同感。而且说了这么多，英特尔公司不仅收购了Fulcrum Microsystems、QLogic以及克雷互连技术以避免其为竞争对手所用，而且希望希望将这些方案分解并融入芯片产品及交换机ASIC当中——显然处理器巨头是打算借此实现到2016年数据中心与连接系统业务突破200亿美元营收的目标。

(在采访过程中并没有想到这一点，但英伟达也许可以考虑收购Mellanox以将其收为己用，或者至少保证其在竞争中保持中立态度。)

Scott:我们已经在为缺乏第三方GPU互连网络技术的可能性进行准备。我们也在考虑进军处理器销售市场，而不只是为其它厂商的处理器提供加速辅助。总而言之，我们确实需要一套自己的网络方案。

记者:就像您为DARPA打造的Echelon开发项目？这看起来与克雷公司的“Aries”互连技术非常相似。

Scott: Echelon计划旨在利用集成网卡与充足带宽为处理器提供贯穿设备的全局地址空间支持——本地负载、远程存储以及所有同步流程都能以无缝方式运行于同一芯片或不同芯片的各个核心之间。要实现这一目的，我们需要具备非常紧凑的集成网络结构。没错，我们的目标与Aries一样，希望在网络方案中实现蜻蜓效应（即通过精密配合实现协作目标）。我们的细节有所不同，但确实同样使用蜻蜓拓扑结构。

英伟达的Echelon百亿亿次计算系统

记者:继续说回原先的话题，您是打算以自主研发方式解决问题、还是寄希望于其它厂商的成果？

Scott: 这个问题提得好。其实我们也刚刚开始认真思考这个问题。当我在克雷公司工作时，我跟来自斯坦福大学的Bill Dally共同负责Aries项目，现在我们则双双进入英伟达。Aries路由技术由两位架构师共同打造，我本人和Mike Parker，他现在也在英伟达公司担任高级研究科学家。显然，我们已经具备独立研发的能力。

问题在于，我们该做些什么？对于最终成果的定义，我们还感到有些迷茫。虽然已经有一些思路，抱歉在这里不能透露更多，但我们需要确保为未来的处理器产品提供优秀的网络解决方案，而且很显然网络方案要与处理器更加紧密地耦合在一起。我们也讨论过潜在合作伙伴的问题，因为我们真的不想为网络项目设置独立公司。

记者:不过英伟达公司刚刚公布了视觉运算装置，所以我对您的说法持怀疑态度。但说真的，有时候您可能没有选择。我们可以看看思科公司在面对各服务器供应商争相抢购网络企业以打造自家TAM时的反应，毕竟在系统融合与网络虚拟化的大势之下，每个人都想在新市场中分得一杯羹。摆在思科公司面前的只有两条路，要么利用现有网络业务进军服务器市场，要么干脆被挤出历史舞台。世界总是这么残酷，也许有一天英伟达公司也会面临这样的转折点——不是在高性能系统领域奋力一搏，就是直接被淘汰出局。

关键在于无论做出什么样的决定，务必让方案与企业计算及超大规模云计算运营商——例如Facebook与谷歌——的机制相兼容。不要像IBM那样盲目推出BlueGene/Q方案，却根本没意识到只要针对标准机架进行重新设计并下调价格，这些方案就能成为Hadoop领域的杀手级微服务器。标准机架——或者我猜应该叫开放计算机架？

Scott:首先那是个特例。如果针对高性能计算打造的方案能够广泛作用于通用型数据中心，我们当然会非常振奋。我们也确实考虑过这样的路线。而且从网络角度来看，大部分适用于高性能计算的方案也能服务于规模化数据中心。

谷歌、Amazon、Facebook及其它一些主流企业所采用的系统在规模上甚至超过超级计算机。当他们开始尝试摆脱磁盘并向内存存储迈进，原本并无大碍的网络延迟现在却成了制约性能的关键。他们关心的是全局拥塞与数据交互情况，例如MapReduce任务，而且单独节点的带宽低于高性能计算领域。

但只要建立起正确的网络体系，这些问题都将迎刃而解。数据中心与高性能计算两类网络方案都将拥有良好的全局拥塞控制、出色的分类工作隔离以及理想的全局自适配路由效果——而这一切都将在低延迟环境下实现。

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅ZDNet技术邮件将是您的最佳途径之一。

英伟达Tesla项目CTO：打造Tesla和Tegra融合架构

业界热点:

技术关键字: