在英伟达公司2019财年第一季度的财报当中,其表现再次超出预期——总收入增长66%,强劲的数据中心业务增长71%(本季度收入达到1.7亿美元)。对于英伟达公司而言,“数据中心”业务部分包括高性能计算(简称HPC)、数据中心托管图形以及人工智能加速几大组成部分。虽然这一增长率无疑令人印象深刻,但却仍然不及该过去几年当中实现的2到3倍同比增长水平。这就引出了我们今天将要讨论的有趣话题。这种增长速率只是种周期性的波动,还是说业务规模达到一定程度后的必然下降?谷歌张量处理单元(简称TPU)等定制化内部芯片的出现是否会威胁到英伟达公司在深度学习训练领域中的主导地位?英特尔、AMD以及该领域中的其它初创企业能否迎头赶上?带着这些问题,我们马上开始这一轮思考。
图一:按各业务部门划分,英伟达公司旗下几乎所有业务方向均实现增长。
如您所见,英伟达公司本季度的表现可以说爆炸来形容。尽管抛售了约2%的股票,但其今年以来股价仍然上涨33%左右,并在过去两年当中上涨近7倍。一部分分析师指出,数据中心收入未能达到预期——实际为7.01亿美元,略低于预期的7.03亿美元,不过二者之间的差距基本可以忽略不计。我认为一部分交易者只关注投资回报,但也有一些交易者越来越担心目前的竞争格局可能出现恶化。但就我个人而言,英伟达公司前四个季度的数据中心业务增速都在100%以上,因此对于一家可能在新的一年中营收超过20亿美元的企业而言,71%地增长速率仍然相当值得肯定。
同样需要强调的是,前几个季度英伟达公司还拿下了其它几份重要订单——包括为位于橡树岭国家实验室的Summit超级计算机提供2万7600块Volta GPU以支持大规模高性能计算业务。我不知道橡树岭实验室的单块Volta GPU采购单价,但如果按照5000美元到8000美元计算,则相当于给英伟达带来了1.3亿到2亿美元的收入。如果送去这部分数字并考虑到英伟达业务的潜在优势,那么70%左右的增长率已经相当符合市场发展情况,因此具备一定的可持续性。换言之,如果英伟达公司要保持目前的发展速度,只需要继续在其它竞争对手面前保持领先优势即可。在后文当中,我们将进一步介绍英伟达公司目前面临的具体竞争压力。
英伟达公司在人工智能领域的惊人增长已经引起高度关注,亦吸引到众多潜在竞争对手。其中不少企业宣称其正在研发的芯片比英伟达产品速度更快,而且功耗更低。但实际情况是,在今年或明年当中,只有少数几家企业有可能实际发布相关芯片产品。事实证明,设计出一款比无数英伟达工程师精心打造的芯片好出十倍的解决方案可谓极为困难,而且需要投入大量时间与金钱。除了AMD公司的GPU之外,其它各厂商都认为为神经网络处理专门设计芯片才是最具可行性的发展路线。下面,我们将对这一领域展开探索。
英特尔:
英特尔公司收购了Nervana(以及Mobileye、Movidius以及Altera)以构建自己的加速产品组合。在2016年被英特尔收购之前,Nervana Engine的初代版本本来计划于去年正式发布,但截至目前仍然没有实际方案可供参考。相比之下,英伟达公司则决定重新对自家产品进行设计,而其引入Volta GPU的TensorCores确实带来了令世人震惊的效能——其性能比Pascal(英伟达的上一代GPU)高出6倍。从理论层面讲,Nervana芯片的性能应该是10倍于Pascal,所以可以想见TensorCores的出现可能会令英特尔决定放弃Nervana。毕竟如果V100 Volta在关键人工智能运算方面的性能真正达到Pascal的6倍,那么Nervana作出的“10倍”宣言在力度上将大打折扣——特别是考虑到Nervana的性能优势中还包含软件调整。在另一方面,英伟达公司也在定期通过软件优化工作提高应用性能。事实上,如果英特尔继续推动Nervana发展路线图,那么其批量生产最早也要到2018年年末才能实现——这将正好赶上英伟达公布Volta的下一代升级方案。至于公布平台,我猜很可能是在达拉斯的SC 2018大会上。
以上讨论主要围绕深层神经网络——简称DNN——的训练展开,而英伟达公司在正是在这一领域取得巨大成功。不过英特尔方面表示,通过将良好的软件设计方案同标准英特尔至强数据中心处理器相结合,其同样能够在推断工作方面实现出色的性能。芯片巨头表示,其目前拥有超过80%的推断处理市场份额——对这样的结论,我当然没有质疑的理由。在最近的一次宣传活动当中,英特尔公司的医疗卫生客户也谈到其在同一英特尔平台之上运行训练与推断处理所带来的优势。
除此之外,微软也在利用英特尔Altera FPGA方面取得了值得肯定的进展——FPGA能够不断重新编程以满足各种苛刻的应用加速需求。需要强调的是,Xilinx的表现同样出色,其利用Amazon AWS Market Place与F1加速实例成功简化了FPGA应用的入门门槛。不过出于某些数据类型与延迟需求的考量——例如无人机与自动驾驶汽车场景,FPGA有时需要配备专门的低功耗加速器(英特尔收购Mobileye与Movidius正是出于这一考虑)。
谷歌TPU与其它内部ASIC:
谷歌公司目前正在研发两款面向人工智能的专用集成电路(简称ASIC):其中一种专门用于推断,另一种则用于模型训练。谷歌将“TPU”以加速器的姿态推向市场,但实际上,TPU由四个相同的ASIC部件构成,其中每个部件可提供约每秒45万亿次(TOPS)运算能力。相比之下,英伟达Volta的单芯片处理能力高达每秒125万亿次。在我看来,这样的市场定位令人困惑,且效果糟糕。换句话来说,根据该芯片的多项基准测试结果表明,其仅适用于以下场景:1)您不需要在Google Cloud之外运行自己的人工智能模型; 2)您乐于使用未经优化的TensorFlow模型; 3)不打算或者不需要直接控制ASIC——这一点与大多数科学家的英伟达GPU使用方式恰恰相反。坦率地讲,经过三重筛选,其只剩下极为有限的利基市场可供发展。更重要的是,这与业界的主流猜想同样存在冲突——人们普遍认为谷歌公司会随着时间推移而将其大部分内部GPU工作负载转移至TPU之上。
谷歌公司最近宣布其将推出下一代TPU 3.0,而通过目前有限的细节与令人难以理解的性能结论,我们很难弄清该公司到底指的是更大的“pod”还是单一TPU芯片性能。在我看来,TPU 3.0的主要变化在于推出令人印象深刻的系统重新设计方案,且水冷机制的引入将能够进一步提升计算密度。但请注意,TPU 2.0仍然只帮助于单一部件,且直到2018年年末才会迎来“pod”集群支持能力。此外,其目前尚处于beta测试阶段,且距离真正发布还有一整年时间。这意味着我们不太可能在短时间内看到TPU 3.0被正式投入生产环境。
斯坦福大学最近发布的基准测试方案证明,没有哪一种解决方案能够在AI工作负载领域占据主导地位——决定实际性能的主要是您的实际负载内容。对于云计算而言,GPU可能是更好的选择,因为云客户的使用模式一直处于不断变化之中,且需要各种各样的模型并配合不同的软件框架。出于这个原因,我预计谷歌公司将在可预见的未来继续提供英伟达GPU类实例,否则其将面临被Amazon AWS以及微软Azure全面压制的风险。
至于其它厂商,例如Facebook与Amazon,据称其也在走上同样的道路。但我继续对此抱持怀疑态度——我不是说这一切不会发生,只是可能不会很快发生。
AMD:
尽管AMD公司在筹备其软件堆栈以对抗英伟达机器学习工作负载方面表现得不错,但其现有芯片(Vega)在峰值性能方面仍比英伟达的Volta落后一个世代(每秒25万亿次对Volta的每秒125万亿次)。我怀疑AMD公司可能会在今年晚些时候追及Volta,或者还会使用经过重新设计的7纳米GPU部件。尽管如此,AMD方面仍然需要努力开发市场及生态系统,从而真正与英伟达展开竞争。芯片速度确实很重要,但还不足以确保成功。
初创企业:
着眼于全球范围内,目前至少有十几家初创企业有计划在机器学习领域一展身手,其中一部分甚至已经准备好推出自己的芯片。中国的寒武纪科技看起来资金充足,且拥有中国政府的强有力支持。中国政府已经无法忍受人工智能芯片的全部利润皆被美国技术企业占有的现状。寒武纪科技公司目前仅着眼于部分工作,且尚未涉及深层神经网络训练领域。与其它初创企业类似,寒武纪科技公司专注于神经网络的处理——而非构建。
来自硅谷的Wave Computing公司似乎有意打造规模最大的模型训练芯片。Wave公司采用了一种名为“数据流架构(DataFlow Architecture)”的新型设计,号称能够消除通过PCIe与CPU对接的传统加速器的性能瓶颈。Wave公司的方案将把CPU排除在外; 数据流处理器将直接负责对神经网络进行训练与处理。与谷歌TPU不同,Wave将支持用户利用微软CNTK、Amazon MXNet以及TensorFlow等软件实现深度学习。根据该公司的公开表态,我预计相关系统将于2018年下半年发布。需要注意的是,这里我说的是“系统”,而不仅仅是芯片——Wave公司打算为云端及内部环境的企业AI方案构建定制化平台与设备方案。
其它知名厂商还包括尚处于隐身阶段的Cerebras、GraphCore以及Croq等,其已经短信到大量风险投资以构建定制化AI加速器。我预计这些厂商不太可能在2019年之前发布工作系统,因此我们需要持续关注其未来动向。
值得注意的是,英国Kisaco Research公司将于今年9月18日与19日在圣何塞的计算机历史博物馆举办首届AI硬件峰会。此次会议将首次专注于AI芯片与系统。尽管与其它议程长达一周左右的重量级会议相比其时间仍然较短,但我希望此次会议能够帮助我们更好地了解各初创企业目前已经走到了哪一步。
考虑到这一切,让我们重新回到对英伟达公司的预测。很明显,该公司顺利完成了从游戏到加密、再到AI的转型历程,而且并没有遭遇过任何重大障碍。除了公司卓越的CEO黄仁勋及其令人敬畏的芯片、软件与平台方案之外,英伟达还特别喜欢与狂热开发者及云服务用户群体接洽。因此即使价格相当高昂,英伟达的方案仍然得到了全世界受众的热烈追捧。
英伟达公司CEO黄仁勋以务实的管理风格与极具创新性的愿景设置领导着这家巨头企业。
坦率地讲,我认为目前英伟达公司面临的最大威胁可能来自谷歌TPU——当然,谷歌的内部消费级人工智能训练能力在短期内仍然比较有限。在可预见的未来,谷歌公司可能会继续购买并利用大量GPU以处理不太适合TPU的工作负载,例如用于语言处理的递归神经网络。我相信对于不打算利用公有云进行人工智能开发及部署、也不希望自行构建GPU基础设施的企业用户而言,Wave应该是个不错的选择。最后,如果英特尔公司能够通过Nervana杀入这一市场,并愿意全力投入以支持其发展,那么芯片巨头有可能在2019年年内构成新的威胁。但这种影响仅仅存在于利润空间层面; 要真正建立起具备可行性的生态系统,英特尔至少需要3年的时间外加坚实的发展路线图。另外需要考虑的一大重要因素是,随着英伟达公司7纳米制程技术的发展,其将能够进一步压缩AI处理芯片的面积。因此,专注于人工智能应用方向的芯片占比可能有所增加,这意味着其在一定程度上也可作为图形ASIC使用。
在我看来,英伟达并不属于一家GPU厂商——相反,这是一家对业务增长抱有热情与渴望的平台供应商。请记住,目前的技术行业当中还没有哪家厂商能够在AI硬件与软件专业知识的深度与广度方面与英伟达相抗衡。其已经通过深度学习加速器(简称DLA)证明了这一点。如果GPU业务受到威胁,那么英伟达公司完全可以快速实现车工。在推断处理方面,英伟达公司专注于为数据中心工作负载以及用于自动加速汽车等应用的视觉导航系统提供助力。虽然汽车市场在未来几年当中还不会真正迎来变革,但我完全相信这场革命终将到来——具体时间点也许会是AI训练市场开始放缓,或者竞争水平进一步升级的时刻。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。