从目前来看,芯片的设计成本一路飙升,但市场对芯片产品性能、性价比和每瓦性能的需求却一刻未曾止歇。为了缓和双方矛盾,数据中心内的芯片架构也许必须迎来一场深刻变革。
在芯片指令集方面,这个世界需要类似于当初Linux操作系统一样的成果——由社区共享和扩展,而具体治理则由技术和技术的经济效应来决定。
对于RISC-V International(负责控制ISA及其他与架构相关的知识产权的非营利性协会)来说,这项工作就落在了Calista Redmond的肩上。有些朋友可能听说过OpenPower基金会,他们多年间一直在主持IBM Power芯片架构的开放工作,而Redmond目前正担任基金会的负责人。
我们一直关注RISC-V领域的最新动态,包括数据中心领域的服务器、存储和网络应用。这次我们有幸与Redmond当面交流,讨论当前的变化趋势以及RISC-V的发展愿景——冲击数据中心,其速度甚至将远超x86或Arm架构。
主持人:其实我们所关注的并不是RISC-V还能在嵌入式设备或智能手机中发挥什么作用,我们关心的只有一点——RISC-V能不能推动架构向前发展,特别是驱动数据中心中的CPU、DPU和各类加速器。咱们近三年前就讨论过这个问题,现在时机可能更加成熟了,所以RISC-V在数据中心领域的进展究竟如何?
Calista Redmond: 大家都知道,硬件发展需要时间,对吧?所以能对这方面业务感兴趣的,主要就是大型跨国企业,其他公司则主要在微控制器中使用RISC-V。但越来越多的企业已经开始试水,并认真思考未来几代的技术会是什么样子。我觉得小芯片和其他SoC组成方式正在改变行业的游戏规则,也会有更多数据中心规模的运营商和高性能计算(HPC)中心认真考虑RISC-V架构。如今,很多小型组织开始调整战略,甚至开始将RISC-V作为主要投资方向。MIPS就是典型的例子。
企业们逐渐意识到,如果把自己的未来和命运交给其他人,那自己的商业模式和战略模式就会面临更高的风险。因此,他们必须更认真地考虑采用定制芯片,包括采用内部原研方案或者是IP机构提供的知识产权支撑自有设计。以往人们是不会轻易涉足定制芯片的,因为这本身就代表着一大堆问题和战略变量,但现在为了满足价格、性能、功耗以及各种差异化特性,定制芯片似乎成了唯一的选择。
主持人:多年之前,也曾出现过一波定制Arm服务器芯片的浪潮,但当时人们发现自己很难在Arm ISA中添加新设计,因为这会在某种程度上破坏兼容性。对于新架构,兼容性似乎总会成为被牺牲掉的对象。
Calista Redmond: 可能更糟糕,比如需要在几年的研发过程中聘请专业律师,光是法务咨询就花掉了几百万美元……
这里有两个重点,而RISC-V恰好能解决问题。首先,芯片制造商当然希望完全控制自己的设计;其次,没人愿意从一张白纸起步做芯片设计。大家都希望能有个良好的开端,而这就要求具备基础构建块,这正是RISC-V International的工作重心。我们获得了基础ISA并批准进行扩展,这样用户就拥有了自己的扩展菜单,可以选择最匹配需求的指标——价格、性能、功率等等。无论变量是什么,接下来都能实际推进工作。当然,只有达到超大规模或企业级OEM的水平时,芯片的生产数量级才有意义。我们目前还达不到这样的数量级,但今年内将会有更多生产就绪的服务器级芯片进入市场。
主持人:那咱们就先捋一捋RISC-V的数据中心进军之路。
首先是脱胎自十多年前Applied Micro Arm服务器芯片业务的Ventana,还有SiFive。我们知道欧洲处理器计划推出了定制RISC-V处理器,SiPearl也尝试推出过一系列Arm CPU。华为公司的芯片开发部门海思打造了RISC-V控制器,服务器CPU也紧随其后。去年12月,阿里巴巴和腾讯加入由中国科学院牵头的中国RISC-V联盟,此前还曾公布过香山处理器。阿里巴巴拥有面向手持设备和嵌入式产品的玄铁RISC-V,同样有望成长为服务器芯片。腾讯的体量完全可以为香山处理器做定制化变体,也可能选择跟海思合作,当然这都是猜测。百度刚刚投资了中国初创公司赛昉科技,其拥有面向各类数据中心工作负载的U系列和Dubhe系列处理器。如果美国和欧洲的HPC中心在认真研究RISC-V架构,我也完全不会意外——他们的工作向来是要走在前沿,并测试各种新鲜思路。
我还在关注Esperanto Technologies,看看它是否会用1088个ET-Minion和4个ET-Maxium核心做大规模推理……
Calista Redmond: 没错,你说的这些都对。
很明显,中国是RISC-V浪潮中的重要力量,同时也是生态系统中最强大的贡献者之一。没错,不只是消费,更多在于贡献。RISC-V的成员都知道,要想在战略上把自己的命运交付给RISC-V,就必须参与到战略制定和基础构件的开发中来。
今天,我们已经拥有3300多家会员,参与会员活动的人数超过10000人。我们将继续看到跨国企业在微控制器方面开展更深入、更广泛的投资。他们正在考虑并认真研究自己的处理器项目。而如果想要大规模推进芯片研发,又不想受制于架构本身的约束性条款,那RISC-V确实是更具自由性和灵活度的好选择。
主持人:RISC-V并非没有风险,但它毕竟免版税而且开源,并高度强调合作开发。
所以我才觉得这里应该蕴藏着非零和博弈的机会,接下来我可能要表达一点“异端”言论:日本富士通和RIKEN实验室打造的Fugaku-Next系统也许会在2030年左右实现,其很可能基于RISC-V、而非Arm架构。RIKEN和富士通已经掌握了在Arm芯片上实现简单矢量加速的技术,而且没有理由不能将成果移植到RISC-V。
但处理器的开发成本如此之高,所以每一家打造制造Arm芯片的参与者都在想尽办法削减Arm架构的许可费和专利费。如果Linux和Android也能同样运行在RISC-V架构上,那大家绝对会热烈响应,迅速改变目前芯片行业的势力分布……
Calista Redmond: 对,但还是会有新的成本问题。我想说的是,处理器从来不是免费的。大家需要构建块,这些构建块中有很大一部分可以由我们RISC-V International提供,而且完全免费。但如果想要实现差异化、想要极端出色的性能,那就得依靠社区中的工程人才,还得从IP设计公司那边采购一些现成方案。
主持人:我觉得这个世界上好像就没有真正免费的东西。Linux只有在用户能自我支持的情况下,才能算免费。连小猫小狗养起来都很费钱,对吧?
Calista Redmond: 哈哈,我只是一直提醒大家RISC-V并不免费。它只是不设准入门槛,也不限制大家的探索方向。如果想要进军全球市场,想要世界舞台上发挥作用,那以自己受众为基础参与开放和协作就行了。
主持人:还需要软件。RISC-V在做哪些探索,来确保用户能轻松从x86、Arm或者IBM Power那边迁移过来?谷歌程序员只需按下一个按钮,就能使用其巨大的构建引擎。我给它起了个“Barf”的绰号,相当于是对“Borg”云控制器与作业调度程序的补充——它能针对任意架构对输出代码做调整,包括英特尔x86、AMD x86、Arm乃至Power。但并不是每家企业都能拥有这样一套强大到神奇的构建系统。
Calista Redmond: 对我们来说,好消息是还有市场力量的介入,就是说让代码运行在多种架构上仍具商业意义。所以只要大家已经把自己的成果运行在多种架构上,那再兼容一下RISC-V并不是太大的问题。Android就是其中一例,但我知道你只关心数据中心……
主持人:没错,还是多关注一下数据中心。我们看到Ampere Computing的Altra Arm服务器芯片和亚马逊云科技的Graviton芯片已经迈出了这一步。谷歌、微软和甲骨文也都在云端使用了Ampere Computing的芯片,而且很可能正用于内部工作负载。
Calista Redmond: 同样的市场力量表明,使用内部的定制化技术栈并不符合最佳利益。所以,大家最好是在有协作空间的领域做探索,这样更符合最大利益。我看到的实际情况也是如此,这有助于防止RISC-V架构的碎片化,因为没有哪家企业或哪个国家真的想要只适合自己使用的芯片,那样成本太高了。
上周,我们在董事会会议上刚刚批准了三套RISC-V配置方案。这些配置方案可以作为基本构建块,与之兼容则意味着所有内容都将兼容。我们已经与基础ISA相兼容,但此外还有一组通用的ISA和扩展,它们会在不同场景下起效以实现跨RISC-V实现的可移植性,未来还可能跨RISC-V及其他架构类型。
主持人:这听起来很像Jon Masters最喜爱的Arm服务器系统架构。
Calista Redmond: 是的,没错。希望Jon Masters也能喜爱我们做的这些努力。
主持人:我觉得这肯定可以。
Calista Redmond: RISC-V的成长环境,是类似于Linux的无供应商锁定世界,我们也在努力通过投资将生态系统引导向这个方向。事实上,我们上周刚刚聘请了一位ISV生态系统总监。我们正研究有多少方法能降低RISC-V的过渡门槛,把相关成果以配置方案的形式发布,下一步则是打造相应的平台。
主持人:展望未来几年,我估计服务器市场的收入可能英特尔得其四、AMD得其四、Arm得其二。考虑到目前的竞争压力,我觉得英特尔大概也就只能守住自己的江山,很难再向外开疆辟壤了。
如果看得更远一些,也许是到2030年之后,那服务器CPU架构的收入比例可能是3:3:3:1,其中RISC-V占这一成。或者,如果在最乐观的情况下,英特尔、AMD、Arm阵营和RISC-V阵营可能各占四分之一。身为从业者,你觉得这样的猜测合理吗?
Calista Redmond: 我觉得非常合理,甚至希望能超额完成目标。其实我们要做的很简单,就是让生态系统以理想的速度和节奏走向成熟、推动技术进步和增强,确保每个参与方都对自己的战略选择感到满意。他们今天做出的选择,将决定五到十年之后的未来。
在未来三到五年内,大家就会看到我们目前所做的一切初步转化为成果。而可能在此之前,晶圆代工厂的业务调整就已经能反映出RISC-V的进步速度。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。