
从目前来看,芯片的设计成本一路飙升,但市场对芯片产品性能、性价比和每瓦性能的需求却一刻未曾止歇。为了缓和双方矛盾,数据中心内的芯片架构也许必须迎来一场深刻变革。
在芯片指令集方面,这个世界需要类似于当初Linux操作系统一样的成果——由社区共享和扩展,而具体治理则由技术和技术的经济效应来决定。
对于RISC-V International(负责控制ISA及其他与架构相关的知识产权的非营利性协会)来说,这项工作就落在了Calista Redmond的肩上。有些朋友可能听说过OpenPower基金会,他们多年间一直在主持IBM Power芯片架构的开放工作,而Redmond目前正担任基金会的负责人。
我们一直关注RISC-V领域的最新动态,包括数据中心领域的服务器、存储和网络应用。这次我们有幸与Redmond当面交流,讨论当前的变化趋势以及RISC-V的发展愿景——冲击数据中心,其速度甚至将远超x86或Arm架构。
主持人:其实我们所关注的并不是RISC-V还能在嵌入式设备或智能手机中发挥什么作用,我们关心的只有一点——RISC-V能不能推动架构向前发展,特别是驱动数据中心中的CPU、DPU和各类加速器。咱们近三年前就讨论过这个问题,现在时机可能更加成熟了,所以RISC-V在数据中心领域的进展究竟如何?
Calista Redmond: 大家都知道,硬件发展需要时间,对吧?所以能对这方面业务感兴趣的,主要就是大型跨国企业,其他公司则主要在微控制器中使用RISC-V。但越来越多的企业已经开始试水,并认真思考未来几代的技术会是什么样子。我觉得小芯片和其他SoC组成方式正在改变行业的游戏规则,也会有更多数据中心规模的运营商和高性能计算(HPC)中心认真考虑RISC-V架构。如今,很多小型组织开始调整战略,甚至开始将RISC-V作为主要投资方向。MIPS就是典型的例子。
企业们逐渐意识到,如果把自己的未来和命运交给其他人,那自己的商业模式和战略模式就会面临更高的风险。因此,他们必须更认真地考虑采用定制芯片,包括采用内部原研方案或者是IP机构提供的知识产权支撑自有设计。以往人们是不会轻易涉足定制芯片的,因为这本身就代表着一大堆问题和战略变量,但现在为了满足价格、性能、功耗以及各种差异化特性,定制芯片似乎成了唯一的选择。
主持人:多年之前,也曾出现过一波定制Arm服务器芯片的浪潮,但当时人们发现自己很难在Arm ISA中添加新设计,因为这会在某种程度上破坏兼容性。对于新架构,兼容性似乎总会成为被牺牲掉的对象。
Calista Redmond: 可能更糟糕,比如需要在几年的研发过程中聘请专业律师,光是法务咨询就花掉了几百万美元……
这里有两个重点,而RISC-V恰好能解决问题。首先,芯片制造商当然希望完全控制自己的设计;其次,没人愿意从一张白纸起步做芯片设计。大家都希望能有个良好的开端,而这就要求具备基础构建块,这正是RISC-V International的工作重心。我们获得了基础ISA并批准进行扩展,这样用户就拥有了自己的扩展菜单,可以选择最匹配需求的指标——价格、性能、功率等等。无论变量是什么,接下来都能实际推进工作。当然,只有达到超大规模或企业级OEM的水平时,芯片的生产数量级才有意义。我们目前还达不到这样的数量级,但今年内将会有更多生产就绪的服务器级芯片进入市场。
主持人:那咱们就先捋一捋RISC-V的数据中心进军之路。
首先是脱胎自十多年前Applied Micro Arm服务器芯片业务的Ventana,还有SiFive。我们知道欧洲处理器计划推出了定制RISC-V处理器,SiPearl也尝试推出过一系列Arm CPU。华为公司的芯片开发部门海思打造了RISC-V控制器,服务器CPU也紧随其后。去年12月,阿里巴巴和腾讯加入由中国科学院牵头的中国RISC-V联盟,此前还曾公布过香山处理器。阿里巴巴拥有面向手持设备和嵌入式产品的玄铁RISC-V,同样有望成长为服务器芯片。腾讯的体量完全可以为香山处理器做定制化变体,也可能选择跟海思合作,当然这都是猜测。百度刚刚投资了中国初创公司赛昉科技,其拥有面向各类数据中心工作负载的U系列和Dubhe系列处理器。如果美国和欧洲的HPC中心在认真研究RISC-V架构,我也完全不会意外——他们的工作向来是要走在前沿,并测试各种新鲜思路。
我还在关注Esperanto Technologies,看看它是否会用1088个ET-Minion和4个ET-Maxium核心做大规模推理……
Calista Redmond: 没错,你说的这些都对。
很明显,中国是RISC-V浪潮中的重要力量,同时也是生态系统中最强大的贡献者之一。没错,不只是消费,更多在于贡献。RISC-V的成员都知道,要想在战略上把自己的命运交付给RISC-V,就必须参与到战略制定和基础构件的开发中来。
今天,我们已经拥有3300多家会员,参与会员活动的人数超过10000人。我们将继续看到跨国企业在微控制器方面开展更深入、更广泛的投资。他们正在考虑并认真研究自己的处理器项目。而如果想要大规模推进芯片研发,又不想受制于架构本身的约束性条款,那RISC-V确实是更具自由性和灵活度的好选择。
主持人:RISC-V并非没有风险,但它毕竟免版税而且开源,并高度强调合作开发。
所以我才觉得这里应该蕴藏着非零和博弈的机会,接下来我可能要表达一点“异端”言论:日本富士通和RIKEN实验室打造的Fugaku-Next系统也许会在2030年左右实现,其很可能基于RISC-V、而非Arm架构。RIKEN和富士通已经掌握了在Arm芯片上实现简单矢量加速的技术,而且没有理由不能将成果移植到RISC-V。
但处理器的开发成本如此之高,所以每一家打造制造Arm芯片的参与者都在想尽办法削减Arm架构的许可费和专利费。如果Linux和Android也能同样运行在RISC-V架构上,那大家绝对会热烈响应,迅速改变目前芯片行业的势力分布……
Calista Redmond: 对,但还是会有新的成本问题。我想说的是,处理器从来不是免费的。大家需要构建块,这些构建块中有很大一部分可以由我们RISC-V International提供,而且完全免费。但如果想要实现差异化、想要极端出色的性能,那就得依靠社区中的工程人才,还得从IP设计公司那边采购一些现成方案。
主持人:我觉得这个世界上好像就没有真正免费的东西。Linux只有在用户能自我支持的情况下,才能算免费。连小猫小狗养起来都很费钱,对吧?
Calista Redmond: 哈哈,我只是一直提醒大家RISC-V并不免费。它只是不设准入门槛,也不限制大家的探索方向。如果想要进军全球市场,想要世界舞台上发挥作用,那以自己受众为基础参与开放和协作就行了。
主持人:还需要软件。RISC-V在做哪些探索,来确保用户能轻松从x86、Arm或者IBM Power那边迁移过来?谷歌程序员只需按下一个按钮,就能使用其巨大的构建引擎。我给它起了个“Barf”的绰号,相当于是对“Borg”云控制器与作业调度程序的补充——它能针对任意架构对输出代码做调整,包括英特尔x86、AMD x86、Arm乃至Power。但并不是每家企业都能拥有这样一套强大到神奇的构建系统。
Calista Redmond: 对我们来说,好消息是还有市场力量的介入,就是说让代码运行在多种架构上仍具商业意义。所以只要大家已经把自己的成果运行在多种架构上,那再兼容一下RISC-V并不是太大的问题。Android就是其中一例,但我知道你只关心数据中心……
主持人:没错,还是多关注一下数据中心。我们看到Ampere Computing的Altra Arm服务器芯片和亚马逊云科技的Graviton芯片已经迈出了这一步。谷歌、微软和甲骨文也都在云端使用了Ampere Computing的芯片,而且很可能正用于内部工作负载。
Calista Redmond: 同样的市场力量表明,使用内部的定制化技术栈并不符合最佳利益。所以,大家最好是在有协作空间的领域做探索,这样更符合最大利益。我看到的实际情况也是如此,这有助于防止RISC-V架构的碎片化,因为没有哪家企业或哪个国家真的想要只适合自己使用的芯片,那样成本太高了。
上周,我们在董事会会议上刚刚批准了三套RISC-V配置方案。这些配置方案可以作为基本构建块,与之兼容则意味着所有内容都将兼容。我们已经与基础ISA相兼容,但此外还有一组通用的ISA和扩展,它们会在不同场景下起效以实现跨RISC-V实现的可移植性,未来还可能跨RISC-V及其他架构类型。
主持人:这听起来很像Jon Masters最喜爱的Arm服务器系统架构。
Calista Redmond: 是的,没错。希望Jon Masters也能喜爱我们做的这些努力。
主持人:我觉得这肯定可以。
Calista Redmond: RISC-V的成长环境,是类似于Linux的无供应商锁定世界,我们也在努力通过投资将生态系统引导向这个方向。事实上,我们上周刚刚聘请了一位ISV生态系统总监。我们正研究有多少方法能降低RISC-V的过渡门槛,把相关成果以配置方案的形式发布,下一步则是打造相应的平台。
主持人:展望未来几年,我估计服务器市场的收入可能英特尔得其四、AMD得其四、Arm得其二。考虑到目前的竞争压力,我觉得英特尔大概也就只能守住自己的江山,很难再向外开疆辟壤了。
如果看得更远一些,也许是到2030年之后,那服务器CPU架构的收入比例可能是3:3:3:1,其中RISC-V占这一成。或者,如果在最乐观的情况下,英特尔、AMD、Arm阵营和RISC-V阵营可能各占四分之一。身为从业者,你觉得这样的猜测合理吗?
Calista Redmond: 我觉得非常合理,甚至希望能超额完成目标。其实我们要做的很简单,就是让生态系统以理想的速度和节奏走向成熟、推动技术进步和增强,确保每个参与方都对自己的战略选择感到满意。他们今天做出的选择,将决定五到十年之后的未来。
在未来三到五年内,大家就会看到我们目前所做的一切初步转化为成果。而可能在此之前,晶圆代工厂的业务调整就已经能反映出RISC-V的进步速度。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。