在芯片设计领域,企业可以通过替换计算、内存或I/O芯粒来获得技术升级,同时保持其他芯片的稳定性,从而节省时间和成本。芯片架构师可以选择保持I/O稳定,将计算芯粒从5nm工艺节点升级至3nm,以提升性能并降低功耗;也可以将内存从LPDDR5X升级至LPDDR6。如果架构师希望将芯片保留在较低工艺节点,同时升级至224G SerDes等新协议,则替换I/O芯粒同样是合理的选择。尽管初期存在设计与验证方面的挑战,基于芯粒的架构已被证明是一种高性价比的方式,能够在复用大量现有设计的同时,跟上最新I/O协议与逻辑的发展步伐。
早期关于芯粒的讨论,主要集中在根据不同工艺节点的适用性来开发不同功能模块和IP,尤其是模拟组件。这一思路至今仍然适用,但更大的经济价值在于:能够有选择地引入新IP、支持协议或内存的过渡,以及在无需完整多芯片重新流片的情况下创建产品变体。这种架构本质上支持模块化重组——在保留设计稳定部分的同时,更新能带来最大系统级收益的模块。
I/O芯粒是其中一个可以替换或保留的关键要素。这一点尤为重要,因为接口协议、互连标准、物理I/O连接器、处理器和内存都在快速演进,以满足人工智能(AI)、机器学习(ML)和高性能计算(HPC)的需求。在基于芯粒的系统中,逻辑与内存可以保持不变,而I/O芯粒则可替换为支持更高速率或针对特定工作负载优化互连协议的新版本。反之,I/O保持不变,逻辑或内存可针对制造工艺改进进行更换,以提升逻辑密度并降低功耗。芯片架构师目前正在同时探索这两种方案。
许多AI数据中心和HPC集群会在系统中使用多种基于以太网的扩展协议、UALink及其他协议。Cadence硅解决方案事业部产品管理与市场营销副总裁Arif Khan表示:"如果你在构建SoC,并且只有一次流片机会——整个周期都要花在设计返回、验证和系统资质认证上——那么你在不断调整这些连接方式上的空间非常有限。芯片架构师不得不进行多种方案的实现,有时甚至将两种方案放在同一颗芯片上。我们有客户希望将先进方案应用于多个产品代际;也有客户在构建采用芯粒的分离式设计,某些技术保留在6或7纳米节点,核心部分采用更先进的工艺,I/O芯片则使用另一种工艺。在I/O芯片上,可能用一个版本对接一种协议,用另一个版本对接不同协议。这些策略正受到我们客户的高度关注。"
随着不同工艺节点上的各类技术分布在不同芯片上,从I/O到计算的各种替换模式都可能出现。
保留I/O,替换计算芯粒
Synopsys 3D IP与芯粒产品管理总监Rob Kruger表示:"从历史上看,计算芯片的升级频率高于I/O芯片。只要I/O不成为新计算芯片的瓶颈,且不发生平台级切换(如从PCIe 5.0迁移至PCIe 6.0或7.0),I/O芯粒往往可以跨越多个计算代际复用。"
当前的不同之处在于,AI驱动的计算与带宽需求正以前所未有的速度增长。Kruger表示:"因此,计算、I/O和内存系统正越来越多地同步更新,以优化整体效率,避免系统架构中出现I/O和内存瓶颈。不过,在汽车或物理AI等应用领域,I/O芯片的复用程度可能仍会更高。"
这一选择有时取决于芯粒是内部自研还是商业采购。Synopsys高速SerDes I/O产品管理总监Priyank Shukla表示:"在封闭的自研系统中,我们看到的是替换计算芯粒,而在开放的芯粒市场上则不然。在自研系统中,如果制造商同时负责两者,他们可以在一年内同步进行,以充分利用成本优势。"
芯片架构师也可能以一个主芯粒为核心,针对不同市场定制不同的I/O芯粒。Kruger表示:"这是一种可能。HPC是一个市场;汽车芯粒市场则希望拥有一个主基础芯片,通过添加芯粒来适配不同车型,就是一个典型案例。"
替换计算芯粒的原因主要有以下几点。
Cadence芯粒与IP解决方案产品营销高级总监Mick Posner表示:"一个原因是升级CPU或加速器。比如你在5nm上开发了设计,现在要升级到3nm,这样可以获得性能提升和功耗改善,也可能在调整架构的同时借助最新工艺实现规模缩减。与此同时,I/O可能无需变动——PCI Express和224 Gbps SerDes I/O已经能提供足够的可扩展性。"
此外,开发者可能希望在保持I/O稳定的情况下替换内存。Posner表示:"我们最近遇到一个案例,客户使用LPDDR5X作为芯粒,但由于存在内存瓶颈,希望迁移至LPDDR6。这意味着系统的限制因素是内存带宽,而非CPU性能——这在AR/AI领域非常典型,通常是内存瓶颈,而不是处理器瓶颈。"
经济因素在决策中扮演着重要角色。Axiomise首席执行官Ashish Darbari表示:"在我能想到的几乎所有案例中,轮换的都是计算芯片。从经济角度看,这非常合理。计算芯片是支付工艺节点溢价的地方——N3、N2、A16——也是每一代架构变化发生的地方。I/O、PHY、SerDes、内存控制器和安全模块演进缓慢,在先进工艺节点上收益甚微。在N2上重新流片224G SerDes,而N5或N6已能满足规格要求且掩模成本只是零头,这纯粹是浪费。"
有几个因素进一步印证了这一观点。Darbari表示:"凡是涉及PCIe、CXL、以太网、汽车功能安全或安全认证的,都需要承担没人愿意支付两次的认证和资质成本。I/O芯粒在成熟节点上良率良好,不会因为计算路线图推进就轻易放弃。而且由于UCIe 2.0和BoW被明确设计用于稳定芯片间的边界接口,I/O芯粒可以在多个计算代际中呈现相同的逻辑接口。"
Arteris产品管理与市场营销副总裁Andy Nightingale也持相同看法:"在芯粒市场中,最可能的复用模式是保持I/O芯粒稳定,替换SoC或计算芯粒。原因很实际:高速SerDes/PHY/模拟电路和面向电路板的合规认证重做成本高昂,在先进工艺节点上并不能实现良好的规模缩减,且受益于成熟度和良率——这使它们成为采用更稳定工艺的可复用I/O芯片的绝佳候选。"
相比之下,追求下一代工艺节点和下一代微架构的计算芯片,则遵循NPU/GPU的迭代模式。Nightingale也指出了反例:"某些厂商可能保留'基础计算'芯片,替换I/O芯片以瞄准不同市场,例如云端、边缘端与汽车端的差异,或者适配不同的内存接入点和外部标准。"
然而这一模式并非普遍适用。在外部标准、带宽目标或特定市场接口的演进速度超过计算路线图的系统中,I/O芯粒可能反而是率先更换的那个。
保留计算,替换I/O芯粒
互连标准的演进速度同样影响着这一决策。
ChipAgents首席执行官William Wang指出:"实际上,I/O芯粒的替换更为频繁,因为系统需求和连接标准的演进速度快于计算逻辑架构。"
制造工艺节点是其中一个原因。Vinci半导体与电子业务GTM负责人Satish Radhakrishnan表示:"芯片架构师更可能保留计算芯片而替换I/O芯粒。计算芯片通常采用先进工艺制造,从N5扩展到N3或N2时,可以在相同面积内集成更多计算能力。由于这些芯片的重新设计既昂贵又复杂,架构师不太可能仅仅为了支持新协议而将其替换。"
与先进工艺的计算芯片不同,I/O芯粒通常采用更旧、更廉价、更易于更新的技术制造。Radhakrishnan表示:"这使得I/O芯粒成为吸收新协议或接口变化的更好选择。不过需要注意的是,替换I/O芯粒仍然会改变物理系统,包括布线、供电、散热和可靠性,因此需要在封装和系统层面进行验证。"
尽管如此,包含计算核心的主芯片往往才是保持静止的那一方。Baya Systems首席解决方案架构师Kent Orthner观察到:"某些产品线的客户表示,'我有一个计算核心,但我希望能作为不同的产品来销售。'这可能意味着他们为I/O配备了不同的芯粒——有的侧重内存扩展,有的侧重通过PCIe进行通信。同一个计算核心,在网络环境中可能不需要PCIe,而是需要大量的400 Gbps以太网接口。拥有计算核心、然后替换用于连接外部世界的I/O的思路,占据了主导地位。"
高速互连的漫长开发周期同样影响着决策。Orthner指出:"计算需要极快的速度和最先进的工艺;但对于PCIe核心等I/O来说,在较旧的工艺节点上实现完全没问题。你可能在台积电3nm上做尖端计算,而I/O则在7nm上完成。"
此外,许多I/O标准(如PCIe)高度依赖PHY和SerDes。Orthner解释道:"SerDes现在已经达到每通道224 Gbps,速度极为惊人。但它们开发周期很长,与技术节点的关联也比数字逻辑的计算集群更为紧密。通过将I/O芯粒保留在较旧的工艺节点上,可以复用这部分投资,并在完成计算集群设计的同时就拥有可用的高速SerDes。当然也有例外:有些人说,'我的I/O很好,我想替换不同性能的处理器,比如更大的计算集群或更多计算集群。'但我更常看到的是替换I/O。"
从另一个角度看,这种取舍往往归结于:设计中哪个部分被视为稳定核心,哪个部分需要围绕它进行适配。
一个形象的比喻是大脑与四肢。Keysight EDA高速数字设计细分市场负责人Hee Soo Lee表示:"如果你非要我选择哪个更可能被替换,我会说保留主SoC芯粒、替换I/O的可能性更大。打个比方,这就像在问你是想换大脑还是换手脚。大多数时候两者都很重要,但明智的做法是保持核心大脑不变、替换I/O部分,因为这样灵活性更强,也更合理。"
应用场景与使用案例
归根结底,具体应用决定了一个芯粒是否需要采用先进制造工艺节点,或者是否能从更快的互连协议中受益。
Keysight的Lee表示:"决定是替换主处理器/SoC还是接口与I/O,实际上取决于多种因素,包括使用场景、各组件的需求、所需的灵活性以及相关成本,这些因素相互交织,使得决策极为复杂。"
此外,不同行业领域的演进速度也存在差异。Axiomise的Darbari表示:"汽车、工业、传感器、网络以及功能安全模块等领域的演进速度,有时会超过计算需求的变化。因此,有时会出现稳定计算芯片搭配轮换I/O芯片的模式。"
互连组合也需要纳入考量。Cadence的Khan表示:"如果你有一个存储设备需要接入不同类型的系统,可能需要使用不同协议,比如CXL。你可能选择更适合PCIe风格实现的I/O,或者UALink实现,然后替换I/O芯片。但如果现有I/O已能提供足够的带宽,而你需要增加计算能力、存储容量等,就保留I/O,用其他芯粒来解决问题。我们看到客户对这些方案都在评估。"
替换芯粒为从AI数据中心到廉价消费设备等各类应用提供了灵活性。
Keysight的Lee表示:"如果保留主SoC芯粒,芯片架构师可以针对不同用途优化整体配置。对于大型服务器或小型消费设备,方向都很明确:数据中心需要更强的性能,可以叠加HBM I/O芯粒;而对于成本敏感的消费产品,则可以替换为标准的经济型I/O芯粒。从制造角度看,这更为简化,能够在新标准出现时快速适配。最后,省钱也是关键考量——以芯粒形式构建SoC仍然成本不菲,尤其是在使用先进工艺节点时。因此,将公共部分复用于不同互连或协议是非常明智的选择。"
具有可编程I/O的FPGA是另一种解决方案。Altera业务管理集团负责人Venkat Yadavalli表示:"每个人的协议和实现方式都不同。以工业应用为例,工厂车间存在大量协议,有的运行EtherCAT(用于控制自动化技术的以太网),有的使用标准以太网,有的使用不同的总线架构,但所有边缘IoT设备都需要互联互通,并转换为能在工厂车间用于决策的统一格式。可编程I/O的作用,就是让客户能够连接其数据,无论是数据平面还是控制平面。"
集成挑战
核心挑战之一是在替换前后,保持所有组件和芯粒之间的最优连接状态。
Arteris的Nightingale表示:"无论替换哪个芯粒,工程师都需要将I/O作为一个整体系统来设计——包括各芯片的功能划分、流量模型(AI突发流量与持续流量)、NoC与I/O的耦合关系(涵盖QoS、背压和排序),以及测试与可观测性。如果希望在AI时代的芯片中实现良好的I/O,就要预设数据会以不规则的突发方式到来,坚持端到端流量控制,并确保互连架构在现实情况偏离设计预期时能够执行既定规则。"
系统架构师的核心职责在于决定从哪里剥离模块,以及将哪些部分放置在先进工艺节点上。Lee表示:"如果在数据中心计算节点上使用2nm工艺,这完全合理——那正是需要速度和功效的地方。但如果将非常低速的逻辑也放在上面,就是在浪费芯片面积,因为这本来就是一个非常昂贵的工艺节点。芯片架构师还需要在中级工艺节点上保留某些电路或功能模块,这些同样非常重要。"
同样的思路也适用于3D-IC,架构师可以保持相同的基础芯片,然后针对不同型号或应用在其上叠加不同的I/O芯粒。Synopsys的Kruger表示:"从3D的角度来看,这是一个有趣的概念,人们已经开始讨论。我还没有看到有人真正实现过,但这是一种可能。你可以有一个基础芯片,也许这个基础芯片可以独立运行,然后再添加另一个芯片来增加功能,比如通过缓存增加内存,或者添加高端特性。这个概念正在被探索中,实现起来难度稍大,但可行。你需要考虑不同的凸点方案——是单独流片,还是叠加3D结构,后者需要采用混合键合凸点,并经历相应的重新设计流程,但也只是增加几层的差异,是可以管控的。"
总结
芯片设计的开发周期与处理器、互连技术的演进速度之间,并不总是完美匹配,这正是芯片架构师有时会率先替换某个芯粒的原因。但究竟保留什么、替换什么,取决于具体的使用场景。
Keysight的Lee表示:"一切都在快速演进,挑战在于如何不延误地进入市场。采用单芯片流程时,开发周期更长、成本更高;而采用芯粒方案,可以复用现有部件,更高效地组建新系统。"
将芯粒像积木一样使用,是一种将产品推向市场的优化方式。Lee表示:"这种方式更快、成本更低,因为它通过复用现有芯粒来重新配置系统,以实现不同功能。这也是越来越多的公司选择采用芯粒、而非将一切集成为单一SoC的重要原因之一。"
Q&A
Q1:芯粒架构中,I/O芯粒和计算芯粒哪个更常被替换?
A:目前业界两种模式都存在,但总体而言,在开放芯粒市场中更常见的是保留I/O芯粒、替换计算芯粒,因为高速SerDes、PHY等I/O组件重新设计成本高、认证周期长,且在成熟工艺节点上良率良好。而在自研封闭系统或I/O标准演进较快的场景中,也存在保留计算芯粒、替换I/O芯粒的情况。最终取决于具体应用场景和成本考量。
Q2:为什么计算芯粒更适合采用先进工艺节点,而I/O芯粒不需要?
A:计算芯粒每一代都需要追求更高性能和更低功耗,因此从5nm升级到3nm乃至2nm能带来显著收益。而I/O芯粒中的SerDes、PHY等模拟组件演进缓慢,在先进节点上提升有限,且重新流片需要承担高昂的认证成本。将I/O保留在成熟工艺节点,不仅成本更低,良率也更有保障。
Q3:替换芯粒时面临哪些主要技术挑战?
A:替换任何一个芯粒,工程师都必须重新考量整体系统的I/O设计,包括功能模块划分、流量模型、NoC与I/O的耦合关系,以及可测试性。替换I/O芯粒还会影响布线、供电、散热和可靠性,需要在封装和系统层面重新验证。此外,3D-IC场景下还需考虑不同凸点工艺,整体复杂度较高。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。