专家圆桌讨论:硅内可观测性(也称为片上可见性)在管理当今高性能系统的性能、可靠性和安全性方面正变得愈发重要。半导体工程媒体就这一议题与多位业界专家展开深入讨论,参与者包括:Arteris产品管理与市场营销副总裁Andy Nightingale、Baya Systems首席商务官Nandan Nayampally、Cadence硅解决方案集团杰出工程师Moshiko Emmer、Keysight EDA战略规划及D2D与边缘计算经理Pedro Merlo、Movellus首席运营官Vikram Karvat、Siemens EDA Tessent汽车IC解决方案总监Lee Harrison、Synopsys产品管理总监Randy Fish,以及Vinci市场推广负责人Satish Radhakrishnan。以下为讨论摘要。
为什么当今芯片设计中需要纳入片上可见性?有哪些近期的实际案例?
Nightingale:优化是核心原因之一。一旦在芯片上实现了一定程度的可见性,就可以根据这些信息采取相应行动。
Nayampally:除了优化和效率提升之外,随着工作负载不断变化,还需要具备理解和适应的能力。可见性在其中发挥着重要作用——不仅仅是可靠性调试,从安全角度来看,识别异常行为同样至关重要。我们从多个维度来审视这一问题。
Emmer:Nandan提到了片上可见性的诸多方面。随着芯粒(chiplet)技术的发展,这一挑战变得更加复杂,因为你未必能通过单一的互联结构或链路观察到硅片的所有内部状态,还需要协调多个硅片。其中一些可能并不属于你自己,在庞大的生态系统中,存在许多可控性和可见性的问题。就实际案例而言,我能想到两个典型例子:一是航空航天与国防领域,这类应用更关注安全性;二是汽车领域,这类应用则更注重功能安全和可靠性,因为汽车必须在任何条件下都能正确运行。
Merlo:在片上可观测性方面,业界普遍认为芯粒设计极为复杂,设计验证和制造测试都面临极大挑战。然而问题并不止于此。硅片投入使用后,在实际运行环境中仍可能出现各种问题。对于全球各地正在构建的这些关键系统而言——甚至不久的将来还将延伸到太空——在芯片运行过程中进行持续测试与监控是必不可少的。
Harrison:我深度参与汽车领域的工作,片上可见性对于整个汽车供应链的溯源管理至关重要,能够有效防止仿冒品、翻新品和非正品流入车辆,从而危及行车安全。溯源能力在汽车供应链中是不可或缺的。
Fish:关键在于整个系统层面。我们现在常举的经典案例是大规模训练工作负载,而可见性需要覆盖整个空间。计算系统究竟是什么样的?它是一个涵盖众多组件的互联结构,其范围十分广泛。在谈到感知或监控时,需要有清晰的定义。有些人认为DFT(可测试性设计)或测试本身也是一种监控形式。它在某些方面受到一定限制,具有确定性,但其数据非常有价值——不仅体现在制造阶段,在芯片现场使用期间同样如此。就应用场景而言,PVT传感器已经使用多年,几乎所有FinFET设计都集成了类似功能。主要应用场景可能包括自适应电压调节(AVS)或动态电压频率调整(DVFS),大多数公司都在这方面有所实践。Lee提到的汽车案例主要展示了基本应用——提供芯片内部状态的可见性。实际使用情况究竟如何?你知道早期的预估值,也知道工作负载并未发生变化。因此,能够观测到产品全生命周期中的温度、电压或毛刺——这些真实的现场数据——即便不对数据进行深入分析,仅仅是拥有这些数据、能够查看并理解它,本身就具有重要价值。
Radhakrishnan:看看当前的任何封装或系统,它们都被称为异构集成系统,因为它们都是2.5D或3D封装、芯粒、GPU芯片、高带宽存储器(HBM)的组合。这些组件来自不同的公司,每家公司独立设计自己的部分。但当它们组合在一起时,就会产生串扰——一块芯片与其他芯片之间存在复杂的交互。这也是为什么你设计的是一套东西,而实际使用方式可能完全不同的原因。你需要能够预测自己的芯片或整个系统(比如在数据中心视角下)的运行状态。理想情况下,你希望处于预测模式,能够提前预见将要发生的情况,从而做出相应决策,而不是被动应对。而且由于并非所有事情都在你的掌控之中,你需要了解系统中正在发生什么,因为这是你设计的系统,你需要有能力保护它。
Karvat:板级和系统级的可见性在整体平台管理框架中固然重要,但片上可见性能够提供具有高空间和时间精度的数据。在很多情况下,当你从片上层面移向封装层面再到板级层面时,重要的"信号"可能会被衰减或聚合,从而变得"不可见"。实际应用场景包括:电压暂降的被动抑制、最低工作电压(Vmin)搜索、电源分配网络(PDN)优化以及PDN相关的调试工作。
芯片、芯粒与系统之间的片上可见性是否存在不同的考量?
Fish:对于芯粒与系统层面,监控的对象可能有所不同。我们参与的一个方向是互连监控。以UCIe为例,你不仅仅是在测试或修复,还需要监控信号的退化情况,或者观察眼图的局部开口。这是在不同芯片之间进行的操作,可以据此识别趋势,或推断出何时可能发生故障,从而提前加以规避。系统级别同样值得关注——如何建立一个从芯粒到异构芯片再到系统的一致性互联结构,无论是由开放计算项目还是其他机构来推动,对我们所有人来说都仍是一个开放的议题。如何在宏观系统层面真正实现数据共享?
Nightingale:随着系统向多芯片方向演进,一致性成为核心挑战。为了在这些边界之间保持可见性,将可观测性与通信互联结构相结合的方案往往具有更自然的可扩展性,因为它沿用了相同的数据路径,无论系统是单芯片还是多芯片架构,都能实现跨不同系统类别的复用。
Emmer:我想从另一个角度来探讨这个问题。有一件事我们必须提前考虑并妥善处理,而这在以往只有在硅片制造完成后才会处理,那就是封装侧和集成本身。多物理场带来了大量新挑战,无论是芯片并排布置还是堆叠集成,各种集成形式都有其独特难题。即便UCIe运行完全正常,集成层面对于整个系统的可靠性依然至关重要。有许多新的关注点需要你能够监控并据此做出决策,这些问题可能涉及多物理场、热学和力学方面。这些都需要提前规划。在一个存在多种芯粒选项、可能由多家供应商提供芯粒以供他人集成的世界里,在整个系统的预设计阶段,你未必能预见所有情况,不得不与来自第三方的芯粒妥协。这又带来了新的挑战,包括如何管理、如何使用等问题。而优化目标显然也可能不同:在单颗芯片上通过调整频率和电压来优化时序裕量,与在共享同一功耗预算的多芯片系统中以协调方式进行优化,是截然不同的挑战。
Nayampally:你提出了一个很好的观点。实际上,EDA领域也在向多尺度、多域建模方向发展,试图获得更宏观的系统视图,这是必要的,因为我们已经从单片芯片演进到了多颗芯粒,并且在能力上还可能进一步延伸。这使得挑战更加严峻。有些跨域通信有标准可循,有些则没有。正如Andy所说,从Baya的角度来看,互联结构是一致的,所配套的遥测也是一致的,这有助于理解性能优化以及片上所见的常规调试与追踪工作,同时也能掌握跨芯片之间的状况。有了合适的监控机制,当跨芯粒出现问题时,可以判断是ESD问题还是其他类似行为。复杂度在不断攀升,我们需要相应的工具来应对。
Merlo:回到Randy关于芯粒和片上监控时间的论述,我在思考系统中最细微的部分:这些部分之间能否相互通信?它们的通信是否良好?你针对不同问题进行监控,尝试发现不同类型的故障。当我们谈论芯粒时,更多关注的是组成芯片的各个部分之间的通信。当我们谈论芯片本身时,可能涉及温度问题。现在我们或许从PCB层面来审视它:芯片作为系统的一部分,运行是否正常,是否符合预期?如果将可见性进一步扩展到整个系统,你就需要重新定义"系统"的范畴——是指一块PCB,还是整个数据中心?将分布式洞察延伸至数十万个机架,将开启前所未有的洞察维度。因此,你所追求的目标和优化方向,决定了应该将重点放在哪里。
Harrison:从稍微不同的角度来看,让我们聚焦于身份识别这一维度。以汽车ECU(电子控制单元)为例,同一款通用ECU可能被安装在多种不同车型上,但这些ECU中可能搭载来自不同供应商的硅片,而这些硅片内部又可能包含来自不同供应商的芯粒。为了优化运行在这些ECU上的软件,使其与特定硬件最为匹配,实际上可以将软件定制化几乎精确到单个ECU的粒度。基于你所掌握的ECU中各SoC以及SoC内各芯片的身份信息,可以为每种组合提供专门优化的软件版本。由于汽车市场通常会大量采用二次供货策略,将正确的软件版本与正确的硬件版本匹配始终是一大挑战。因此,身份识别与可见性至关重要。
Q&A
Q1:片上可见性对现代芯片设计有多重要?
A:片上可见性对现代芯片设计至关重要。它不仅支持性能优化和效率提升,还能帮助工程师实时了解和适应不断变化的工作负载,同时在安全层面识别异常行为。随着芯粒和异构集成系统的普及,跨多颗芯片协调监控变得更加复杂,片上可见性的价值也随之显著提升。在汽车、航空航天、数据中心等关键领域,持续的片上监控已成为保障系统可靠性的必要条件。
Q2:芯粒架构下的片上可见性面临哪些新挑战?
A:芯粒架构带来了多重新挑战。首先,多颗芯片来自不同供应商,各自独立设计,组合后产生复杂的芯片间交互,难以统一观测。其次,不同芯粒间的通信标准不统一,可见性和可控性难以保障。此外,多物理场集成(热学、力学等)带来了新的监控需求,而这些细微信号往往在从片上到板级的过程中被衰减或聚合而消失,难以捕捉。
Q3:片上可见性在汽车领域有哪些具体应用?
A:在汽车领域,片上可见性主要体现在两个方面:一是供应链溯源,通过识别ECU中各SoC及芯片的身份信息,防止仿冒品、翻新品流入车辆,保障行车安全;二是软件与硬件的精准匹配,由于汽车厂商常采用多家供应商策略,借助片上身份识别,可以将软件版本精确匹配到特定硬件配置,实现最优的系统运行效率。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。