半导体工程媒体就内存接口、互连技术以及内存访问扩展性议题,与来自Synopsys技术产品管理高级总监Madhumita Sanyal、英特尔高级首席工程师Swadesh Choudhary、三星SSI高级首席工程师Siamak Tavallaei,以及Credo技术高级总监Mohsen Asad进行了深入探讨。以下内容摘录自在加利福尼亚州圣克拉拉举办的IMAPS内存峰会上的小组讨论。
现实世界中的数据移动远比互连标准所呈现的更为复杂
问:在实际应用中,数据移动远比互连标准所描述的要混乱。不同数据的传输速度不同,存在多条通道,且各通道性能也不尽相同。随着时间推移,各组件的老化程度也参差不齐。我们该如何应对这些问题?
Sanyal:一种方法是在实际构建整体系统之前,进行端到端仿真。这意味着需要对系统的接口、通道本身建立模型,并确保充分考虑从一个加速器到另一个加速器或主机之间数据路径中的性能表现以及任何不连续性问题。端到端仿真能够有效降低风险,并提升对整体系统的可见性。
问:我们正处于一个需要与AI智能体打交道的时代,这些智能体持续地自我调适和变化,由此产生了温度梯度等问题。仿真虽然至关重要,但它能否随着时间推移有效应对这些挑战?
Asad:这正是问题所在。系统目前运行良好,但一旦承受高强度工作负载,就会升温,有时甚至会出现故障,这种情况相当普遍。现实世界并不像0和1那样数字化,存在大量波动。在产品开发阶段,我们必须能够快速迭代、快速构建、快速测试,在向客户发货数百万台之前尽早发现错误。我们必须擅长发现错误,一旦发现,就需要纠错机制和均衡器。有时,某些情况看似错误,但由于系统是电容性的,也许你为核心架构提供了超出实际需求八倍的容量,这反而可能开辟出全新的商业机会。
Sanyal:如果能对整个系统进行持续的健康监测,就可以在故障发生之前预测到它。
Choudhary:在这一切当中,简洁性和抽象层级的重要性与日俱增。RAS(可靠性、可用性和可维护性)很快就会变得错综复杂。目标是建立能够随着更复杂系统扩展的简单模型,这些模型能够隔离问题,并为你争取到足够的时间,使整个系统不至于全面崩溃。这样你就有时间对故障部件进行维修,或从故障中恢复。
商业Chiplet的集成如何影响系统行为?
问:随着更多商业chiplet被纳入设计,你们是否清楚它们的行为表现,以及这将带来什么影响?
Choudhary:这非常难以预测,尤其是在混用不同技术节点和不同封装技术的情况下。说到合规性和互操作性,这绝对是重中之重。当你声称你的DDR达到某个规格时,该DDR还有多少裕量?我们越来越多地关注不同特性,进行眼图裕量测试、运行时监控,力求确保有足够的时间在系统崩溃前至少发出告警通知。当所有组件都封装在一起时,可维护性便很难实现。因此,关键在于chiplet本身具备冗余能力或其他能力,或者当系统出现故障时,有可以上线的备用方案。我们从封装级别来审视这个问题,需要识别出通用的开放网格信号和变量,以便向所有需要采取行动的相关方发出通知和广播。
Tavallaei:随着这类产品量产规模的扩大,墨菲定律变得愈发适用——任何可能出错的事情,终将出错。这个话题始于规范标准的问题。规范将所有要求白纸黑字地写明,出现问题时也有章可循。规范提供了一个蓝图——一个架构框架。随后便是设计工作,有人会基于特定规范构想出具体的使用场景。规范中包含大量可选特性,人们会根据业务需求、客户需求以及能从中获取的价值来决定实现规范的哪些部分。这是基础规范。在此之后是设计规范,再之后才是产品。当有人以盈利为目的构建并维护产品时,该公司会非常谨慎地去验证设计指标——原因很简单,他们不希望接到愤怒客户的电话,抱怨产品不符合规范、缺乏标准化。
CXL和PCIe能否延伸至整个机架?
观众提问:CXL和PCIe能否扩展到整个机架?
Tavallaei:任何互连技术都具有多个分层要素。最底层是物理层,其上依次是链路层、事务层,以及更上层的其他内容。CXL遵循PCIe,PCIe遵循PCI,PCI遵循EISA(扩展工业标准架构),而EISA又遵循多年前的ISA标准。这些都是从IBM PC借鉴而来的,但我们在此基础上进行了大量的发展——在物理层之上,人们开始构建固件、调试解决方案协议分析仪,以及后来的多个软件层管理。底层可以随时变化。如果目前市场上已有CXL设备,有人要实现内存池化,今天我们能为其提供什么设备?UALink尚不可用,NVLink有其自身定位。但CXL组件现在已经就绪,基于CXL控制器的内存也已可用,交换机也已存在。人们基于现有资源开始构建,在软件中积累价值,之后再引入不同类型的互连。但在物理层之上的内存组合、安全性、RAS编排等高层功能无需随之改变。
观众提问:您认为同一系统中会出现多种组件共存的情况,还是会围绕现有生态系统构建价值?
Tavallaei:Azure在一个数据中心里有成千上万的元素。如果每个机架都各不相同,负责调试的工程师将会苦不堪言。从技术上讲这是可行的,但从A到Z对一套设计进行规格化和认证,然后加以复制,效率要高得多。没有人有时间对所有方案逐一认证。
Sanyal:目前市场上,主机到SSD或主机到加速器的接口采用的是PCIe和CXL。两年后,那些正在基于新设计着手进行加速器到加速器交换设计的团队,可能会采用UALink,但同时也会用到CXL。我认为UALink在不久的将来还不会取代CXL或UCIe。
Tavallaei:您的意思是CXL内存设备会普及,但CXL加速器可能不会?
Sanyal:我谈的是主机与加速器之间、主机与SSD之间的连接,这些将采用CXL。但如果客户正在设计加速器,其中会同时包含CXL、PCIe和UALink。他们可能会将一个加速器拆分成多个,因为需要大量的通道,这样就会有多个光刻尺寸的裸片。UCIe将会存在,但当加速器与主机通信时,采用的将是CXL。
Tavallaei:当人们希望充分利用硬件时,专业化是必要的。他们会在不同领域进行专业化,当通过专门化和定制化特定接口能够获得商业利益时,人们一定会这样做。但我认为不会出现一个能覆盖所有场景的超集方案。每个人都会有各自的利基解决方案,因为如今那些专用产品也可以实现高量产,超大规模客户对同类产品有大量需求。
Q&A
Q1:端到端仿真在复杂系统设计中能解决哪些问题?
A:端到端仿真可以在实际构建系统之前,对接口、通道及整体数据路径进行建模,帮助发现从一个加速器到另一个加速器或主机之间的性能瓶颈和不连续性问题。通过仿真,工程师可以提前预见潜在故障,降低系统风险,提升对整体系统的可见性,从而避免在大规模量产后才暴露问题。
Q2:CXL和PCIe互连技术在未来机架级系统中会如何演进?
A:目前主机到SSD或主机到加速器的连接主要采用PCIe和CXL。未来随着加速器设计的演进,可能会同时出现UALink、CXL和UCIe等多种互连标准共存的局面。CXL内存设备和控制器目前已可用,而更高层的内存组合、安全性和RAS编排等功能在底层互连变化时无需随之调整,具有较好的延续性。
Q3:商业chiplet集成后如何保障系统的可靠性和可维护性?
A:由于不同技术节点和封装技术的混用,chiplet系统的行为很难预测。工程师需通过眼图裕量测试、运行时监控等手段确保足够裕量,并在系统崩溃前发出预警。此外,chiplet本身应具备冗余能力,或提供备用方案以应对故障。从封装层面统一定义开放网格信号和变量,可以向所有相关方广播告警,实现协同响应。
好文章,需要你的鼓励
今天讲的出海案例是利亚德,这家 1995 年成立、从 LED 显示产品研发生产销售起步,并做到小间距和 Micro LED 的视效科技公司,沙特工厂预计 2026 年 7 月投产。
ATLAS是由香港中文大学与Meta AI联合提出的视觉推理框架,将视觉操作压缩为词典中的五个特殊词汇,让AI无需生成图片或调用外部工具,即可完成复杂的交互式视觉推理。
谷歌在I/O 2026大会上宣布,Android Auto将对媒体应用进行重大界面升级。此次更新基于Car App Library v1.9.0-alpha01,引入扩展标题、聚焦区域、新型进度条、快捷芯片和迷你播放器等全新组件,提升布局灵活性。开发者可申请加入测试计划提前体验,Spotify、YouTube等热门应用将率先采用新设计。
SPIN是由纽约州立大学奥尔巴尼分校与IBM联合提出的工业AI规划框架,通过格式验证修复和前缀渐进执行控制,在减少40%执行步骤的同时提升任务完成率。