CXL第四代内存共享规范提升了速度并扩展了多机架系统的距离支持能力。
Computer eXpress Link(CXL)规范定义了如何通过PCIe总线连接内存池。目前已有三代产品。CXL 1代使x86服务器能够访问外部设备(如智能网卡和DPU)中通过PCIe 5.0链接的内存。CXL 2代在仍使用PCIe 5.0的基础上,增加了服务器与外部设备之间的内存池化功能,而CXL 3代则增加了交换机和PCIe 6.0支持,使更多服务器和设备能够共享内存。现在CXL 4.0使用PCIe 7.0来提升速度,并具备增加内存池跨度和带宽的额外功能。多机架AI服务器不断增长的需求是该技术的目标应用领域。
英伟达首席工程师、CXL联盟主席兼司库Derek Rohde表示:"CXL 4.0规范的发布为推进一致性内存连接设立了新的里程碑,相比上一代产品带宽翻倍,并提供了强大的新功能。"
英伟达的NVlink点对点技术将GPU连接在一起,使它们可以直接共享HBM内存空间,而无需主机x86服务器及其PCIe总线。GPU服务器的高带宽内存(HBM)可以作为Type 2设备在CXL内存空间中运行,与主机(x86)处理器共享内存,它们可以通过CXL链接,但速度低于NVLink。NVLink 5.0为每个B200 GPU提供高达1,800 GB/s的带宽。PCIe 7.0为每个CPU提供高达1,024 GB/s的带宽。
CXL 4.0在保持相同延迟的情况下将链路带宽翻倍至128 GT/s,并引入了原生x2宽度概念以及捆绑端口,支持4个重定时器来扩展链路距离。
原生x2链路宽度的存在是为了增加扇出能力。链路宽度指定CXL连接中并行数据路径通道的数量,CXL 1.0至3.0支持x4、x8和x16宽度。单一宽度和x2宽度是通道故障和错误恢复的备用宽度,以较慢的降级模式运行。现在x2已完全针对性能进行优化,与x4至x16宽度相同。
捆绑端口将多个物理CXL设备端口聚合为单个逻辑实体,以增加带宽和连接性。CXL 4.0白皮书解释了这一概念。
PCIe信号质量会随距离增加而降低,数据速率提升时亦是如此。重定时器是模拟/数字集成电路设备,接收部分降级的信号并使用时钟和数据恢复电路刷新信号。据我们了解,四个重定时器将使底层PCIe链路得以扩展,以支持多机架配置。我们希望在2026年末至2027年期间看到CXL 4多机架系统的实现。
Q&A
Q1:CXL 4.0相比之前版本有什么主要改进?
A:CXL 4.0使用PCIe 7.0技术,在保持相同延迟的前提下将链路带宽翻倍至128 GT/s,并引入了原生x2宽度概念、捆绑端口以及支持4个重定时器来扩展链路距离,特别适用于多机架AI服务器配置。
Q2:CXL技术与英伟达NVLink技术有什么区别?
A:NVLink是英伟达的点对点技术,专门用于GPU之间直接共享HBM内存,NVLink 5.0可为每个B200 GPU提供1,800 GB/s带宽。而CXL是通用标准,支持x86处理器与各种设备间的内存共享,PCIe 7.0可为每个CPU提供1,024 GB/s带宽。
Q3:CXL 4.0什么时候能在多机架系统中应用?
A:根据技术发展趋势,预计CXL 4.0多机架系统将在2026年末至2027年期间实现。该技术通过4个重定时器扩展PCIe链路距离,能够支持多机架配置,满足大规模AI服务器部署的需求。
好文章,需要你的鼓励
人工智能和数据安全公司Cyera宣布完成4亿美元后期融资,估值达90亿美元。此轮F轮融资由贝莱德领投,距离上次融资仅6个月。随着95%的美国企业使用生成式AI,AI应用快速普及带来新的安全挑战。Cyera将数据安全态势管理、数据丢失防护和身份管理整合为单一平台,今年推出AI Guardian扩展AI安全功能。
上海AI实验室开发RePro训练方法,通过将AI推理过程类比为优化问题,教会AI避免过度思考。该方法通过评估推理步骤的进步幅度和稳定性,显著提升了模型在数学、科学和编程任务上的表现,准确率提升5-6个百分点,同时大幅减少无效推理,为高效AI系统发展提供新思路。
SAP在2026年全国零售联盟大展上发布了一系列新的人工智能功能,将规划、运营、履约和商务更紧密地集成到其零售软件组合中。这些更新旨在帮助零售商管理日益复杂的运营,应对客户参与向AI驱动发现和自动化决策的转变。新功能涵盖数据分析、商品销售、促销、客户参与和订单管理等领域,大部分功能计划在2026年上半年推出。
MIT团队开发的VLASH技术首次解决了机器人动作断续、反应迟缓的根本问题。通过"未来状态感知"让机器人边执行边思考,实现了最高2.03倍的速度提升和17.4倍的反应延迟改善,成功展示了机器人打乒乓球等高难度任务,为机器人在动态环境中的应用开辟了新可能性。