CXL 4.0带宽翻倍并扩展内存池化至多机架配置

CXL 4.0规范发布,采用PCIe 7.0技术将链路带宽提升至128GT/s,相比前代翻倍。新增原生x2宽度概念、捆绑端口和4个重定时器支持,可将链路距离扩展至多机架配置。该技术针对多机架AI服务器需求,通过PCIe总线实现内存池共享连接。支持GPU高带宽内存作为Type 2设备与主机处理器共享内存空间,预计2026-2027年实现商用部署。

CXL第四代内存共享规范提升了速度并扩展了多机架系统的距离支持能力。

Computer eXpress Link(CXL)规范定义了如何通过PCIe总线连接内存池。目前已有三代产品。CXL 1代使x86服务器能够访问外部设备(如智能网卡和DPU)中通过PCIe 5.0链接的内存。CXL 2代在仍使用PCIe 5.0的基础上,增加了服务器与外部设备之间的内存池化功能,而CXL 3代则增加了交换机和PCIe 6.0支持,使更多服务器和设备能够共享内存。现在CXL 4.0使用PCIe 7.0来提升速度,并具备增加内存池跨度和带宽的额外功能。多机架AI服务器不断增长的需求是该技术的目标应用领域。

英伟达首席工程师、CXL联盟主席兼司库Derek Rohde表示:"CXL 4.0规范的发布为推进一致性内存连接设立了新的里程碑,相比上一代产品带宽翻倍,并提供了强大的新功能。"

英伟达的NVlink点对点技术将GPU连接在一起,使它们可以直接共享HBM内存空间,而无需主机x86服务器及其PCIe总线。GPU服务器的高带宽内存(HBM)可以作为Type 2设备在CXL内存空间中运行,与主机(x86)处理器共享内存,它们可以通过CXL链接,但速度低于NVLink。NVLink 5.0为每个B200 GPU提供高达1,800 GB/s的带宽。PCIe 7.0为每个CPU提供高达1,024 GB/s的带宽。

CXL 4.0在保持相同延迟的情况下将链路带宽翻倍至128 GT/s,并引入了原生x2宽度概念以及捆绑端口,支持4个重定时器来扩展链路距离。

原生x2链路宽度的存在是为了增加扇出能力。链路宽度指定CXL连接中并行数据路径通道的数量,CXL 1.0至3.0支持x4、x8和x16宽度。单一宽度和x2宽度是通道故障和错误恢复的备用宽度,以较慢的降级模式运行。现在x2已完全针对性能进行优化,与x4至x16宽度相同。

捆绑端口将多个物理CXL设备端口聚合为单个逻辑实体,以增加带宽和连接性。CXL 4.0白皮书解释了这一概念。

PCIe信号质量会随距离增加而降低,数据速率提升时亦是如此。重定时器是模拟/数字集成电路设备,接收部分降级的信号并使用时钟和数据恢复电路刷新信号。据我们了解,四个重定时器将使底层PCIe链路得以扩展,以支持多机架配置。我们希望在2026年末至2027年期间看到CXL 4多机架系统的实现。

Q&A

Q1:CXL 4.0相比之前版本有什么主要改进?

A:CXL 4.0使用PCIe 7.0技术,在保持相同延迟的前提下将链路带宽翻倍至128 GT/s,并引入了原生x2宽度概念、捆绑端口以及支持4个重定时器来扩展链路距离,特别适用于多机架AI服务器配置。

Q2:CXL技术与英伟达NVLink技术有什么区别?

A:NVLink是英伟达的点对点技术,专门用于GPU之间直接共享HBM内存,NVLink 5.0可为每个B200 GPU提供1,800 GB/s带宽。而CXL是通用标准,支持x86处理器与各种设备间的内存共享,PCIe 7.0可为每个CPU提供1,024 GB/s带宽。

Q3:CXL 4.0什么时候能在多机架系统中应用?

A:根据技术发展趋势,预计CXL 4.0多机架系统将在2026年末至2027年期间实现。该技术通过4个重定时器扩展PCIe链路距离,能够支持多机架配置,满足大规模AI服务器部署的需求。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2025

11/25

08:37

分享

点赞