CXL第四代内存共享规范提升了速度并扩展了多机架系统的距离支持能力。
Computer eXpress Link(CXL)规范定义了如何通过PCIe总线连接内存池。目前已有三代产品。CXL 1代使x86服务器能够访问外部设备(如智能网卡和DPU)中通过PCIe 5.0链接的内存。CXL 2代在仍使用PCIe 5.0的基础上,增加了服务器与外部设备之间的内存池化功能,而CXL 3代则增加了交换机和PCIe 6.0支持,使更多服务器和设备能够共享内存。现在CXL 4.0使用PCIe 7.0来提升速度,并具备增加内存池跨度和带宽的额外功能。多机架AI服务器不断增长的需求是该技术的目标应用领域。
英伟达首席工程师、CXL联盟主席兼司库Derek Rohde表示:"CXL 4.0规范的发布为推进一致性内存连接设立了新的里程碑,相比上一代产品带宽翻倍,并提供了强大的新功能。"
英伟达的NVlink点对点技术将GPU连接在一起,使它们可以直接共享HBM内存空间,而无需主机x86服务器及其PCIe总线。GPU服务器的高带宽内存(HBM)可以作为Type 2设备在CXL内存空间中运行,与主机(x86)处理器共享内存,它们可以通过CXL链接,但速度低于NVLink。NVLink 5.0为每个B200 GPU提供高达1,800 GB/s的带宽。PCIe 7.0为每个CPU提供高达1,024 GB/s的带宽。
CXL 4.0在保持相同延迟的情况下将链路带宽翻倍至128 GT/s,并引入了原生x2宽度概念以及捆绑端口,支持4个重定时器来扩展链路距离。
原生x2链路宽度的存在是为了增加扇出能力。链路宽度指定CXL连接中并行数据路径通道的数量,CXL 1.0至3.0支持x4、x8和x16宽度。单一宽度和x2宽度是通道故障和错误恢复的备用宽度,以较慢的降级模式运行。现在x2已完全针对性能进行优化,与x4至x16宽度相同。
捆绑端口将多个物理CXL设备端口聚合为单个逻辑实体,以增加带宽和连接性。CXL 4.0白皮书解释了这一概念。
PCIe信号质量会随距离增加而降低,数据速率提升时亦是如此。重定时器是模拟/数字集成电路设备,接收部分降级的信号并使用时钟和数据恢复电路刷新信号。据我们了解,四个重定时器将使底层PCIe链路得以扩展,以支持多机架配置。我们希望在2026年末至2027年期间看到CXL 4多机架系统的实现。
Q&A
Q1:CXL 4.0相比之前版本有什么主要改进?
A:CXL 4.0使用PCIe 7.0技术,在保持相同延迟的前提下将链路带宽翻倍至128 GT/s,并引入了原生x2宽度概念、捆绑端口以及支持4个重定时器来扩展链路距离,特别适用于多机架AI服务器配置。
Q2:CXL技术与英伟达NVLink技术有什么区别?
A:NVLink是英伟达的点对点技术,专门用于GPU之间直接共享HBM内存,NVLink 5.0可为每个B200 GPU提供1,800 GB/s带宽。而CXL是通用标准,支持x86处理器与各种设备间的内存共享,PCIe 7.0可为每个CPU提供1,024 GB/s带宽。
Q3:CXL 4.0什么时候能在多机架系统中应用?
A:根据技术发展趋势,预计CXL 4.0多机架系统将在2026年末至2027年期间实现。该技术通过4个重定时器扩展PCIe链路距离,能够支持多机架配置,满足大规模AI服务器部署的需求。
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。