CXL第四代内存共享规范提升了速度并扩展了多机架系统的距离支持能力。
Computer eXpress Link(CXL)规范定义了如何通过PCIe总线连接内存池。目前已有三代产品。CXL 1代使x86服务器能够访问外部设备(如智能网卡和DPU)中通过PCIe 5.0链接的内存。CXL 2代在仍使用PCIe 5.0的基础上,增加了服务器与外部设备之间的内存池化功能,而CXL 3代则增加了交换机和PCIe 6.0支持,使更多服务器和设备能够共享内存。现在CXL 4.0使用PCIe 7.0来提升速度,并具备增加内存池跨度和带宽的额外功能。多机架AI服务器不断增长的需求是该技术的目标应用领域。
英伟达首席工程师、CXL联盟主席兼司库Derek Rohde表示:"CXL 4.0规范的发布为推进一致性内存连接设立了新的里程碑,相比上一代产品带宽翻倍,并提供了强大的新功能。"
英伟达的NVlink点对点技术将GPU连接在一起,使它们可以直接共享HBM内存空间,而无需主机x86服务器及其PCIe总线。GPU服务器的高带宽内存(HBM)可以作为Type 2设备在CXL内存空间中运行,与主机(x86)处理器共享内存,它们可以通过CXL链接,但速度低于NVLink。NVLink 5.0为每个B200 GPU提供高达1,800 GB/s的带宽。PCIe 7.0为每个CPU提供高达1,024 GB/s的带宽。
CXL 4.0在保持相同延迟的情况下将链路带宽翻倍至128 GT/s,并引入了原生x2宽度概念以及捆绑端口,支持4个重定时器来扩展链路距离。
原生x2链路宽度的存在是为了增加扇出能力。链路宽度指定CXL连接中并行数据路径通道的数量,CXL 1.0至3.0支持x4、x8和x16宽度。单一宽度和x2宽度是通道故障和错误恢复的备用宽度,以较慢的降级模式运行。现在x2已完全针对性能进行优化,与x4至x16宽度相同。
捆绑端口将多个物理CXL设备端口聚合为单个逻辑实体,以增加带宽和连接性。CXL 4.0白皮书解释了这一概念。
PCIe信号质量会随距离增加而降低,数据速率提升时亦是如此。重定时器是模拟/数字集成电路设备,接收部分降级的信号并使用时钟和数据恢复电路刷新信号。据我们了解,四个重定时器将使底层PCIe链路得以扩展,以支持多机架配置。我们希望在2026年末至2027年期间看到CXL 4多机架系统的实现。
Q&A
Q1:CXL 4.0相比之前版本有什么主要改进?
A:CXL 4.0使用PCIe 7.0技术,在保持相同延迟的前提下将链路带宽翻倍至128 GT/s,并引入了原生x2宽度概念、捆绑端口以及支持4个重定时器来扩展链路距离,特别适用于多机架AI服务器配置。
Q2:CXL技术与英伟达NVLink技术有什么区别?
A:NVLink是英伟达的点对点技术,专门用于GPU之间直接共享HBM内存,NVLink 5.0可为每个B200 GPU提供1,800 GB/s带宽。而CXL是通用标准,支持x86处理器与各种设备间的内存共享,PCIe 7.0可为每个CPU提供1,024 GB/s带宽。
Q3:CXL 4.0什么时候能在多机架系统中应用?
A:根据技术发展趋势,预计CXL 4.0多机架系统将在2026年末至2027年期间实现。该技术通过4个重定时器扩展PCIe链路距离,能够支持多机架配置,满足大规模AI服务器部署的需求。
好文章,需要你的鼓励
Anthropic周一发布了旗舰模型Opus 4.5,这是4.5系列的最后一个模型。新版本在编程、工具使用和问题解决等基准测试中表现出色,是首个在SWE-Bench验证测试中得分超过80%的模型。同时推出Claude for Chrome和Claude for Excel产品,分别面向不同用户群体。Opus 4.5还改进了长文本处理的内存管理,支持付费用户的"无限聊天"功能,并针对智能体应用场景进行了优化,将与OpenAI的GPT 5.1和谷歌的Gemini 3展开竞争。
南洋理工大学团队开发了Uni-MMMU基准测试,专门评估AI模型的理解与生成协同能力。该基准包含八个精心设计的任务,要求AI像人类一样"边看边想边画"来解决复杂问题。研究发现当前AI模型在这种协同任务上表现不平衡,生成能力是主要瓶颈,但协同工作确实能提升问题解决效果,为开发更智能的AI助手指明了方向。
总部位于圣地亚哥的AI公司耐能发布新一代KL1140芯片,这是首款能在边缘端运行完整变换器网络的神经处理单元。该芯片可将大语言模型从云数据中心转移到便携式本地设备中,四颗芯片组合可实现类似GPU的性能,支持1200亿参数模型运行,功耗降低三分之一至一半,硬件成本减少十倍。
360 AI Research团队发布的FG-CLIP 2是一个突破性的双语精细视觉语言对齐模型,能够同时处理中英文并进行精细的图像理解。该模型通过两阶段训练策略和多目标联合优化,在29个数据集的8类任务中均达到最先进性能,特别创新了文本内模态对比损失机制。团队还构建了首个中文多模态评测基准,填补了该领域空白,为智能商务、安防监控、医疗影像等应用开辟新可能。