在系统架构师们坐在桌前、打算设计一套新平台时,首先会认真梳理供应商提供的CPU、加速器、内存、闪存、网卡和PCI-Express控制器和交换机路线图。而在计算与内存混合系统设计以及共享加速器和内存等组件的集群快速普及的当下,交换机在其中扮演的角色正愈发重要。
问题在于:不同组件间的路线图并没有真正协调一致。大部分CPU和GPU制造商都保持着每两年一次的重大计算引擎升级,而两次重大发布间的这一年则做架构和制程调整,确保每年都有新产品可以销售。以太网和InfiniBand市场上的网络交换机和网卡同样大多以两年为周期,并且在英特尔至强CPU占市场主导时,努力让自家产品的发布跟芯片巨头保持着节奏同步。然而,英特尔这边不断重新调整路线图、AMD作为CPU供应商的重新崛起,以及其他Arm CPU制造商(包括三大超大规模数据中心提供商与云服务商)的加入早已打破原本和谐的更新周期。
之后还有PCI-Express总线,过去二十年间它早已无处不在。虽然近年来PCI-Express规格的发布节奏越来越固定,PCI-Express控制器也始终坚守自己的发展路线图,但通过MicroChip和博通等厂商发布的PCI-Express交换机却始终落后几个节拍。
所以正常的思路,当然是把这些路线图协调统一起来。具体来讲,PCI-Express规范应该与IT行业开展广泛而深入的合作,帮助PCI-SIG组织加快步伐、摆脱每三年更新的惯例,跟上两年一次的技术升级节奏。虽然还有具体困难,但如果能够更快升级至PCI-Expres 7.0,那么I/O带宽和通道数将可更好地与高吞吐量计算引擎相适配,更好地为行业需求服务。如果能够契合统一,未来行业将更多使用PCI-Express总线来处理基于CXL的分层与共享主内存。
我们调整了PCI-SIG的带宽图表。图中误将2022年发布的PCI-Express 6.0规格记为2021年,非常抱歉。
请别误会,我们对PCI-SIG做出的努力深表感激。目前数据中心和各类边缘厂商正在通力合作,终于在2017年的PCI-Express 4.0之后让总线协议的发展步入了可预测的正轨。当初一系列严峻的信号和材料挑战,导致数据中心在PCI-Express 3.0时代停滞了足足七年,当时业界就认为主导CPU的英特尔在提升I/O方面有点“不给力”。早在2012年3月,“Sandy Bridge”至强E5就没能按时发布,原因是芯片组中的SATA端口烧了。之后,关于PCI-Express 4.0和5.0控制器难以集成进处理器的谣言开始满天飞。
一般来说,每当PCI-Express发布新的规范,那么约一年之后就会有控制器被嵌入到计算引擎和网络接口芯片当中。因此当PCI-Express 4.0在2017年问世时,首批使用该总线的系统在2018年准时亮相——即IBM基于Power 9芯片打造的Power Systems设备。接下来是AMD在2019年8月推出的“Rome”Epyc 7002中使用该规范。英特尔方面则动作最慢,直到2021年4月的“Ice Lake”这代至强SP处理器才引入PCI-Express 4.0控制器。
虽然在短短两年之后的2019年,PCI-Express 5.0规范就号称做好了“战斗准备”,但直到2021年IBM才在其高端Power E1080设备中的Power 10处理器上实际应用。AMD则在2022年11月的“Genoa”Epyc 9004中引入。这次动作最慢的又是英特尔,直到2023年1月推出的“Sapphire Rapids”至强SP服务器芯片才正式集成PCI-Express 5.0。
所以从产品的层面来看,PCI-Express 4.0到5.0其实相隔了三年,并没能跟上规范间的两年升级节奏。
从现在的情况来看,规范和产品必须把升级周期压缩到两年之内,确保始终跟计算引擎和网络互连保持同步。其中还包括PCI-Express交换机ASIC,之前这些ASIC一直远远落后于PCI-Express 3.0、4.0和5.0的实际普及时间。
在每一代协议中,PCI-Express端口和PCI-Express交换机之间都存在发布滞后。这种延迟性,迫使系统架构师只能在可组合性(即在pod层级使用PCI-Express交换机的理想状态)和更大带宽(直接通过服务器插槽提供)间做出权衡。系统和集群的设计必须兼具可组合性和良好带宽,而拉高基数无疑是最可行的办法。
目前,市场上只有两家PCI-Express交换机制造商:博通(通过多年前收购PLX Technologies)和MicroChip。2021年2月,我们曾对PCI-Express 5.0版的MicroChip Switchtec ASIC做过分析,其通道从28条扩展到100条,端口也从16个扩展到52个。但据我们所知,这款产品并未指出货。博通则在2022年2月就推出过PCI-Express 5.0芯片组合,其中包括ExpresFabric PEX 89100交换机。该交换机配备24至144条通道和24至72个端口。截至本文撰稿时,我们已再次求证这些产品是否正在销售,但博通并未给出回复。
我们的观点是,PCI-Express交换机必须跟得上节奏,保证计算服务器、内存服务器和存储服务器都有最新的PCI-Express芯片可用。毕竟服务器中必然要嵌入交换机,而且不该通过牺牲通道/端口/基数的方式来换取带宽。所以市场上需要更多供应商,这样一家没做好、也有其他厂商可以选择。因此我们才特别期待Rambus能够进军PCI-Express交换机ASIC市场。
也正是为了满足这么多需求,PCI-SIG才决定为PCI-Express 7.0规范发布0.3版本。
下面来看一年之前PCI-Express 6.0规范正式落地、PCI-Express即将亮相时,我们对于后续PCI-Express路线图做出的预测:
PCI-Express 7.0规范预计要到2025年才会获批,就是说其实际登陆系统可能要到2026年末或者2027年初。但这样的等待周期还是太长了,我们需要PCI-Express 7.0来提供带宽加速器,靠它处理模拟或AI模型训练所需要的大量数据、也要靠它与极度复杂的CXL 4.0共享内存与池化内存规范相适配。
当然,我们知道加快PCI-Express 7.0控制器和交换机的上市速度绝非易事,也将拉动所有相关产品都同步提速。毕竟周期缩短之后,计算引擎和外设制造商也都会犹豫,还要不要在PCI-Express 6.0的产品周期中投入太多资金。
但本文的观点还是非常坚定:随着PCI-Express 6.0投入产品并经过严格测试(新规范用到新的PAM-4信令和FLIT低延迟编码,因此需要接受严格测试),我们认为行业应该尽早加速并尽可能跟CPU和GPU的发展路线图相匹配,全面转向两年的更新周期。
只有各项要素保持均衡,最终构建的系统才能高效协同、携手前进。
好文章,需要你的鼓励
最新调查显示,大多数高管预计 AI 将在未来两年内彻底重塑企业。68% 的高管计划在未来一年投资 5000 万至 2.5 亿美元用于生成式 AI。尽管面临经济压力和数据质量等挑战,企业正加速采用 AI,但基层员工的应用仍有待提高。AI 的变革力量已经显现,并正在加速发展。
文章深入探讨了 AI 技术的快速发展趋势及其未来影响。作者通过分析量级增长 (OOM)、AI 能力跃升以及模型的情境意识等方面,论证了 AI 即将迎来重大突破。特别强调了到 2027 年 AI 可能具备 AI 研究员/工程师的工作能力,以及 AI 系统在获得持久记忆和更广泛上下文后将产生质的飞跃。
微软研究人员提出了一种新的内存技术——管理保留内存 (MRM),旨在解决 AI 基础模型工作负载的存储和 IO 问题。MRM 具有短期数据持久性,可优化 AI 推理性能,同时降低能耗和成本。这一创新概念有望填补现有内存-存储层级中的空白,为 AI 时代的内存技术发展开辟新方向。
随着数字化转型成为战略重点,企业纷纷投入资源,但成效不一。麦肯锡研究显示,90%的公司启动了数字化转型,但平均仅实现了预期收益的三分之一。展望2025年,生成式AI等技术的进步正在改变数字化转型格局。为确保成功,企业需要重新校准预期,区分数字化增强与真正的数字化转型,并采取更有效的预算结构。