为了加速IT工作负载并降低功耗,必须尽量缩短数据在计算硬件内部的传输距离。这正是协同封装光学技术(Co-Packaged Optics,CPO)的核心理念——一种有望为数据中心带来显著效率提升的新型硬件设计策略。
毫无疑问,协同封装光学技术有潜力成为数据中心性能与能效领域的重大变革力量。然而,关键问题在于:该技术的实用性如何,距离大规模普及还有多远?
什么是协同封装光学技术,它是如何工作的?
协同封装光学技术是指将光学收发器与处理器高度集成,形成一个统一的"封装体",使两者紧密结合在一起。
要理解这一概念,需要先了解光学收发器的作用。光学收发器的核心功能是将电信号转换为光信号。这一步骤至关重要,因为计算芯片以电信号的形式处理信息,而现代网络则主要通过光波传输数据。通过在这两种形式之间转换数据,光学收发器实现了处理器与网络之间的信息流通。
传统上,光学收发器是可插拔设备,与处理器之间的距离通常达数厘米。协同封装光学技术改变了这一格局,将收发器与处理器的距离缩短至几毫米以内。
协同封装光学技术的优势
与传统硬件设计相比,协同封装光学技术具备两大核心优势:
能效提升方面,由于减少了数据在网络与处理器之间传输过程中的能耗,功耗效率最高可提升350%。
网络带宽方面,由于收发器与处理器之间的距离大幅缩短,单位时间内可传输更多数据,带宽提升幅度最高可达1000%。
协同封装光学技术在数据中心应用中的局限性
尽管上述优势令人印象深刻,但协同封装光学技术在实际应用中也面临一些挑战:
硬件供应有限:目前市场上已有支持CPO的设备,但供应商数量较少。由于激光器短缺——而激光器是制造CPO硬件的关键元件——扩大生产规模可能面临较大困难。
散热管理挑战:尽管CPO设备整体功耗更低,但其在更小的空间内集成了更强的处理能力,可能导致局部热量集中,需要配备能够有效散热的冷却系统。
维护局限性:由于CPO设备将光学收发器与处理器集成在一起,收发器的拆卸与更换变得相当困难。
专有技术壁垒:与传统网络硬件不同,目前大多数CPO解决方案依赖专有收发器,无法使用第三方组件进行替换。这不仅增加了维护难度,还可能令担忧供应商锁定的企业望而却步。
协同封装光学技术在数据中心中的现有应用
协同封装光学技术的潜在应用场景广泛,涵盖提升AI模型训练速度(通过加快GPU的数据摄取效率)以及提升电信网络性能等多个领域。
然而在数据中心领域,CPO的主要应用场景是在不增加能耗的前提下提升带宽。数据中心运营商可通过部署支持CPO的网络交换机来实现这一目标,这类交换机能够处理远超传统交换机的数据量。
展望未来,数据中心有望在不依赖交换机的情况下受益于CPO技术——处理器可直接集成光学收发器。英伟达目前正在探索这一方向,但相关技术仍处于研发阶段。
随着数据中心需要处理的网络数据量持续攀升,以及电力供应限制不断制约数据中心的扩容能力,这一技术路线有望发挥重要作用。
协同封装光学技术在数据中心的发展现状
目前,协同封装光学技术仍更多处于实验阶段,尚未成为成熟的生产级解决方案。
博通等硬件厂商已将支持CPO的交换机推向市场,企业在技术层面已可部署此类设备。但迄今为止,CPO在数据中心的实际部署案例主要来自Meta等超大规模云服务商的实验性应用。
这很可能是因为支持CPO的交换机价格较高,且大多数数据中心尚未触及网络容量瓶颈。
此外值得注意的是,尽管CPO能够显著提升网络交换机的能效,但交换机在典型数据中心整体能耗中占比有限,因此单纯依靠这一环节所能获得的节能收益并不突出。
尽管如此,数据中心的带宽需求将随时间推移持续增长——事实上,本十年前五年全球总流量已翻倍以上,且这一趋势没有放缓迹象。届时,在数据中心部署协同封装光学技术将具备充分的经济合理性。关键问题在于:距离这一临界点的到来,还需要多长时间?
Q&A
Q1:协同封装光学技术(CPO)和传统光学收发器有什么区别?
A:传统光学收发器是可插拔设备,与处理器之间的距离通常达数厘米;而协同封装光学技术将收发器与处理器集成在同一封装体内,距离缩短至几毫米以内。这种设计大幅减少了数据传输路径,从而降低能耗、提升带宽,最高可实现350%的能效提升和1000%的带宽增长。
Q2:协同封装光学技术目前在数据中心的实际落地情况怎么样?
A:目前CPO仍处于实验阶段,尚未大规模商用。博通等厂商已推出支持CPO的交换机,但实际部署案例主要集中在Meta等超大规模云服务商的实验性项目中。主要原因是CPO设备价格较高,且多数数据中心尚未达到网络容量上限,大规模普及还需时间。
Q3:协同封装光学技术在数据中心应用中面临哪些主要挑战?
A:CPO面临四大挑战:一是硬件供应有限,激光器短缺制约产能扩张;二是散热管理难度大,高密度集成导致局部热量集中;三是维护困难,收发器与处理器一体化设计使拆换不便;四是专有技术壁垒,目前多数CPO方案依赖专有收发器,无法使用第三方组件,存在供应商锁定风险。
好文章,需要你的鼓励
Google Cloud产品管理副总裁Michael Gerstenhaber近日接受采访,详解企业部署AI智能体面临的核心治理难题。他指出,智能体的安全管控须借鉴人类员工管理逻辑,实现"默认安全"。Google Cloud通过智能体网关、身份权限管理、分布式追踪及Model Armor等工具构建纵深防御体系。Gerstenhaber还提出"弹性智能"概念,认为持续学习的智能体无需退役,可在运行时动态优化行为,从而帮助企业实现运营能力的弹性扩展。
OpenSkill是一套让AI代理无需人工监督即可自主成长的框架,通过从互联网获取知识、自建虚拟考题反复练习,实现真正的开放世界自我演化。
根据Ookla发布的全球Wi-Fi状态报告,Wi-Fi 7正在全球范围内逐步推进,但整体渗透率仍不足2%。新加坡以25%的Wi-Fi 7用户占比位居全球首位,得益于政府与运营商的联合推动。5 GHz频段依然是全球主流,6 GHz频段全球占比仅1.7%。欧洲6 GHz利用率更低至1.6%,各国间存在显著差异。AI基础设施需求推高半导体成本,也对CPE和智能手机制造商形成压力。
论文研究了AI评委同时优化多个评判维度时的两大失败原因:梯度稀释与指令干扰,为多目标提示词优化提供了系统性诊断框架。