在人工智能时代,延迟是数据中心网络的一个日益关键的指标。对于AI训练而言,低延迟有助于确保训练集群中的所有图形处理单元(GPU)和节点得到有效利用,最大限度地减少空闲时间并最大化整体训练效率。对于需要实时或接近实时响应的AI推理来说,低延迟更为关键。
随着GPU集群扩展到数百、数千甚至数百万个GPU,功耗、空间和可用性限制迫使AI集群分布在多个城域和区域数据中心。"跨规模"一词现已进入词汇表,用来描述数据中心之间的AI网络连接;然而,这些数据中心的位置以及它们之间的距离受到延迟的限制。
光纤与延迟
数据中心延迟的一个关键组成部分是光通过光纤电缆传输所需的时间。随着城域、区域、长途和海底网络距离的增加,这逐渐成为主导因素,网络设备中的延迟变得微不足道。因此,光纤延迟是距离和每公里光纤延迟的函数。销售数据中心互连服务(如波长服务、暗光纤和托管光纤网络)的网络运营商通过拥有最短的光纤路由来区别于竞争对手。
每公里光纤延迟是光纤折射率的函数。今天的光纤最初在1960年代推出,迄今已部署超过70亿公里。虽然它们在低损耗和更好性能方面持续发展,但都具有二氧化硅纤芯。二氧化硅纤芯光纤(SCF)的折射率约为1.5,这意味着光速比真空中的光慢约30%。
空芯光纤改变游戏规则
空芯光纤(HCF)是一种具有根本不同架构的新方法。顾名思义,纤芯是中空的,充满空气或更典型的气体。因此其折射率约为1,意味着光传输速度比SCF快50%,延迟减少约30%。对于AI跨规模应用,这将数据中心之间的最大距离增加50%,数据中心占地面积增加125%。这为运营商提供了更多灵活性,可以将数据中心设置在房地产成本较低且能获得重要电力和冷却水资源的区域。
更低功耗
人工智能时代另一个备受关注的指标是功耗。除了使数据中心能够更靠近低成本电源外,HCF还能显著降低光网络功耗。其中一种方式是通过更低的损耗。SCF中的光损耗已稳定在约0.14 dB/km。最先进的HCF显示最小损耗约为0.05 dB/km,研究人员正努力实现更低的损耗。更低的损耗减少了对高耗电光放大的需求。较短距离的数据中心互连应用可能不再需要光放大;中等距离的DCI可能不再需要数据中心之间的光放大;更长距离的DCI可能需要更少、间隔更大的在线放大器站点。HCF还受益于低色散和非线性损伤。长期来看,这可能意味着更简单、因此功耗更低的相干光引擎。低损耗也可能转化为数据中心内部HCF应用的更低功耗。
制造和成本挑战依然存在
除了低延迟和降低功耗外,HCF还有潜力通过更宽的频谱和改善的波长频谱效率来增加光纤容量。然而,在HCF能够在商业环境中广泛部署之前,仍有重大挑战需要解决。这些挑战包括成本、可制造性、供应商多样性,以及与测试、熔接、连接器、维修和与SCF耦合相关的操作因素。
数据中心应用采用
尽管存在挑战,但在最近光学行业会议上的公告表明,在这些领域都取得了很大进展。几家主要云服务提供商和HCF供应商已宣布部署和合作伙伴关系以扩大制造规模。这些初期部署主要针对AI数据中心之间的城域跨规模应用,但随着HCF成本下降和制造规模增加,低延迟和低损耗使数据中心内部HCF采用成为下一个可能的用例,海底部署是HCF生态系统的长期目标。
Q&A
Q1:空芯光纤相比传统光纤有什么优势?
A:空芯光纤的纤芯是中空的,充满空气或气体,折射率约为1,光传输速度比传统二氧化硅纤芯光纤快50%,延迟减少约30%。同时具有更低的光损耗(约0.05 dB/km vs 0.14 dB/km),能显著降低光网络功耗。
Q2:空芯光纤对AI数据中心有什么意义?
A:对于AI训练和推理应用,空芯光纤的低延迟特性能提高GPU集群效率,减少空闲时间。它可以将数据中心间最大距离增加50%,数据中心占地面积增加125%,为运营商提供更多选址灵活性。
Q3:空芯光纤商用面临哪些挑战?
A:主要挑战包括成本、可制造性、供应商多样性,以及与测试、熔接、连接器、维修和与传统光纤耦合相关的操作因素。目前主要部署在AI数据中心间的城域应用,随着成本下降和制造规模增加,将逐步扩展到更多应用场景。
好文章,需要你的鼓励
今天讲的出海案例是三星医疗,一家从宁波起家做智能电表的A股公司,旗下子公司三星瑞典签下荷兰最大区域电网运营商Enexis的变压器框架合同,金额1.17亿欧元,约合9.49亿元人民币。
香港大学团队开发的Utonia首次实现了跨领域3D点云数据的统一处理,通过因果模态屏蔽、感知粒度重定标和RoPE增强位置编码三大创新,让一个AI模型就能理解室内扫描、户外雷达、工业设计等各种3D数据。该方法不仅在多个基准测试中超越专门模型,还在机器人操作、空间推理等应用中展现出色性能,为未来空间智能技术发展奠定重要基础。
人工智能正推动计算需求激增,但电信运营商面临结构性障碍:专有技术控制着其无线接入网络。开放RAN旨在打破这种控制,为创新开门。Stackpane首席执行官指出,推理工作负载更加计算密集,代理AI框架需要更严格的策略控制。RAN智能控制器仍被诺基亚等少数供应商垄断。电信运营商规模有限且监管严格,难以实现技术部门的规模经济和快速创新。
Physical Intelligence团队发布了FAST技术,这是一种全新的机器人动作学习方法。该技术通过频域压缩解决了传统方法在高频精细动作上的训练难题,将训练效率提升5倍。FAST首次实现了机器人在未见环境中的零样本操作,能够完成衣物折叠等复杂任务,为通用服务机器人的发展奠定了重要基础。