量子计算为高性能计算中心带来了未知的挑战,很少有明确的部署指导。但在连接量子计算机和经典超级计算机的开拓性工作中,HPC设施有机会依靠一些经得起时间考验的HPC技术来弥合这一差距。
InfiniBand就是这样一项久经验证的技术,它于1999年作为HPC领域的数据互连技术出现。InfiniBand背板在HPC环境中提供高带宽和低延迟,通常用于连接计算节点以及存储系统。
这些InfiniBand特性现在有望在人工智能和量子计算等新兴领域发挥作用。
**意外的转折**
在橡树岭国家实验室的本地量子计算部署中,InfiniBand意外地成为了关键技术。今年7月,这个能源部实验室与硬件制造商Quantum Brilliance合作,安装和集成了基于钻石的量子计算机。
橡树岭量子科学中心主任Travis Humble表示,在部署开始时,实验室与Quantum Brilliance的讨论中出现了存储问题。实验室此前通过云端访问量子计算机,而不是现场部署,所以存储并不是主要考虑因素。
"每个人都面面相觑:'我们需要存储吗?'"Humble回忆道。"这是那种直到你被迫考虑将以前从未尝试过的东西组合在一起时,才会问自己的问题。"
实验室指向其现有的存储基础设施,该设施基于InfiniBand和其他几项技术。Humble表示,他们知道InfiniBand可能超出了实验室的初期需求。
"量子计算机本身产生的数据量相对较小,至少按照我们的现代标准来说是这样,"Humble说。"所以,InfiniBand甚至10千兆以太网对于我们目前的带宽需求来说都有些过度。"
**AI推动InfiniBand技术销售**
当实验室评估InfiniBand如何融入其量子战略时,这项互连技术在AI热潮中正在经历某种复兴。该技术在AI市场的前景可能会延续到量子计算领域。
市场研究公司Dell'Oro Group在9月的报告中指出,第二季度AI后端网络中的InfiniBand交换机销售激增。据Dell'Oro称,由于客户采用英伟达的Blackwell Ultra平台(一款高端AI数据中心GPU),对这些交换机的需求增加了。
Dell'Oro副总裁分析师Sameh Boujelbene指出,InfiniBand最初是为经典HPC应用而专门构建的,这就是为什么它现在能满足AI工作负载对速度、延迟和无损传输的严格要求。
"出于同样的原因,我们预期InfiniBand在量子计算领域也将处于有利地位,因为其超低延迟和RDMA(远程直接内存访问)特性符合量子工作负载所需的紧密耦合要求,"她说。
然而,从长远来看,InfiniBand可能会面临来自以太网/超以太网联盟技术和定制互连技术的竞争,Boujelbene表示。
Q&A
Q1:InfiniBand技术是什么?它有什么特点?
A:InfiniBand是1999年出现的HPC领域数据互连技术,主要特点是提供高带宽和低延迟。它通常用于连接计算节点以及存储系统,具备超低延迟和RDMA远程直接内存访问功能。
Q2:为什么InfiniBand适合量子计算?
A:InfiniBand的超低延迟和RDMA特性符合量子工作负载所需的紧密耦合要求。虽然目前量子计算机产生的数据量相对较小,InfiniBand的性能甚至有些过度,但其技术特性使其非常适合未来量子计算的发展需求。
Q3:InfiniBand在AI领域表现如何?
A:InfiniBand在AI热潮中正在经历复兴。第二季度AI后端网络中的InfiniBand交换机销售激增,主要由于客户采用英伟达Blackwell Ultra平台等高端AI数据中心GPU,其原本为HPC应用构建的特性完美满足了AI工作负载的严格要求。
好文章,需要你的鼓励
Turner & Townsend发布的2025年数据中心建设成本指数报告显示,AI工作负载激增正推动高密度液冷数据中心需求。四分之三的受访者已在从事AI数据中心项目,47%预计AI数据中心将在两年内占据一半以上工作负载。预计到2027年,AI优化设施可能占全球数据中心市场28%。53%受访者认为液冷技术将主导未来高密度项目。电力可用性成为开发商面临的首要约束,48%的受访者认为电网连接延迟是主要障碍。
MiroMind AI等机构联合研究团队提出了UniME-V2多模态嵌入学习新方法,通过让大型多模态语言模型充当"智能法官"来评估训练样本质量,解决了传统方法在负样本多样性和语义理解精度方面的问题。该方法引入软标签训练框架和困难负样本挖掘技术,在MMEB基准测试中取得显著性能提升,特别在组合式检索任务上表现出色,为多模态AI应用的准确性和用户体验改进提供了重要技术支撑。
亚马逊云服务宣布投资500亿美元,专门为美国政府构建AI高性能计算基础设施。该项目将新增1.3千兆瓦算力,扩大政府机构对AWS AI服务的访问,包括Amazon SageMaker、Amazon Bedrock和Claude聊天机器人等。预计2026年开工建设。AWS CEO表示此举将彻底改变联邦机构利用超级计算的方式,消除技术障碍,助力美国在AI时代保持领先地位。
南洋理工大学团队开发了Uni-MMMU基准测试,专门评估AI模型的理解与生成协同能力。该基准包含八个精心设计的任务,要求AI像人类一样"边看边想边画"来解决复杂问题。研究发现当前AI模型在这种协同任务上表现不平衡,生成能力是主要瓶颈,但协同工作确实能提升问题解决效果,为开发更智能的AI助手指明了方向。