人工智能(AI)正以前所未有的速度向前发展,整个市场迫切需要更加强大、更加高效的数据中心来夯实技术底座。为此,各个国家以及不同类型的企业正在加大对人工智能基础设施的投入。据《福布斯》报道,2025年,泛科技领域对人工智能的支出将超过2500亿美元,其中大部分投入将用于基础设施建设。到 2029 年,全球对包括数据中心、网络和硬件在内的人工智能基础设施的投资将达到4230亿美元。

德科技产品营销经理 Emily Yan
然而,人工智能技术的快速创新迭代也给数据中心网络带来了前所未有的压力。例如,Meta最近发布的有关Llama 3 405B模型训练集群的论文显示,该模型在预训练阶段需要超过700 TB的内存和16000颗英伟达H100 GPU芯片。据Epoch AI预计,到2030年,人工智能模型所需的计算能力将是目前领先模型的1万倍。
如果企业拥有数据中心,那么部署人工智能只是时间问题。此篇是德科技署名文章旨在探讨人工智能集群扩展面临的关键挑战,同时揭示为何“网络会是新的瓶颈”。
人工智能集群的崛起
所谓人工智能集群就是一个高度互联的大型计算资源网络,用于处理人工智能工作负载。
与传统的计算集群不同,人工智能集群针对人工智能模型训练、推理和实时分析等工作任务进行了优化。它们依靠数千个GPU、高速互连和低时延的网络来满足人工智能对密集计算和数据吞吐量的要求。
建设人工智能集群
人工智能集群的核心功能类似于一个小型网络。构建人工智能集群需要将GPU连接起来,形成一个高性能计算网络,让数据在GPU之间实现无缝传输。这其中强大的网络连接至关重要,因为分布式训练往往需要使用数千个GPU进行长时间并行计算。
人工智能集群的关键组成部分
如图1所示,人工智能集群由多个重要部分组成。

图1:AI数据中心集群
扩展人工智能集群
人工智能集群可进行扩展,以应对日益增长的人工智能工作负载和复杂性。直到近期,由于网络带宽、时延等因素的限制,人工智能集群的规模局限在约3万个GPU。然而,xAI Colossus超级计算机项目打破了这一局限,将所使用的GPU数量扩展到了超过10万颗英伟达H100 GPU芯片,网络和内存技术的进步使得这一突破成为可能。
扩展面临的关键挑战
随着人工智能模型的相关参数增长到数万亿个,人工智能集群的扩展会遇到大量来自技术和财务层面的阻碍。
网络挑战
GPU可以有效地执行并行计算。然而,当数千个甚至几十万个GPU在人工智能集群中共同执行同一工作任务时,如果其中一个GPU缺乏所需的数据或遇到延迟等情况,其他GPU的工作就会停滞不前。这种长时间的数据包延迟或网络拥堵造成的数据包丢失会导致需要重新传输数据包,从而大幅延长了任务完成时间(JCT),造成价值数百万美元的GPU闲置。
此外,人工智能工作负载产生的东西向流量,也就是数据中心内部计算节点之间的数据迁移,急剧增加,如果传统的网络基础设施没有针对这些负载进行优化,可能会出现网络拥堵和延迟问题。
互联挑战
随着人工智能集群规模的拓展,传统的互连技术可能难以支持必要的吞吐量。为了避免瓶颈问题,企业必须进行升级迭代,采用更高速的互连技术,如800G甚至1.6T的解决方案。然而,要满足人工智能工作负载的严格要求,部署和验证此类高速链路并非易事。高速串行路径必须经过仔细调试和测试,以确保最佳的信号完整性、较低的误码率和长距可靠的前向纠错(FEC)性能。高速串行路径中的任何不稳定因素都会降低可靠性并减慢人工智能训练的速度。企业需要采用高精度、高效率的测试系统,在高速互联技术部署前对其进行验证。
财务挑战
扩展人工智能集群的总成本远远不止于购买GPU的花费。企业必须将电源、冷却、网络设备和更广泛的数据中心基础设施等相关投入考虑在内。然而,通过采用更出色的互连技术并借助经过优化的网络性能来加速处理人工智能工作负载,可以缩短训练周期,并释放资源用于执行其他任务。这也意味着每节省一天的培训时间,就能大幅降低成本,因此对于财务风险和技术风险需要给予同等的重视。
测试和验证面临的挑战
优化人工智能集群的网络性能需要对网络架构和GPU之间的互连技术进行性能测试和基准测试。然而,由于硬件、架构设计和动态工作负载特性之间的关系错综复杂,对这些器件和系统进行验证具有很大的挑战性。主要有三个常见的验证问题需要解决。
第一,实验室部署方面的限制
人工智能硬件成本高昂、可用的设备有限以及对专业网络工程师的需求缺口,使得全盘复制变得不切实际。此外,实验室环境通常在空间、电力和散热方面受到限制,与现实世界的数据中心条件不同。
第二,对生产系统的影响
减少对生产系统的测试可能会造成破坏,并影响关键的人工智能操作。
第三,复杂的人工智能工作负载
人工智能工作负载和数据集的性质多种多样,在规模和通信模式上也有很大差异,因此很难重现问题并执行一致性的基准测试。
人工智能将重塑数据中心的产业格局,因此构建面向未来的网络基础设施对于在技术和标准快速演进的过程中保持领先地位至关重要。是德科技先进的仿真解决方案可在部署前对网络协议和系统运行的场景进行全面验证,进而帮助企业获得关键优势。是德科技致力于帮助网络工程师降低人工智能工作负载的复杂性并优化网络性能,从而确保系统的可扩展性、效率,并为应对人工智能需求做好充分准备!
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。