算力是数字经济的关键底座,当前智算中心的建设如火如荼,成为推动社会进步和经济发展的重要引擎。智算中心不仅需要强大的计算能力,还需要高效的数据存储与网络互联。对于智算中心而言,算力是核心、存储是保障、而网络是基础,一个高效、稳定、低延迟的网络系统对于智算中心的建设和运行至关重要。
近日,在浪潮网络2024新品发布暨合作伙伴大会上,正式发布了“元脉”全栈AI网络方案,方案以系统化视角,充分结合大模型训练与推理的实际痛点需求,为AIGC智算中心网络的构建提供全面、创新解决方案,帮助用户构建超大规模、超高带宽、超强可靠,以及高度自动化的网络系统。
需求与挑战:智算网络的“三超”特性
从发展趋势上来看:大模型正在“越做越大”,具有通用泛化能力的大模型正在不断涌现,在多个领域展现出了强大的应用潜力;同时大模型也在”越做越小”,基于通用大模型微调得到的行业大模型,以及进一步形成的垂直大模型,正在成为AI技术发展的新趋势。
随着百模大战逐渐进入白热化,万亿参数成为各大玩家竞争的高地,万卡集群成为AI算力系统设计的起点,万卡集群间的网络互联挑战被迅速放大,达到了前所未有的高度。
超大规模:网络设备的吞吐能力、端口带宽及密度、SerDes速率都需要全面提升,以支撑构建超大规模智算中心架构,组网架构也需要结合业务需求进行不断优化。
超高带宽:为了应对智算中心内海量数据的快速传输需求,网络系统必须具备超高的带宽能力,突破带宽瓶颈,确保数据在训练和推理过程中的快速、无缝传输。
超强可靠:在智算中心中,网络的可靠性至关重要。如何通过冗余设计和智能化故障检测,实现网络系统的高可用性和数据传输的连续性,对保证智算中心稳定运行非常关键。
自动化管理:随着智算中心规模的不断扩大,手动管理变得越来越复杂和低效。如何引入高度自动化的管理平台,实现网络资源的智能分配和优化,成为提升运维效率和降低成本的关键。
破局之道:浪潮网络“元脉”全栈AI网络方案
针对智算网络的“三超”挑战,浪潮网络发布“元脉™全栈AI网络方案”,它由智算网络管控&分析平台ICE、AI计算网、存储网、管理网四部分组成。方案主要优势如下:
全栈产品,全面覆盖:元脉全栈AI网络方案提供涵盖AIGC计算网、存储网和管理网的全栈产品,吞吐性能从12.8Tbps、25.6Tbps、到业界目前最高的51.2Tbps。CN9500-128D交换机(51.2T)在两层架构组网下最大支持32K GPU集群,能够满足不同规模智算中心的需求,提供高度灵活的网络架构。
融合方案,最优选择:元脉全栈AI网络方案还与计算、存储和算力调度平台等深度融合,帮助用户实现资源的最优配置和利用,融合方案带来的高性能和高可靠性,可以降低智算中心总体拥有成本(TCO)。
系统能力,最佳实践:元脉全栈AI网络方案基于最佳实践,提供系统级的优化与服务能力。自动化管控分析平台ICE,能够降低AI集群部署时间近50%,同时基于无损以太网技术可节约网络成本25%。
引领:云边协同智慧网络,构筑算力联接基石
浪潮网络作为云边协同智慧网络概念引领者,将在高性能云中心网络、多模态边缘网络、领先的融合方案方面持续发力,致力于构建开放、融合、易用、智能的网络联接力,推动算力从中心到边缘侧不断延申,助力AI+应用,让算力触手可及。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。