AI大模型的快速发展,带动全球AI算力市场需求的高速上涨。而随着AI技术的不断突破以及各种开源架构的推进,算法模型和数据的压力逐步降低,算力不足成了大模型厂商遇到的最大的问题。
据浪潮信息联合IDC发布的《2022-2023中国人工智能计算力发展评估报告》,2022年中国智能算力规模将达到268.0EFLOPS,预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,2021-2025年人工智能算力复合增长率将达52.3%。
动辄数千万上亿的算力资源投入,让开发大模型的企业开始提出算力的使用效率问题。越来越多的大模型企业开始意识到,大模型行训练是一个复杂的系统工程。大模型算力平台并不是算力的简单堆积。
大模型给企业基础设施带来新挑战
当今,AI快速发展并在多行业落地,呈现出复杂化、多元化和巨量化的趋势。不同的应用场景对算力的要求不同,要评判算力基础设施是否满足需求,需要企业根据特定的AI技术场景和需求,综合考虑算力基础设施的性能与灵活易用性。
性能:算力的性能和规模是AI应用的关键因素之一,需要评估算力的速度、性能和可扩展性,以及支持的AI应用场景规模,是不是能够有效支撑AI业务的开展。
灵活性和可用性:随着AI技术的复杂和多元化,企业要求综合考量算力基础设施的易用性,打造多元开放的算力基础设施,以支持不同的操作系统、编程语言和框架,以及能够与其他硬件和软件进行无缝集成的能力。算力基础设施的兼容性越高,就能更好地支持各种应用场景和算法,满足飞速发展的AI创新应用需求。
正是由于大模型给算力基础设施带来新要求,企业已有的基础设施面临诸多挑战:
1、大模型技术对于算力基础设施的规模提出了更高的要求,企业传统基础设施面临算力资源不足的挑战
大模型技术创新和应用需要基于海量数据集,在拥有成百上千加速卡的AI服务器集群上对千亿级参数的AI大模型进行分布式训练,这对算力资源的规模提出了极高的要求。算力不足意味着无法处理庞大的模型和数据量,也即无法有效支撑高质量的大模型技术创新。如OpenAI的GPT-3使用10000块GPU、花了30天完成训练,消耗的总算力为3640PetaFlop/s-day。当今国际科技巨头如微软、META、谷歌等都在打造万卡AI集群,提升算力基础设施的规模和能力。
2、大模型算力基础设施部署是一个复杂的系统工程,对企业的基础设施构建和全栈管理能力构成全新的挑战
相比普通的AI训练,大模型的训练技术考虑的问题更加复杂,对于基础设施的要求也更高。完成大规模算力集群的搭建只是第一步,要确保 AI 大模型训练任务的顺利完成,还需要非常多系统性的软硬一体协同优化,这对企业的基础设施构建能力构成了全新的挑战。
具体来讲,构建大模型算力基础设施需要统筹考虑大模型分布式训练对于计算、网络和存储的需求特点,并集成平台软件、结合应用实践, 充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡可扩展集群系统,以确保大模型训练的高效和稳定。
3、大模型基础设施算力效率成为更大的挑战
大模型训练在带来海量的算力需求的同时,还需要在算力平台设计上考虑到庞大的算力节点规模带来的算力使用效率衰减的问题。大规模AI计算集群上的训练算力效率会直接影响到模型训练时长以及算力消耗成本。因此,如何发挥大模型算力平台效能、抑制性能损耗,对于提升生成式AI研发创新效率有着非常重要的影响。据公开资料表明,GPT-3大模型在其训练集群上的训练算力效率仅为为21.3%,算力集群效率亟待提升。
以ChatGPT为代表的大模型与生成式AI成为社会广泛关注的热点,这其实给服务器厂商带来巨大市场机遇。
《2022-2023全球计算力指数评估报告》指出,“到2026年,全球AI计算市场规模将增长到346.6亿美元,生成式AI计算占比从22年4.2%增长到 31.7%”。Gartner与分析师预测:到2025 年,由人工智能生成的数据占所有数据的10%;未来十年AIGC市场规模将每两年翻一番,到2032年,AIGC市场规模将达2000亿美元。
从目前国内市场来看,大模型已进入新一轮“百模争霸”的状态,其对算力、数据(数据存储/数据处理/数据清洗)算法的需求是巨大的,即是机遇所在。
机遇与挑战往往并存。大模型开发作为一个复杂的系统工程,当前产业在算力平台质量、大规模集群运行的效率性能、持续稳定运行的时间等方面依然存在较大的差距。拥有算力,如何用好算力,建立起“算力、算法、生态、工具链”协同的产业链条是当前所面临的核心瓶颈与挑战,亟需从算力系统层面构建起稳定且高效的通用大模型,利用通用大模型的泛化能力和智力水平,真正实现千行百业应用的“顺势而为”。
率先布局生成式AI,构建全栈领先的大模型算力系统解决方案
作为最早布局大模型的企业之一,浪潮信息在业界率先推出了中文AI巨量模型“源1.0”,参数规模高达2457亿。“源1.0”在语言智能方面表现优异,获得中文语言理解评测基准CLUE榜单的零样本学习(zero-shot)和小样本学习(few-shot)两类总榜冠军。浪潮信息通过千亿参数规模的大模型创新实践,已在算力集群构建、算力调度部署、算法模型开发等方面,构建起全栈领先的大模型算力系统解决方案,助力大模型训练开发。
在算力集群构建上,基于大模型实测对比的集群规划,提供包含数据中心、算力、网络、存储一体化产品阵列。其中最新一代融合架构的AI训练服务器 NF5688G7采用Hopper架构的GPU,较上代平台大模型实测性能提升近7倍,同时支持最新的液冷解决方案,可实现更低的集群能耗比与运行成本,PUE小于1.15,以一个4000卡的智算中心为例,每年可节电620万度、降碳1700吨。在集群高速互联层面,基于原生RDMA实现整个集群的全线速组网,并对网络拓扑进行优化,可以有效消除混合计算的计算瓶颈,确保集群在大模型训练时始终处于最佳状态。
在算力调度部署上,面对大模型系统级开发过程中所存在的调度难、部署慢、效率低、集群异常等问题,浪潮信息推出AIStation智能业务创新生产平台,通过全生命周期的一体化监控及调度系统,构建起完备的模型训练失效恢复持续方案,满足大模型分布式训练中高稳定、高稳健性等特性要求,实现训练异常和故障诊断的自动处理,缩短断点续训时间90%。同时,自研分布式任务自适应系统,有效分配底层计算、存储、网络等资源,提升集群利用率与模型训练效率。高效的集群优化调度策略,大幅简化大模型训练前大量的、环境配置、依赖库适配和超参数调整工作。
在算法模型开发上,“源1.0”针对大模型的Attention层和前馈层的模型空间进行结构优化,改进注意力机制聚焦文章内部联系的学习。千亿大模型的创新实践,使得浪潮信息具备从数据、训练、部署到应用落地的全栈开发能力。在训练数据处理上,通过自研海量数据过滤系统(MDFS),建立从数据采集、粗滤、质量分类、精滤的全自动化的端到端数据工作流程,通过清洗866TB海量数据,获得5TB高质量中文数据集。
在助力大模型训练开发方面,浪潮信息推出AI算力服务,提供经“源”清洗验证过的语言或多模态的大模型数据、算法产品及模型训练资源管理平台,为AI创新研究团队提供先进、开放、高性能、高质量的AI算力资源及配套服务,赋能AIGC创新发展。目前,浪潮信息AI算力服务已成功助力网易伏羲中文预训练大模型“玉言”登顶中文语言理解权威测评基准CLUE分类任务榜单,并在多项任务上超过人类水平。
浪潮信息AI团队将“源1.0”成功的系统工程经验应用于智算中心算力系统,对集群架构、高速互联、算力调度等进行全面优化,对分布式训练策略进行了针对性优化,通过合理设计张量并行、流水并行和数据并行,精准调整模型结构和训练过程的超参数,最终实现千亿参数规模的大模型训练算力效率达至53.5%。
目前,浪潮信息在中国人工智能服务器领域的市场份额已连续六年保持第一,边缘和高端服务器市场中国第一,存储装机容量全球第三,中国第一。并在南京、济南、成都、宿州等多个城市助力当地政府、园区开展智算中心建设,加速算力、算法基础设施普惠。
大模型时代,算力步入PD时代,绿色液冷正当时
展望未来,大模型还在持续迭代。国内大模型如雨后春笋般出现,这需要高效率、高可靠的AI服务器集群。
浪潮信息提出用“算力当量”来对AI任务所需算力总量进行度量,单位是PetaFlops/s-day也就是PD,即用每秒千万亿次的计算机完整运行一天消耗的算力总量(PD)作为度量单位。一个任务需要多少PD的计算量,就把它视为这个任务的“算力当量”。GPT-3的算力当量是3640个PD,源1.0是2457亿的参数的大模型,它的算力当量是4095个PD。以GPT-4为例,训练一个类似GPT-4的模型需要E级算力支撑。所以,模型巨量化是一大趋势。
算力基建化正当时,数据中心的发展方兴未艾,每年仍在以20%以上的增速快速增长。而与此同时,作为耗电大户,数据中心的规模化发展也带来了节能降碳的挑战,绿色低碳化成为大势所趋。在未来计算的规模越来越大的情况下,如果融入绿色因子,就可以达到效益与生态的兼顾。
浪潮信息践行All in液冷战略,从部件、整机到数据中心全栈布局绿色节能技术,并建成了亚洲产能最大的液冷天池产业基地,通过整合研发、生产、测试、品控、交付等在内的全链条能力,实现了液冷产品的标准化、品质化、系列化生产,年产能达10万台。
据初步统计,截至今年四月份,采用浪潮信息液冷技术的数据中心累计已节省1.05亿度电能,相当于减少1.3万吨标准煤消耗、3.5万吨二氧化碳排放,种植194万棵树,可供6.6万个中国家庭全年用电。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。