当下,生成式AI(AIGC)的热度依然在持续,Gartner预测,到2023年将有20%的内容被AIGC所创建;到2025年人工智能生成数据占比将达到10%。
随着大模型参数量和数据量的爆发式增长,多源异构数据的传、用、管、存,正在成为制约生成式AI落地的瓶颈之一。
为了化解生成式AI的数据存储与管理瓶颈,浪潮信息在“数智未来”AIGC数据应用创新论坛上,正式发布面向生成式AI的存储解决方案,该方案以极致融合、极致性能、极致节能,和热温冷冰四级数据全生命周期管理,助力开启生成式AI新局面,创造智慧时代新机遇。
生成式AI带来的存储挑战
数据是AIGC大模型应用的核心,决定了机器学习算法的性能、泛化能力、应用效果。分布式存储成为AI大模型海量多态数据的主流载体,AIGC对于分布式存储是一大利好。
不过参数量和数据量的极速膨胀,数据存储与管理正在成为制约AIGC产业发展的瓶颈。音频、视频等非结构化数据是AI大模型应用的主流数据形态,行业上下游对数据的采集、标注、训练、推理、归档,其特征是数据量大、多元数据类型复杂、服务协议多样、性能要求苛刻、要求服务持续在线。
异构数据的融合:生成式AI训练模型的数据呈现来源多、格式多的多源异构现状,传统存储面向单一数据类型设计,需要以搬移数据的方式实现多协议访问,存储成为应用平台的关键瓶颈。
浪潮信息首席架构师叶毓睿说,从数据整理到AI训练、推理,以及最后的数据归档,AI的整个生命周期中不同阶段对于存储的要求是不同。通过多模融合对文件、对象、大数据、视频四种协议任意访问非结构化数据,可保证访问的权限共享、语义无损、性能一致,免除数据跨应用时的复制或转换,真正实现即时共享。
持续的低延迟与高带宽:模型训练过程中,频繁地从数据集取Token,每个Token一般4字节,实时高并发小IO性能需要极低的延迟;存储模型Checkpoint时,为Checkpoint数据可快速写入,需要高带宽。
浪潮分布式存储产品线总经理姜乐果表示,AIGC应用的数据容量特别大,而且小文件居多,性能要求非常高,甚至是指数级的,存储性能表现一定要强。在新应用数据实时处理需求驱动下,支持高速全闪的高性能数据基础设施成为发展方向。
EB级大容量存储需求:越多的数据投喂结果越精准的工作原理,决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。
数据存储产业需要进行全方位的技术升级,通过在多源异构融合、数据高速传输、海量数据管理等方面持续创新,打造专业的生成式AI存储产品与解决方案。
浪潮存储的创新之道
针对AIGC对于存储提出的新挑战,浪潮信息生成式AI存储解决方案具备多模融合、极致性能、绿色节能三大存储资源池技术特性。
多模融合。业界首个多合一极致融合架构,以多模融合存储池AS13000支持海量多态数据采集、标注等需求。
为了应对不同模态的多样性需求,浪潮信息提出“协议互通、数据融合”设计理念,一个集群内支持多个存储池,一个存储池内支持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端不同业务场景同时以文件、对象、大数据、视频四种存储协议进行并行访问。
姜乐果介绍说,用一套存储实现支持多模态场景应用,免除了数据跨应用时的复制,实现真正意义上非结构化数据的协议互访互通,让数据融合,而且在存储成本上更具优势。
极致性能。浪潮信息AI架构师杨鑫表示,AI集群在训练中对于存储的性能提出了更高的要求。AIGC场景数据类型多样化,文件大小不一、数量多,且读写频繁,对存储系统的百GB级高带宽、百万级IOPS需求成了常态。
软件层面,浪潮通过GDS、RMDA技术缩短I/O路径,通过SPDK、缓存零拷贝技术减少I/O路径上的数据拷贝,以及基于自研NVMe SSD开发的盘控协同技术,减少I/O访问SSD盘的次数,使存储性能得到进一步释放。硬件方面,优化IO路径通道,均衡IO路径,最大化发挥硬件性能,全闪单节点带宽超过50GB/s,IOPS超过50万;创新性地引入双控全闪节点,带宽超100GB/s,IOPS超100万。
此外,浪潮信息的NVMe SSD通过SR-IOV可以实现多租户性能隔离,释放CPU算力。与存储软件智能联调,IO处理效率提升35%,协同智能网卡降低延时,并优化读写混合场景IO并发,提升集群性能30%。
绿色节能。能耗问题已经成为数据中心产业发展过程中不可忽视的问题。近期浪潮信息最新发布了G7硬件平台,存储专用的液冷服务器涵盖性能型和容量型,且均采用模块化冷板组件设计模式。在系统方案层面,浪潮信息具有风液式、全液式等完善的端到端解决方案,能够为用户全方位打造液冷数据中心交钥匙工程,并且完成了业界首次液冷整机柜批量交付,实现PUE小于1.1。
其中,浪潮存储支持热温冷冰存储池分级,按热度自动迁移,存储TB级数据成本降低超50%,TCO降低35%。高密冷数据存储方面,采用4U60高密机型,存储密度提升66%;节能冰数据存储方面,以极低能耗实现冰数据离线长期保存。
除了三大能力之外,得益于“资源互通、管理融合”的设计理念,浪潮生成式AI存储方案基于闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源,通过资源互通实现数据全生命周期管理。用高性能节点形态来满足数据训练、数据推理两个阶段的高带宽、低延时、高并行读写性能存储需求,用大容量节点形态来满足数据采集、数据准备、数据归档三个阶段的海量多元数据存储需求。
浪潮信息生成式AI存储解决方案还支持InView一体化智能运维,解决IT系统运维难题,提高运维效率,保证数据的可靠性和可用性,降低运维成本。
目前,浪潮信息生成式AI存储解决方案已经在全球领先的中文语言大模型“源1.0”中成功落地,面对千亿级参数量和数据量带来的挑战,浪潮信息通过AS13000高吞吐并行存储系统实现了多存储协议互通、数据融合,利用全闪的极致性能,助力“源1.0”大模型实现了16天完成训练的超高效率。
国内AI独角兽公司采用浪潮信息提供的并行文件存储,承载5000亿参数量的NLP语言类大模型的数据集Token和Checkpoint文件,轻松应对大/小文件的读写挑战,配置AS13000全闪存储集群,支持高性能RoCE组网和GPU直通存储功能,带宽超过300GB、存储性能超过350万 IOPS,保证存储集群的高可用与敏捷扩容。
好文章,需要你的鼓励
AMD CIO的职能角色早已超越典型的CIO职务,他积极支持内部产品开发,一切交付其他部门的方案都要先经过他的体验和评判。
医学生在选择专业时,应当考虑到AI将如何改变医生的岗位形态(以及获得的薪酬待遇)。再结合专业培训所对应的大量时间投入和跨专业的高门槛,这一点就更显得至关重要。
我们拥有大量数据,有很多事情要做,然后出现了一种有趣的技术——生成式AI,给他们所有人带来的影响。这种影响是巨大的,我们在这个领域正在做着惊人的工作。