直指数据挑战浪潮存储三大创新方案加速生成式AI落地原创

作者：李祥敬

为了化解生成式AI的数据存储与管理瓶颈，浪潮信息在“数智未来”AIGC数据应用创新论坛上，正式发布面向生成式AI的存储解决方案。

当下，生成式AI（AIGC）的热度依然在持续，Gartner预测，到2023年将有20%的内容被AIGC所创建；到2025年人工智能生成数据占比将达到10%。

随着大模型参数量和数据量的爆发式增长，多源异构数据的传、用、管、存，正在成为制约生成式AI落地的瓶颈之一。

直指数据挑战浪潮存储三大创新方案加速生成式AI落地

为了化解生成式AI的数据存储与管理瓶颈，浪潮信息在“数智未来”AIGC数据应用创新论坛上，正式发布面向生成式AI的存储解决方案，该方案以极致融合、极致性能、极致节能，和热温冷冰四级数据全生命周期管理，助力开启生成式AI新局面，创造智慧时代新机遇。

生成式AI带来的存储挑战

数据是AIGC大模型应用的核心，决定了机器学习算法的性能、泛化能力、应用效果。分布式存储成为AI大模型海量多态数据的主流载体，AIGC对于分布式存储是一大利好。

不过参数量和数据量的极速膨胀，数据存储与管理正在成为制约AIGC产业发展的瓶颈。音频、视频等非结构化数据是AI大模型应用的主流数据形态，行业上下游对数据的采集、标注、训练、推理、归档，其特征是数据量大、多元数据类型复杂、服务协议多样、性能要求苛刻、要求服务持续在线。

异构数据的融合：生成式AI训练模型的数据呈现来源多、格式多的多源异构现状，传统存储面向单一数据类型设计，需要以搬移数据的方式实现多协议访问，存储成为应用平台的关键瓶颈。

浪潮信息首席架构师叶毓睿说，从数据整理到AI训练、推理，以及最后的数据归档，AI的整个生命周期中不同阶段对于存储的要求是不同。通过多模融合对文件、对象、大数据、视频四种协议任意访问非结构化数据，可保证访问的权限共享、语义无损、性能一致，免除数据跨应用时的复制或转换，真正实现即时共享。

持续的低延迟与高带宽：模型训练过程中，频繁地从数据集取Token，每个Token一般4字节，实时高并发小IO性能需要极低的延迟；存储模型Checkpoint时，为Checkpoint数据可快速写入，需要高带宽。

浪潮分布式存储产品线总经理姜乐果表示，AIGC应用的数据容量特别大，而且小文件居多，性能要求非常高，甚至是指数级的，存储性能表现一定要强。在新应用数据实时处理需求驱动下，支持高速全闪的高性能数据基础设施成为发展方向。

EB级大容量存储需求：越多的数据投喂结果越精准的工作原理，决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征，随着模型参数和数据量的快速增长，对于存储的大容量和扩展需求也迫在眉睫。

数据存储产业需要进行全方位的技术升级，通过在多源异构融合、数据高速传输、海量数据管理等方面持续创新，打造专业的生成式AI存储产品与解决方案。

浪潮存储的创新之道

针对AIGC对于存储提出的新挑战，浪潮信息生成式AI存储解决方案具备多模融合、极致性能、绿色节能三大存储资源池技术特性。

多模融合。业界首个多合一极致融合架构，以多模融合存储池AS13000支持海量多态数据采集、标注等需求。

为了应对不同模态的多样性需求，浪潮信息提出“协议互通、数据融合”设计理念，一个集群内支持多个存储池，一个存储池内支持文本、图片、音频、视频等多种类型数据存储，一份数据又可以被前端不同业务场景同时以文件、对象、大数据、视频四种存储协议进行并行访问。

姜乐果介绍说，用一套存储实现支持多模态场景应用，免除了数据跨应用时的复制，实现真正意义上非结构化数据的协议互访互通，让数据融合，而且在存储成本上更具优势。

极致性能。浪潮信息AI架构师杨鑫表示，AI集群在训练中对于存储的性能提出了更高的要求。AIGC场景数据类型多样化，文件大小不一、数量多，且读写频繁，对存储系统的百GB级高带宽、百万级IOPS需求成了常态。

软件层面，浪潮通过GDS、RMDA技术缩短I/O路径，通过SPDK、缓存零拷贝技术减少I/O路径上的数据拷贝，以及基于自研NVMe SSD开发的盘控协同技术，减少I/O访问SSD盘的次数，使存储性能得到进一步释放。硬件方面，优化IO路径通道，均衡IO路径，最大化发挥硬件性能，全闪单节点带宽超过50GB/s，IOPS超过50万；创新性地引入双控全闪节点，带宽超100GB/s，IOPS超100万。

此外，浪潮信息的NVMe SSD通过SR-IOV可以实现多租户性能隔离，释放CPU算力。与存储软件智能联调，IO处理效率提升35%，协同智能网卡降低延时，并优化读写混合场景IO并发，提升集群性能30%。

绿色节能。能耗问题已经成为数据中心产业发展过程中不可忽视的问题。近期浪潮信息最新发布了G7硬件平台，存储专用的液冷服务器涵盖性能型和容量型，且均采用模块化冷板组件设计模式。在系统方案层面，浪潮信息具有风液式、全液式等完善的端到端解决方案，能够为用户全方位打造液冷数据中心交钥匙工程，并且完成了业界首次液冷整机柜批量交付，实现PUE小于1.1。

其中，浪潮存储支持热温冷冰存储池分级，按热度自动迁移，存储TB级数据成本降低超50%，TCO降低35%。高密冷数据存储方面，采用4U60高密机型，存储密度提升66%；节能冰数据存储方面，以极低能耗实现冰数据离线长期保存。

除了三大能力之外，得益于“资源互通、管理融合”的设计理念，浪潮生成式AI存储方案基于闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源，通过资源互通实现数据全生命周期管理。用高性能节点形态来满足数据训练、数据推理两个阶段的高带宽、低延时、高并行读写性能存储需求，用大容量节点形态来满足数据采集、数据准备、数据归档三个阶段的海量多元数据存储需求。

浪潮信息生成式AI存储解决方案还支持InView一体化智能运维，解决IT系统运维难题，提高运维效率，保证数据的可靠性和可用性，降低运维成本。

目前，浪潮信息生成式AI存储解决方案已经在全球领先的中文语言大模型“源1.0”中成功落地，面对千亿级参数量和数据量带来的挑战，浪潮信息通过AS13000高吞吐并行存储系统实现了多存储协议互通、数据融合，利用全闪的极致性能，助力“源1.0”大模型实现了16天完成训练的超高效率。

国内AI独角兽公司采用浪潮信息提供的并行文件存储，承载5000亿参数量的NLP语言类大模型的数据集Token和Checkpoint文件，轻松应对大/小文件的读写挑战，配置AS13000全闪存储集群，支持高性能RoCE组网和GPU直通存储功能，带宽超过300GB、存储性能超过350万 IOPS，保证存储集群的高可用与敏捷扩容。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

直指数据挑战 浪潮存储三大创新方案加速生成式AI落地 原创

来源：至顶网计算频道

2023

07/18

09:26

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

直指数据挑战浪潮存储三大创新方案加速生成式AI落地原创