AIGC技术的爆发引发了业界对于人工智能的“大跃进”,随之而来的是算力稀缺,不过与算力同等重要的是数据以及存储,也就是存力。存力是数据中心在数据存储容量、性能表现、安全可靠和绿色低碳四大方面的综合能力。
浪潮信息存储产品线副总经理刘希猛告诉记者,算力与存储存在不均衡现象,数据中心的离不开数据处理能力、数据存储能力、数据传输能力三大因素共同发力,如果没有适当的存力和运力配合,算力的作用就得到不到充分发挥。
基于此,浪潮信息重磅发布高性能分布式存储平台AS15000G7,助力AI时代突破海量数据存力瓶颈,加速释放数据要素的价值。
数据存储面对AI大模型“力不从心”
随着参数量和数据量的极速膨胀,数据的“存、管、用、传”正在成为制约AIGC产业发展的瓶颈。
浪潮分布式存储产品线总经理姜乐果表示,AIGC对数据存储的需求是全方位的,包括性能足够强、带宽足够高、延迟足够低。
在人工智能的三要素中,数据是重要一环,数据质量和数量决定了算法的效果和性能。大模型训练数据多元、数据作业流程长、多态大模型数据量持续增长、多模计算大模型性能要求高,对当前AI数据存储基础设施提出了新挑战:
数据归集与准备:多元异构海量数据预处理后才能用于大模型训练,在此作业流程中数据的搬运和加载,要去存储系统多协议互访互通,存储成为应用平台的关键瓶颈;
数据训练:大模型海量多元异构数据的训练,通常采用将数据加载到成百上千个节点内存中并行计算的方法,此过程中频繁地从数据集取Token,每个Token一般4字节,实时高并发小IO性能需要极低的延迟,对数据存储系统的吞吐性能提出了严苛的要求;
数据推理:机器学习大模型要求频繁的参数调优,当服务器故障、网络故障造成节点中断时,需要数据存储提供高带宽,确保Checkpoint机制可以快速访问数据,使数据能够重新加载,训练能够快速恢复;
数据归档:越多的数据投喂结果越精准的工作原理,决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,大模型训练过程中快速迭代,产生大量训练数据和人工标注数据,对这些资产高效存储与管理,且最大化数据基础设施投资回报比,成为数据基础设施厂商必须解决的问题。
综上所述,AI大模型的发展和应用,在给IT基础设施带来机遇的同时,也为数据存储带来了巨大的挑战。如何满足大模型对数据和容量的需求,需要存储系统以创新性的架构来迎接未来的挑战。
浪潮信息智慧存储的解决之道
姜乐果说,随着计算力上升要求之后,必然会带动对于网络和存储的性能的要求和提升,这是一个自然而然的过程。AIGC对存储技术的演进起到了推动作用。
在大模型的工作流中,每一步都对存储的压力不一样,所以数据存储的融合必不可少。浪潮信息分析了各流程中对存储性能和全生命周期的要求,对存储架构进行了创新,满足AI的需求。
目前各大厂商以升级最新硬件平台为基础,软件层面主要以缩短GPU到存储IO路径,降低访问延迟为主;浪潮存储从使用、管理、节能等多角度考虑,满足不同用户需求。
姜乐果表示,AIGC时代我们既要有“底”,又要有“数”。“底”就是存储底座,支撑存储的全生命周期管理,支撑全业务流程。
基于业界对大模型训练的数据存储在性能、管理、融合和效率方面更极致的需求,AS15000G7实现了极致性能、极致管理、极致融合、极致效率。
在性能方面,AS15000G7采用高吞吐并行存储系统,通过GDS、RDMA技术缩短I/O路径;独有的智能网络优化技术,显著提升网络端口并发能力,实现传输端口带宽翻数倍,时延缩短50%以上,小文件级传输的时延可降至毫秒级。
在管理方面,AS15000G7可同时搭载AIStation调度平台和InView数据管理平台,对AI服务器、网络、存储智能运维。一套存储平台可以实现对AIGC数据采集、清洗、训练、推理、归档不同场景全流程的设备资源监控和管理,助力客户更加专注于大模型训练本身。
在融合方面,AS15000G7平台基于其融合架构,支持文本、图片、音频、视频等多种类型数据存储,可对文件、对象、大数据以及视频的存储方式进行并行访问,支持多协议实时互访互通和系统扁平扩展。
在效率方面,AS15000G7平台基于自动化的数据分层和迁移,在确保对应用安全透明的前提下,可实现热温冷冰数据全生命周期的管理,通过基于闪存、磁盘、磁带、光盘的性能型、均衡型、容量型三种机型的按需灵活配置,存储TB级数据成本可降低超50%,TCO降低35%。
总之,AI大模型对高性能AI服务器、高吞吐并行存储系统、低延迟RDMA网络的严苛需求,企业需要整体规划布局,避免在存储扩容、数据迁移和数据管理方面随着业务的增加而力不从心,将数据中心的算力全闪混闪按照1:1:1黄金比例建设,用户可最大化获得投资回报比。
全栈能力助力人工智能落地
作为最早布局大模型的企业之一,浪潮信息在业界率先推出了中文AI巨量模型“源1.0”,参数规模高达2457亿。浪潮信息通过千亿参数规模的大模型创新实践,已在算力集群构建、算力调度部署、算法模型开发等方面,构建起全栈领先的大模型算力系统解决方案,助力大模型训练开发。
从算力到存力,浪潮信息持续完善人工智能的全栈能力。浪潮信息高性能分布式存储AS15000G7平台,已在“源”大模型中部署,并在智能客服、生物识别、互联网金融、精准营销等云数智新场景广泛应用。
围绕AI产业,浪潮信息围绕智算中心业务布局,打造了算力、算法、数据全栈解决方案。浪潮信息存储出货装机容量连续9个季度位居中国市场第一。
“AIGC对于整个ICT产业链的影响是革命性,浪潮信息将秉承‘存储即平台’的产品理念,不断精耕数据存储产品和解决方案,打造数据存储基础设施,让数据存力像水电一样赋能千行百业。”刘希猛最后说。
好文章,需要你的鼓励
Norma Group是一家工程连接技术制造商,拥有300台服务器、700TB数据和全球范围内的8000名员工,因此必须把所有这些整合到一起,就需要开放的倾听心态和敏锐的头脑。
英国气象局(Met Office)产品创新负责人Niall Robinson是一位经验丰富的高管,他将英国国家气象和气候服务部门的新颖想法转化为有价值的成果。他已经在这里工作了12年,但仍在寻找方法推动变革。
IT研究公司Gartner预测了2025年的十大技术趋势,其中包括代理AI技术的兴起、对虚假信息网络安全解决方案的需求、以及可以遵循人类指令的多功能机器人。
云计算最天才的核心构想,就是让一家掌握大量IT预算(每年可能高达数亿美元)且拥有一定专业知识的大企业,先建立起规模远超自身需求的IT部门,为此砸下数十亿美元(到如今的AI时代,投资额甚至可能高达数百亿美元),再将绝大部分容量出租给第三方客户。