2023年11月30日,中国电子技术标准化研究院、存储产业技术创新战略联盟联合华中科技大学、中山大学、之江实验室、浪潮信息、天翼云等20多家学研机构、企业和用户代表,共同撰写的业界首个《分布式融合存储研究报告》(以下简称:《报告》)正式发布。《报告》首次系统梳理并深入分析了分布式融合存储的概念、技术架构和应用场景,为融合存储产业发展提供参考和指引。
中国电子技术标准化研究院领导表示,“数据成为重要的生产要素,数据存储和数据管理在信息技术变革中的作用更加显著。分布式融合存储作为存储新技术,在数据存储领域将会发挥更大作用。”
中国计算机行业协会信息存储与安全专委会会长、华中科技大学教授谢长生表示,“存储作为数字技术底座之一,既得到空前发展也面临巨大挑战,分布式融合存储就是迎接这种挑战的关键技术,该报告汇聚了学术界、产业界和用户的集体智慧和经验,描述了一副全景视图。”
《分布式融合存储研究报告》
分布式融合存储将成为智算时代的数据基石
中国工程院院士、清华大学教授郑纬民指出,“数字化和智能化催生数据量爆炸式增长,分布式融合存储技术的出现,不仅可以提供数据存储的效率和安全性,还可以实现数据的动态管理和智能优化,为各种应用场景提供更加全面和可靠的数据支持。”
《报告》指出,相较于传统的分布式存储技术,分布式融合存储是在传统的分布式存储架构的基础上,实现了同一存储集群同时提供多种存储服务,并且在非结构化数据协议间实现了协议融合、数据融合互通的存储技术,其能够提供跨模式/格式数据共享互通的能力,并支持块、文件、对象、大数据多协议接入以及多协议关联统一管理,满足多应用跨不同协议实现高效的数据互通访问。
该报告明确了分布式融合存储的四大关键技术:统一存储池,保证数据能够均衡地分布在各个存储节点中,支持存储池的横向扩展,以及数据自动修复能力;存储服务融合,在一套存储系统中同时提供文件、对象、大数据和块存储服务,同时具备丰富的多协议支持能力;数据管理融合,采用统一的非结构化数据和元数据管理架构,保证各协议的原生访问;存储协议融合,支持NFS、CIFS、HDFS、S3等非结构化数据协议的融合互通,保证了各种协议共享同一份数据和元数据。分布式融合存储通过对底层硬件资源进行高通用性且细粒度的管理,可极大地缓解智算时代数据急剧增长所导致的存储资源紧张问题。
分布式融合存储架构
为五大典型场景提供强大存力支撑
分布式融合存储在海量多源异构数据处理和“通信、感知、计算”一体化的边缘场景方面提供了强有力的存力支撑,使其能够满足不同场景对于存储的需求,为当前的数字化转型时代提供了高效、多维、贯通和定制化的生产要素,让数据驱动向全场景渗透。
《报告》总结了分布式融合存储的五大典型应用场景:
分布式融合存储正成为用户首选的存储底座
《报告》预测,分布式融合存储这一新兴技术目前正处于发展早期阶段,仍面临多服务融合的高性能挑战,新存储形态的标准化挑战和智能化的运维管理挑战。
同时,分布式融合存储拥有广阔前景,首先分布式融合存储有助于“存力”构建,符合政策方向;其次,分布式融合存储在一套存储架构有效组织管理不同存储介质、存储协议和存储服务,使得“一套存储架构支持一个数据中心”成为可能;以AI大模型为基础技术,未来涌现的各类新应用需要更强大的数据基础设施和数据平台能力,带来不可估量的市场空间,注定分布式融合存储未来大为可期。
存储产业技术创新战略联盟秘书长李仁刚提出,“云计算、大数据和人工智能等技术的快速发展,将推动分布式融合存储的进一步应用、推广,成为越来越多行业用户的首选存储底座。”
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。