8月6日,UCloud正式发布新一代归档存储产品,该产品采用UCloud全新自研存储架构,相较标准存储降低近80%的存储成本,价格低至0.024元/GB/月,与市场同类归档存储产品相比降低近30%成本,为用户提供最低价格的冷数据存储解决方案。
在数字经济的浪潮之下,各行各业每天都在产生大量的数据;而5G、大数据中心、人工智能、工业互联网等新基础设施的发展,更促使数据爆炸性增长。根据IDC的预测,全球年新增数据量到2025年将达175ZB,如果用市面上主流的8T硬盘来存储这些数据,需要230多亿块硬盘,如果每块硬盘的价格是1300元,那么存储这些数据需要30万亿元,大约相当于2019年中国GDP的三分之一。
海量数据存储导致企业的存储成本快速上升,而数据流失和数据管理混乱的问题也逐渐暴露。数据表明,当2025年全球新增数据量达到175ZB时,真正能存储下来的数据仅有15ZB左右,流失率超过91%。
UCloud长期对多媒体和日志类存储的研究表明,随着时间推移,各类数据的访问量都会产生由热至温,由温至冷的转变,大约6个月后,绝大部分数据都会变成冷数据,正是由于数据存在这样由热至冷的变化特征,存储分层已然是大势所趋。高性能IO型存储通常适用于流媒体网站、大数据分析、移动应用、游戏等实时互动场景的数据读写;低频存储可为各类物联网数据采集,业务日志等场景提供长期有效的存储空间,支持数据实时访问;归档存储适合长期合规性存储、医疗科学资料、备份等场景,数据非实时读取,但能够大幅降低存储成本。
在目前企业数据的冰山模型里,80%的数据量来源于冷数据。UCloud对象存储产品能帮助企业将数据自动化分层存储,归档存储对应的就是冷数据存储,UCloud新一代归档存储产品可以降低大量“冷数据”的存储成本。
归档存储相较于其他存储,最大的优势就是成本更低。存储成本主要由硬件成本及运营成本构成。
为了降低硬件成本,UCloud新一代归档存储在国内首次采用了西部数据的高密JBOD机型和SMR盘,并首次利用自研存储架构实现该技术落地。SMR盘全名为叠瓦式磁记录硬盘,相较于传统CMR磁盘,SMR磁盘最大的区别是,它的磁道是按Zone呈现的叠瓦式分布,这种分布带来的好处是可以更高密度的存储数据。与36盘传统机型相比,采用高密机型SMR盘后,单位机架的存储容量提升5.375倍,磁盘数量增加59%,单块磁盘存储空间提升150%。
UCloud在新一代归档存储中,基于多年公有云分布式存储经验积累,采用新一代自研归档存储架构,使产品可以兼容SMR、CMR盘、双活高可用、支持上下电的IO调度、EC的灵活配置和磁盘故障自动化发现;充分利用高密机型SMR盘的硬件优势,并采用自研架构降低硬件成本。
在降低硬件成本的基础上,UCloud新一代归档存储,采用软硬件协同的理念,降低运营成本。结合硬件的选型,UCloud新一代归档存储在软件层面上自主研发了一套磁盘上下电调度系统,可以保障磁盘的寿命的同时,极大降低电费成本,使磁盘能耗降低近90%, 在纯写入场景下,耗能磁盘块数为原有的5%。
在可靠性方面,UCloud新一代归档存储实现了存储节点双机头可见,在发生故障时,可以快速自动切换;通过采用大比例可灵活配置的EC,提高存储利用率150%;通过硬件加速,使EC计算相较于传统的纯软件计算,提升了4~5倍吞吐。新一代归档存储还实现了全链路的CRC校验,来全面保障用户数据的安全性。
UCloud新一代归档存储可广泛的应用在多媒体归档场景、历史数据合规性场景、以及大数据/AI分析数据归档等场景中,随着5G到来,数据量的爆发,还将在更多行业、更多场景中得到应用,可以说,这是一款面向未来的产品。
1、多媒体归档场景
在线直播、视频监控目前已逐渐普及,在这些场景中,一个1080P的高清摄像头存储一天就需要45G的容量,一个视频网站每天产生的数据量可达TB以上;UCloud某广电客户此前采用蓝光存储的方式,预计到2024年,其存储数据量将达16.4PB,大概需要8个蓝光盘柜,占用机房一整排机柜空间,对客户来说,是一笔巨大的成本支出。
UCloud新一代归档存储可提供不亚于标准存储的写入带宽,实现分钟级数据异步取回,在线回看;并采用纠删码冗余策略来保障数据安全可靠。结合UCloud对象存储不同存储类型间的生命周期转换功能,用户还可快速实现数据由热至温再到冷的存储类型转换,完成自动化的数据生命周期管理。
2、历史数据合规存储
面对日益上涨的企业数据库备份场景,UCloud提供的数据库备份方案能够有效帮助用户缩减备份流程。针对需要定时清理备份、缩减备份成本的用户,UCloud对象存储支持数据生命周期管理功能,可以实现自动化的数据定期清理、定期转入归档存储。针对需要更高安全级别的用户,UCloud对象存储可支持跨区域复制功能,帮助用户完成数据的异地备份。
在电商平台的日志归档场景中,UCloud对象存储还提供了ElasticSearch接入和数据库备份功能,当数据量增大后,对历史数据进行统一归档至归档存储的方式,以降低存储成本。
3、大数据、AI分析数据归档
根据研究机构提供的数据,2020年生物经济规模已达15亿美元。拿肿瘤疾病的基因测序为例,单个患者的DNA样本数据能达到560GB,如果按照每年1800多万的癌症病例来计算,使用基因分析技术后每年就会产生10PB的肿瘤基因样本数据。而中国一家三甲医院每年的影像数据就有20TB左右,全国3万多家医院的数据量,也是非常庞大的数据。UCloud归档存储能够为大量的生物信息、IoT实时分析数据等场景提供长期归档存储,为未来的医疗研究、工业智能储备数据资料。
新基建背景下,随着新技术与新场景不断融合,在线教育、云游戏、自动驾驶、智慧社区、智能制造等行业,都将产生越来越多的数据。UCloud新一代归档存储,面向未来的数据分层存储场景,采用全新的自研存储架构,降低用户的硬件成本和运营成本,让用户以更低的价格、更可靠的方式,存储数据资产,为未来挖掘数据生产要素的价值积累财富。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。