至顶网服务器频道 05月17日 新闻消息: 随着云计算和大数据的应用与发展, 各领域的信息量产生了爆炸式增长。企业不断购置大量的存储设备来应对快速增长的存储需求,然而更大、更多的存储容量会占用系统支出和能耗资源,因此数据压缩技术成为存储系统中的一项潮流技术。目前,数据压缩和重复数据删除是实现数据缩减的两种关键技术。而今天我们就来重点了解一下数据压缩。
数据压缩的前世今生
数据压缩,如WinRAR、ZIP等程序广为人知,是实现减少空间而把数据转换成比原始格式更紧凑形式的过程。数据压缩的概念相当古老,可追溯至19世纪中期的摩尔斯码。摩尔斯码发现某些字母比其他字母使用地更频繁(例如E比X),使用短的脉冲信号来表示常用字母,而使用较长脉冲信号表示非常用字母。这个压缩方案有效地改善了系统的整体效率,它使系统在更短的时间内传输了更多的信息。
数据压缩的起源可以追溯到信息论之父Shannon在1947年提出的香农编码。1952年 Huffman提出了第一种实用性的编码算法实现了数据压缩,该算法至今仍在广泛使用。1977年以色列数学家Jacob Ziv 和Abraham Lempel提出了一种全新的数据压缩编码方式,Lempel-Ziv系列算法(LZ77和LZ78,以及若干变种)凭借其简单高效等优越特性,最终成为目前主要数据压缩算法的基础。数据压缩算法大致分类如图1所示。
图1 数据压缩算法分类
通过上图,压缩算法从对数据的完整性角度分有损和无损。有损压缩算法通过移除在保真情形下需要大量的数据去存储的小细节,从而使文件变小。在有损压缩里,因某些必要数据的移除,恢复原文件是不可能的。有损压缩主要用来存储图像和音频文件,同时通过移除数据达到比较高的压缩率。无损压缩,也使文件变小,但对应的解压缩可以精确的恢复原文件,不丢失任何数据。无损数据压缩被广泛的应用于计算机领域,存储系统中均使用无损压缩算法。
存储系统中的压缩
存储系统中的无损数据压缩算法,正在由效率较低的定长(Fixed Bit Length Packing)压缩转变为不定长压缩。其中,由Abraham Lempel 和 Jacob Ziv独创性的使用字典的LZ77/78算法及其变种应用最为广泛。这类使用字典来压缩数据LZ算法如图2所示,它使用一种基于滑动窗口缓存的技术,该缓存用于保存最近刚刚处理的文本。当出现一个重复时,重复的序列可以用一个短的编码来代替。压缩程序扫描这样的重复,同时生成编码来代替重复序列。随着时间的过去,编码可以重用来捕获新的序列。系统必须设计成解压程序能够在编码和原始数据序列推导出当前的映射。
图2 LZ算法示意图
LZ算法使用了有限的窗口在以前的文本中查找匹配,对于相对于窗口大小来说非常长的文本块,很多可能的匹配就会被丢掉。窗口大小可以增加,但这会带来两个损失:(1)算法的处理时间会增加;(2)指针字段必须更长,以允许更长的跳转。两者都很消耗计算资源(CPU和缓存)。
传统在线实时压缩技术一般采用软件压缩来实现,会带来一定的CPU负载,如果压缩算法做的不够优化,就会导致压缩功能开启后占用较多CPU性能(双倍压缩,占用15%左右CPU资源),一般会影响系统1/3,甚至2/3的性能,影响业务的可用性能。因此,某些存储系统中并不建议企业在业务繁忙时开启压缩功能,一般在业务空闲阶段使用压缩。
数据压缩的另外一个痛点在于,数据块经过压缩后,因为有不同的冗余度,数据块长度变得不一,容易造成磁盘碎片,如图3所示。这种基于位置的压缩给系统的数据布局带来很大影响,严重影响业务的IO响应能力,加剧性能衰减。
图3 常见压缩及数据落盘
浪潮G2创新数据压缩技术
而浪潮迎难而上,采用专用的硬压缩技术如图4所示,降低了对控制器计算资源的占用,特别是CPU和缓存,使得压缩功能的开启,只占用了低于3%的CPU性能影响(部分IO交互)。
图4 专用压缩卡
与此同时,通过特定优化的压缩算法,将在线压缩的不定长数据转变为定长数据,如图5所示,在数据布局上,不再产生数据碎片,从总体测试表现看,经过开启压缩功能,反而提升系统的随机读写性能。
图5 浪潮G2压缩及数据落盘
总之,通过在线实时硬压缩,浪潮G2平台在不影响性能的基础上,可提供70%以上的压缩率,节省50%以上的空间,"变相"实现容量翻倍,总体提升客户收益。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。