Commvault中国区技术总监蔡报永
有一种说法,人类只要利用大脑的10%,就可以实现长生不老。即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘。同样,在数据科学领域,许多企业仅利用了数据的一小部分,有些宝贵数据却被放在数据孤岛中,无法有效利用。
行业研究显示,全球每天创造2.5个五万亿字节的数据,而在过去的两年中,这些数据中的90%来自于每天从众多不同渠道产生的数据。换句话说,这相当于575亿台32GB内存的iPhone手机总存储量。毫无疑问,这确实是海量数据,但是其中大部分数据处于黑暗状态。
Gartner对暗数据(Dark data)的定义是, “企业在开展正常业务活动期间采集、处理和存储,但通常无法用于其它目的(如分析、商业关系和直接获利)的信息。” 从本质上讲,这些数据是企业指定用来进行相应的存储、保护和管理的内容,而非用于提高整体工作效率或生产率。这些数据中包含重要内容,如果未能正确存储,可能会为企业带来风险。
企业数据保护及信息管理全球领导者Commvault结合多年的行业经验,帮助企业点亮“暗数据”,释放更大商业价值。
据合规、治理和监管部门的法律顾问预计,公司存储数据的69%对该企业毫无价值。这就引出了一个问题“我们为什么要保留这些数据?”
为何要保留这些数据?
我们现在不再是处理少量的MB级或GB级的业务数据,这意味着数据管理的“保留全部信息”原则将不再可行。因此,管理庞大的数据量对当今的企业来说至关重要。然而,这并不像说的那样简单。为了改进流程,基础架构管理者/管理员需要采用基于内容的保留策略,使其仅保留最重要的相关数据以便于访问。这些策略还要考虑最新的政府立法,从而确保整个企业实现最佳实践。
那么其他数据呢?企业的其他数据必须采取高效的归档方式,以保证系统平稳运行。企业对各种技术,如使用文件名、类型、用户/群、关键字、Exchange分类、标签等用户自定义策略需求日益增长。通过采用这些方法,企业在归档流程中可增加前所未有的智能处理层级,从而提高效率并保证整体数据的安全性。
你知道何时“删除”数据吗?
虽然有效的数据管理模式始终是企业的首要之选,但我们仍不能忽视数据增长的事实。事实上,没有人能够负担起大量无用的存储内容。因此,我们必须对数据从生成到处理的整个生命周期进行评估。有一种不切实际的想法——保留每个数据为未来的商业决策献计献策。但实际上,企业必须认真考虑其数据的最终目标或目的,并制定数据删除的治理策略。通过削减数据,企业将减少其暗数据并提高未来分析的透明度。更为重要的是,删除无用数据可以提高系统性能,有助于显著提高系统整体的可靠性。
虽然数据删除貌似很费时,但它未必需要手动来完成。基础设施管理人员有权对信息使用分类、整理、保留和删除的自动化策略,从而优化整个信息管理生命周期。除了减少手动删除数据的工作外,数据自动化处理技术还帮助企业更好地面对合规审计和诉讼,使之成为当今各种企业的必备“利器”。
数据是每个企业的命脉,因此,对数据进行有效管理对企业来说至关重要。与此同时,数据量和数据源的日益增长,使数据管理业务变得更为复杂。但是,任何公司都不需要在不知所措的“黑暗”中开展工作。事实上,基础设施管理与其流程及系统的管理一样简单。随着数据的不断增长,必须向基础设施管理人员提供相应的工具,帮助其筛选数据,从而有效管理、保护和利用数据。自动化流程将成为提供高水平数据管控的关键,并最终有助于推动企业智能、高效发展,同时改善合规性,并降低数据丢失和管理不当所带来的风险。
好文章,需要你的鼓励
本文探讨了AI发展的未来趋势,详细分析了六条有望实现通用人工智能(AGI)的技术路径。随着生成式AI和大语言模型面临发展瓶颈,业界开始将目光转向其他AI发展方向。这六条路径包括神经符号AI、神经形态AI、具身AI、多智能体AI、以人为中心的AI和量子AI。每种路径都有其独特优势和挑战,可能单独或组合推动AI进入下一个发展阶段,最终实现与人类智能相当的AGI系统。
约翰霍普金斯大学研究团队发现VAR模型的马尔可夫变体本质上是离散扩散模型,提出SRDD方法。通过应用扩散模型技术如分类器自由引导、令牌重采样等,SRDD相比VAR在图像质量上提升15-20%,同时具备更好的零样本性能。这项研究架起了自回归模型与扩散模型的理论桥梁,为视觉生成技术发展开启新方向。
培生公司第三季度销售增长加速,并预示年底表现更强劲,但其AI应用可能是更重要的发展。该公司虚拟学习部门销售额激增17%,学生注册人数攀升。培生运营的在线学校将AI工具嵌入课程材料中,公司表示有越来越多证据显示这些工具帮助学生取得更好成绩。公司推出了AI学习内容组合,包括AI素养模块和融合人工导师与AI学习工具的视频平台。
微软亚洲研究院推出CAD-Tokenizer技术,首次实现AI通过自然语言指令进行3D模型设计和编辑的统一处理。该技术通过专门的CAD分词器和原语级理解机制,让AI能像设计师一样理解设计逻辑,大幅提升了设计精度和效率,有望推动工业设计的民主化进程。