数据作为基础性、战略性资源的地位已在社会形成共识,然而,数据作为生产要素发挥作用,数据要素化仍是一个国际难题,无论在制度还是技术方面,都处于探索阶段。
近几年来,为充分释放数据要素价值,发挥好数据在数字经济发展中的基础性和支撑性作用,中国电子先后联合清华大学、中国经济体制改革研究会成立数据治理工程联合研究院、数据要素市场化配置综合改革研究院,围绕机制体制改革、数据新型基础设施、数据产业培育等方面开展专项攻关,率先取得数据要素跨学科研究实质性突破,在国内首次提出以“数据元件”和“数据金库”为核心产品的数据安全与数据要素化工程总体方案,为城市数据治理工作提供理论参考和实践指引。
在11月18日举办的中国电子云峰会上,中国系统正式发布数据安全与数据要素化工程系列产品,工程系统系列产品包括数据金库(数据金柜、数据金库管理系统)和数据要素加工交易中心(数据要素操作系统、数据要素业务平台、数据要素支撑系统)。
其中,数据要素操作系统是全球首个数据要素操作系统,是链接数据要素化生态产业链的核心能力平台。该系列产品具备了融合创新、安全可控、先进高效、可信流通的产品优势,下一步将以系列产品体系为基础,落实四项基础制度,在全国多地以制度、市场、技术三位一体的工程路径落地实践。
数据要素化的难点与解决之道
中国系统周崇毅告诉记者,数据进行要素化,需要经过资源化、资产化、资本化。安全、产权不清晰、定价难等是目前数据要素化的难点。
具体来看,要实现数据要素化,数据产权问题无法绕开,所以数据要素化第一个必须破解的就是产权,第二个是流通交易。原来点对点的流通模式成本高、监管难,原始数据的场内交易活力不足,导致各方普遍感到束手无策。第三个是收益分配,数据作为一种生产要素,如何参与劳动、生产、销售各个环节的分配,最后就是安全治理,我们知道数据安全形势越来越严峻,安全问题必须引起重视。
企业的数据利用更多是资源化,而且数据的使用不应局限于企业内部,应该对外应用,这样外面的数据能够流入到企业形成整个社会的数据要素的循环。流通与安全两方面的问题并非孤立存在,而是混杂交织在一起,中国系统的解决方案就是为了解决安全和流通的问题。
中国系统国丽解释说,在实现数据要素化过程中,落地制度要求,技术能力是必不可少的。通过数据金库和数据元件破解数据安全和规模化流通的零和困境,数据安全与数据要素化工程系统是包含系列软硬件产品的一体化工程系统,不是单一产品。
原始数据的安全与流通之间的矛盾无法调和,数据要素市场化要实现原始数据和数据应用的“解耦”,通过数据元件在数据资源和数据应用之间构建一个“中间态”,实现数据资源化利用到数据要素化配置的转变,构建基于数据元件的要素流通体系。
数据金库则是实现关键数据的安全存储和计算。在数据金库内实现数据资源的安全存储,并在数据金库内将数据资源加工成数据元件,以数据元件的形态在数据要素市场上进行流通,切实保障了数据安全。
国丽表示,数据要素想要安全合规的流通,就需要解决流通交易中的种种问题,打造一个安全可靠、权属明晰的流通闭环。通过将原始数据加工成数据元件,具备了安全属性和价值属性,把信息的人格权与数据的财产权,以及数据主体对数据的所有权和持有主体对数据的用益权分离,并在数据资源、数据元件和数据产品三阶段分别进行确权和定价,实现数据从资源化到要素化的转变,促进数据规模化的流通交易。
加速落地 成果喜人
自从贵阳成立了第一个数据交易所后,全国相继成立了20余家数据交易所。但是,现有交易平台大多是各地自行设立,缺乏国家层面的统筹,有些城市数据交易所不止一家,存在重复建设和数据割据现象,已有数据所的交易量却少之又少。
所以,加快制定统一的数据流通交易制度和规则,对数据产品分门别类,积极拓展交易规模。
目前,中国系统在武汉、德阳、江门和大理等地进行了落地试点,在社会治理、行业数据空间、民生保障等场景进行了广泛的探索。其中,德阳试点落实了数据确权、流通交易、收益分配和安全治理的四项基础制度。
德阳部署了数据金库和数据要素操作系统的两套系统,入库2.5亿条数据,开发了248个数据元件,支撑了10个数据产品应用;引入7家数据资源提供商形成了数据资源市场,8家数据元件开发商形成了数据元件市场,培育了52家数据产品开发商形成数据产品市场;引入了7家数据(经纪人)公司、2家数据合规咨询机构、3家数据资产评估机构。
其中,中国系统在德阳试点中扮演了总设计师和运营商、产品服务提供商的角色。从德阳试点情况来看,制度体系是基础,有了制度保障,数据企业能够放心地交出数据参与流通;技术创新是核心,定义了数据元件以后,数据流通问题得到了化解;市场分类是关键,将要素市场、产品市场和资源市场进行了合理的分类、合理的界定;工程路径是亮点,不仅仅是创新,更多的是落实,更多的是实践。
展望未来,数据要素市场化配制改革将迎来快速发展的机遇,数据安全与数据要素化工程系列产品为政府、组织和企业开展数据交易、生产和应用等提供了落地支撑。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。