近日,经国家发展改革委员会正式批复认定,“大数据分析技术国家工程实验室”将由中科院计算所、中国科学院大学和中科曙光等单位联合共建。该国家工程实验室的落地,正式将大数据分析技术的研发需求上升到国家高度。
近年来,“数据即资产”“数据产生价值”等观念深入人心,然而真正能够让数据价值变现的大数据挖掘与分析技术仍远远不能满足当前需要。当前的数据挖掘分析手段仅能满足“复杂数据的简单分析”、“简单数据的复杂分析”等场景,“复杂数据的复杂分析”仍在呼唤真正的大数据技术应用。换言之,“数据价值”已经体现,但“大数据价值”和“数据大价值”还未真正体现。
作为国家级重点科研平台、国家科技创新体系的重要组成部分,国家工程实验室将成为依托企业、转制科研机构、科研院所或高校等设立的研究开发实体。中科院计算所、中国科学院大学和中科曙光等,将依托大数据分析技术国家工程实验室开展一系列的数据分析技术研发和应用实践。
据中科曙光总裁历军介绍,大数据分析技术国家工程实验室将针对我国大数据挖掘与分析能力弱、大数据算法应用和综合能力不高等问题,建设大数据分析技术创新平台,支撑开展大数据复杂性和不确定性特征描述、异构大数据预处理、挖掘与分析计算系统、大数据挖掘结果与决策支持、基于大数据的智能知识获取算法等技术的研发和工程化。
中科院计算所承担着大量国家重点项目,已在将大数据挖掘与智能分析理论相结合等方面取得多项成果;中国科学院大学开设首个“大数据技术与应用”专业方向,为培养信息技术与行业需求的复合型大数据人才作出了贡献;中科曙光作为中国“城市云”的定义者和建设者,有着丰富的数据汇聚和分析应用实践。可以说,筹建单位已初步具备了较强的大数据挖掘分析、知识管理与决策支持研发能力和应用经验。
针对我国大数据分析技术综合能力欠缺等问题,大数据分析技术国家工程实验室将沿着“基础设施建设、技术产品研发、工程化集成验证、生态体系构建”的体系部署,逐步打造一个开放的大数据分析技术生态体系。
按照共同的计划部署,要实现大数据分析技术水平的整体突破,首先要建成分布全国的大数据分析云基础设施,以形成共享开放的大数据资源汇聚;同时要研发集大数据分析计算架构、特色器件、关键技术和开放接口的大数据分析工具集、平台产品与技术标准;在此基础上,形成面向科学发现与政府治理的典型大数据分析示范应用与服务,最终通过共享平台、开源工具、标准体系构建大数据分析技术开放的生态体系,形成可持续的产学研用机制。
大数据分析技术国家工程实验室选择曙光,将为曙光提供践行大数据分析技术生态体系的舞台。自从曙光2015年提出“数据中国”战略以来,曙光稳步推进大数据技术与产品的研发,并针对政府大数据、科学大数据、安全大数据和工业大数据四类大数据业务展开重点布局。“科学大数据引擎”、“方舟大数据融合分析平台”等解决方案的先后出台,已在建立大数据从汇聚、融合到分析、共享的完整链条上进行了初步探索。
“曙光近年来践行‘数据中国’落地的经验表明,来自不同行业、不同领域、同类别、多种类数据的综合分析已对当前数据分析手段提出了更高要求。”历军指出,当前,在大数据分析应用与服务、大数据分析技术与系统、平台支撑体系等方面,仍亟需从技术、工艺、材料、设备方面实现技术突破。
大数据分析国家工程实验室是提升大数据基础技术支撑能力的关键一环,此次批复将有力推动院企进一步发挥产学研协同创新优势,推进大数据分析技术在相关领域深度应用,促进区域乃至全国大数据与云计算产业创新发展。中科院计算所、中国科学院大学和中科曙光等共建单位,将共同促进大数据分析技术、工具和系统平台的集成部署,力保率先打造开放的大数据分析生态体系。
好文章,需要你的鼓励
杜克大学研究团队建立了首个专门针对Web智能体攻击检测的综合评估标准WAInjectBench。研究发现,现有攻击手段极其多样化,从图片像素篡改到隐藏弹窗无所不包。虽然检测方法对明显恶意指令有中等效果,但对隐蔽攻击几乎无能为力。研究构建了包含近千个恶意样本的测试数据库,评估了十二种检测方法,揭示了文本和图像检测的互补性。这项研究为Web智能体安全防护指明了方向,提醒我们在享受AI便利时必须保持安全意识。
生成式AI的兴起让谷歌和Meta两大科技巨头受益匪浅。谷歌母公司Alphabet第三季度广告收入同比增长12%达742亿美元,云服务收入增长33%至151.5亿美元,季度总收入首次突破千亿美元大关。Meta第三季度收入512.5亿美元,同比增长26%。两家公司都将大幅增加AI基础设施投资,Meta预计2025年资本支出提升至700亿美元,Alphabet预计达910-930亿美元。
加州大学圣地亚哥分校研究团队系统研究了AI智能体多回合强化学习训练方法,通过环境、策略、奖励三大支柱的协同设计,提出了完整的训练方案。研究在文本游戏、虚拟家庭和软件工程等多个场景验证了方法有效性,发现简单环境训练能迁移到复杂任务,监督学习初始化能显著减少样本需求,密集奖励能改善学习效果。这为训练能处理复杂多步骤任务的AI智能体提供了实用指南。