近日,经国家发展改革委员会正式批复认定,“大数据分析技术国家工程实验室”将由曙光公司和中科院计算所等单位联合共建。该国家工程实验室的落地,正式将大数据分析技术的研发需求上升到国家高度。
近年来,“数据即资产”“数据产生价值”等观念深入人心,然而真正能够让数据价值变现的大数据挖掘与分析技术仍远远不能满足当前需要。当前的数据挖掘分析手段仅能满足“复杂数据的简单分析”、“简单数据的复杂分析”等场景,“复杂数据的复杂分析”仍在呼唤真正的大数据技术应用。换言之,“数据价值”已经体现,但“大数据价值”和“数据大价值”还未真正体现。
作为国家级重点科研平台、国家科技创新体系的重要组成部分,国家工程实验室将成为依托企业、转制科研机构、科研院所或高校等设立的研究开发实体。曙光公司和中科院计算所等共建单位,将依托大数据分析技术国家工程实验室开展一系列的数据分析技术研发和应用实践。
据曙光公司总裁历军介绍,大数据分析技术国家工程实验室将针对我国大数据挖掘与分析能力弱、大数据算法应用和综合能力不高等问题,建设大数据分析技术创新平台,支撑开展大数据复杂性和不确定性特征描述、异构大数据预处理、挖掘与分析计算系统、大数据挖掘结果与决策支持、基于大数据的智能知识获取算法等技术的研发和工程化。
中科院计算所承担着大量国家重点项目,已在将大数据挖掘与智能分析理论相结合等方面取得多项成果;曙光公司作为中国“城市云”的定义者和建设者,有着丰富的数据汇聚和分析应用实践。可以说,双方已初步具备了较强的大数据挖掘分析、知识管理与决策支持研发能力和应用经验。
针对我国大数据分析技术综合能力欠缺等问题,大数据分析技术国家工程实验室将沿着“基础设施建设、技术产品研发、工程化集成验证、生态体系构建”的体系部署,逐步打造一个开放的大数据分析技术生态体系。
按照共同的计划部署,要实现大数据分析技术水平的整体突破,首先要建成分布全国的大数据分析云基础设施,以形成共享开放的大数据资源汇聚;同时要研发集大数据分析计算架构、特色器件、关键技术和开放接口的大数据分析工具集、平台产品与技术标准;在此基础上,形成面向科学发现与政府治理的典型大数据分析示范应用与服务,最终通过共享平台、开源工具、标准体系构建大数据分析技术开放的生态体系,形成可持续的产学研用机制。
大数据分析技术国家工程实验室选择曙光,将为曙光提供践行大数据分析技术生态体系的舞台。自从曙光2015年提出“数据中国”战略以来,曙光稳步推进大数据技术与产品的研发,并针对政府大数据、科学大数据、安全大数据和工业大数据四类大数据业务展开重点布局。“科学大数据引擎”、“方舟大数据融合分析平台”等解决方案的先后出台,已在建立大数据从汇聚、融合到分析、共享的完整链条上进行了初步探索。
“曙光近年来践行‘数据中国’落地的经验表明,来自不同行业、不同领域、同类别、多种类数据的综合分析已对当前数据分析手段提出了更高要求。”历军指出,当前,在大数据分析应用与服务、大数据分析技术与系统、平台支撑体系等方面,仍亟需从技术、工艺、材料、设备方面实现技术突破。
大数据分析国家工程实验室是提升大数据基础技术支撑能力的关键一环,此次批复将有力推动院企进一步发挥产学研协同创新优势,推进大数据分析技术在相关领域深度应用,促进区域乃至全国大数据与云计算产业创新发展。曙光也将深度联合中科院计算所等共建单位,共同促进大数据分析技术、工具和系统平台的集成部署,力保率先打造开放的大数据分析生态体系。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
延世大学研究团队通过分析AI推理过程中的信息密度模式,发现成功的AI推理遵循特定规律:局部信息分布平稳但全局可以不均匀。这一发现颠覆了传统的均匀信息密度假说在AI领域的应用,为构建更可靠的AI推理系统提供了新思路,在数学竞赛等高难度任务中显著提升了AI的推理准确率。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
蒙特利尔大学团队发现让AI"分段思考"的革命性方法Delethink,通过模仿人类推理模式将长篇思考分解为固定长度块,仅保留关键信息摘要。1.5B小模型击败传统大模型,训练成本降至四分之一,计算复杂度从平方级降为线性级,能处理十万词汇超长推理,为高效AI推理开辟新道路。