2017年6月7日,一年一度的高考日正式来临,高考结束后便迎来了报考专业的高峰。根据教育部的消息,2017年全国各高校新增备案和审批的本科专业名单中,数据科学与大数据技术、网络空间安全等新兴学科增加明显。而麦肯锡的一份分析报告指出,预计到2018年,大数据或者数据工作者的岗位需求将激增,对于懂得如何利用大数据做决策的分析师和经理的岗位缺口则将达到150万。
对于这些大数据人才,除了基础的IT知识,还需要掌握两项技能:数据分析和行业知识。在以往的教育体系下,很难出现三种技能集于一身的人才。因此,为市场培养具有复合能力的应用型人才非常重要。与此同时,随着创新驱动战略的实施和信息技术与各行业的深度融合,国家对复合型、应用型人才的需求整体空前增大,这些都在迫切地加速国内应用型高校的改革推进。
作为应用型人才培养与市场实际需求的连接“纽带”,为推动中国大数据产业发展、助力中国经济转型,数据中国“百校工程”产教融合创新项目应运而生。
曙光 “百校工程”,连接大数据人才与市场
曙光很早便意识到信息产业的速度、结构、动力都在发生重大的调整,早在2015年,曙光便发布了“数据中国”企业战略,计划在中国的百余城市,建设全面融合的云计算和大数据平台,构建一个覆盖全国的数据网络。另外,曙光有着“国家队”的背景,与中科院形成了良好的产学研用一体化的运作模式,在行业中具有独特优势。
在这样的条件下,为服务国家创新驱动战略,落实《促进大数据发展行动纲要》,曙光与教育部联合发起数据中国“百校工程”产教融合创新项目,计划通过2-3年时间在全国范围内遴选百所高校,部署集人才培养、科研创新、行业应用及社会服务于一体的“曙光大数据应用创新中心”,为国家经济发展转型升级和社会进步提供数据、人才、技术支撑。
目前,数据中国“百校工程”正充分发挥大数据时代连接人才与市场的纽带作用。项目已完成首批试点院校遴选工作,确立了41所试点院校和20所培育院校。已启动项目包括:华东师范大学教育大数据实验室、江苏师范大学智慧教育、凯里学院贵州大数据精准扶贫、河北民族师范学院智慧城市、湖北大学光伏大数据等。
项目实施以来,以工程师为骨干的数十人教学团队被派入驻湖北大学、广东石油化工学院等高等院校,并已录取了首批千余名本科生进入大数据学院,整个百校工程的开展呈现“产教深度融合,百校协同发展,迈向国际化”的三个运行特征。
曙光“数据中国”,推动中国大数据产业发展
大数据时代,数据被认为是具有战略意义的重要资产。无论对于一个国家、一个行业,还是一个企业都是如此。自提出“数据中国”战略以来,曙光稳步推进大数据技术与产品的研发,力争成为中国大数据发展过程中聚集资源、对接需求、联通产业链的“纽带”。
2016年,曙光提出“数据中国-加速计划”,针对政府大数据、科学大数据、安全大数据和工业大数据四类大数据业务展开重点布局。曙光不仅拥有业界领先的HPC、大数据、云计算融合技术,同时研发出国内领先的大数据产品,为各行业的快速发展、创新应用提供有力支撑,并以城市为单位快速部署云计算和大数据“神经节点”,目前已在40多个城市建设了城市云数据中心和大数据平台。
今年4月,经国家发展改革委员会正式批复认定,“大数据分析技术国家工程实验室”将由中科院计算所、中国科学院大学和曙光等单位联合共建。该国家工程实验室的落地,正式将大数据分析技术的研发需求上升到国家高度。
近期,在中国国际大数据产业博览会上,由曙光积极倡导和推进、国家发展改革委牵头发起的“中国大数据创新联盟”正式成立。未来,曙光将与众联盟伙伴一同推动我国大数据的创新发展,以城市云计算中心和超算中心为节点,通过大数据、深度学习等技术手段,推动应用生态建设发展,进一步打造数字化的中国。
好文章,需要你的鼓励
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。