5月25日-28日,2017 中国国际大数据产业博览会(以下简称"数博会")在贵阳举行。本届数博会将继续聚焦大数据的探索与应用,展示大数据最新的技术创新与成就,吸引了超过200家知名科技企业参展。作为中国云计算、大数据的领先品牌,浪潮在本届数博会上展出了最新的云海大数据一体机以及基于OpenStack的云海OS 5.0云数据中心操作系统,并展示了通过云计算、大数据技术驱动贵州经济、民生获得新发展的实践和应用。
2017中国国际大数据产业博览会现场
数字技术惠民生--浪潮大数据助力精准扶贫
"精准扶贫"思想是我国当前和今后一个时期关于贫困治理的指导性思想,中央和贵州屡次强调"要坚持精准扶贫、精准脱贫"。可见,扶贫要重在"精准"二字,这一目标的实现需要大数据技术的支持。
目前,贵州扶贫云(一期)工程围绕精准识别,建设基础数据支撑平台,重点对623万贫困人口、9000个贫困村、934个贫困乡镇、66个贫困县和有扶贫开发任务的地区,以及2014年已脱贫的123万人口进行动态监测,可以清晰地展示出省、市州、县、镇、村包含的贫困人口总数、贫困户总数、贫困发生率以及贫困人口构成情况,直切扶贫工作的关键。
借助大数据分析技术,贵州扶贫云可以根据贫困对象的住房面积、房屋结构、建房时间,通过住房条件估算贫困对象的年收入来进行帮扶;可以分析贫困对象现实的耕地拥有及收成情况和生产生活条件估算贫困程度;可以综合分析贫困对象劳动力的文化程度、年龄结构、身体状况、打工状况、打工时间,估算贫困对象的年收入进行"精准扶贫",解决"扶谁的贫"的问题。
浪潮大数据解决方案已成为贵州"精准扶贫"的重要助力。在整个"云端"过程中,贵州"扶贫云"平台融数据采集、数据分析、数据挖掘、数据管理、数据运用等功能为一体,为各级党委政府和扶贫部门提供决策支持,为贫困群众和社会公众提供信息服务,真正让群众获得扶贫信息资源、精确进行识别与评估,构建大扶贫的网络格局。
数字技术惠经济--浪潮大数据一体机助力"气象万千"大数据平台建设
浪潮与贵州省气象局正在共同建设"气象万千"大数据平台,汇集各类气象数据和互联网数据,将气象服务从最基础的天气预报扩展到气候预测、气候可行性论证、公共气象服务、专业专项气象服务、气象防灾减灾,利用气象大数据技术为社会创造财富、减轻损失、指导生产等等。
工作人员现场讲解"气象万千"大数据平台
单就气象数据而言,已可以称得上名副其实的大数据。全国2000多个地面站、120多个高空探测站、6颗在轨卫星、5万多个自动监测站、600多个农业监测站、300多个雷达站等,逐日逐小时甚至到逐分钟扫描着中国出现的各种各样的大气数据。就贵州来说,每天有85个气象站、2000多个区域自动气象站、7部新一代多普勒天气雷达、2个探空雷达站实时监测各类气象要素。
而"气象万千"大数据平台更是需要与农业、交通、建筑、旅游、销售、保险等各行各业的数据相结合,通过大数据分析技术提供有价值的气象产品。如将贵州山地的海拔、坡度、走向,以及山上的植被、基石、土壤等状态用精细的数据进行描述,寻找这些数据与气象数据之间的联系,就可以通过计算机模拟预测是否会发生泥石流灾害,从而提升防灾减灾能力;将天气信息和互联网的消费数据相结合,可以挖掘出更加广泛精确的气象与消费之间的关系,各类商品销售数据不仅会受到地域的影响,还会受到不同小气候区域影响。除了气温,降水也会对人们的消费行为产生影响,特别是对于一些生活类的消费影响尤为明显。
浪潮云海大数据一体机
可见,"气象万千"大数据平台需要对更多数据进行大量搜集、处理和分析,这对硬、软件的要求更为苛刻,传统的处理设备已难以满足大数据处理的功能和性能要求。浪潮云海大数据一体机已成功应用于贵州"气象万千"大数据平台的建设之中,面对海量数据计算,可通过分布式计算框架调用所有节点的计算资源执行诸如数据格式整理、数据类型转换、文本分析等数据处理任务,在处理过程中减少了数据在不同节点间的交换,降低了传输带宽的压力,极大的提升了处理效率,支持离线计算、实时计算、流式计算、图计算等各类数据处理场景,满足了该平台对多结构、多类型数据处理的需求。
数博会上重点关注的大数据、人工智能、云计算、虚拟现实、移动互联网等新兴技术,清晰的揭示一个"智慧时代"的到来,这同浪潮所强调的"智慧计算"不谋而合。浪潮正在从云计算、大数据和深度学习技术着手,致力于为智慧时代提供领先的计算产品。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。