
7 月 24 日,国内权威第三方评测机构 SuperCLUE 发布中文原生工业大模型测评基准 SC-Industry(SuperCLUE-Industry)最新榜单。北电数智骄阳·工业大模型以83.44 的总分综合排名第一。
图注:SuperCLUE 发布工业大模型能力象限
SuperCLUE 是行业权威的通用大模型综合性测评基准,专注于中文大模型测评;SC-Industry立足中文语义环境与工业场景,充分贴合国内制造业的术语体系与应用需求,全面地衡量工业大模型除知识库之外解决行业具体问题的应用能力,兼具工业领域模型的通用性与可拓展性。
SC-Industry评测从基础能力和应用能力两大维度出发,聚焦工业常规问答、工业数据分析、工业文档问答、工业智能体Agent、工业理解计算、工业代码生成六大能力,对大模型进行效果评估。通过构建专用测评集,SC-Industry结合评估流程、评估标准、评分规则,将文本输入送入超级模型,并对每一维度的评估结果与人类一致性进行分析。

根据榜单测评结果,骄阳·工业大模型在整体总分第一之外,“应用能力”综合测评结果获90.07分,同样位居榜首。
SuperCLUE在报告中指出,产业级应用能力成为新分水岭。骄阳·工业大模型凭借在工业数据分析上的强势表现,得到了业界领先的 90.07 分,首次登顶。这一方面说明在工业任务能力方面,国产模型正在突围;另一方面表明在基础能力趋同的情况下,工业数据分析与智能体表现将成为拉开差距的关键。
北电数智以产业协同、技术突破双轮驱动破局,一方面推动建立工业数据标准和开放协议体系,运用可信数据空间技术实现数据的安全共享;另一方面重点研发场景化微调数据生成和复杂任务强化学习等核心技术,有效提升模型的行业认知能力。目前,骄阳·工业大模型已成功构建“精准的垂类认知、高质量数据治理体系、严格的安全合规管控机制”三大优势,展现了北电数智在垂类大模型领域的阶段性研发成果,也体现了依托北京电控深厚工业基因的差异化竞争能力。
在即将到来的2025 WAIC世界人工智能大会上,北电数智将正式发布骄阳·工业大模型,并聚焦工业企业最关注的“AI+生产、AI+产品、AI+运营、AI+基础设施”等核心业务场景,分享北电数智的创新能力和标杆实践,敬请关注。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
武汉大学研究团队提出DITING网络小说翻译评估框架,首次系统评估大型语言模型在网络小说翻译方面的表现。该研究构建了六维评估体系和AgentEval多智能体评估方法,发现中国训练的模型在文化理解方面具有优势,DeepSeek-V3表现最佳。研究揭示了AI翻译在文化适应和创意表达方面的挑战,为未来发展指明方向。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
参数实验室等机构联合发布的Dr.LLM技术,通过为大型语言模型配备智能路由器,让AI能根据问题复杂度动态选择计算路径。该系统仅用4000个训练样本和极少参数,就实现了准确率提升3.4%同时节省计算资源的突破,在多个任务上表现出色且具有强泛化能力,为AI效率优化开辟新方向。