近年来,我国人工智能产业发展迅猛,图像识别、语音识别、视频分析与大数据处理等技术创新应用进入世界先进行列,我国人工智能发明专利授权总量居全球第一,核心产业规模持续增长,已形成覆盖技术层和应用层的完整产业链和应用生态,并不断创造出新市场、新发展机会。数据显示,截至去年底,全球人工智能产业规模达1565亿美元,同比增长12.3%;我国产业规模为434亿美元,同比增长13.75%,超过全球增速。在全球人工智能竞争格局中,中国已跻身第一梯队。
人工智能的发展将给交通、金融、工业、能源、媒体等行业带来数字化升级的新思路和新解法,甚至已经开始重塑行业面貌,进而影响人类社会的未来。人工智能的飞速发展,离不开产、学、研、用各方的共同努力,尤其离不开学、研界的前瞻研究。
科研先行 夯实产业发展学术根基
东南大学自动化学院筹建于1957年,是国内最早设立自动化专业的院系之一,是国家“985工程”和“211工程”建设重点支持单位,曾于2017年入选国家首批“双一流”建设学科。学院开设有控制理论与控制工程等国家重点学科专业,建有控制科学与工程一级学科博士后流动站和长江学者特聘教授岗位,还设有“复杂工程系统测量与控制”教育部重点实验室,承担了一大批国家级和省部级基础研究和科技攻关项目,在网络控制、智能控制、集群控制、极地科考等领域已取得具有国际水平的研究成果,SCI、EI论文收录均列全国前列,在国际和国内控制界具有较大影响,有力地夯实了产业发展的学术根基。
近年来,随着AI技术的加速发展,安防监控,无人机,手机终端等大量以图片视频为主的数据量激增,视频分析与大数据处理是成为人工智能的重点发展方向。
紧跟产业发展趋势,在公共安全领域,东南大学自动化学院针对网络监控视频分析、车载监控视频分析、无人机航拍视频分析等关键技术,面向网络监控视频、车载监控视频、无人机航拍监控视频、多型号飞机试飞视频等,进行海量视频智能分析与环境感知的基础研究与工程应用工作。
科研高性能大数据平台建设面临重重挑战
基于视频大数据分析的基础研究与工程应用离不开高性能的计算平台支持,高性能的计算平台是助推学科快速发展及产业结合的关键。此外,上述项目多为与国内多家重点单位合作的国家级重点科研项目,数据量已超过100TB,且对数据保密的刚性要求极高,须使用网络隔离的专用的独立计算平台。
东南大学自动化学院副教授、硕士研究生导师夏思宇教授表示,科研高性能大数据平台不仅要提供满足科研任务需求的算法支撑,还要提供一整套包括数据安全存储、数据分析,数据管理的解决方案。
大数据分析平台作为系统建设的核心,承担着对指定视频文件进行基于内容的快速分析比对,从海量标签化、内容特征化的视频片段库中快速分析、搜索、比对、匹配出相似内容特征的视频文件,为大并发场景提供强大的计算分析能力的任务。以和国网合作进行视频分析与大数据处理项目为例,数据通常先由GPU节点对视频实现切片、特征提取、标注、入库工作。同时标注后的视频数据将为AI算法模型的构建、学习、迭代提供数据集支撑。训练完成后的模型将部署在GPU节点,为实时视频接入时的在线推理、分析处理提供算法支撑;而大数据分析节点作为核心,将对数据存储中的数据进行读取、比对分析、处理、回写等操作,为大并发场景提供强大的计算分析能力。该项目因数据为分辨率不低于1200万像素的高清原始视频及分析后的切片等,要求大数据平台还须提供海量存储空间及高性能的IO访问能力。
同样的需求广泛存在于智能制造、医疗、体育运动、健康等行业,需要对数据进行全生命周期的管理,夏思宇补充到。
浪潮K1 Power以三高一强特性打造高性能大数据平台
简而言之,东南大学科研高性能大数据平台首先要具备强大的计算能力和大内存容量,以实现毫秒级的快速响应,高主频、多线程的处理器有利于缩短计算时间,提升并发处理能力;此外,还须具备TB级或者PB级的海量存储能力,且须保证较大的IO带宽;最重要的,该大数据平台还须满足长时间7*24不间断稳定运行,特别是核心计算设备,需要保证单机的可靠性达到5个9,每年计划外宕机不超过5分钟。
通过综合选型,东南大学最终确定了以浪潮K1 Power服务器打造科研高性能大数据平台。
在该科研高性能大数据平台解决方案中,配置了1台浪潮K1 Power FP5280G2做为整个集群管理节点,同时部署国产浪潮InsightHD大数据管理平台;配置了2台浪潮K1 Power FP5280G2做为业务管理节点,并采用Master/Slave主备模式部署Namenode(HDFS元数据)、HBase Master/Standby、ResourceManager(YARN资源管理)等业务管理组件。
值得一提的是,该大数据平台解决方案对计算及存储资源采用了分层、分区设计,针对在线数据分析计算过程对内存容量、存储IO带宽有较高要求,采用计算存储融合模式,配置12台浪潮IPS FP5280G2节点,既作为计算分析节点,同时也作为高速HDFS(SSD)存储节点,提供23TB可用存储空间,可对15个左右的铁塔1天的视频数据进行在线分析。针对大容量数据的存储需求,配置3台浪潮IPS FP5466G2分布式存储节点,构建海量存储空间,为SPARK、MR、HBASE提供不低于192TB存储空间,可以与在线数据间实现分级存储,同时采用双口100G网络,为数据访问提供20GB/s的前端接口,防止数据瓶颈。利用HDFS分层策略,保证数据主副本在计算存储融合节点SSD高速存储HDFS空间,其他副本在存储节点提供大容量HDFS空间,并根据SSD使用率自动完成数据向后端迁移。
在平台软件层面则采用浪潮IsightHD大数据平台软件,包含Hadoop生态、Spark生态、全文检索生态等主要组件,提供海量数据的采集、存储、计算、分析挖掘、数据操作、管理监控、和数据安全等能力,以满足用户高性能大数据运算平台的需求。
经投产实践检验,采用浪潮K1 Power架构的高性能大数据平台凭借其高性能、高IO带宽及每核的多线程等优势,保证了海量视频数据的实时存储与分析,高可靠、高安全特性亦满足了业务7*24的不间断运行;无限拓展的容量满足了海量视频库的PB级存储需要,并实现了在线数据间的存储分级。此外,还兼容了平台既有的Linux操作系统、C/C++开发语言及编译环境、不限于HDFS、YARN、SPARK、MR、HBASE等大数据生态组件和基础环境,满足科研需求的同时,培养了大量科研人才,并建立起完整的科研队伍,促进了学科和产业界的良性发展。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。