在 AI 边缘计算领域,校企合作具有重要的意义。首先,AI 边缘计算需要依托于硬件技术和软件技术的双重优势,而高校和企业都拥有丰富的资源和技术实力,可以共同研发出更加先进的边缘计算平台和算法模型;其次,AI 边缘计算涉及到大量的数据采集和处理,需要依托高性能计算和大数据技术,通过校企合作,双方可以共同探索数据处理和分析的新方法,提高边缘计算的效率和精度;最后,AI 边缘计算需要依托于大量的专业人才,高校可以通过与企业合作,让学生更好地了解企业的实际需求和行业发展趋势,从而更好地指导学生的学习和研究方向。
在此背景下,天津科技大学电子信息与自动化学院郭肖勇老师和其指导的研究生,进行了很多积极且有意义的探索工作。他们目前正专注于工业场景下的 AI 边缘计算应用。“在多数工业场景中,如建筑工地或者地铁煤矿作业面,需要安装大量的视频监控设备,保证施工人员的安全和操作的规范。”郭肖勇老师说,“对于这些应用场景,在 GPU 服务器上部署模型存在成本高、网络流量消耗大以及能耗较大的问题。因此,如何在边缘系统中实现模型的部署,将各种传感器采集的数据消化在边缘,而只把有价值的分析结果发送回中心服务器,是一个有实际意义的研究方向。”
郭肖勇老师
采用 Jetson Nano 开发施工安全监控系统
在工业场景中,目标检测的意义主要在于实现自动化和提高生产效率,而深度学习已经成为目标检测领域的主流算法。因为基于深度学习的算法能够从单帧视频画面中识别出多个种类、不同距离的多个目标。并且,这种算法的准确度和鲁棒性均大幅地高于传统的计算机视觉算法。
“深度学习模型的前向推理需要有一定算力的硬件来支持。传统的单片机或者工控机,由于计算资源十分有限难以满足需求。这也是长久以来很多深度学习领域内的科研成果无法落地、转化为生产力的一个主要原因。”郭肖勇老师介绍,“NVIDIA 推出的面向嵌入式领域的 Jetson 平台,正好解决了这一难题。与其它的嵌入式系统相比,Jetson 平台上搭载的通用 GPU(GPGPU)不仅可以实现深度学习模型的部署,也可以实现其它各种算法或程序所需的高性能并行计算。更重要的是,NVIDIA 为 Jetson 平台的开发提供了全套的 SDK 和开发者社区以及完整的生态系统,这样不仅帮助开发者有效地避坑避雷,也极大地节约了学习的时间成本。”
基于 Jetson 平台,郭老师团队开发了 Thrust Nano 5G 施工安全监控系统(https://www.bilibili.com/video/BV1Mg411D72V/)。该系统采用 Jetson Nano 模块作为计算核心。考虑到生产过程中环境复杂,为了保护脆弱的计算芯片,产品内使用了稳压电源、铜制导热板、全冲压金属外壳等手段。而为了与外部设备连接以构成计算网络,又引入了以太网接口和 4G/5G 物联网卡。同样,为了适用于更多的应用场景,系统还增加一对内置的音量大小可调节的音箱。在软件方面,程序全部使用 Python 开发,并对关键部分的代码用 Numba 进行加速,以提高程序的性能。内置的深度学习模型全部基于 NVIDIA TensorRT SDK 和 DeepStream SDK 进行优化和部署,这使得模型推理速度远远大于基于 PyTorch 或者 TensorFlow 的同类产品。此外,系统也支持方便灵活的二次开发,支持快速模型迭代。
应对复杂作业场景
“大部分的工业场景都很复杂,比如食品仓储、建筑工地和港口堆场,通常有大量的人员、车辆和货物等。”郭老师解释说,“在这些场景中通常有大量的潜在目标,对模型的要求很高,因此部署的模型必须尽量减少误识别或者漏识别的情况。过多的误识别会导致过多的误报警,这样会扰乱用户正常的操作。另一方面过多的漏识别则会让产品失去了应用的价值。”
基于 Jetson Nano 模块开发的 Thrust Nano 5G 施工安全监控系统可以部署各种主流的深度目标检测模型,例如:YOLO v3-v5 系列模型以及 SSD_Mobilenet 系列模型。
另一方面,在某些场景中目标移动速度较快,对模型的推理速度有很高的要求。为了应对推理速度的要求,在模型的部署和优化方面,郭老师首先使用自适应剪枝算法,对训练好的模型进行剪枝,然后再利用 TensorRT 对模型进行层融合和量化。最后,利用 DeepStream SDK 进行部署,从而实现视频流解码——多流混合——模型推理——视频流推流等各个环节的 CUDA 优化和 GPU 加速。与使用 OpenCV+TensorFlow 或 PyTroch 等框架的部署方案相比,基于 TensorRT 和 DeepStream 的部署方案模型推理速度可提升 10-20 倍。
目前郭老师团队基于这套方案,成功开发了盾构隧道电瓶车引导及预警系统、堆场作业车辆安全系统、拉丝机工作状态检测、集装箱开关门状态检测、空盘车状态检测、超远距离目标检测及电子围栏等应用。
“某一项技术如果没法走出实验室,那终究也将是纸上谈兵昙花一现。Jetson 平台及其开发工具提供了一种高效的模型部署方案,让论文中的代码和模型可以更好地走进生产和生活中。”郭老师表示。
郭老师最后说道:“作为 NVIDIA Jetson 开发者,我建议您不仅要熟练掌握 Jetson 平台的技术和开发工具,还应该了解实际的工业场景需求,并积极参与业界的合作。随着人工智能技术的快速发展,越来越多的企业和组织开始将其应用于实际的工业场景中,如自动驾驶、智能制造、智能家居等领域。因此,了解这些领域的需求和挑战,可以帮助您更好地开发出适合实际应用的人工智能解决方案。”
*本文中图片均由天津科技大学电子信息与自动化学院郭肖勇老师提供,如果您有任何疑问或需要使用本文中图片,请联系郭肖勇老师。
好文章,需要你的鼓励
OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。
北航团队推出VoxHammer技术,实现3D模型的精确局部编辑,如同3D版Photoshop。该方法直接在3D空间操作,通过逆向追踪和特征替换确保编辑精度,在保持未修改区域完全一致的同时实现高质量局部修改。研究还创建了Edit3D-Bench评估数据集,为3D编辑领域建立新标准,展现出在游戏开发、影视制作等领域的巨大应用潜力。
谷歌宣布计划到2026年底在弗吉尼亚州投资90亿美元,重点发展云计算和AI基础设施。投资包括在里士满南部切斯特菲尔德县建设新数据中心,扩建现有设施,并为当地居民提供教育和职业发展项目。弗吉尼亚州长表示这项投资是对该州AI经济领导地位的有力认可。此次投资是谷歌北美扩张战略的一部分。
宾夕法尼亚大学研究团队开发出PIXIE系统,这是首个能够仅通过视觉就快速准确预测三维物体完整物理属性的AI系统。该技术将传统需要数小时的物理参数预测缩短至2秒,准确率提升高达4.39倍,并能零样本泛化到真实场景。研究团队还构建了包含1624个标注物体的PIXIEVERSE数据集,为相关技术发展奠定了重要基础,在游戏开发、机器人控制等领域具有广阔应用前景。