路怒症是一个全球性的现象。在中国,大约60%的司机有过路怒经历。在美国,近80%的司机称自己在开车时有过明显的愤怒或攻击性情绪。当这些情绪导致攻击性驾驶时,路怒症在相当大比例的交通事故中负有责任。
近期的研究探索了利用人类声音来判断司机是否愤怒到不宜开车的方法。IEEE旗下的IEEE Access杂志最近发表的一篇论文探讨了一种方法,该方法在实验室中利用声音达到了约95%的准确率,这引发了人们对这项技术是否接近实际应用的疑问。
不止追踪路况的传感器
汽车越来越多地配备了一系列传感器,用于监测车内、引擎盖下以及周围环境的状况(https://transmitter.ieee.org/what-does-your-car-know-about-you/)。例如,一些汽车的方向盘中嵌入了心率监测器,用于检测疲劳驾驶以及可能出现的心脏紧急状况。有些汽车配备了摄像头,用于查看司机是否集中注意力。
IEEE会员Ning Hu表示,虽然这些传感器能够评估司机的身体状况,但事实证明判断他们的情绪状态更加棘手,因为混合情绪是很常见的。
“如果分类是二元的,即愤怒与不愤怒,那么即使系统是在猜测,准确率也有50%。”
人工智能在解读情绪中的作用
利用计算机识别和分类人类情绪被称为情感计算。该领域的研究人员利用基于数据集(包括图像、社交媒体文本和语音)训练的各种形式的人工智能。金融服务和医疗保健等行业一直依赖情感计算。例如,银行可能会在呼叫中心使用这项技术来判断客户是否生气。营销公司在焦点小组中使用面部分析来对广告反应进行分类,并了解观众对电影可能的感受。
情感计算的各种方法都存在缺陷,并且在现实环境中遇到了困难。许多识别路怒行为的研究都集中在诸如攻击性变道和车速等方面。一些研究人员使用车内摄像头来分析面部表情。研究人员指出,愤怒的人可以掩饰自己的情绪,使其不在脸上表现出来。
推进这项技术可能需要一个多模态系统,即一个整合面部表情、驾驶行为和声音的系统。
当汽车检测到愤怒情绪时会发生什么
设想这样一个未来:人工智能能够判定司机是否过于愤怒或者因其他原因而不适合驾驶。汽车如何处理这些信息仍然是个问题。有几种可能性。首先,人工智能可能会使汽车无法启动或者启动自动驾驶功能。
“开发用于自动驾驶的人工智能算法的关键目标之一是安全,”Hu说道,“人工智能的稳健性和可解释性仍然存在疑问。人工智能可能会利用收集到的所有可能的数据,判定司机‘过于’愤怒,但将使汽车无法启动这一操作交给人工智能意味着放弃控制权,这可能会对车内的司机造成伤害。问题仍然存在:对人工智能的信任程度如何,当人工智能出错时会有哪些法律后果?”
另一种可能性是这些信息可能会被报告给保险公司。
Hu说:“客户的接受程度取决于从这类保险产品中提供个人数据所获得的利益。不同司法管辖区的保险产品也应考虑到监管和伦理考量。”
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。