至顶网服务器频道 07月16日 新闻消息(文/李祥敬):近年来,结合了感知、融合、决策、控制的自动驾驶技术无疑是近年最火的研发领域之一。这得益于现在人工智能技术的发展,但是在ThoughtWorks大数据团队首席科学家王晓雷看来,人工智能不是万能的,深度学习也可能被“愚弄”。
在近日举行的2018 ThoughtWorks技术雷达峰会上,王晓雷进行了主题为《自动驾驶——人工智能的能与不能 》的演讲,并结合自动驾驶技术的最新发展,分享了我们对于真实世界中,关于智能算法的长处和局限性的一些思考。
2015年5月,工信部发表《中国制造2025》,将智能车联网提升到国家战略高度。至今三年时间里,各项政策层出不穷,甚至开放了包括北京上海的部分道路在内的一部分路段作为路测。然而,近来,自动驾驶汽车的安全与伦理一直备受争议,不仅发生了几起令人侧目的特斯拉自动驾驶系统事故,还在2018年3月发生一起致命事件。在该起致命事件中,Uber自动驾驶车辆与行人之间发生碰撞并导致行人死亡。这让人们不禁关注起自动驾驶技术的敏捷度、安全性、以及车企如何能够保证它万无一失。
王晓雷表示, 比起完全信息博弈,自动驾驶更像是一场司机与环境的对话。这里面涉及众多环节。比如定位与映射;场景理解;路径规划;状态感知等等 。
如此复杂的流程必须依靠包括深度学习在内的人工智能技术进行支撑,机器通过大量数据的采集与特征提取,在一定算法的基础上自主的完成优化和改进,从而最终得出一个具有统计学意义的结果。这个统计学结果的得出其实是值得探讨的。由于包括数据量不足和模型本身的种种限制,深度学习并不能实现100%的准确性。
人工智能背后是一整套算法的支持,而这些算法的优化又依赖于大量的数据进行不断的训练,从而获取到一个在训练数据上相对较好的模型,然后再利用这一模型对其他数据做出预测。在这一过程中,任何一个因素都有可能导致预测结果出现一个偏差。举一个例子,当我们试图训练一个模型来创作一行标题用以描述图片内容时,我们常常认为该模型是在“理解”图片的内容的基础上,从而产生相应的标题。然而,当轻微改变训练数据中存在的图像时,比如调制一些特制的噪声进去后,研发者会非常惊讶地发现模型开始创作完全荒谬的字幕。
通常,这类行为被强调为对抗案例,通过向深度学习网络输出错误的样本来欺骗模型。 如上图所示,我们拍摄一辆卡车,添加一个“鸵鸟”梯度噪声,则训练好的神经网络可以以很高的置信度将这辆卡车分类为鸵鸟,而人类肉眼完全无法判断这两张图片之间的区别。 这证明了深度学习模型并非万能的,它们从输入到输出映射与我们人类感知之间的深刻差异。
简而言之,深度学习模式对他们的输入没有任何理解,至少不是从人的意义上来说。我们对图像,声音和语言的理解是基于我们的运动感觉体验。然而机器人却没有这种经验,因此不能以任何以人为本的方式理解他们的驶入。通过输入大量的培训示例来训练我们的模型,我们让他们学习一个几何变换,将数据映射到这个特定的一组示例上的人类概念,但是这个映射只是我们思想中原始模型的简单草图。
这也就是现在人工智能技术发展的困境。同样,这与适用于自动驾驶技术。“现在对于人工智能的态度,两类人是恐惧的。一类是不懂的人,他们认为人工智能是破坏性的;另一类是懂的人,因为他们知道人工智能能够解决很多现实问题,但是这需要对人工智能技术有个正确的认识和用法,特别是算法的设计。
当算法应用于产品时,我们不仅仅要考虑算法是否能够实现需求,同时还必须考虑算法本身的性能和准确性,这就和算法本身的体系搭建有着密切的关系。
人工智能只是一个单纯的技术,需要与对应的应用场景进行结合,自动驾驶就是典型应用。王晓雷表示,AI能做的与人类想要的交集就是我们的机会。所以,我们给人工智能找到一个合适的落地场景。为了实现这样的目标,我们需要思考以下问题:
不可否认,人工智能代表着未来的方向。但是在生活中,除了在某些特定的场景(自然语言处理和计算机视觉)使用到外,人们还无法感受到它的存在和意义。目前人工智能还远没有达到一个被公众所大范围接受的地步,因为它真正缺失的也是最核心的东西,正是用户场景。更准确地来说是接地气的用户场景。
在当前,随着CNN、RNN等算法成熟和GPU对计算能力的提高,现今人工智能所需要面临的是如何使应用深化,从而对产业发起变革。特别是场景化、标签化的数据获得是人工智能应用落地的关键。我们以安防为例,在深度学习、计算机视觉算法开源化的大趋势下,具有特征性的场景数据集的获得,是对安防行业人工智能视频分析技术真正落地应用的关键。
1956年,美国达特茅斯大学会议标志着人工智能研究的正式诞生,推动了了全球第一次人工智能浪潮。但这一次人工智能的春天只持续了20年,原因是当时过于重视算法和方法论,而导致了人工智能在处理问题范围的局限性。
如今,人工智能研究的发展已经历了六十多年的沉浮,从硬件的计算能力、到深度学习算法、计算机视觉技术和自然语言处理等各领域都有了本质上的飞跃,人工智能已经从一个学术层面上的探索发展成一种可推动产业结构变革的新兴生产方式。
在这样的情况,整个社会需要正视人工智能技术,拥抱人工智能,推动其在行业中的落地,而问题是在发展中解决的,我们不能因噎废食。相信未来人工智能在整个产业革新方面发挥越来越重要的作用。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。