最新研究表明AI工具能悄无声息地改变我们的观点

大型语言模型——那些能对我们的提示给出类人回答的智能聊天机器人——会影响我们的观点吗？

《IEEE智能系统》杂志(https://www.computer.org/csdl/magazine/ex/2024/04/10614921/1Z0o7ydjYqc)中描述的一项实验表明，答案是肯定的。这项研究的影响对教师批改论文、员工评估以及许多其他可能影响我们生活的情况都有深远意义。

研究内容

该研究的设计重点关注两个著名的大型语言模型（LLM）提出的不同观点。每个大型语言模型都被要求对两篇不同的专利摘要按照1到10分的标准进行评估，重点关注可行性和颠覆性等特性。

研究作者将专利摘要以及大型语言模型给出的分数提供给不同组的研究生。每组学生只看到一个评分——要么是较高的评分，要么是较低的评分。在不知道其他组所看到内容的情况下，这些学生随后被要求自己对专利摘要进行评分。

看到大型语言模型给出较高评分（如“9”分）的组给出的评估分数比看到较低评分（如“4”分）的组要高。然而，他们并非只是照搬分数。相反，看到“9”分的组给出的平均评分约为7.5分，而看到“4”分的组给出的平均评分略高于5分。这表明，尽管大型语言模型的评分对他们产生了影响，但参与者仍然做出了自己的判断。

IEEE高级会员Ayesha Iqbal表示：“实验结果表明，人工智能工具能够影响决策任务，比如教师给学生的研究论文评分，或者企业评估员工、产品、软件以及其他知识成果时。如果不同的人工智能工具给出不同的评级，而人们又依赖这些评级，那么人们对同一个事物就可能给出不同的评价。这就引出了一个重要问题：我们是否想要偏向于人工智能的推荐呢？

我们应该何时使用人工智能来辅助形成判断？

专业人士使用大型语言模型（LLM）来协助完成诸如给论文评分或评估项目等任务的初稿是相当常见的做法。专业人士可能不会将大型语言模型的输出作为最终成果，但它们提供了一个有用且省时的起点。鉴于该研究中所描述的锚定效应，这是个好主意吗？

研究表明，与人类一样，大型语言模型会给出支持或反对某些观点的理由。依赖大型语言模型可能类似于与同伴合作。同时，大型语言模型往往具有一些特性，这些特性可能会使它们或多或少地有用。一些大型语言模型往往更乐观，给出的答案更长；其他的可能更悲观，给出的答案更短。

该研究的作者指出，教育工作者在做诸如批改论文之类的事情时可能仅使用一个大型语言模型以保持一致性，但在处理更复杂的任务（如评估商业项目）时可能会使用多个大型语言模型。

“在我们的个人和职业生活中，为人工智能的使用设定界限和限制是很重要的，”Iqbal说，“我们需要确定人工智能技术在何时何地是合适且有益的，并识别出需要人类判断和干预的情况。通过对技术使用和决策过程保持控制，可以避免对人工智能的过度依赖。”

来源：业界供稿

0赞

好文章，需要你的鼓励

最新研究表明AI工具能悄无声息地改变我们的观点

来源：业界供稿

2025

02/10

15:13

分享

点赞

IDC报告，深信服在2025年上半年位居中国超融合市场、中国全栈超融合市场第一

PTC 推出全新服务全生命周期管理 AI 解决方案，助力现场服务和服务供应链现代化

瑞典银行与政府联手加强国家网络安全防护体系

5个强大ChatGPT指令快速减轻工作压力

英伟达DGX Spark：小巧超算处理大模型的新选择

美中AI竞争升级：美国巨额交易对战中国开源策略

微软租用Nscale葡萄牙AI数据中心扩增算力

SAP调研显示：中国企业AI投资回报率将达34%

Oracle推出AI数据库26ai版本和自主AI湖仓平台

数字化转型共同主导效果更佳，但需要正确方式

沃尔玛与OpenAI合作推出ChatGPT智能购物功能

全球云市场接近千亿美元，新兴云服务商激增200%

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: