《IEEE智能系统》杂志(https://www.computer.org/csdl/magazine/ex/2024/04/10614921/1Z0o7ydjYqc)中描述的一项实验表明,答案是肯定的。这项研究的影响对教师批改论文、员工评估以及许多其他可能影响我们生活的情况都有深远意义。
研究内容
该研究的设计重点关注两个著名的大型语言模型(LLM)提出的不同观点。每个大型语言模型都被要求对两篇不同的专利摘要按照1到10分的标准进行评估,重点关注可行性和颠覆性等特性。
研究作者将专利摘要以及大型语言模型给出的分数提供给不同组的研究生。每组学生只看到一个评分——要么是较高的评分,要么是较低的评分。在不知道其他组所看到内容的情况下,这些学生随后被要求自己对专利摘要进行评分。
看到大型语言模型给出较高评分(如“9”分)的组给出的评估分数比看到较低评分(如“4”分)的组要高。然而,他们并非只是照搬分数。相反,看到“9”分的组给出的平均评分约为7.5分,而看到“4”分的组给出的平均评分略高于5分。这表明,尽管大型语言模型的评分对他们产生了影响,但参与者仍然做出了自己的判断。
IEEE高级会员Ayesha Iqbal表示:“实验结果表明,人工智能工具能够影响决策任务,比如教师给学生的研究论文评分,或者企业评估员工、产品、软件以及其他知识成果时。如果不同的人工智能工具给出不同的评级,而人们又依赖这些评级,那么人们对同一个事物就可能给出不同的评价。这就引出了一个重要问题:我们是否想要偏向于人工智能的推荐呢?
我们应该何时使用人工智能来辅助形成判断?
专业人士使用大型语言模型(LLM)来协助完成诸如给论文评分或评估项目等任务的初稿是相当常见的做法。专业人士可能不会将大型语言模型的输出作为最终成果,但它们提供了一个有用且省时的起点。鉴于该研究中所描述的锚定效应,这是个好主意吗?
研究表明,与人类一样,大型语言模型会给出支持或反对某些观点的理由。依赖大型语言模型可能类似于与同伴合作。同时,大型语言模型往往具有一些特性,这些特性可能会使它们或多或少地有用。一些大型语言模型往往更乐观,给出的答案更长;其他的可能更悲观,给出的答案更短。
该研究的作者指出,教育工作者在做诸如批改论文之类的事情时可能仅使用一个大型语言模型以保持一致性,但在处理更复杂的任务(如评估商业项目)时可能会使用多个大型语言模型。
“在我们的个人和职业生活中,为人工智能的使用设定界限和限制是很重要的,”Iqbal说,“我们需要确定人工智能技术在何时何地是合适且有益的,并识别出需要人类判断和干预的情况。通过对技术使用和决策过程保持控制,可以避免对人工智能的过度依赖。”
好文章,需要你的鼓励
瑞典央行与金融机构及国家安全部门深化合作,共同应对网络威胁。今年5月,瑞典遭遇大规模分布式拒绝服务攻击,政府和金融机构受到严重冲击。总理克里斯特松承诺增加资金支持,建立更强大的公私合作伙伴关系。央行将举办第二届在线网络安全挑战峰会,鼓励金融机构提升网络安全能力。瑞典金融协会敦促建立危机管理机制,与国家网络安全中心等机构协调配合。
字节跳动发布Seedream 4.0多模态图像生成系统,实现超10倍速度提升,1.4秒可生成2K高清图片。该系统采用创新的扩散变换器架构,统一支持文字生成图像、图像编辑和多图合成功能,在两大国际竞技场排行榜均获第一名,支持4K分辨率输出,已集成至豆包、剪映等平台,为内容创作带来革命性突破。
工作压力源于大脑储存混乱而非系统。本文介绍5个ChatGPT提示词,帮你将工作压力转化为结构化行动:优先级排序任务清单、快速撰写专业邮件回复、从冗长文档中提取关键信息、生成问题解决方案、高效准备会议内容。通过系统化处理工作事务,将分散的精力转为专注执行,让大脑专注于决策而非重复劳动。
红帽公司研究团队提出危险感知系统卡(HASC)框架,为AI系统建立类似"体检报告"的透明度文档,记录安全风险、防护措施和问题修复历史。同时引入ASH识别码系统,为AI安全问题建立统一标识。该框架支持自动生成和持续更新,与ISO/IEC 42001标准兼容,旨在平衡透明度与商业竞争,建立更可信的AI生态系统,推动行业协作和标准化。