如果你听说过深度伪造(deepfakes),即人们做着从未做过的事或者说着从未说过的话的高度逼真视频,你可能会认为这是一种可疑的技术发展成果。例如,它们可能被用于高级网络钓鱼诈骗中来冒充企业高管,在这类诈骗中,虚假语音邮件被用来向员工索要紧急资金。深度伪造技术逐渐进入我们的生活,在带来惊喜和便利的同时,也暴露出一系列风险隐患,饱受争议。
它们的存在引发了大量识别它们的方法的研究。
但深度伪造并非一无是处。事实上,它们可以被用于有益的用途。
它们可以让跨国企业的高管用员工的母语传达信息,实时翻译演讲内容并且口型与所说的话相匹配。它们被用于创建逼真的模拟场景以促进员工发展,或者让历史人物重现生机,从而让学校里的复杂话题更通俗易懂。
为何研究人员需要“有益的”深度伪造技术
医学领域是有益的深度伪造技术的最大使用者之一。这些深度伪造技术通常被用于为机器学习程序创建额外的训练数据。例如,当研究人员训练人工智能(AI)在诸如磁共振成像(MRI)或X射线等医学影像中检测某些类型的癌症时,他们可能会使用深度伪造技术来为其数据集添加更多影像。
这是必要的,因为许多数据集规模较小或者不完整。训练人工智能模型需要对细节一丝不苟,需要大量的人工干预来标记数据集的某些特征。有时,扫描结果标记不正确或者标记不一致,因为不同的人使用了不同的标准。这些问题可能会使人工智能模型更难以准确学习。生成合成数据有助于克服这些挑战,不过合成数据的质量也必须得到仔细监控。
制作深度伪造(作品)变得更容易了
IEEE高级会员Vivekanandhan Muthulingam表示:“虽然多年来制作深度伪造(作品)的技术变得更容易获取了,但这仍然需要一定水平的专业知识。”
Muthulingam说:“现在有一些用户友好型的工具和应用程序可供使用,这些工具和应用程序让个人在没有广泛编程知识的情况下就可以尝试制作深度伪造(作品)。然而,要获得高质量的成果仍然需要对机器学习原理和视频编辑有更深入的理解。”
制作这些深度伪造(作品)的人也需要了解相关的主题内容。
IEEE会士Houbing Song说:“要制作‘有益的’深度伪造(作品),既需要人工智能知识,也需要专业领域知识。”
伦理考量
专家警告说,仅仅因为深度伪造是出于善意目的而创建的,并不能免除伦理责任。负责任地使用它们意味着要诚实,并设置保护措施以支持学习和创新,同时又不危及信任或安全。在训练数据方面可能也存在伦理考量,这些数据可能涉及版权或知识产权主张,或者是因为担心将患者信息用于训练数据。
也可能存在一些灰色地带,在这些地带深度伪造的价值并非一目了然。
Song说:“一个深度伪造作品是好是坏将取决于其益处与社会期望的契合程度。从长远来看,如果我们善用深度伪造技术,那么该技术的益处将超过风险。”
好文章,需要你的鼓励
本文探讨了一种防范通用人工智能(AGI)和人工超级智能(ASI)存在性风险的方法:将它们置于计算机仿真世界中进行测试。虽然这种方法看似合理,但存在诸多挑战。AGI可能会隐藏恶意行为,或因被欺骗而转向恶意。此外,仿真环境可能无法完全模拟真实世界,导致测试结果不准确。构建高质量仿真系统的成本和技术难度也不容忽视。文章认为,仿真测试虽有价值,但并非万能解决方案。
这项研究关注语音中的句子强调(即说话时对特定词的重音),它能传达说话者的潜在意图。耶路撒冷希伯来大学的研究团队发现,尽管现代语音语言模型进步显著,它们在理解句子强调方面表现不佳。团队创建了StressTest基准测试和Stress-17k合成数据集,并开发了StresSLM模型,使强调理解能力大幅提升。研究表明,通过特定训练策略,可以让AI不仅理解"说了什么",还能理解"怎么说的",从而捕捉人类交流中的微妙含义。
尽管AI在围棋等复杂游戏中表现出色,但在简单的井字棋游戏中却屡屡失败。研究显示,AI代理在模拟商业环境中的表现同样令人失望,经常出现幻觉、欺骗和任务未完成等问题。游戏测试为评估AI能力提供了直观方式,帮助普通用户理解AI的真实水平。面对当前AI行业的过度宣传,通过游戏化测试揭示AI的实际局限性,对于防范AI泡沫具有重要意义。
ViStoryBench是一个全面的故事可视化评估基准,由StepFun团队打造,用于测试AI将文字故事转化为连贯图像序列的能力。它包含80个多样化故事和344个角色参考,评估包括角色一致性、提示遵循度等多个维度。研究测试了20多种方法,发现UNO在开源方法中表现最佳,而商业软件如豆包和GPT-4o在提示一致性方面表现突出。该基准为故事可视化研究提供了统一标准,推动这一领域的创新发展。