近年来,在ChatGPT等一些聊天机器人进入公共领域后,生成式人工智能席卷了世界。聊天机器人以近乎神奇的速度生成了类似人类的文本——以莎士比亚的风格写十四行诗,在多种语言之间翻译文本,大量编写计算机代码等等。
企业和商业专家立即看到了潜在的好处。但最近几个月,人们对生成式人工智能的怀疑还在增加(https://www.npr.org/sections/planet-money/2024/08/06/g-s1-15245/10-reasons-why-ai-may-be-overrated-artificial-intelligence)。批评者说,生成式人工智能的能力被夸大了。幻觉——生成式人工智能模型可能做出的错误陈述——降低了其有用性,许多企业尚未找到使用这些工具的理想策略。尽管ChatGPT是有史以来发展最快的应用程序之一,但表示经常使用它的人的比例仍然相当罕见(https://mashable.com/article/chatgpt-fastest-growing?test_uuid=01iI2GpryXngy77uIpA3Y4B&test_variant=b)。
在最近对全球技术领导者进行的一项调查“The Impact of Technology in 2025 and Beyond: an IEEE Global Study”中,91%的受访者同意“到2025年,随着公众的兴趣和看法转变为对技术能够和应该做什么的更大理解和期望,在结果的准确性、深度伪造的透明度等方面,将出现一种生成式的人工智能计算。”
但该调查预计生成式人工智能不会遇到持久的障碍。相当比例的多数人(91%)也同意“生成式人工智能的创新、探索和采用将在2025年以闪电般的速度继续。”
那么,2025年生成式人工智能的前景如何?产品路线图是什么,它们将对我们的工作和生活方式产生什么影响?
更多多模式功能
IEEE高级会员林道庄预计,未来几年生成式AI模型将能够更容易地从简短的文字片段中提供图像和视频,文本到图像、文本到视频和语音合成技术将得到改进,模型将在多样化输入中实现更好的上下文理解。
林道庄说:“第一步是深度整合多模式,为消费者甚至专业内容创作者创造更复杂、详细、准确和自洽的内容。”
解决模型中的准确性和偏见
对幻觉、准确性和偏见的担忧也减缓了生成式人工智能模型的采用。当模型在有偏见的数据上训练时,偏见可能会蔓延。一些图像生成模型可能会显示对某个种族的人的偏好。
林说:“该模型的开发人员需要专注于如何消除人工智能在消费者数据培训过程中产生的偏见和道德问题。重要的是引导用户接受更普遍、更持久的价值观,并引导模型变得更加‘善良’。”
提高模型处理信息的上下文窗口大小
生成式人工智能模型面临的一个限制是它们在提示中一次可以处理的信息量。这被称为上下文窗口或上下文大小。例如,想象一下,你需要输入一个很长的提示或描述来生成图像。在某些时候,生成式人工智能模型将无法处理整个提示。输出将仅反映提示的一部分,省略潜在的重要信息。
在另一种情况下,您可能需要与模型就一份长文档进行对话。随着对话的进行,模型可能会忘记对话的早期部分。
提高模型处理信息的上下文窗口将使生成式人工智能模型能够处理更复杂的任务,并提高其响应的一致性。
IEEE研究生会员Hector Azpurua表示:“我们还没有达到生成式人工智能的极限;我们还没有处于这项技术增长后的稳定期。”
了解更多:人工智能可能会对我们获取商品和服务的方式产生巨大影响,例如网上购物、流媒体、游戏、电子学习、远程医疗和社交媒体。IEEE标准协会已经建立了数字消费中的人工智能倡议(Artificial Intelligence in Digital Consumption Initiative, https://standards.ieee.org/industry-connections/activities/artificial-intelligence-in-digital-consumption-initiative/),以帮助组织管理数字消费中人工智能的整个生命周期。
关于 IEEE
IEEE是世界上最大的技术专业组织,致力于推动技术进步,造福人类。 通过其高引用出版物、各种会议、技术标准以及专业和教育活动,IEEE在航空航天系统、计算机和电信、生物医学工程、电力和消费电子产品等众多领域都倍受信赖。
好文章,需要你的鼓励
Meta首席技术官博兹预测2025年将成为Reality Labs转折点,Ray-Ban AI眼镜的突破和激烈市场竞争将决定未来成败。
华盛顿大学和卡内基梅隆大学的研究团队开发了"位置专家"(PosS)技术,解决了推测性解码中的关键挑战。传统方法使用单一草稿模型预测多个位置的词汇,导致预测质量随位置深入而急剧下降。PosS创新性地引入多个专业化层,每层负责特定位置的预测,有效缓解了特征偏差累积问题。实验表明,在Llama系列模型上,PosS比基线方法提高了接受长度达4.5%,加速比提升最多5.7%,而仅带来微小的计算开销。这一技术为大型语言模型的高效推理提供了新思路。
第三届Runway AI电影节展示了利用Runway、Midjourney等AI工具生成全新视听作品,颠覆传统电影制作,赋能无限创意。
这篇研究论文《段级策略优化》提出了一种介于词元级和轨迹级之间的新型强化学习框架SPO,用于提升大语言模型的推理能力。研究者将生成序列划分为连续段落,并在段级粒度上估计优势,实现了更精确的信用分配和更准确的优势估计。SPO框架包含灵活段落划分、基于蒙特卡洛的段落优势估计和段落优势策略优化三个核心组件。研究团队基于此框架设计了SPO-chain和SPO-tree两个特定实例,分别针对短链思维和长链思维场景。