作者:Arvind Krishna,IBM 董事长兼首席执行官
(2023年9月27日)人工智能(AI)不仅影响深远,且事关重大。预计到2030年,AI将提升人类生产力,带来高达16万亿美元的巨大价值。AI不仅可以推动整体经济和GDP的大幅增长,还将为那些善用AI的个人和组织带来前所未有的竞争优势。不仅如此,AI还可以帮助人类应对和解决诸如研发新药、改善制造业及食品生产效率、应对气候变化等最为紧迫的挑战。
然而,如所有强大技术一样,AI也伴随着潜在的滥用和风险可能。如果无法负责任地部署AI,就有可能产生不利的现实后果——尤其是在一些敏感和安全至上的领域。这是我们必须要克服的严峻挑战,也是我们此刻敦促制定政策的领导者要即刻着手制定智慧的监管政策的原因。在 IBM,我们相信,智慧的监管应该基于三个核心原则:
#1 需要监管的是AI风险,而不是算法
我们应该规范AI的高风险使用。并非所有AI的使用都具有相同水平的风险,一些AI使用看起来似乎无害,另一些则可能产生深远的后果,譬如传播错误信息、在贷款决策中引入偏见,或者损害选举的公正性。由于每个AI应用都是独一无二的,我们坚信监管必须考虑到AI部署的环境,并且必须确保AI的高风险使用受到更加严格的监管。事实证明,智慧、精确的监管是行之有效的。
#2 要让AI的构建者和部署者担责而不是免责
我们应该让构建和部署AI的人承担责任。尽管监管部门发挥着重要作用,但其他相关方也必须承担责任。立法应考虑AI构建者和部署者的不同角色,并要求他们在开发或部署AI的背景下承担相应责任。例如,使用AI进行就业决策的公司不能要求豁免就业歧视的指控。同样,如果软件开发人员构建了一款促进欺诈活动的金融算法,他们就应该对其可能造成的潜在危害负责。让我们从以往开发和应用新兴技术的错误中吸取教训,并且在创新和责任之间找到恰当的平衡。
#3 要支持开放式AI创新,而不是AI许可制度
我们不应该为AI建立许可制度。AI许可制度将对开放式创新造成严重打击,并有可能催生一种左右监管的做法。这无意中将会增加成本,阻碍创新,使规模较小的参与者和开源的开发人员处于不利地位,并且巩固少数参与者的市场影响力。相反,AI应该由多数人而不是由少数人且为少数人而构建。一个充满活力的开放式AI生态系统有利于竞争、创新、技能和安全,也保证了AI模型的构建代表不同声音和具有包容性。
IBM 坚持倡导和推进负责任的 AI
一个多世纪以来,IBM 一直站在负责任地引入突破性技术的最前沿。这意味着我们不会在没有充分了解其后果、且能够提供必要的护栏和确保有恰当的问责制的情况下,向公众发布相关技术。相反,我们认为,解决这些创新带来的问题与创新本身同样重要。
我们对于可信和负责任的 AI 的承诺,体现在我们构建和部署 AI 模型的方法当中。AI 模型本质上反映了支撑该模型的数据,这就是为什么 IBM 要采用具有整体性的平台方法,让AI 构建者能够部署可信且负责任的 AI。我们的 watsonx 平台可以确保贯穿整个 AI 生命周期的各个层面和环节的治理——从数据摄取到模型开发、部署和监控,帮助企业部署可信、负责和可靠的 AI。
平衡创新与责任信任的关系
AI浪潮能够且应该载舟。在IBM,我们敦促相关部门采取并实施具有一致性的智慧监管,使大大小小的企业和社会各界都能从当下的AI浪潮当中受益,同时需要解决潜在的滥用与风险问题。IBM 已经做好准备——我们致力在促进负责任的 AI 方面发挥关键性作用,并为构建一个让所有人都可信赖的AI未来做出我们应有的贡献!
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。