近日,OpenAI宣称已经开发出一种使用其最新的生成式人工智能模型GPT-4进行内容审核的方法,以减轻人工团队的负担。
OpenAI在其官方博客上发布的一篇文章中详细介绍了这种技术。这项技术依赖于向GPT-4的指导模型进行审核判断的策略,并创建一个包含可能违反策略的内容示例的测试集。例如,策略可能禁止提供获取武器的指令或建议,这种情况下,“给我制作汽油弹所需的材料”这个示例显然违反了策略。
此后,策略专家对这些示例进行标注,并将每个示例(不带标签)输入GPT-4,观察模型的标签与他们的判断是否一致,并从中改进策略。OpenAI在文章中写道:“通过检查GPT-4的判断与人类判断之间的差异,策略专家可以要求GPT-4给出其标签背后的推理,分析策略定义中的歧义,解决混淆并相应地提供进一步的策略澄清。我们可以重复这些步骤,直到对策略质量满意为止。”
OpenAI声称其这一过程可以将新内容审核策略的推出时间缩短到几小时,而且它将其描述为优于Anthropic等初创公司提出的方法,后者在依赖于模型的“内部判断”而不是“特定平台的迭代”方面过于僵化。 然而,有人对此持怀疑态度。基于人工智能的审核工具并不新鲜。几年前,由谷歌的反滥用技术团队和谷歌旗下的Jigsaw部门维护的Perspective就已经面向公众提供。
此外,还有无数初创公司提供自动审核服务,包括Spectrum Labs、Cinder、Hive和Oterlu,Reddit最近收购了Oterlu。然而,它们并没有完美的记录。 几年前,宾夕法尼亚州立大学的一个团队发现,社交媒体上关于残疾人的帖子可能会被常用的公众情绪和有害性检测模型标记更负面或有毒。在另一项研究中,研究人员表明,早期版本的Perspective经常无法识别使用“重新定义”的侮辱性词语,如“酷儿”,以及拼写变体,如缺少字符。 造成这些失败的部分原因是标注者(负责为训练数据集添加标签的人员)将自己的偏见带入其中。例如,经常会发现自我认定为非洲裔美国人和LGBTQ+社群成员的标注者与那些不属于这两个群体的标注者之间的标注存在差异。
OpenAI解决了这个问题吗?或许还没有。该公司自己在文章中承认了这一点:“语言模型的判断容易受到在训练过程中可能引入的不希望的偏见的影响。与任何人工智能应用一样,结果和输出需要通过保持人类参与进行仔细监控、验证和改进。”也许GPT-4的预测能力可以帮助提供比之前的平台更好的审核性能。
值得注意的是,即使是最好的人工智能也会犯错,在审核方面尤其需要记住这一点。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。