为“代理式AI”装上“护栏” NVIDIA打造“三重防线” 原创

NVIDIA NeMo Guardrails平台上新增三项NIM 微服务,这些微服务专门针对 AI 安全和内容审核中的常见挑战,提供一系列实用的解决方案。

从自动化走向智能化,AI正以前所未有的方式释放其潜力,逐步转型为具备解决复杂问题能力的“知识机器人”,为全球数十亿知识工作者描绘了新的图景。

然而,这场技术革命的“B面”,隐含的“副作用”愈加难以预测。在提升全球生产力的同时,代理式AI所承载的责任和潜在风险正呈指数级增长。

如何确保这些智能体不偏离道德和规范的轨道,防止其输出有害或不当的结果,是对信任、物理安全、网络安全乃至社会责任感的全面考验。

当AI的“达摩克利斯之剑”悬于顶上,一场“信任危机”之战正缓缓开启。

为“代理式AI”装上“护栏”  NVIDIA打造“三重防线”

NVIDIA 打造“三重防线”铸造AI之“盾”

面对AI这把双刃剑,我们既要规避其锋芒,也要为其铸造“护盾”。而NVIDIA 正在构筑起应对这场“信任危机”的坚韧“护盾”——NVIDIA NeMo Guardrails。

NVIDIA NeMo Guardrails微服务并非简单的技术补丁,而是一个开源工具集,作为NVIDIA NeMo的重要组成部分,NVIDIA NeMo Guardrails可以为大语言模型(LLM)应用集成和管理AI护栏,确保AI在预设的安全参数内运行,避免失控和误用。

NVIDIA NeMo Guardrails的强大之处在于其可扩展性和灵活性。它不仅仅是一套固定的规则,而是一个能够编排多重“AI护栏”的平台,涵盖内容安全、主题控制、PII检测、RAG执行和越狱预防等关键领域。

借助Colang和LangChain等工具,NVIDIA NeMo Guardrails能够灵活地定义对话流程,并与各种LLM和框架无缝兼容。这种模块化、易于实施的架构,为构建安全、可靠和高度定制化的人工智能应用提供了有力支撑,无论是支持 RAG 的AI代理、智能副驾驶还是聊天机器人,都能从中获益。

为“代理式AI”装上“护栏”  NVIDIA打造“三重防线”

截取自:NVIDIA博客

为了帮助企业在代理式AI在大规模运行时受控,NVIDIA最近宣布在其 NVIDIA NeMo Guardrails平台上新增三项NIM 微服务,这些微服务专门针对 AI 安全和内容审核中的常见挑战,提供一系列实用的解决方案。

其中,内容安全NIM微服务可以在AI响应之前,对其内容进行审核,检测是否存在潜在的有害信息。这项服务有助于防止AI生成有偏见或有害的输出结果, 确保回答符合道德标准。

话题控制NIM微服务旨在确保聊天内容保持在预先设定的话题范围内。这意味着,聊天机器人能够更有效地引导用户在特定话题上进行交流,避免偏离原定主题,提高沟通的有效性。

越狱检测NIM微服务则用于识别和阻止用户尝试绕过AI安全特性的行为,增加对越狱企图的防护, 同时确保在对抗性场景中保持 AI的完整性。

尤其值得一提的是,内容安全NIM微服务背后,是NVIDIA精心打造的Aegis内容安全数据集。这款人工标注数据集,包含了超过35000个样本,针对AI安全和越狱企图进行了精准标记,为内容安全微服务的训练提供了坚实的基础。

“这是同类数据集中质量最高的数据源之一。”NVIDIA企业AI模型、软件与服务副总裁Kari Briski这样说。

面对人工智能的前沿——“代理式AI”的应用。NVIDIA 方面表示,由于“一刀切”的方法无法有效保护和控制复杂的代理式AI工作流, 通过应用多个轻量级专业模型作为护栏, 开发者可以弥补在只采取较为通用的全局策略和保护措施时可能出现的漏洞。开发者可以使用NIM微服务构建更加安全、可信的代理式AI。并部署在汽车、金融、医疗、制造、零售等行业的客户服务中, 提高客户的满意度和信任度。

值得强调的是,NVIDIA NeMo Guardrails能以最小的延迟提升系统保障能力。实验表明,即使增加到5个护栏,延迟也仅增加约 0.5 秒(从 0.75 秒到 1.25 秒),而合规性却显著提升了50%(从 1X 到 1.5X)。相比之下,仅增加1个护栏就会导致0.25秒的延迟增加(从0.75秒到1秒),合规性仅提升10%。这突显了NeMo Guardrails在保障系统性能的同时,有效提高安全性和合规性的“性价比”。

然而,仅仅拥有强大的“护盾”还不够,还需要能够发现潜在威胁的“侦察兵”。

NVIDIA 深谙此道。因此,NVIDIA Research团队开发了开源套件NVIDIA Garak,用于LLM和应用漏洞扫描。

借助NVIDIA Garak,开发者可以通过评估数据泄露、提示注入、代码幻觉、越狱场景等问题,排查隐藏的漏洞,及时发现并解决使用LLM的系统中所存在的潜在漏洞。通过生成不当或不正确输出结果的测试用例,使开发者更有效地发现并解决AI模型中的潜在弱点,从而提高模型的稳健性与安全性,防患于未然。

行业巨头“抢装” NVIDIA NeMo Guardrails

这场“信任危机”的终结之战,并非孤军奋战。众多行业领导者和合作伙伴已经率先行动,通过将NVIDIA NeMo Guardrails 融入到其AI战略中,共同构筑“可信 AI”的未来。

全球领先的传媒企业软件与服务提供商Amdocs,是先行者之一。目前,Amdocs已经将NVIDIA NeMo Guardrails 集成到 amAIz 平台,以增强该平台的‘可信AI’体验的安全性、可靠性和可扩展性。

在汽车领域,Cerence AI 选择将 NVIDIA NeMo Guardrails 应用于其车载系统,确保了其CaLLM语言模型能够准确理解情境,有效过滤不当内容,同时为汽车制造商提供定制化的内容安全保障。

家居装饰零售商巨头劳氏公司(Lowe’s)也将NVIDIA NeMo Guardrails应用于客户服务创新。这一技术的加入显著提升了AI回答的安全性和准确性,让他们能够为客户提供更专业、更可靠的服务支持。持续提升客户服务体验。

值得注意的是,对于劳氏公司等零售商而言,还可以通过NVIDIA 在NRF展会上宣布推出的建立在NVIDIA AI Enterprise 和 NVIDIA Omniverse平台上的“零售购物助理” AI Blueprint,打造出人工智能驱动的数字助理,提高客户满意度和生产力。目前,该“零售购物助理” AI Blueprint也整合了NeMo Guardrails微服务,旨在为数字购物创造更加可靠、可控的客户交互。

咨询行业的领军企业Taskus、Tech Mahindra和Wipro也纷纷将NeMo Guardrails集成到其解决方案中,为企业客户提供更加安全、可靠、可控的生成式AI应用。

事实上,凭借其领先的开放性和可扩展性,NVIDIA NeMo Guardrails构建了一个强大的生态系统,与ActiveFence、Hive、Fiddler、Weights & Biases等领先的AI安全模型、防护提供商和开发工具深度集成,共同应对AI安全领域的各种挑战。

对于开发者而言,也可以通过 NeMo Guardrails 开源社区,通过编排多项AI软件策略( rail)提高LLM 应用的安全性和可控性。NVIDIA方面称,rail与 NVIDIA NIM微服务一同组成了一个强大的AI系统构建框架,可在不影响安全和性能的情况下进行大规模部署。

目前,NVIDIA NeMo Guardrails微服务以及用于编排rail 的NVIDIA NeMo Guardrails和NVIDIA Garak套件已向开发者和企业开放。开发者可按照官网的教程使用NVIDIA NeMo Guardrails。

写在最后

康德在《纯粹理性批判》强调理性的界限。对比来看,AI作为生产力的新形态,其发展也存在界限,其体现在推动社会进步的“正题”和潜在风险的“反题”之间。

NVIDIA NeMo Guardrails正为AI勾勒出运行的边界,让AI即可以最大限度地发挥其能动性,同时不会逾越伦理与安全的红线。同时,NVIDIA通过构建“三重防线”,帮助行业更好驾驭AI,在保障安全的前提下最大程度释放AI的潜力和价值。

如今的AI,正在逐渐在自由与约束之间找到平衡点。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2025

01/20

11:42

分享

点赞

邮件订阅