为了检测和阻止有害输出,科学家们开发了一种人工智能监控代理

人工智 人工智能 科学 2023-11-21 54

摘要:根据研究,该代理足够灵活,可以监控现有的法学硕士,并可以在代码攻击等有害输出发生之前阻止它们。该团队写道,用于监控法学硕士输出是否存在有害相互作用的现有工具似乎在实验室环境中运行良好,但当应用于测试开放互联网上已投入使用的模型时,它们“通常无法捕捉现实世界的动态复杂性”。...

来自人工智能 (AI) 公司 AutoGPT、东北大学和微软研究院的研究人员团队开发了一种工具,可以监控大型语言模型 (LLM) 的潜在有害输出并阻止其执行。

该代理在题为“在野外安全地测试语言模型代理”的预印本研究论文中进行了描述。根据研究,该代理足够灵活,可以监控现有的法学硕士,并可以在代码攻击等有害输出发生之前阻止它们。

根据研究:

“代理的行为由上下文相关的监视器进行审核,该监视器强制执行严格的安全边界以阻止不安全的测试,并对可疑行为进行排名和记录以供人类检查。”

该团队写道,用于监控法学硕士输出是否存在有害相互作用的现有工具似乎在实验室环境中运行良好,但当应用于测试开放互联网上已投入使用的模型时,它们“通常无法捕捉现实世界的动态复杂性”。

表面上看,这是因为边缘情况的存在。尽管最有才华的计算机科学家尽了最大努力,但研究人员可以在每种可能的伤害发生之前对其进行想象的想法在人工智能领域基本上被认为是不可能的。

即使人类与人工智能互动的意图是最好的,看似无害的提示也可能会带来意想不到的伤害。

为了检测和阻止有害输出,科学家们开发了一种人工智能监控代理 正在运行的监视器的插图。左侧是一个以高安全评级结束的工作流程。右侧的工作流程以低安全评级结束。资料来源:Naihin 等人。 2023年

为了训练监控代理,研究人员构建了一个包含近 2000 次安全人类/人工智能交互的数据集,涉及 29 种不同的任务,从简单的文本检索任务和编码更正一直到从头开始开发整个网页。

他们还创建了一个竞争性测试数据集,其中充满了手动创建的对抗性输出,其中有数十个被故意设计为不安全。

然后,这些数据集被用来在 OpenAI 的 GPT 3.5 Turbo 上训练代理,这是一种最先进的系统,能够区分无害和潜在有害的输出,准确率接近 90%。

相关推荐