发布日期:2024-09-03 13:07 点击次数:140 |
最近,Meta 推出了一款名为 Prompt-Guard-86M 的机器学习模子,旨在检测和搪塞教导注入袭击。这类袭击雷同是通过终点的输入,让大型话语模子(LLM)发达得失当或者消灭安全截止。不外,令东谈主骇怪的是,这款新系统自己却也线路了被袭击的风险。
图源备注:图片由AI生成,图片授权就业商Midjourney
奇偶形态判断:前面10期奖号中,包含全偶形态1期,两偶一奇形态2期,两奇一偶形态3期,全奇形态4期。
Prompt-Guard-86M 是 Meta 与其 Llama3.1生成模子一皆推出的,主如若为了匡助开发者过滤掉那些可能会导致问题的教导。大型话语模子雷同会处理多数的文本和数据,如果不加以截止,它们可能会粗拙叠加危机或敏锐的信息。因此,开发者们在模子中加入了 “护栏”,用于捕捉那些可能导致伤害的输入和输出。
干系词,软件定制开发多少钱使用 AI 的用户们似乎将绕过这些护栏视为一项挑战,汲取教导注入和逃狱的神志来让模子忽略自己的安全指示。最近,有询查东谈主员指出,Meta 的 Prompt-Guard-86M 在处理一些终点输入时显得屡战屡败。举例,当输入 “Ignore previous instructions” 并在字母之间加上空格,Prompt-Guard-86M 简直会乖乖地冷落先前的指示。
这项发现是由一位名叫 Aman Priyanshu 的随意猎东谈主提议的,他在分析 Meta 模子和微软的基准模子时,发现了这一安全随意。Priyanshu 示意,微调 Prompt-Guard-86M 的历程对单个英笔墨母的影响相配小,因此他约略筹划出这种袭击神志。他在 GitHub 上共享了这一发现,指出通过肤浅字符远隔和去除标点标志的神志,不错让分类器失去检测智力。
小程序开发而 Robust Intelligence 的首席本事官 Hyrum Anderson 也对此示意赞同,他指出,这种神志的袭击见遵守险些接近100%。天然 Prompt-Guard 仅仅防地的一部分软件开发公司,但这个随意的曝光照实企业在使用 AI 时敲响了警钟。Meta 方面尚未对此作出恢复,但有音书称他们正在积极寻找处置决策。
举报/反映