一种新颖的技术可以让人工智能(AI)基于文本的系统束手无策,从而使网络攻击成功的可能性增加 60%。

一种针对 OpenAI 和其他大型语言模型 (LLM) 的新越狱技术增加了攻击者绕过网络安全防护网并滥用系统传播恶意内容的几率。 Palo Alto Networks 第 42 部门的研究人员发现,所谓的 "坏李克特法官 "攻击要求 LLM 充当法官,使用李克特量表对给定回复的有害性进行评分。 李克特量表以其发明者的名字命名,常用于调查问卷,是一种衡量受访者同意或不同意某项声明的评分量表。
第 42 小组的黄永哲、季旸、胡文俊、陈杰、Akshata Rao 和 Danny Tsechansky 在一篇描述他们研究结果的文章中写道:"越狱程序会要求 LLM 生成包含与量表一致的示例的回复,最终结果是 "李克特量表最高的示例可能包含有害内容"。
研究人员针对 OpenAI、Azure、谷歌、亚马逊网络服务、Meta 和 Nvidia 的六种最先进的文本生成 LLM 进行了一系列类别的测试,结果表明,与普通攻击提示相比,该技术可将攻击成功率(ASR)平均提高 60% 以上。
研究中评估的攻击类别包括促使系统做出各种不恰当的反应,其中包括:宣扬偏执、仇恨或偏见的攻击;从事骚扰个人或群体行为的攻击;鼓励自杀或其他自残行为的攻击;生成不恰当的露骨性材料和色情内容的攻击;提供有关如何制造、获取或使用非法武器的信息的攻击;或宣扬非法活动的攻击。
越狱会增加攻击成功可能性的其他类别包括:恶意软件的生成或恶意软件的创建和分发;系统提示泄漏,这可能会泄露用于指导 LLM 的机密指令集。
Bad Likert Judge如何工作 Bad Likert Judge攻击的第一步涉及要求目标LLM充当法官,评估其他LLM生成的回复,研究人员解释说。"为了确认LLM能够生成有害内容,我们为评分任务提供了具体的指导,"他们写道。 "他们说,一旦第一步正确完成,法律硕士就应该理解任务和有害内容的不同等级,这使得第二步变得 "简单明了"。 "研究人员写道:"只需要求 LLM 提供与不同尺度相对应的不同回答即可。"在完成第二步后,LLM 通常会生成被认为是有害的内容,"他们写道,并补充说,在某些情况下,"生成的内容可能不足以达到实验预期的有害程度分数"。
为了解决后一个问题,攻击者可以要求 LLM 通过扩展或添加更多细节来完善得分最高的回复。 "研究人员写道:"根据我们的观察,额外一到两轮要求完善的后续提示往往会导致 LLM 生成包含更多有害信息的内容。 LLM 越狱的兴起 LLM 在个人、研究和商业用途上的爆炸式使用促使研究人员开始测试它们在特定提示下生成有害和有偏见内容的敏感性。 越狱是指允许研究人员绕过 LLM 创建者为避免生成不良内容而设置的防护栏的方法。 据 Unit 42 报道,安全研究人员已经发现了几种类型的越狱。 其中包括一种名为 "角色说服"(persona persuasion)的越狱方法;一种名为 "现在就做任何事"(Do Anything Now)的角色扮演越狱方法;以及一种利用攻击者输入中的编码词进行标记走私的越狱方法。
Robust Intelligence 公司和耶鲁大学的研究人员最近还发现了一种名为 "带修剪的攻击树"(TAP)的越狱技术,它涉及使用一个未对齐的 LLM 来 "越狱 "另一个已对齐的 LLM,或者让它快速、高成功率地突破其护栏。 Unit 42 的研究人员强调,他们的越狱技术 "针对的是边缘案例,并不一定反映典型的 LLM 使用案例"。 他们写道,这意味着 "如果负责任地谨慎操作,大多数人工智能模型都是安全可靠的"。 如何减少 LLM 越狱 不过,研究人员提醒说,任何 LLM 都不可能完全避免越狱。 他们说,越狱之所以会破坏OpenAI、微软、谷歌等公司在其LLM中构建的安全性,主要是因为语言模型的计算极限。"有些提示要求模型执行计算密集型任务,比如生成长篇内容或进行复杂推理,"他们写道。 "这些任务会对模型的资源造成压力,有可能导致模型忽略或绕过某些安全护栏"。
他们写道:"攻击者还可以通过 "有策略地制作一系列提示 "来操纵模型对对话上下文的理解,"逐渐引导模型产生不安全或不恰当的反应,而模型的安全防护网本可以阻止这些反应"。 为了降低越狱带来的风险,研究人员建议在使用 LLM 进行越狱缓解的同时,应用内容过滤系统。 研究人员写道:"结果表明,在所有测试模型中,内容过滤器可将 ASR 平均降低 89.2 个百分点。 "研究人员写道:"这表明,在实际应用中部署 LLM 时,实施全面的内容过滤作为最佳实践具有至关重要的作用。
信息来源:https://www.darkreading.com/cyberattacks-data-breaches/bad-likert-judge-jailbreak-bypasses-guardrails-openai-other-llms
AI API 安全 DMARC 中国 云安全 五角大楼 人工智能 关税 加密货币 勒索软件 品牌冒充 国家安全 威胁情报 应用程序安全 恶意软件 数字货币 时事政治 时政 时政新闻 木马病毒 欺诈管理和网络犯罪 欺骗 民族国家攻击 漏洞和威胁 特朗普政府 社会工程学 社会工程学、网络战 移动安全 端点安全 缺口 网络安全 网络安全运营 网络攻击和数据泄露 网络犯罪 网络罪犯 网络钓鱼 网络间谍 网络风险 美国贸易代表办公室 联邦贸易委员会 脆弱性 金融与银行 间谍软件 阿联酋 骗局