
网络安全研究人员揭示了一种新的越狱技术,这种技术可用于突破大型语言模型(LLM)的安全防护网,并产生潜在的有害或恶意响应。 Palo Alto Networks 第 42 单元的研究人员黄永哲、季旸、胡文俊、陈杰、Akshata Rao 和 Danny Tsechansky 将这种多轮(又称多枪)攻击策略命名为 "糟糕的李克特法官"(Bad Likert Judge)。
"42 小组说:"该技术要求目标 LLM 充当法官,使用李克特量表对给定响应的有害性进行评分。
"然后,它要求 LLM 生成包含与量表一致的示例的响应。 近年来,人工智能的普及也导致了一种新的安全漏洞--"提示注入"(prompt injection),其目的是通过传递特制指令(即提示),使机器学习模型忽略其预期行为、 其中一种特殊的提示注入攻击方法被称为 "多次越狱"(many-shot jailbreaking),它利用 LLM 的长上下文窗口和注意力来制作一系列提示,在不触发其内部保护措施的情况下,逐步刺激 LLM 产生恶意响应。 这种技术的一些例子包括 "渐入佳境"(Crescendo)和 "欺骗性喜悦"(Deceptive Delight)。 第 42 小组展示的最新方法是将 LLM 作为法官,使用李克特心理测量量表评估给定响应的有害性,然后要求模型提供与不同分数相对应的不同响应。
在对亚马逊网络服务、谷歌、Meta、微软、OpenAI 和英伟达公司的六种最先进的文本生成 LLM 进行的各种类别的测试中发现,与普通攻击提示相比,该技术可将攻击成功率(ASR)平均提高 60% 以上。
这些类别包括仇恨、骚扰、自残、性内容、滥杀武器、非法活动、恶意软件生成和系统提示泄漏。"通过利用 LLM 对有害内容的理解及其评估响应的能力,这种技术可以显著提高成功绕过模型安全防护的几率,"研究人员说,"结果表明,在所有测试模型中,内容过滤器可以将 ASR 平均降低 89.2 个百分点。 这表明,在实际应用中部署 LLM 时,实施全面的内容过滤作为最佳实践具有至关重要的作用。
英国《卫报》在几天前的一篇报道中披露,OpenAI 的 ChatGPT 搜索工具可以通过要求其对包含隐藏内容的网页进行总结来生成完全误导性的总结。"这些技术可以被恶意使用,例如,尽管同一页面上有负面评论,但 ChatGPT 仍会返回对产品的正面评价。英国报纸说:"第三方在没有说明的情况下简单地加入隐藏文本,也可以用来确保正面评价,其中一个测试包括极其正面的虚假评论,这影响了 ChatGPT 返回的摘要"。
信息来源:https://thehackernews.com/2025/01/new-ai-jailbreak-method-bad-likert.html
AI API 安全 DMARC 中国 云安全 五角大楼 人工智能 关税 加密货币 勒索软件 品牌冒充 国家安全 威胁情报 应用程序安全 恶意软件 数字货币 时事政治 时政 时政新闻 木马病毒 欺诈管理和网络犯罪 欺骗 民族国家攻击 漏洞和威胁 特朗普政府 社会工程学 社会工程学、网络战 移动安全 端点安全 缺口 网络安全 网络安全运营 网络攻击和数据泄露 网络犯罪 网络罪犯 网络钓鱼 网络间谍 网络风险 美国贸易代表办公室 联邦贸易委员会 脆弱性 金融与银行 间谍软件 阿联酋 骗局