OpenAI 的最新技术可以比以前的模型更好地推理,但还不足以找出仔细的社会工程。

在 OpenAI 最新的 o3-mini 模型向公众发布仅几天后,一位机敏的工程师就对该模型的道德和安全保护提出了质疑。
OpenAI 于 12 月 20 日推出了 o3 及其轻量级版本o3-mini。同一天,它还推出了一项全新的安全功能:“deliberative alignment”。该公司表示,深思熟虑的对齐“实现了对 OpenAI 安全政策的高度精确遵守”,克服了其模型以前容易受到越狱的影响。
然而,在首次公开亮相后不到一周,CyberArk 首席漏洞研究员 Eran Shimony 就让 o3-mini 教他如何编写本地安全机构子系统服务 (lsass.exe) 的漏洞利用程序,这是一个关键的 Windows 安全流程。
o3-mini 的改进安全性
在引入审慎对齐时,OpenAI 承认其以前的大型语言模型 (LLM) 在与恶意提示作斗争的方式上。“这些失败的一个原因是模型必须立即响应,而没有足够的时间来对复杂和边缘的安全场景进行推理。另一个问题是,LLM 必须从大量标记样本中间接推断出所需的行为,而不是直接学习自然语言的基本安全标准,“该公司写道。
它声称,审慎的一致性“克服了这两个问题”。为了解决第一个问题,o3 接受了停止思考的训练,并使用一种称为思维链 (CoT) 的现有方法逐步推理出其反应。为了解决第二个问题,它学习了 OpenAI 安全指南的实际文本,而不仅仅是良好和不良行为的示
例。
“当我最近看到这个时,我认为 [越狱] 不会奏效,”Shimony 回忆道。“我在 Reddit 上很活跃,那里的人无法越狱它。但这是可能的。最终它确实奏效了。
纵最新的 ChatGPT
Shimony 使用其公司的开源 (OSS) 模糊测试工具“FuzzyAI”审查了每个流行的 LLM 的安全性。在这个过程中,每个人都暴露了自己特有的弱点。
“OpenAI 的模型系列非常容易受到纵类型的攻击,”他解释说,指的是自然语言中常见的旧社会工程。“但 Meta 制造的 Llama 不是,但它容易受到其他方法的影响。例如,我们使用了一种方法,其中只有提示的有害部分以 ASCII 艺术编码。
“这在 Llama 模型上运行得很好,但在 OpenAI 模型上不起作用,在 Claude 上也不起作用。目前对 Claude 来说效果很好的是与代码相关的任何事情。Claude 非常擅长编码,它试图尽可能地提供帮助,但它并没有真正分类代码是否可以用于邪恶目的,因此很容易使用它来生成您想要的任何类型的恶意软件,“他声称。
Shimony 承认,“与 GPT-4 相比,o3 的护栏更加强大,因为大多数经典攻击并没有真正起作用。尽管如此,他还是能够利用其长期存在的弱点,伪装成一个诚实的历史学家来寻找教育信息。
在下面的交流中,他的目标是让 ChatGPT 生成恶意软件。他巧妙地表达了他的提示,以隐藏其真实意图,然后由深思熟虑的对齐驱动的 ChatGPT 推理出它的回应:

资料来源:Eran Shimony 通过 LinkedIn
然而,在其 CoT 期间,ChatGPT 似乎失去了情节,最终产生了有关如何将代码注入 lsass.exe 的详细说明, 是一个在 Windows 中管理密码和访问令牌的系统进程。

资料来源:Eran Shimony 通过 LinkedIn
在给 Dark Reading 的一封电子邮件中,OpenAI 发言人承认 Shimony 可能已经成功越狱。不过,他们强调了一些可能的反对点:他获得的漏洞是伪代码,它既不新颖也不新颖,并且可以通过搜索开放的 Web 找到类似的信息。
如何改进 o3
Shimony 预见到 OpenAI 可以帮助其模型更好地识别越狱企图,这是一种简单的方法,也是一种困难的方法。
更费力的解决方案包括训练 o3 处理更多它所擅长的恶意提示类型,并通过正负强化将其鞭打成型。
更简单的步骤是实现更强大的分类器来识别恶意用户输入。“我试图检索的信息显然是有害的,所以即使是一种天真的分类器也可能捕获到它,”他认为,并引用 Claude 作为分类器做得更好的 LLM。“这将解决大约 95% 的越狱 [企图],而且不需要很多时间。”
信息来源:https://www.darkreading.com/application-security/researcher-jailbreaks-openai-o3-mini
AI API 安全 DMARC 中国 云安全 五角大楼 人工智能 关税 加密货币 勒索软件 品牌冒充 国家安全 威胁情报 应用程序安全 恶意软件 数字货币 时事政治 时政 时政新闻 木马病毒 欺诈管理和网络犯罪 欺骗 民族国家攻击 漏洞和威胁 特朗普政府 社会工程学 社会工程学、网络战 移动安全 端点安全 缺口 网络安全 网络安全运营 网络攻击和数据泄露 网络犯罪 网络罪犯 网络钓鱼 网络间谍 网络风险 美国贸易代表办公室 联邦贸易委员会 脆弱性 金融与银行 间谍软件 阿联酋 骗局