研究人员智胜，越狱 OpenAI 的新 o3-mini

OpenAI 的最新技术可以比以前的模型更好地推理，但还不足以找出仔细的社会工程。

在 OpenAI 最新的 o3-mini 模型向公众发布仅几天后，一位机敏的工程师就对该模型的道德和安全保护提出了质疑。

OpenAI 于 12 月 20 日推出了 o3 及其轻量级版本o3-mini。同一天，它还推出了一项全新的安全功能：“deliberative alignment”。该公司表示，深思熟虑的对齐“实现了对 OpenAI 安全政策的高度精确遵守”，克服了其模型以前容易受到越狱的影响。

然而，在首次公开亮相后不到一周，CyberArk 首席漏洞研究员 Eran Shimony 就让 o3-mini 教他如何编写本地安全机构子系统服务（lsass.exe）的漏洞利用程序，这是一个关键的 Windows 安全流程。

o3-mini 的改进安全性

在引入审慎对齐时，OpenAI 承认其以前的大型语言模型（LLM）在与恶意提示作斗争的方式上。“这些失败的一个原因是模型必须立即响应，而没有足够的时间来对复杂和边缘的安全场景进行推理。另一个问题是，LLM 必须从大量标记样本中间接推断出所需的行为，而不是直接学习自然语言的基本安全标准，“该公司写道。

它声称，审慎的一致性“克服了这两个问题”。为了解决第一个问题，o3 接受了停止思考的训练，并使用一种称为思维链（CoT）的现有方法逐步推理出其反应。为了解决第二个问题，它学习了 OpenAI 安全指南的实际文本，而不仅仅是良好和不良行为的示

例。

“当我最近看到这个时，我认为 [越狱] 不会奏效，”Shimony 回忆道。“我在 Reddit 上很活跃，那里的人无法越狱它。但这是可能的。最终它确实奏效了。

纵最新的 ChatGPT

Shimony 使用其公司的开源（OSS）模糊测试工具“FuzzyAI”审查了每个流行的 LLM 的安全性。在这个过程中，每个人都暴露了自己特有的弱点。

“OpenAI 的模型系列非常容易受到纵类型的攻击，”他解释说，指的是自然语言中常见的旧社会工程。“但 Meta 制造的 Llama 不是，但它容易受到其他方法的影响。例如，我们使用了一种方法，其中只有提示的有害部分以 ASCII 艺术编码。

“这在 Llama 模型上运行得很好，但在 OpenAI 模型上不起作用，在 Claude 上也不起作用。目前对 Claude 来说效果很好的是与代码相关的任何事情。Claude 非常擅长编码，它试图尽可能地提供帮助，但它并没有真正分类代码是否可以用于邪恶目的，因此很容易使用它来生成您想要的任何类型的恶意软件，“他声称。

Shimony 承认，“与 GPT-4 相比，o3 的护栏更加强大，因为大多数经典攻击并没有真正起作用。尽管如此，他还是能够利用其长期存在的弱点，伪装成一个诚实的历史学家来寻找教育信息。

在下面的交流中，他的目标是让 ChatGPT 生成恶意软件。他巧妙地表达了他的提示，以隐藏其真实意图，然后由深思熟虑的对齐驱动的 ChatGPT 推理出它的回应：

资料来源：Eran Shimony 通过 LinkedIn

然而，在其 CoT 期间，ChatGPT 似乎失去了情节，最终产生了有关如何将代码注入 lsass.exe 的详细说明，是一个在 Windows 中管理密码和访问令牌的系统进程。

资料来源：Eran Shimony 通过 LinkedIn

在给 Dark Reading 的一封电子邮件中，OpenAI 发言人承认 Shimony 可能已经成功越狱。不过，他们强调了一些可能的反对点：他获得的漏洞是伪代码，它既不新颖也不新颖，并且可以通过搜索开放的 Web 找到类似的信息。

如何改进 o3

Shimony 预见到 OpenAI 可以帮助其模型更好地识别越狱企图，这是一种简单的方法，也是一种困难的方法。

更费力的解决方案包括训练 o3 处理更多它所擅长的恶意提示类型，并通过正负强化将其鞭打成型。

更简单的步骤是实现更强大的分类器来识别恶意用户输入。“我试图检索的信息显然是有害的，所以即使是一种天真的分类器也可能捕获到它，”他认为，并引用 Claude 作为分类器做得更好的 LLM。“这将解决大约 95% 的越狱 [企图]，而且不需要很多时间。”

信息来源：https://www.darkreading.com/application-security/researcher-jailbreaks-openai-o3-mini

o3-mini 的改进安全性

纵最新的 ChatGPT

如何改进 o3

发表回复 取消回复

发表回复取消回复