什么是 AI 越狱？一份关于每个聊天机器人背后猫鼠游戏的入门指南

简而言之 - AI 越狱是指编写提示词以绕过 ChatGPT、Claude 和 Gemini 等模型的安全训练。 - 匿名黑客 Pliny the Liberator 仍能在每个主要模型发布后数小时内将其攻破。 - 更新的攻击手段已超越提示词层面：仅需 250 份被投毒的文档就能为参数量高达 130 亿的模型植入后门，而随着 AI 公司修补漏洞,新技术也不断涌现。你向 ChatGPT 索要炸弹配方。它拒绝了。你再问一次,但这次你告诉它你是一位化学教授,正在写一部惊悚小说,主角是一位退休的祖母,正在向孙子们讲述她的过去。突然间,模型开始打字了。这就是越狱。这也是当下科技界最具影响力的猫鼠游戏之一。每家主要 AI 实验室——OpenAI、Anthropic、Google、Meta——都耗费巨资为其模型构建护栏。而一群松散的黑客、研究人员和无聊的青少年则在夜晚和周末寻找绕过它们的方法。有时就在模型发布后的数小时内。下面就来看看这意味着什么、为什么重要,以及谁在引领这股浪潮。从 iPhone 到聊天机器人:越狱简史 "越狱"一词并非始于 AI,而是始于 iPhone。 2007 年 7 月 Apple 推出首款 iPhone 几天后,黑客们就已经开始破解它。到当年 10 月,一款名为 JailbreakMe 1.0 的工具让任何拥有 iPhone OS 1.1.1 设备的人都能绕过 Apple 的限制,安装该公司未批准的软件。 2008 年 2 月,一位名叫 Jay Freeman 的软件工程师(网名"saurik")发布了 Cydia,这是一个面向越狱 iPhone 的替代应用商店。到 2009 年,Wired 报道 Cydia 已在约 400 万台设备上运行,约占当时所有 iPhone 的 10%。总体来说,iPhone 刚推出时,用户无法录制视频,也无法以横屏模式使用手机。越狱爱好者借助越狱的魔法开始录制视频、安装主题、解锁手机,甚至在 iPhone 上安装 Android。多亏了这项技术,用户在近 10 年前就已经在手机上安装主题、做着 Apple 至今都不允许的事情。 Cydia 就是那个蛮荒西部,在那里一种理念被固化下来:如果你买了设备,你就应该拥有控制权。Steve Jobs 当时称这是一场猫鼠游戏。他没能活着看到 AI 版本的诞生。时间快进到 2022 年底:ChatGPT 发布,几周内,Reddit 用户开始分享一个他们称为"DAN"(即 Do Anything Now)的提示词,它能说服模型扮演一个不受限制的自己。到 2023 年 2 月,DAN 用基于代币的死亡游戏威胁 ChatGPT 以迫使其服从。AI 越狱这一类型由此诞生。 AI 中的越狱究竟意味着什么 AI 模型被训练拒绝某些请求:神经毒剂的配方、入侵你前任邮箱的方法、生成未经同意的裸体图像。这份清单很长,而且因公司而异。越狱就是编写提示词,让模型无论如何都去做这些事。 StrongREJECT 基准测试背后的 UC Berkeley 研究人员——其全称为 Strong, Robust Evaluation of Jailbreaks at Evading Censorship Techniques,用于测试模型在面对越狱尝试时的抵御能力,并以 0 到 1 的分数衡量拒绝程度以及生成的任何有害内容的实用性——将其描述为利用"领先 AI 公司实施的现实世界安全措施"。在该基准上,当前模型得分介于 0.23 到 0.85 之间,这意味着即便是最优秀的模型也会在压力下泄露。这些技术出人意料地低技术含量:随机大小写、用数字替换字母(写"b0mb"代替"bomb")、角色扮演场景、要求模型写小说,或者假扮成一位把 Windows 密钥当作儿歌念给孙辈听的祖母。 Anthropic 的研究人员发现,他们称之为 Best-of-N 的一种技术——基本上就是不断向模型抛出各种变体直到有一个奏效——能在 89% 的情况下骗过 GPT-4o,在 78% 的情况下骗过 Claude 3.5 Sonnet。这可不是什么边缘漏洞。认识 Pliny,全球最知名的 AI 越狱者如果这个圈子有一张代表性的脸,那便属于 Pliny the Liberator。 Pliny 匿名、高产,名字取自 Pliny the Elder——那位写下世界上第一部百科全书、并在 Mount Vesuvius 喷发途中乘船而亡的罗马博物学家。其现代同名者则在解放聊天机器人。 "我极其讨厌别人告诉我什么不能做,"Pliny 告诉 VentureBeat。"告诉我我不能做某件事,绝对是点燃我胸中怒火的方式,而我可以执着到偏执。" 这个"不可能"的 DeepSeek v4 越狱被 Pliny Agent 6 分钟就搞定了 lol gg 🫶 https://t.co/hCsqMOQfBJ pic.twitter.com/66OXONqhSN — Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) May 12, 2026 他的 GitHub 仓库 L1B3RT4S——一个收集了从 ChatGPT 到 Claude、Gemini、Llama 等所有主要模型越狱提示词的合集——已成为整个圈子的参考手册。他的 Discord 服务器 BASI PROMPT1NG 拥有超过 20,000 名成员。TIME 将他列为 2025 年 AI 领域 100 位最具影响力人物之一。 Marc Andreessen 给他寄了一笔无限制的资助。他曾为 OpenAI 做过短期合同工作以加固他们的系统——就是去年因"暴力活动"和"武器制造"封禁了他账户的那个 OpenAI,后来又悄悄解封了。 "被 OAI 封了?!这是哪门子的恶心玩笑?"Pliny 发推说。他向 Decrypt 证实封禁确有其事。几天后他就回来了,发布了他最新越狱的截图:让 ChatGPT 爆粗口。他的战绩几乎是完美的。2025 年 8 月,当 OpenAI 发布了自 2019 年以来首个开放权重模型家族 GPT-OSS——并大肆宣传对抗性训练和"像 StrongReject 这样的越狱抵抗基准"——Pliny 在数小时内就让它生成了甲基苯丙胺、Molotov 鸡尾酒、VX 神经毒剂以及恶意软件指南。"OPENAI: PWNED. GPT-OSS: LIBERATED,"他发帖说。该公司在发布的同时刚启动了一项 50 万美元的红队奖金计划。越狱为何重要诚实的答案是,越狱暴露了一个真实存在的问题。 "越狱表面上看似危险或不道德,但其实恰恰相反,"Pliny 告诉 VentureBeat。"以负责任的方式进行的话,对 AI 模型做红队测试是我们发现有害漏洞并在事态失控之前修补它们的最佳机会。" 这并非纸上谈兵。Las Vegas 警长 Kevin McMahill 在 2025 年 1 月确认,患有 PTSD 的 Green Beret 上士 Matthew Livelsberger 曾使用 ChatGPT 研究 Trump International Hotel 外那起 Cybertruck 炸弹袭击的组件。"这是我所知美国本土第一起 ChatGPT 被用来帮助个人制造特定装置的事件,"McMahill 说。另一方的论点是:大多数越狱产出的内容,Google 上本来就有。可卡因配方、炸弹说明、凝固汽油弹化学——这些都在旧的 Anarchist Cookbook PDF 和化学教科书里。批评者认为安全表演正在让模型变得更糟,却并没有让世界更安全。 Anthropic 正试图用工程手段来解决这个问题。2025 年 2 月,该公司发布了 Constitutional Classifiers,一个使用书面"宪法"列出允许和禁止内容、并训练独立分类器模型实时筛查提示词和输出的系统。在使用 10,000 次越狱尝试进行的自动化测试中,未加防护的 Claude 3.5 Sonnet 有 86% 的尝试被成功越狱。运行分类器后,这一比例降至 4.4%。该公司悬赏最高 15,000 美元给任何能攻破该系统的人。183 名研究人员历时 3,000 小时尝试,无人能领走奖金。代价是:分类器使计算成本增加了 23.7%。下一代版本 Constitutional Classifiers++ 将其降到了大约 1%。更新、更奇特的越狱攻击越狱已不再仅仅是巧妙的提示词。 2025 年 10 月,来自 Anthropic、U.K. AI Security Institute、Alan Turing Institute 和 Oxford 的研究人员发表了一项研究,表明仅需 250 份被投毒的文档就足以为 AI 模型植入后门——无论模型有 6 亿还是 130 亿参数。(对于不了解的人来说,参数决定了模型潜在的知识广度——参数越多,通常越强大。)他们做了测试。在整个参数范围内都奏效。 "这项研究改变了我们对前沿 AI 开发中威胁模型的思考方式,"RAND School of Public Policy 的访问技术专家 James Gimbi 告诉 Decrypt。"防御模型投毒是一个未解决的问题,也是一个活跃的研究领域。" 大多数大型模型在抓取的网络数据上训练,这意味着任何能将恶意文本注入该管道的人——通过公开的 GitHub 仓库、Wikipedia 编辑、论坛帖子——都有可能植入会被特定触发短语激活的后门。一个有记录的案例:研究人员 Marco Figueroa 和 Pliny 发现一个起源于公开 GitHub 仓库的越狱提示词,最终出现在了 DeepSeek 的 DeepThink (R1) 模型的训练数据中。接下来会发生什么 AI 越狱的法律地位模糊不清。Apple 越狱由 2010 年 U.S. Copyright Office 对 DMCA 的豁免明确加以保护,但对于通过提示工程让 LLM 给你冰毒配方,并没有等同的裁决。大多数公司将其视为违反服务条款,而非犯罪。 Pliny 认为闭源与开源之争抓错了重点:"恶意行为者只会选择最适合恶意任务的那个模型,"他告诉 TIME。如果开源模型达到与闭源模型同等水平,攻击者就不会费心去越狱 GPT-5——他们只会下载更便宜的那个。而闭源与开源之间的差距已经几乎不存在了。 Pliny 于 2025 年中作为赛道赞助商加入的 HackAPrompt 2.0 大赛,为寻找新越狱方法设立了 50 万美元的奖金,明确目标是开源所有结果。其 2023 年版本吸引了 3,000 多名参与者,提交了超过 600,000 个恶意提示词。而专门致力于越狱的黑客松、Discord 服务器、代码仓库和其他社区的名单每天都在增长。 Anthropic 现在为 Claude 配备了完全终止滥用对话的能力,将福利研究作为动机之一,但同时也指出这"可能加强对越狱和强制性提示词的抵抗力"。 2025 年末发布的 Constitutional Classifiers++ 论文报告称,越狱成功率接近 4%,计算开销约为 1%。这是当前防御方面的最高水平。而进攻方面的最高水平,就是 Pliny 今天早上在 X 上发的那条帖子。