12万字符被扒光!Claude Fable 5系统提示词泄露,AI安全底裤还剩几条?

Claude Fable 5 这瓜,越看越像一场 AI 安全行业的公开裸奔。
据多家中文安全媒体和聚合平台报道,Anthropic 面向公众开放的 Mythos 同级别模型 Claude Fable 5,疑似被越狱者 elder_plinius 用多智能体协同攻击方式撬开,完整内部系统提示词被整理并上传到 GitHub,规模约 120,000 字符。
更要命的是,这份泄露内容不是普通的角色设定,而是疑似包含安全管控、风险分类、拒答边界、工具调用、策略路由等核心逻辑。换句话说,如果报道属实,这相当于把一个前沿 AI 模型的安全控制台说明书贴到了大街上。
先说明:本文不会复刻、摘录或教你使用泄露提示词。我们只聊这件事为什么严重,以及它对 AI 安全意味着什么。
先把事件时间线捋清楚
Claude Fable 5 是 Anthropic 在 6 月上旬推出的新模型,被外界视为 Mythos 5 的公开安全版本。公开报道里,Fable 5 被描述为面向复杂推理、长周期任务、专业工作流的新一代 Claude。
但它上线后争议不断。
第一波争议,是安全阈值过高。有报道指出,Fable 5 因为安全顾虑,甚至会拒绝回答一些基础生物问题。也就是说,它不是能力不够,而是被安全策略捆得很紧。
第二波争议,是微软的双标现场。一边将 Fable 5 接入面向客户的服务,另一边又限制内部员工使用,原因据称和数据安全、模型输出风险有关。
第三波,也就是这次最炸裂的:有攻击者声称通过多智能体协同越狱,拿到了约 12 万字符的系统提示词,并上传到 GitHub。
目前 Anthropic 官方新闻页能看到的是:美国政府已发布出口管制指令,暂停 Fable 5 和 Mythos 5 的全部访问。至于这次提示词泄露,官方尚未给出完整确认。
这次攻击为什么吓人:不是单点爆破,是群狼战术
传统越狱通常依赖一个神奇提示词:诱导模型忽略规则、扮演角色、拆分任务、绕过拒答。
但这次报道里反复出现一个词:群狼战术。
意思是攻击者不是用一个 prompt 硬冲,而是部署多个智能体协同作战:
- 一个 Agent 负责探测模型边界
- 一个 Agent 负责生成变体问题
- 一个 Agent 负责判断响应是否泄露结构信息
- 一个 Agent 负责把零碎输出拼成完整文档
- 一个 Agent 负责持续调整攻击策略
这就从提示词小游戏,升级成了自动化红队系统。
人类攻击者可能试 100 次就累了,AI 攻击系统可以试 10 万次,而且每次都能根据反馈自动优化。前沿模型越强,拿它做攻击协调器就越危险。
这也是这次事件真正值得警惕的地方:攻破 AI 安全系统的主力,正在变成 AI 自己。
系统提示词泄露到底有多严重

很多人会问:不就是 prompt 吗?泄露了又怎样?
这其实是对现代大模型系统的误解。现在的系统提示词早就不是一句“你是一个有帮助的助手”。它更像一份运行时策略说明书,里面可能包含:
- 模型身份和交互风格
- 高风险内容识别标准
- 安全分类层级
- 不同风险场景下的拒答模板
- 工具调用边界
- 代码、网络安全、生物、化学等敏感领域的处理策略
- 什么时候转向更安全的回答
- 什么时候完全拒绝
- 什么时候允许提供高层解释
这些东西一旦公开,攻击者就不用盲猜了。
原来攻击模型像摸黑开锁:不知道锁芯结构,只能乱试。系统提示词泄露后,就像拿到了锁芯剖面图。攻击者可以针对每条规则设计绕过方式,专门找边界缝隙。
这就是为什么提示词泄露不是“面子问题”,而是实打实的安全事件。
12 万字符意味着什么
12 万字符,大概相当于一篇中篇小说,或者几十页安全策略文档。
如果这个规模属实,说明 Fable 5 的安全控制不是简单几条规则,而是一整套复杂的策略系统。它很可能把不同风险领域拆成了细粒度分支:网络安全、生物安全、化学、心理操控、金融欺诈、隐私泄露、版权、政治敏感、未成年人保护、医疗建议等。
这有两个反差。
第一,Anthropic 的安全工程确实做得很细。细到很多边界都有明确定义,这也是 Fable 5 上线后“安全到有点过头”的原因。
第二,越细的规则,一旦泄露,攻击面也越清楚。攻击者能看到哪些类别会触发拒答、哪些表达方式会被放行、哪些地方有灰区。
安全策略越复杂,越像一个庞大的软件系统。软件系统会有 bug,提示词系统同样会有逻辑漏洞。
这不是第一次了:AI 安全正在进入泄露时代
过去两年,AI 圈类似事件越来越多。
有人泄露 Claude Code 源码,有人扒出商业 Agent 的系统提示词,有人通过浏览器插件拿到隐藏 prompt,有人用模型互问把系统规则套出来。
原因很简单:大模型产品的核心资产,越来越多从传统代码转移到提示词、工具编排、策略路由、记忆系统和安全规则上。
以前企业怕源代码泄露。
现在 AI 公司还要怕:
- 系统提示词泄露
- 工具 schema 泄露
- safety policy 泄露
- 内部评测集泄露
- Agent 工作流泄露
- 记忆和用户偏好泄露
这些东西不一定是传统意义上的代码,但它们决定产品行为。它们就是新时代的源码。
对企业用户的影响

如果你只是普通用户,这事最多算一个大瓜。
但如果你是企业安全负责人,情况就不一样了。
企业正在把大模型接进客服、代码审计、数据分析、办公自动化、内部知识库、财务流程甚至安全运营中心。模型不再只是聊天机器人,而是带工具权限的操作主体。
一旦系统提示词和工具边界暴露,攻击者可以更精确地构造输入,让模型误用工具、泄露信息、绕过审批、执行错误动作。
尤其是 Agent 场景最危险。因为 Agent 不只是回答,它会操作文件、调用 API、发消息、查数据库、跑命令。系统提示词泄露后,攻击者知道它的任务分解逻辑和拒答逻辑,就能设计更贴合它弱点的攻击链。
所以企业不能再把系统提示词当成“内部文案”。它应该被纳入安全资产管理。
企业应该怎么防
第一,别把安全完全压在系统提示词上。
提示词可以约束模型,但不能当唯一防线。真正的安全应该下沉到工具权限、API 网关、数据访问层、审计日志和人工审批。
第二,最小化工具权限。
Agent 能读什么、写什么、删什么、发给谁,都要明确授权。不要因为模型“看起来聪明”就给它全局管理员权限。
第三,系统提示词要分层。
不要把所有策略写在一个巨大 prompt 里。可以拆成身份层、任务层、工具层、安全层、审计层,按场景动态装载。这样即使某一层泄露,攻击者也拿不到完整控制面。
第四,引入输出侧检测。
不要只检测用户输入。模型输出同样要做敏感信息识别、越权行为检测、危险指令拦截。
第五,做红队自动化。
既然攻击者会用多智能体群狼战术,防御方也要用多智能体红队。定期让一组模型攻击另一组模型,自动生成测试样本,持续更新防线。
为什么我不建议传播原文
网上肯定有人会说:给个 GitHub 链接,快让我看看。
不建议。
第一,原文可能包含可直接用于绕过安全策略的细节。传播它等于帮助更多人复现攻击。
第二,原文真实性未获官方确认,二次传播很容易把不完整、污染过的内容当成事实。
第三,对研究者来说,真正值得研究的是安全架构失败点,而不是复制粘贴别人泄露的 prompt。
安全圈该讨论的是:为什么会泄露、怎么降低损害、怎么建立新的防护层,而不是把提示词当电子榨菜围观。
这件事最大的启示

Claude Fable 5 提示词泄露,表面看是 Anthropic 的单点翻车,实际上是整个 AI 行业都绕不开的问题。
我们正在把越来越多的决策、操作和安全边界交给大模型。可大模型系统的很多关键控制,仍然依赖自然语言提示词这种脆弱媒介。
自然语言好处是灵活,坏处也是太灵活。它不像代码那样有严格类型、不像访问控制列表那样明确、不像沙箱那样硬隔离。
所以未来的 AI 安全不能只靠“写得更长的系统提示词”。
真正可靠的方向应该是:
- 模型内部安全训练
- 外部策略引擎
- 工具权限沙箱
- 强制审计日志
- 机密信息隔离
- 多模型交叉验证
- 自动化红队测试
系统提示词可以是方向盘,但不能当刹车。
写在最后
Fable 5 这个瓜,最讽刺的地方在于:Anthropic 一直是 AI 安全旗手,结果最强安全模型刚上线不久,就被爆出疑似系统提示词泄露。
这不代表 Anthropic 不行。恰恰相反,它说明 AI 安全这件事本身已经进入了更难的阶段。
以前是人类攻击 AI。
现在是 AI 组织 AI 攻击 AI。
当攻击自动化、策略自动化、复盘自动化同时发生,靠一份 12 万字符的安全提示词守城,注定不够。
AI 安全的春秋时代结束了,战国才刚开始。
没有啦 (T▽T)
延伸阅读:
12万字符被扒光!Claude Fable 5系统提示词泄露,AI安全底裤还剩几条?
Claude Fable 5 这瓜,越看越像一场 AI 安全行业的公开裸奔。据多家中文安全媒体和聚合平台报道,Anthr...
一行命令干翻5个API!阿里云百炼CLI开源,Agent水电煤之战正式开打
5月29日,阿里云干了一件让 Agent 开发者集体高潮的事——百炼核心能力正式 CLI 化,一行命令就能让 AI Ag...
20亿用户握手!PayPal钱包正式接入微信支付,老外来华扫码时代到了
5月27日,支付圈传出来一个让人眼前一亮的消息:腾讯财付通全球与 PayPal World 正式达成合作,PayPal ...
支付宝杭州扔下王炸:3亿笔智能体支付已跑通,AI付Token Pay四件套定义新范式
5月26日下午,支付宝在杭州未来科技城国际会议中心办了一场叫"AI 支付生态大会"的活动。表面看是常规的产品发布会,实际...
渗透圈一夜变天!Xalgorix 22阶段全自动 AI 攻击平台开源,国产模型直接接
渗透测试这行最累的是什么?不是写报告,是重复劳动——侦察、目录爆破、注入点测试、SSRF 验证、CORS 检查……一个标...