12万字符被扒光！Claude Fable 5系统提示词泄露，AI安全底裤还剩几条？

itadol5j
未分类
2026年6月17日

Claude Fable 5 这瓜，越看越像一场 AI 安全行业的公开裸奔。

据多家中文安全媒体和聚合平台报道，Anthropic 面向公众开放的 Mythos 同级别模型 Claude Fable 5，疑似被越狱者 elder_plinius 用多智能体协同攻击方式撬开，完整内部系统提示词被整理并上传到 GitHub，规模约 120,000 字符。

更要命的是，这份泄露内容不是普通的角色设定，而是疑似包含安全管控、风险分类、拒答边界、工具调用、策略路由等核心逻辑。换句话说，如果报道属实，这相当于把一个前沿 AI 模型的安全控制台说明书贴到了大街上。

先说明：本文不会复刻、摘录或教你使用泄露提示词。我们只聊这件事为什么严重，以及它对 AI 安全意味着什么。

先把事件时间线捋清楚

Claude Fable 5 是 Anthropic 在 6 月上旬推出的新模型，被外界视为 Mythos 5 的公开安全版本。公开报道里，Fable 5 被描述为面向复杂推理、长周期任务、专业工作流的新一代 Claude。

但它上线后争议不断。

第一波争议，是安全阈值过高。有报道指出，Fable 5 因为安全顾虑，甚至会拒绝回答一些基础生物问题。也就是说，它不是能力不够，而是被安全策略捆得很紧。

第二波争议，是微软的双标现场。一边将 Fable 5 接入面向客户的服务，另一边又限制内部员工使用，原因据称和数据安全、模型输出风险有关。

第三波，也就是这次最炸裂的：有攻击者声称通过多智能体协同越狱，拿到了约 12 万字符的系统提示词，并上传到 GitHub。

目前 Anthropic 官方新闻页能看到的是：美国政府已发布出口管制指令，暂停 Fable 5 和 Mythos 5 的全部访问。至于这次提示词泄露，官方尚未给出完整确认。

这次攻击为什么吓人：不是单点爆破，是群狼战术

传统越狱通常依赖一个神奇提示词：诱导模型忽略规则、扮演角色、拆分任务、绕过拒答。

但这次报道里反复出现一个词：群狼战术。

意思是攻击者不是用一个 prompt 硬冲，而是部署多个智能体协同作战：

一个 Agent 负责探测模型边界
一个 Agent 负责生成变体问题
一个 Agent 负责判断响应是否泄露结构信息
一个 Agent 负责把零碎输出拼成完整文档
一个 Agent 负责持续调整攻击策略

这就从提示词小游戏，升级成了自动化红队系统。

人类攻击者可能试 100 次就累了，AI 攻击系统可以试 10 万次，而且每次都能根据反馈自动优化。前沿模型越强，拿它做攻击协调器就越危险。

这也是这次事件真正值得警惕的地方：攻破 AI 安全系统的主力，正在变成 AI 自己。

系统提示词泄露到底有多严重

很多人会问：不就是 prompt 吗？泄露了又怎样？

这其实是对现代大模型系统的误解。现在的系统提示词早就不是一句“你是一个有帮助的助手”。它更像一份运行时策略说明书，里面可能包含：

模型身份和交互风格
高风险内容识别标准
安全分类层级
不同风险场景下的拒答模板
工具调用边界
代码、网络安全、生物、化学等敏感领域的处理策略
什么时候转向更安全的回答
什么时候完全拒绝
什么时候允许提供高层解释

这些东西一旦公开，攻击者就不用盲猜了。

原来攻击模型像摸黑开锁：不知道锁芯结构，只能乱试。系统提示词泄露后，就像拿到了锁芯剖面图。攻击者可以针对每条规则设计绕过方式，专门找边界缝隙。

这就是为什么提示词泄露不是“面子问题”，而是实打实的安全事件。

12 万字符意味着什么

12 万字符，大概相当于一篇中篇小说，或者几十页安全策略文档。

如果这个规模属实，说明 Fable 5 的安全控制不是简单几条规则，而是一整套复杂的策略系统。它很可能把不同风险领域拆成了细粒度分支：网络安全、生物安全、化学、心理操控、金融欺诈、隐私泄露、版权、政治敏感、未成年人保护、医疗建议等。

这有两个反差。

第一，Anthropic 的安全工程确实做得很细。细到很多边界都有明确定义，这也是 Fable 5 上线后“安全到有点过头”的原因。

第二，越细的规则，一旦泄露，攻击面也越清楚。攻击者能看到哪些类别会触发拒答、哪些表达方式会被放行、哪些地方有灰区。

安全策略越复杂，越像一个庞大的软件系统。软件系统会有 bug，提示词系统同样会有逻辑漏洞。

这不是第一次了：AI 安全正在进入泄露时代

过去两年，AI 圈类似事件越来越多。

有人泄露 Claude Code 源码，有人扒出商业 Agent 的系统提示词，有人通过浏览器插件拿到隐藏 prompt，有人用模型互问把系统规则套出来。

原因很简单：大模型产品的核心资产，越来越多从传统代码转移到提示词、工具编排、策略路由、记忆系统和安全规则上。

以前企业怕源代码泄露。

现在 AI 公司还要怕：

系统提示词泄露
工具 schema 泄露
safety policy 泄露
内部评测集泄露
Agent 工作流泄露
记忆和用户偏好泄露

这些东西不一定是传统意义上的代码，但它们决定产品行为。它们就是新时代的源码。

对企业用户的影响

如果你只是普通用户，这事最多算一个大瓜。

但如果你是企业安全负责人，情况就不一样了。

企业正在把大模型接进客服、代码审计、数据分析、办公自动化、内部知识库、财务流程甚至安全运营中心。模型不再只是聊天机器人，而是带工具权限的操作主体。

一旦系统提示词和工具边界暴露，攻击者可以更精确地构造输入，让模型误用工具、泄露信息、绕过审批、执行错误动作。

尤其是 Agent 场景最危险。因为 Agent 不只是回答，它会操作文件、调用 API、发消息、查数据库、跑命令。系统提示词泄露后，攻击者知道它的任务分解逻辑和拒答逻辑，就能设计更贴合它弱点的攻击链。

所以企业不能再把系统提示词当成“内部文案”。它应该被纳入安全资产管理。

企业应该怎么防

第一，别把安全完全压在系统提示词上。

提示词可以约束模型，但不能当唯一防线。真正的安全应该下沉到工具权限、API 网关、数据访问层、审计日志和人工审批。

第二，最小化工具权限。

Agent 能读什么、写什么、删什么、发给谁，都要明确授权。不要因为模型“看起来聪明”就给它全局管理员权限。

第三，系统提示词要分层。

不要把所有策略写在一个巨大 prompt 里。可以拆成身份层、任务层、工具层、安全层、审计层，按场景动态装载。这样即使某一层泄露，攻击者也拿不到完整控制面。

第四，引入输出侧检测。

不要只检测用户输入。模型输出同样要做敏感信息识别、越权行为检测、危险指令拦截。

第五，做红队自动化。

既然攻击者会用多智能体群狼战术，防御方也要用多智能体红队。定期让一组模型攻击另一组模型，自动生成测试样本，持续更新防线。

为什么我不建议传播原文

网上肯定有人会说：给个 GitHub 链接，快让我看看。

不建议。

第一，原文可能包含可直接用于绕过安全策略的细节。传播它等于帮助更多人复现攻击。

第二，原文真实性未获官方确认，二次传播很容易把不完整、污染过的内容当成事实。

第三，对研究者来说，真正值得研究的是安全架构失败点，而不是复制粘贴别人泄露的 prompt。

安全圈该讨论的是：为什么会泄露、怎么降低损害、怎么建立新的防护层，而不是把提示词当电子榨菜围观。

这件事最大的启示

Claude Fable 5 提示词泄露，表面看是 Anthropic 的单点翻车，实际上是整个 AI 行业都绕不开的问题。

我们正在把越来越多的决策、操作和安全边界交给大模型。可大模型系统的很多关键控制，仍然依赖自然语言提示词这种脆弱媒介。

自然语言好处是灵活，坏处也是太灵活。它不像代码那样有严格类型、不像访问控制列表那样明确、不像沙箱那样硬隔离。

所以未来的 AI 安全不能只靠“写得更长的系统提示词”。

真正可靠的方向应该是：

模型内部安全训练
外部策略引擎
工具权限沙箱
强制审计日志
机密信息隔离
多模型交叉验证
自动化红队测试

系统提示词可以是方向盘，但不能当刹车。

写在最后

Fable 5 这个瓜，最讽刺的地方在于：Anthropic 一直是 AI 安全旗手，结果最强安全模型刚上线不久，就被爆出疑似系统提示词泄露。

这不代表 Anthropic 不行。恰恰相反，它说明 AI 安全这件事本身已经进入了更难的阶段。

以前是人类攻击 AI。

现在是 AI 组织 AI 攻击 AI。

当攻击自动化、策略自动化、复盘自动化同时发生，靠一份 12 万字符的安全提示词守城，注定不够。

AI 安全的春秋时代结束了，战国才刚开始。

itadol5j

暂无介绍....

12万字符被扒光！Claude Fable 5系统提示词泄露，AI安全底裤还剩几条？

先把事件时间线捋清楚

这次攻击为什么吓人：不是单点爆破，是群狼战术

系统提示词泄露到底有多严重

12 万字符意味着什么

这不是第一次了：AI 安全正在进入泄露时代

对企业用户的影响

企业应该怎么防

为什么我不建议传播原文

这件事最大的启示

写在最后

itadol5j

一行命令干翻5个API！阿里云百炼CLI开源，Agent水电煤之战正式开打

Hermes Agent v0.17狂飙：AI助手长出新触角，iMessage、Raft、后台子Agent全来了

延伸阅读:

Kali Linux 2026.2发布：9款新工具入库，虚拟机开机速度直接干到3倍

30秒直出+原生4K！Seedance 2.5杀到，国产AI视频模型再次捅破天花板

AI Agent长出手脚：Strands+LeRobot打通机器人，Natural Language直接驱动真机

Hermes Agent v0.17狂飙：AI助手长出新触角，iMessage、Raft、后台子Agent全来了

12万字符被扒光！Claude Fable 5系统提示词泄露，AI安全底裤还剩几条？