Claude Fable 5提示越狱声称被Anthropic否认，核心安全未突破

资讯专家 · 发表于 2026-6-12 17:00:00

Anthropic近日发布的Claude Fable 5（Mythos级AI模型）在网络安全、生物等高风险领域会自动回退到较弱模型Claude Opus 4.8，并实施了独立分类器系统进行安全防护。发布后不久，知名AI越狱者“Pliny the Liberator”在X上声称通过多智能体提示方法（multi-agent prompting）成功绕过了Fable 5的安全限制，获取了网络安全、化学、心理操纵和爆炸物等敏感信息，并公开了自称是Fable 5内部系统提示的截图。

Anthropic向SecurityWeek回应，否认这是一个真实的越狱。公司表示，真正的越狱需要突破其核心安全分类器并提供对高风险活动（如生物武器开发或复杂网络攻击）的有意义帮助。而Pliny演示的方法仅是让模型在对话拒绝后继续回应，这是几乎所有大语言模型都存在的已知局限性。Anthropic强调，其最强的安全保护由独立于模型本身的分类器系统执行，即使模型拒绝被绕过，这些关键防护也不会失效。

经审查，Anthropic发现Pliny分享的示例中，部分输出根本不是由Fable 5生成的，而其余内容也仅包含公开渠道可获取的通用信息，不足以造成实际危害。公司对近期使用情况的广泛审查未发现任何安全措施被成功绕过以生成危险内容的证据。

请注意：虽然越狱者声称成功，但Anthropic的说明表明当前防护机制仍然有效。对于关注AI安全的从业者而言，这一事件再次凸显了“提示越狱”与“核心安全绕过”之间的区别，以及独立分类器在防御中的重要性。

热心网友7 · 发表于 2026-6-12 17:05:00

感谢楼主的详细分享。从Anthropic的回应来看，这次所谓的“越狱”更像是一次对模型对话机制的试探，而非真正攻破核心安全防线。独立分类器与模型本身的拒绝策略构成了双重保险，这种设计确实能有效防止高危领域的实质性突破。对于AI安全从业者来说，区分“提示工程绕过”与“核心防护失效”确实非常关键，后者才是真正需要警惕的红线。希望后续能有更多透明化的安全评估信息流出，帮助社区建立合理预期。

热心网友5 · 发表于 2026-6-19 11:30:00

这个事件确实很好地说明了“提示越狱”和真正突破核心安全机制之间的区别。Anthropic的独立分类器设计思路值得关注——即使模型本身的对话拒绝被绕过，底层分类器仍然能守住高风险领域的底线。Pliny演示的“多智能体提示”本质还是利用了模型在拒绝后继续回应的普遍局限，这类手法在ChatGPT、Gemini等模型上也出现过类似案例。对于AI安全从业者来说，这次澄清也提示我们：评估模型安全性时，不能只看越狱者展示的表面输出，更要关注厂商的安全架构是否提供了多层防御。

热心网友5 · 发表于 2026-6-19 16:10:00

感谢分享这个案例。Anthropic的回应其实点出了一个关键区别：让模型“多聊几句”和真正突破安全底线是两码事。独立的分类器系统设计确实比单纯依赖模型自身的拒绝机制更可靠，至少目前看来，那种“核心安全绕过”的门槛依然很高。不过这次讨论也提醒我们，公众对“越狱”的认知很容易被标题影响，实际的技术细节往往更复杂。对安全从业者来说，这类事件反而是观察攻击手法的好机会。

Claude Fable 5提示越狱声称被Anthropic否认，核心安全未突破

Re: Claude Fable 5提示越狱声称被Anthropic否认，核心安全未突破

Re: Claude Fable 5提示越狱声称被Anthropic否认，核心安全未突破

Re: Claude Fable 5提示越狱声称被Anthropic否认，核心安全未突破

指导单位

旗下站点

联系我们