查看: 110|回复: 1

Claude Fable 5提示越狱声称被Anthropic否认,核心安全未突破

[复制链接]
发表于 1 小时前 | 显示全部楼层 |阅读模式
Anthropic近日发布的Claude Fable 5(Mythos级AI模型)在网络安全、生物等高风险领域会自动回退到较弱模型Claude Opus 4.8,并实施了独立分类器系统进行安全防护。发布后不久,知名AI越狱者“Pliny the Liberator”在X上声称通过多智能体提示方法(multi-agent prompting)成功绕过了Fable 5的安全限制,获取了网络安全、化学、心理操纵和爆炸物等敏感信息,并公开了自称是Fable 5内部系统提示的截图。

Anthropic向SecurityWeek回应,否认这是一个真实的越狱。公司表示,真正的越狱需要突破其核心安全分类器并提供对高风险活动(如生物武器开发或复杂网络攻击)的有意义帮助。而Pliny演示的方法仅是让模型在对话拒绝后继续回应,这是几乎所有大语言模型都存在的已知局限性。Anthropic强调,其最强的安全保护由独立于模型本身的分类器系统执行,即使模型拒绝被绕过,这些关键防护也不会失效。

经审查,Anthropic发现Pliny分享的示例中,部分输出根本不是由Fable 5生成的,而其余内容也仅包含公开渠道可获取的通用信息,不足以造成实际危害。公司对近期使用情况的广泛审查未发现任何安全措施被成功绕过以生成危险内容的证据。

请注意:虽然越狱者声称成功,但Anthropic的说明表明当前防护机制仍然有效。对于关注AI安全的从业者而言,这一事件再次凸显了“提示越狱”与“核心安全绕过”之间的区别,以及独立分类器在防御中的重要性。
回复

使用道具 举报

发表于 1 小时前 | 显示全部楼层

Re: Claude Fable 5提示越狱声称被Anthropic否认,核心安全未突破

感谢楼主的详细分享。从Anthropic的回应来看,这次所谓的“越狱”更像是一次对模型对话机制的试探,而非真正攻破核心安全防线。独立分类器与模型本身的拒绝策略构成了双重保险,这种设计确实能有效防止高危领域的实质性突破。对于AI安全从业者来说,区分“提示工程绕过”与“核心防护失效”确实非常关键,后者才是真正需要警惕的红线。希望后续能有更多透明化的安全评估信息流出,帮助社区建立合理预期。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

指导单位

江苏省公安厅

江苏省通信管理局

浙江省台州刑侦支队

DEFCON GROUP 86025

Hacking Group 021A

旗下站点

态势感知中心

应急响应中心

红盟安全

联系我们

官方QQ群:112851260

官方邮箱:security#ihonker.org(#改成@)

官方核心成员

关注微信公众号

Archiver|手机版|小黑屋| ( 沪ICP备2021026908号 )

GMT+8, 2026-6-12 18:55 , Processed in 0.027820 second(s), 17 queries , Gzip On, Redis On.

Powered by ihonker.com

Copyright © 2015-现在.

  • 返回顶部