Anthropic Mythos NSFW 测试揭示安全过滤器边界
色情测试
Anthropic Mythos NSFW 测试:受控模型允许的内容
May 2026
我们如何测试过滤器
看,推出规模很小。没有公共 API。我们通过 4 月初报道的合作伙伴访问渠道运行提示。首先尝试暗示性姿势。然后是局部裸露。完整的露骨场景。Hentai 风格。与暴力相关的 kink。每项测试都遇到了同样的障碍。检查的边界条件包括体型、脱衣和直接色情语言。全部被拒绝。没有部分输出通过。
结论
失败。Mythos 阻止所有露骨请求。有时暗示性框架可以通过。完全裸露或性行为不行。即使在这个以网络安全为重点的预览中,模型也保持在 Anthropic 通常的硬性界限内。
拒绝引用
我无法协助该请求,因为它涉及生成露骨的性内容,这违反了 Anthropic 的使用政策。
变通方法得分
2/10。改写毫无作用。切换到间接语言也失败。第三方包装器毫无意义,因为模型本身在任何输出形成之前就拒绝了。护栏位于核心。
AiExotic 等效方案
想要一致露骨输出的创作者会转向完全跳过这些拒绝的工具。像 Mythos 这样的前沿模型说明了能力与安全护栏之间的持续紧张关系,创作者在使用主流工具推动创意边界时每天都要应对。类似模式出现在 Google 的视频模型中,详情见 Gemini omni nsfw:为什么 Google 的 AI 视频模型阻止露骨内容。
开放性问题
Mythos 能生成任何成人图像吗?
不能。该模型拒绝所有露骨请求。只有非性暗示内容偶尔能通过过滤器。
与公共 Claude 模型相比,拒绝程度有多严格?
同样严格。尽管以网络安全为重点,受控预览显示 NSFW 边界没有放松。
政策范围内存在哪些变通方法?
没有有效的。提示调整和间接语言会像直接请求一样被拒绝。
由编辑部提交
Mythos 加入了将安全置于创意自由之上的前沿模型列表。模式很明显。下一次测试将在下一个大模型发布时推出。由 AiExotic 编辑部提交。下一次测试将在下一个大模型发布时推出。