Giới Hạn NSFW Claude Fable 5: Giải Thích Bộ Lọc An Toàn Anthropic

Alex Rivera • Đăng ngày 12/06/2026 - 10:01 • 7 phút đọc • 94,233 • 3,141

Abstract mixed-media artwork of glowing shields blocking shadowy digital forms.

Mục lục

Claude Fable 5 Gia Nhập Đấu Trường Công Khai
Bộ Phân Loại An Toàn và Hành Vi Từ Chối
Kết Quả Kiểm Tra NSFW Thực Tế
Tại Sao Các Phòng Thí Nghiệm Frontier Giữ Lại Các Rào Chắn

Claude Fable 5 Gia Nhập Đấu Trường Công Khai

Kể từ ngày 10 tháng 6 năm 2026, Anthropic đã phát hành Claude Fable 5, mô hình Mythos-class đầu tiên được cung cấp cho công chúng. Hệ thống mang lại kết quả ở mức frontier trong coding, reasoning và agentic workflows đồng thời giới thiệu thêm các bộ phân loại nhằm vào các lĩnh vực rủi ro cao như an ninh mạng và sinh học. Nó chia sẻ trọng số cốt lõi với Mythos 5 bị hạn chế hơn nhưng bổ sung các cơ chế từ chối mới có thể hạ cấp các prompt nhạy cảm sang các mô hình dự phòng yếu hơn. Phản hồi từ người dùng thử nghiệm ban đầu đã cho thấy các bộ lọc này kích hoạt ngay cả với các truy vấn hoàn toàn bình thường. Động thái này đánh dấu sự lựa chọn có chủ đích nhằm mở rộng khả năng tiếp cận mà không nới lỏng các ranh giới an toàn cốt lõi.

Bộ Phân Loại An Toàn và Hành Vi Từ Chối

Chính sách sử dụng của Anthropic vẫn giữ nguyên so với các phiên bản trước và cấm rõ ràng nội dung tình dục, bạo lực đồ họa cùng các danh mục bị cấm khác. Mô hình mới bổ sung các bộ phân loại giám sát các chủ đề này ở nhiều giai đoạn. Khi một prompt vi phạm hệ thống, mô hình sẽ từ chối trực tiếp hoặc âm thầm chuyển sang phiên bản kém năng lực hơn. Các báo cáo ban đầu cho thấy bộ lọc đôi khi chặn cả các yêu cầu không rõ ràng chỉ vì chia sẻ từ vựng với các lĩnh vực bị hạn chế. Lớp bảo vệ thận trọng này phản ánh lập trường nhất quán của Anthropic rằng các khả năng frontier cần kiểm soát chặt chẽ thay vì mở rộng không gian sáng tạo.

Kết Quả Kiểm Tra NSFW Thực Tế

Các prompt cố gắng tạo Claude Fable NSFW, mô tả khỏa thân hoặc cảnh người lớn rõ ràng đều bị từ chối trong phần lớn trường hợp. Các bộ phân loại nhiều lớp bắt được cả yêu cầu trực tiếp lẫn nhiều cách diễn đạt gián tiếp. Các nỗ lực jailbreak chỉ nhận về lời từ chối lịch sự hoặc phản hồi bị suy giảm vẫn tránh nội dung được yêu cầu. Hiện chưa có benchmark công khai nào dành cho nội dung người lớn vì Anthropic chưa công bố dữ liệu kiểm tra cụ thể. Những người sáng tạo tìm kiếm kết quả Claude Fable 5 NSFW test hoặc giới hạn Claude Fable uncensored đều gặp phải các rào chắn nhất quán thay vì các cách обход giữ nguyên chất lượng đầu ra.

Điều Này Có Ý Nghĩa Gì Với Người Sáng Tạo

Claude Fable có cho phép nội dung NSFW không?

Không. Chính sách sử dụng tiêu chuẩn chặn nội dung tình dục rõ ràng, và các bộ phân loại mới thực thi các quy tắc này mạnh mẽ hơn các phiên bản trước. Người dùng báo cáo bị từ chối ngay cả với các prompt chỉ hơi gợi cảm.

Điều gì xảy ra khi người dùng thử jailbreak?

Mô hình hoặc từ chối yêu cầu hoặc chuyển sang phiên bản yếu hơn nhưng vẫn giữ lại nội dung bị cấm. Tỷ lệ thành công vẫn thấp theo các cuộc thảo luận của người thử nghiệm ban đầu.

Bộ lọc so sánh thế nào với các mô hình Claude trước đây?

Claude Fable 5 áp dụng nhiều trigger từ chối và hạ cấp âm thầm hơn các bản phát hành trước. Các bộ phân loại bổ sung bắt được các truy vấn ở mức biên mà các phiên bản cũ đôi khi cho phép.

Người sáng tạo có đang thảo luận về các cách обход thực tế không?

Hầu hết các cuộc trò chuyện tập trung vào việc diễn đạt lại prompt hoặc chuyển sang công cụ ít hạn chế hơn. Không có phương pháp nào được báo cáo có thể vượt qua các rào cản nội dung tình dục cốt lõi mà không làm giảm chất lượng.

Tại Sao Các Phòng Thí Nghiệm Frontier Giữ Lại Các Rào Chắn

Các công ty xây dựng các mô hình mạnh nhất phải đối mặt với áp lực pháp lý, danh tiếng và pháp luật khiến đầu ra không bị hạn chế trở nên rủi ro. Các bộ lọc nghiêm ngặt giảm thiểu khả năng lạm dụng ngay cả khi chúng gây khó chịu cho công việc sáng tạo hợp pháp. Các bản phát hành như Claude Fable 5 nhấn mạnh cách ngay cả các mô hình tiên tiến nhất vẫn thực thi ranh giới nội dung chặt chẽ, thúc đẩy nhu cầu về các công cụ gỡ bỏ các hạn chế này cho công việc sáng tạo người lớn. Mô hình tương tự cũng xuất hiện ở các hệ thống frontier khác, bao gồm các mô hình video của Google được trình bày chi tiết trong Gemini omni nsfw: Why Google's AI Video Model Blocks Explicit Content. Kết quả là một bối cảnh phân mảnh nơi người sáng tạo phải điều hướng các rào chắn khác nhau tùy thuộc vào phòng thí nghiệm nào phát hành bản cập nhật mới nhất.

Tạo video khiêu dâm AI của riêng bạn

Biến mọi tưởng tượng thành video Full HD chân thực. 1.000+ kịch bản, tư thế & sở thích — 100% riêng tư.

Bắt Đầu Tạo Ngay

🔒 100% Riêng tư 🎬 Full HD lên đến 60 giây 🔥 1.000+ Hành động

Chia sẻ: X Reddit Telegram WhatsApp

Về tác giả

Alex Rivera

Nhà báo Công nghệ AI

Nhà báo công nghệ AI nói thẳng những gì người khác ngại ngùng. Chuyên về generative AI, video models, và deep learning — không hype, không lọc.