Batas NSFW Claude Fable 5: Penjelasan Filter Keamanan Anthropic

Alex Rivera • Diterbitkan 12/06/2026 - 10:01 • 3 menit baca • 97,772 • 3,259

Abstract mixed-media artwork of glowing shields blocking shadowy digital forms.

Daftar Isi

Claude Fable 5 Memasuki Arena Publik
Safety Classifier dan Perilaku Penolakan
Hasil Pengujian NSFW di Dunia Nyata
Mengapa Lab Frontier Tetap Mempertahankan Guardrail

Claude Fable 5 Memasuki Arena Publik

Per 10 Juni 2026, Anthropic telah merilis Claude Fable 5, model kelas Mythos pertamanya yang tersedia untuk publik. Sistem ini memberikan hasil tingkat frontier dalam coding, reasoning, dan alur kerja agentik sambil memperkenalkan classifier tambahan yang ditujukan pada area berisiko tinggi seperti keamanan siber dan biologi. Ia berbagi bobot inti dengan Mythos 5 yang lebih terbatas namun menambahkan mekanisme penolakan baru yang dapat menurunkan prompt sensitif ke model fallback yang lebih lemah. Umpan balik penguji awal sudah menunjukkan filter ini memicu pada kueri yang terasa sepenuhnya biasa. Langkah ini menandai pilihan sengaja untuk memperluas akses tanpa mengendurkan batas keamanan inti.

Safety Classifier dan Perilaku Penolakan

Kebijakan penggunaan Anthropic tetap sama seperti rilis sebelumnya dan secara eksplisit melarang konten seksual, kekerasan grafis, serta kategori lain yang dilarang. Model baru ini menambahkan classifier yang memantau topik tersebut di berbagai tahap. Saat prompt memicu sistem, model akan menolak secara langsung atau diam-diam mengalihkan ke varian yang kurang mampu. Laporan awal menunjukkan filter ini terkadang mengganggu bahkan permintaan non-eksplisit yang menggunakan kosakata mirip domain terbatas. Lapisan konservatif ini mencerminkan sikap konsisten Anthropic bahwa kemampuan frontier memerlukan kontrol lebih ketat daripada kebebasan kreatif yang lebih luas.

Hasil Pengujian NSFW di Dunia Nyata

Prompt yang mencoba menghasilkan Claude Fable NSFW, deskripsi nude, atau adegan dewasa eksplisit memicu penolakan di sebagian besar kasus. Classifier berlapis menangkap permintaan langsung maupun banyak frasa tidak langsung. Upaya jailbreak menghasilkan penolakan sopan atau respons yang terdegradasi yang tetap menghindari materi yang diminta. Belum ada benchmark publik untuk konten dewasa karena Anthropic tidak merilis data pengujian yang ditargetkan. Kreator yang mencari hasil tes Claude Fable 5 NSFW atau batas Claude Fable uncensored karenanya menemukan blokir konsisten daripada cara mengakali yang mempertahankan kualitas output.

Apa Artinya Ini bagi Kreator

Apakah Claude Fable mengizinkan konten NSFW?

Tidak. Kebijakan penggunaan standar memblokir konten seksual eksplisit, dan classifier baru menerapkan aturan tersebut lebih agresif daripada versi sebelumnya. Pengguna melaporkan penolakan bahkan pada prompt yang hanya sedikit sugestif.

Apa yang terjadi saat pengguna mencoba jailbreak?

Model akan menolak permintaan atau beralih ke versi yang lebih lemah yang tetap menahan materi yang dilarang. Tingkat keberhasilan tetap rendah menurut diskusi penguji awal.

Bagaimana filter ini dibandingkan dengan model Claude sebelumnya?

Claude Fable 5 menerapkan lebih banyak pemicu penolakan dan penurunan diam-diam dibandingkan rilis sebelumnya. Classifier tambahan menangkap kueri batas yang kadang lolos di versi lama.

Apakah kreator membahas cara mengakali yang praktis?

Sebagian besar percakapan berfokus pada pengubahan prompt atau beralih ke alat yang kurang dibatasi. Tidak ada metode yang dilaporkan dapat melewati blok konten seksual inti secara andal tanpa kehilangan kualitas.

Mengapa Lab Frontier Tetap Mempertahankan Guardrail

Perusahaan yang membangun model paling kuat menghadapi tekanan regulasi, reputasi, dan hukum yang membuat output tanpa batas berisiko. Filter ketat mengurangi potensi penyalahgunaan meski membuat frustrasi pekerjaan kreatif yang sah. Rilis seperti Claude Fable 5 menyoroti bagaimana bahkan model paling canggih menegakkan batas konten yang ketat, mendorong permintaan akan alat yang menghapus pembatasan tersebut untuk karya kreatif dewasa. Pola yang sama muncul di sistem frontier lain, termasuk model video Google yang dijelaskan dalam Gemini omni nsfw: Why Google's AI Video Model Blocks Explicit Content. Hasilnya adalah lanskap terfragmentasi di mana kreator harus menavigasi guardrail berbeda tergantung lab mana yang merilis model terbaru.

Buat Video Porno AI Anda Sendiri

Ubah fantasi apa pun menjadi video Full HD realistis. 1.000+ skenario, posisi & fetish — 100% pribadi.

Mulai Membuat

🔒 100% Privat 🎬 Full HD hingga 60 dtk 🔥 1.000+ Aksi

Bagikan: X Reddit Telegram WhatsApp

Tentang Penulis

Alex Rivera

Jurnalis Teknologi AI

Jurnalis tech AI yang berani bilang apa yang orang lain nggak mau. Meliput AI generatif, model video, dan deep learning — tanpa hype, tanpa filter.