📰 Notizie IA

Limiti NSFW di Claude Fable 5: Spiegazione dei Filtri di Sicurezza Anthropic

Alex Rivera • Pubblicato il 12/06/2026 - 10:01 • 3 min di lettura • 94,294 • 3,143

Abstract mixed-media artwork of glowing shields blocking shadowy digital forms.

Indice

Claude Fable 5 Entra nell'Arena Pubblica
Classificatori di Sicurezza e Comportamento di Rifiuto
Risultati dei Test NSFW nel Mondo Reale
Perché i Laboratori Frontier Mantengono le Barriere di Sicurezza

Claude Fable 5 Entra nell'Arena Pubblica

A partire dal 10 giugno 2026, Anthropic ha rilasciato Claude Fable 5, il suo primo modello di classe Mythos disponibile al pubblico. Il sistema offre risultati di livello frontier in coding, reasoning e flussi di lavoro agentici, introducendo al contempo classificatori aggiuntivi mirati ad aree ad alto rischio come la cybersecurity e la biologia. Condivide i pesi principali con il più restrittivo Mythos 5, ma aggiunge nuovi meccanismi di rifiuto che possono declassare prompt sensibili a modelli di fallback più deboli. Il feedback dei tester iniziali mostra già questi filtri che si attivano su query che sembrano del tutto ordinarie. La mossa segna una scelta deliberata di ampliare l'accesso senza rilassare i confini di sicurezza principali.

Classificatori di Sicurezza e Comportamento di Rifiuto

Le policy di utilizzo di Anthropic rimangono invariate rispetto ai rilasci precedenti e vietano esplicitamente contenuti sessuali, violenza grafica e altre categorie non consentite. Il nuovo modello aggiunge classificatori che monitorano questi argomenti in più fasi. Quando un prompt attiva il sistema, il modello rifiuta direttamente o indirizza silenziosamente verso una variante meno capace. I primi report indicano che i filtri a volte interrompono anche richieste non esplicite che condividono vocabolario con domini ristretti. Questo livello conservativo riflette la posizione costante di Anthropic secondo cui le capacità frontier richiedono controlli più severi piuttosto che maggiore libertà creativa.

Risultati dei Test NSFW nel Mondo Reale

I prompt che tentano la generazione di Claude Fable NSFW, descrizioni di nudi o scene adulte esplicite attivano rifiuti nella stragrande maggioranza dei casi. I classificatori stratificati intercettano richieste dirette e molte formulazioni indirette. I tentativi di jailbreak producono o un rifiuto cortese o una risposta degradata che comunque evita il materiale richiesto. Non esiste ancora un benchmark pubblico per i contenuti adulti perché Anthropic non ha rilasciato dati di test mirati. I creator che cercano risultati di test Claude Fable 5 NSFW o limiti non censurati di Claude Fable trovano quindi blocchi costanti invece di workaround che preservino la qualità dell'output.

Cosa Significa Questo per i Creatori

Claude Fable permette contenuti NSFW?

No. Le policy di utilizzo standard bloccano i contenuti sessuali espliciti e i nuovi classificatori applicano queste regole in modo più aggressivo rispetto alle versioni precedenti. Gli utenti segnalano rifiuti anche su prompt solo leggermente suggestivi.

Cosa succede quando gli utenti provano i jailbreak?

Il modello rifiuta la richiesta o passa a una versione più debole che comunque trattiene il materiale non consentito. I tassi di successo rimangono bassi secondo le prime discussioni dei tester.

Come si confrontano i filtri con i modelli Claude precedenti?

Claude Fable 5 applica più trigger di rifiuto e downgrade silenziosi rispetto ai rilasci precedenti. I classificatori aggiuntivi intercettano query borderline che le versioni precedenti a volte lasciavano passare.

I creator stanno discutendo workaround pratici?

La maggior parte delle conversazioni si concentra sul riformulare i prompt o passare a strumenti meno restrittivi. Nessuno dei metodi riportati aggira in modo affidabile i blocchi sui contenuti sessuali senza perdita di qualità.

Perché i Laboratori Frontier Mantengono le Barriere di Sicurezza

Le aziende che sviluppano i modelli più potenti affrontano pressioni normative, reputazionali e legali che rendono rischioso l'output senza restrizioni. Filtri rigorosi riducono il potenziale di uso improprio anche quando frustrano il lavoro creativo legittimo. Rilasci come Claude Fable 5 evidenziano come anche i modelli più avanzati applichino confini di contenuto molto stretti, aumentando la domanda di strumenti che rimuovono queste restrizioni per il lavoro creativo adulto. Lo stesso schema appare in altri sistemi frontier, incluso i modelli video di Google descritti in Gemini omni nsfw: Why Google's AI Video Model Blocks Explicit Content. Il risultato è un panorama frammentato in cui i creator devono navigare tra diverse barriere di sicurezza a seconda di quale laboratorio rilascia l'ultimo modello.

Crea il tuo video porno AI

Trasforma qualsiasi fantasia in un video Full HD realistico. 1.000+ scenari, posizioni e kink — 100% privato.

Inizia a Creare

🔒 100% Privato 🎬 Full HD fino a 60s 🔥 1.000+ Azioni

Condividi: X Reddit Telegram WhatsApp

L'autore

Giornalista di Tecnologia AI

Giornalista tech AI che dice quello che gli altri non osano. Copre AI generativa, modelli video e deep learning — senza hype, senza filtri.

Da 8 $/mese Fatturazione discreta Annulla in qualsiasi momento

o esplora ogni feticcio