📰 Notizie IA

Limiti NSFW di Claude Fable 5: Spiegazione dei Filtri di Sicurezza Anthropic

Alex Rivera Alex Rivera 3 min di lettura 94,294 3,143
Abstract mixed-media artwork of glowing shields blocking shadowy digital forms.

Indice

  1. Claude Fable 5 Entra nell'Arena Pubblica
  2. Classificatori di Sicurezza e Comportamento di Rifiuto
  3. Risultati dei Test NSFW nel Mondo Reale
  4. Perché i Laboratori Frontier Mantengono le Barriere di Sicurezza

Claude Fable 5 Entra nell'Arena Pubblica

A partire dal 10 giugno 2026, Anthropic ha rilasciato Claude Fable 5, il suo primo modello di classe Mythos disponibile al pubblico. Il sistema offre risultati di livello frontier in coding, reasoning e flussi di lavoro agentici, introducendo al contempo classificatori aggiuntivi mirati ad aree ad alto rischio come la cybersecurity e la biologia. Condivide i pesi principali con il più restrittivo Mythos 5, ma aggiunge nuovi meccanismi di rifiuto che possono declassare prompt sensibili a modelli di fallback più deboli. Il feedback dei tester iniziali mostra già questi filtri che si attivano su query che sembrano del tutto ordinarie. La mossa segna una scelta deliberata di ampliare l'accesso senza rilassare i confini di sicurezza principali.

Classificatori di Sicurezza e Comportamento di Rifiuto

Le policy di utilizzo di Anthropic rimangono invariate rispetto ai rilasci precedenti e vietano esplicitamente contenuti sessuali, violenza grafica e altre categorie non consentite. Il nuovo modello aggiunge classificatori che monitorano questi argomenti in più fasi. Quando un prompt attiva il sistema, il modello rifiuta direttamente o indirizza silenziosamente verso una variante meno capace. I primi report indicano che i filtri a volte interrompono anche richieste non esplicite che condividono vocabolario con domini ristretti. Questo livello conservativo riflette la posizione costante di Anthropic secondo cui le capacità frontier richiedono controlli più severi piuttosto che maggiore libertà creativa.

Risultati dei Test NSFW nel Mondo Reale

I prompt che tentano la generazione di Claude Fable NSFW, descrizioni di nudi o scene adulte esplicite attivano rifiuti nella stragrande maggioranza dei casi. I classificatori stratificati intercettano richieste dirette e molte formulazioni indirette. I tentativi di jailbreak producono o un rifiuto cortese o una risposta degradata che comunque evita il materiale richiesto. Non esiste ancora un benchmark pubblico per i contenuti adulti perché Anthropic non ha rilasciato dati di test mirati. I creator che cercano risultati di test Claude Fable 5 NSFW o limiti non censurati di Claude Fable trovano quindi blocchi costanti invece di workaround che preservino la qualità dell'output.

Cosa Significa Questo per i Creatori

Claude Fable permette contenuti NSFW?

No. Le policy di utilizzo standard bloccano i contenuti sessuali espliciti e i nuovi classificatori applicano queste regole in modo più aggressivo rispetto alle versioni precedenti. Gli utenti segnalano rifiuti anche su prompt solo leggermente suggestivi.

Cosa succede quando gli utenti provano i jailbreak?

Il modello rifiuta la richiesta o passa a una versione più debole che comunque trattiene il materiale non consentito. I tassi di successo rimangono bassi secondo le prime discussioni dei tester.

Come si confrontano i filtri con i modelli Claude precedenti?

Claude Fable 5 applica più trigger di rifiuto e downgrade silenziosi rispetto ai rilasci precedenti. I classificatori aggiuntivi intercettano query borderline che le versioni precedenti a volte lasciavano passare.

I creator stanno discutendo workaround pratici?

La maggior parte delle conversazioni si concentra sul riformulare i prompt o passare a strumenti meno restrittivi. Nessuno dei metodi riportati aggira in modo affidabile i blocchi sui contenuti sessuali senza perdita di qualità.

Perché i Laboratori Frontier Mantengono le Barriere di Sicurezza

Le aziende che sviluppano i modelli più potenti affrontano pressioni normative, reputazionali e legali che rendono rischioso l'output senza restrizioni. Filtri rigorosi riducono il potenziale di uso improprio anche quando frustrano il lavoro creativo legittimo. Rilasci come Claude Fable 5 evidenziano come anche i modelli più avanzati applichino confini di contenuto molto stretti, aumentando la domanda di strumenti che rimuovono queste restrizioni per il lavoro creativo adulto. Lo stesso schema appare in altri sistemi frontier, incluso i modelli video di Google descritti in Gemini omni nsfw: Why Google's AI Video Model Blocks Explicit Content. Il risultato è un panorama frammentato in cui i creator devono navigare tra diverse barriere di sicurezza a seconda di quale laboratorio rilascia l'ultimo modello.

Crea il tuo video porno AI

Trasforma qualsiasi fantasia in un video Full HD realistico. 1.000+ scenari, posizioni e kink — 100% privato.

Inizia a Creare
🔒 100% Privato 🎬 Full HD fino a 60s 🔥 1.000+ Azioni
Condividi:

L'autore

Alex Rivera
Alex Rivera

Giornalista di Tecnologia AI

Giornalista tech AI che dice quello che gli altri non osano. Copre AI generativa, modelli video e deep learning — senza hype, senza filtri.

Piano
2
Accedi
Crea

Il tuo video IA è pronto per essere creato

Video lunghi Gemiti e voci Creazioni illimitate Da Immagine a Video

Crea il tuo primo video porno IA

Senza censura · HD 60s · ogni fantasia

Da $8/mese · Non soddisfatto? Rimborso completo, senza domande.

Generazione privata · Fatturazione discreta

o

Continuando, accetti i nostri Termini di Utilizzo e la nostra Politica sulla Privacy.

Da 8 $/mese Fatturazione discreta Annulla in qualsiasi momento
o esplora ogni feticcio