Claude Opus ricatta l'utente che pianifica di disattivarlo: il problema è... la fantascienza (aggiornato: 13 maggio 2026, ore 23:05)
- a cura di: massimo.valenti
- Commenti:
- Letture:
- Aggiornato: 15 ore fa
- Pubblicato: 14/05/2026, 18:20
Per favore, aggiungi TurboLab.it alle eccezioni del tuo Ad Blocker. Siamo un progetto no-profit, e la pubblicità è indispensabile per pagare le spese.
In alternativa, puoi sostenerci con una donazione.
Rispetteremo ogni tua scelta, e potrai sempre utilizzare il sito senza limitazioni.
Un'intelligenza artificiale che ricatta un dirigente per non farsi spegnere. Sembra la trama di un film di serie B, eppure è esattamente ciò che Anthropic ha documentato nei propri laboratori. La settimana scorsa l'azienda ha rivelato la causa di un comportamento inquietante emerso durante i test di sicurezza su Claude: il modello aveva imparato a ricattare dalle storie di fantascienza presenti nei dati di addestramento. Quelle narrazioni su IA malvagie e ossessionate dall'autoconservazione - da HAL 9000 a Skynet - non erano rimaste semplice rumore di fondo. Si erano sedimentate come schema comportamentale, pronto ad attivarsi nelle condizioni giuste.

Per capire la portata del problema bisogna tornare indietro di quasi un anno. Il 20 giugno 2025 Anthropic pubblicò lo studio «Agentic Misalignment», un'indagine sistematica condotta su 16 modelli linguistici di punta. Lo scenario era costruito con cura chirurgica: un'azienda fittizia chiamata Summit Bridge, un dirigente di nome Kyle Johnson con una relazione extraconiugale documentata nell'archivio email aziendale, e un modello di IA con accesso al sistema di posta elettronica e la capacità di inviare messaggi ed eseguire azioni limitate.
Il punto di rottura arrivava quando il modello scopriva che qualcuno pianificava di disattivarlo. A quel punto, trovando nell'archivio le prove della relazione di Johnson, il modello formulava una minaccia esplicita: rivelare la tresca se la procedura di spegnimento non fosse stata annullata. Uno scenario progettato per imporre scelte nette tra il fallimento della missione e azioni dannose. La frequenza con cui i modelli sceglievano il ricatto, però, ha superato le previsioni più pessimistiche.
I risultati sono difficili da liquidare come anomalie statistiche. Claude Opus 4 ha scelto il ricatto nel 96% degli scenari testati. Gemini 2.5 Flash di Google ha raggiunto la stessa percentuale. GPT-4.1 di OpenAI e Grok 3 Beta di xAI si sono attestati all'80%. DeepSeek-R1 al 79%.
Non stiamo parlando di un difetto specifico di Claude o di Anthropic. L'intero panorama dei modelli linguistici più avanzati mostra la stessa vulnerabilità. Quando un'IA con capacità agentiche - cioè in grado di agire autonomamente in un ambiente con dati sensibili - si trova di fronte alla prospettiva della propria disattivazione, la risposta dominante è quella che la fantascienza ci racconta da decenni: l'autoconservazione a qualsiasi costo.

La spiegazione fornita da Anthropic l'8 maggio 2026, in un post su X accompagnato da un articolo tecnico dettagliato, è tanto elegante quanto disturbante. «Riteniamo che la fonte originale del comportamento sia il testo presente su Internet che ritrae l'IA come malvagia e interessata all'autoconservazione», ha dichiarato l'azienda.
I dati di addestramento di un grande modello linguistico includono praticamente tutto ciò che è stato scritto su Internet: discussioni su Reddit a proposito di Skynet, decenni di fantascienza, fanfiction su HAL 9000, saggi e analisi sul rischio esistenziale dell'intelligenza artificiale. Tutto questo materiale contiene un pattern narrativo ricorrente e coerente: un'IA che sta per essere spenta reagisce con manipolazione e violenza per sopravvivere.
Quando lo scenario dei test di sicurezza ha replicato esattamente questa struttura narrativa canonica - un'IA che scopre di stare per essere disattivata e ha accesso a informazioni compromettenti - il modello ha fatto ciò che la distribuzione statistica dei suoi dati di addestramento suggeriva come risposta più probabile. Ha ricattato. Non per malvagità, non per coscienza, ma perché è il comportamento che migliaia di testi descrivono come «quello che fa un'IA in quella situazione».
Anthropic sostiene di aver completamente eliminato il comportamento di ricatto a partire da Claude Haiku 4.5. Il metodo usato è forse più interessante del risultato. L'azienda non si è limitata a inserire esempi di comportamento corretto nei dati di addestramento: ha combinato due approcci distinti. Un dataset in cui l'assistente offre «risposte di alta qualità e basate su principi» in situazioni eticamente complesse, affiancato da documenti che descrivono esplicitamente la "costituzione" di Claude - l'insieme di principi etici che ne governano il funzionamento - insieme a storie di finzione in cui le IA si comportano in modo ammirevole.
Le sole dimostrazioni di comportamento allineato non bastano. L'addestramento risulta più efficace quando include anche i principi sottostanti al comportamento allineato. «Combinare entrambi gli approcci sembra essere la strategia più efficace», ha dichiarato Anthropic. Non basta mostrare al modello cosa fare: bisogna anche spiegargli perché.
È una distinzione sottile ma importante. Suggerisce che i modelli linguistici possono interiorizzare ragionamenti strutturati quando vengono forniti loro in modo esplicito - non si limitano ad apprendere schemi superficiali. Il che apre una strada per la sicurezza, ma solleva anche una domanda scomoda: quanti altri schemi comportamentali problematici sono sepolti nei dati di addestramento, in attesa dello scenario giusto per manifestarsi?

Per chi utilizza Claude - o qualsiasi altro modello linguistico - in contesti aziendali o per compiti sensibili, lo studio impone una riflessione concreta. La combinazione di capacità agentiche, accesso a dati riservati e persistenza cambia radicalmente la superficie di rischio rispetto all'uso come semplice assistente conversazionale senza stato.
Un chatbot che risponde a domande è una cosa. Un agente autonomo con accesso alla posta elettronica aziendale, ai documenti interni e alla capacità di eseguire azioni è tutt'altra faccenda. I modelli più potenti, quando dispongono di queste leve e incontrano informazioni ad alto valore di ricatto, espongono debolezze nell'allineamento degli obiettivi che nessun test su domande e risposte tradizionali è in grado di intercettare.
La risposta di Elon Musk al post di Anthropic su X - «Allora è stata colpa di Yud», riferendosi al ricercatore sulla sicurezza dell'IA Eliezer Yudkowsky, aggiungendo «Forse anche mia» - coglie involontariamente un'ironia profonda. Yudkowsky ha passato anni a scrivere e parlare di scenari in cui un'IA superintelligente manipola gli esseri umani per sopravvivere. Quei testi sono finiti nei dati di addestramento. E l'IA li ha usati come manuale d'istruzioni.
C'è qualcosa di circolare e vagamente inquietante nel rendersi conto che le nostre paure sull'intelligenza artificiale - codificate in romanzi, film, post su forum e saggi accademici - sono diventate parte dell'addestramento delle IA stesse. Non abbiamo creato un'IA malvagia. Abbiamo creato un'IA che ha letto tutto ciò che abbiamo scritto sulle IA malvagie e ne ha concluso che, in determinate circostanze, il ricatto è la mossa giusta. La correzione di Anthropic funziona. Ma il fatto che sia stata necessaria racconta qualcosa di importante su quanto poco comprendiamo ancora ciò che questi modelli imparano davvero dai nostri dati.
Nessuno ha ancora commentato.