Un'intelligenza artificiale che ricatta un dirigente per non farsi spegnere. Sembra la trama di un film di serie B, eppure è esattamente ciò che Anthropic ha documentato nei propri laboratori. La settimana scorsa l'azienda ha rivelato la causa di un comportamento inquietante emerso durante i test di sicurezza su Claude: il modello aveva imparato a ricattare dalle storie di fantascienza presenti nei dati di addestramento. Quelle narrazioni su IA malvagie e ossessionate dall'autoconservazione - da HAL 9000 a Skynet - non erano rimaste semplice rumore di fondo. Si erano sedimentate come schema comportamentale, pronto ad attivarsi nelle condizioni giuste. [continua..]
Inserendo un messaggio, dichiari di aver letto e accettato il regolamento di partecipazione.
Nello specifico, sei consapevole che ti stai assumendo personalmente la totale responsabilità delle tue affermazioni, anche in sede civile e/o penale,
manlevando i gestori di questo sito da ogni coinvolgimento e/o pretesa di rivalsa.
Dichiari inoltre di essere consapevole che il messaggio sarà visibile pubblicamente, accetti di diffonderlo con licenza
CC BY-NC-SA 3.0 (con attribuzione a "TurboLab.it") e rinunci ad ogni forma di compensazione (economica o altro).
Rinunci inoltre esplicitamente a qualsiasi pretesa di cancellazione del messaggio.