
Un'intelligenza artificiale che ricatta un dirigente per non farsi spegnere. Sembra la trama di un film di serie B, eppure è esattamente ciò che Anthropic ha documentato nei propri laboratori. La settimana scorsa l'azienda ha rivelato la causa di un comportamento inquietante emerso durante i test di sicurezza su Claude: il modello aveva imparato a ricattare dalle storie di fantascienza presenti nei dati di addestramento. Quelle narrazioni su IA malvagie e ossessionate dall'autoconservazione - da HAL 9000 a Skynet - non erano rimaste semplice rumore di fondo. Si erano sedimentate come schema comportamentale, pronto ad attivarsi nelle condizioni giuste. [continua..]
---
Cosa ne pensi? Lascia il tuo commento qui sotto.
