Claude Mythos Preview sfonda il tetto di METR: è il punteggio più alto mai raggiunto (aggiornato: 11 maggio 2026, ore 15:21)

Autore umano, supporto AI

Gli articoli di TurboLab.it sono curati dagli utenti della nostra community, ma possono essere generati o migliorati tramite intelligenza artificiale.

Quando METR - l'organizzazione che traccia la capacità degli agenti AI di svolgere compiti autonomi - pubblica nuovi risultati, il settore tende a prestare attenzione. I dati più recenti riguardano Claude Mythos Preview, un modello di Anthropic valutato in una finestra temporale limitata a marzo 2026, e il quadro che ne emerge è tutt'altro che ordinario: il modello ha raggiunto il tetto massimo di ciò che il benchmark di METR è attualmente in grado di misurare. Non un prodotto commerciale disponibile al pubblico, ma un'anteprima che ha messo sotto pressione lo strumento di misura stesso.

Immagine 1 claude-mythos-metr-benchmark-out-of-scale

Cosa misura davvero il benchmark di METR

Prima di entrare nei numeri, serve chiarire cosa significhi la metrica del «50%-time-horizon». Non si tratta del tempo che l'AI impiega per completare un compito. Il valore esprime la difficoltà del compito, misurata come il tempo che un essere umano impiegherebbe per portarlo a termine nel punto in cui il tasso di successo del modello raggiunge il 50%. I modelli, di norma, completano i compiti più rapidamente degli esseri umani: scrivono codice in meno iterazioni, cercano informazioni più velocemente.

La suite di METR contiene 228 compiti totali, orientati prevalentemente verso ingegneria del software, apprendimento automatico e sicurezza informatica. Di questi, solo 5 hanno una durata stimata di 16 ore o più per un essere umano. Una scarsità che ha conseguenze dirette sull'affidabilità delle misurazioni nella fascia alta della scala.

Il soffitto raggiunto - e i suoi limiti

Claude Mythos Preview è il primo modello AI a raggiungere il limite superiore della metodologia di test di METR, con un 50%-time-horizon di almeno 16 ore. METR stessa, però, è esplicita nel segnalare quanto questa misurazione vada presa con cautela. L'intervallo di confidenza al 95% per Mythos Preview va da 8,5 a 55 ore - una forbice enorme, che riflette direttamente la copertura insufficiente di compiti nella fascia alta della scala.

METR dichiara che le misurazioni sopra le 16 ore sono «instabili e meno significative rispetto a intervalli con una migliore copertura di compiti». L'organizzazione non evidenzia un numero specifico di ore come dato principale per i modelli che superano questa soglia, e sconsiglia esplicitamente di usare questi risultati per confronti precisi o estrapolazioni. Nota però che la suite esistente «potrebbe ancora distinguere un modello molto più capace» rispetto allo stato dell'arte attuale.

METR sta lavorando a metodi aggiornati con compiti di durata maggiore, ma lo sviluppo è ancora in corso. Il termometro ha raggiunto il fondo scala, e ne serve uno nuovo.

Una traiettoria esponenziale

Più del singolo risultato, è la traiettoria a colpire. GPT-4, a marzo 2023, registrava un 50%-time-horizon di circa 4 minuti. GPT-4o, a metà 2024, saliva a circa 7 minuti. Sonnet 3.7 raggiungeva approssimativamente 2 ore. Claude Opus 4.6 e GPT-5.2 si collocavano nell'ordine delle 5-6 ore. Con Mythos Preview si arriva ad almeno 16 ore, qualunque sia il valore preciso all'interno di quell'ampio intervallo di confidenza.

Il tempo di raddoppio della metrica tra gennaio 2024 e febbraio 2026 si aggira intorno ai 105 giorni, equivalente a una crescita superiore al 1.000% annuo. Un ritmo che, se mantenuto, pone domande concrete a chiunque sviluppi strumenti di automazione o lavori nell'ingegneria del software.

Le implicazioni nella sicurezza informatica

Palo Alto Networks, che ha avuto accesso anticipato e senza restrizioni a diversi modelli di frontiera - tra cui Claude Mythos, GPT-5.5-Cyber di OpenAI e Claude Opus 4.7 - descrive l'ultima generazione come «un salto qualitativo nelle capacità». I sistemi AI operano sempre più come agenti autonomi in grado di identificare vulnerabilità software e collegarle a percorsi d'attacco critici.

Un dato concreto vale più di molte analisi: i modelli hanno completato l'equivalente di un anno intero di penetration testing manuale in sole tre settimane. È il tipo di accelerazione che ridefinisce i rapporti di forza tra chi attacca e chi difende, e che rende urgente ripensare le strategie di sicurezza.

Cosa manca dal quadro

I compiti di METR misurano lavoro tecnico autonomo, ben specificato e autocontenuto. Il lavoro nel mondo reale include comunicazione con gli stakeholder, conoscenza organizzativa implicita e criteri di successo che non si prestano a una valutazione algoritmica - nulla di tutto questo è catturato dal benchmark. Le prestazioni dei modelli variano inoltre significativamente tra domini diversi: eccellere in compiti di ingegneria del software non implica la stessa competenza altrove.

C'è poi la questione della disponibilità. Claude Mythos Preview non è un prodotto pubblico. Anthropic ha scelto di non rilasciarlo, una decisione che suggerisce una valutazione interna delle conseguenze reali sufficientemente seria da giustificare la cautela. I dettagli specifici non sono stati divulgati, ma la scelta stessa è un segnale: quando chi costruisce il modello decide che il mondo non è ancora pronto per usarlo, vale la pena ascoltare.

Il benchmark di METR ha raggiunto il suo limite. Il prossimo capitolo dipenderà tanto dalla capacità di costruire strumenti di misurazione adeguati quanto dalla velocità con cui i modelli continuano a migliorare - e al momento, quella velocità supera la nostra capacità di misurla con precisione.

Fonti: officechai.com, reddit.com, mirairisktech.com