
Quando METR - l'organizzazione che traccia la capacità degli agenti AI di svolgere compiti autonomi - pubblica nuovi risultati, il settore tende a prestare attenzione. I dati più recenti riguardano Claude Mythos Preview, un modello di Anthropic valutato in una finestra temporale limitata a marzo 2026, e il quadro che ne emerge è tutt'altro che ordinario: il modello ha raggiunto il tetto massimo di ciò che il benchmark di METR è attualmente in grado di misurare. Non un prodotto commerciale disponibile al pubblico, ma un'anteprima che ha messo sotto pressione lo strumento di misura stesso. [continua..]
---
Cosa ne pensi? Lascia il tuo commento qui sotto.
