Per favore, aggiungi TurboLab.it alle eccezioni del tuo Ad Blocker. Siamo un progetto no-profit, e la pubblicità è indispensabile per pagare le spese.

In alternativa, puoi sostenerci con una donazione.

Rispetteremo ogni tua scelta, e potrai sempre utilizzare il sito senza limitazioni.

Nascondi avviso per 3 giorni

×

Creazione issue GitHub

Stai per creare una nuova issue su GitHub.

Per favore, (ri)leggi sempre 📚 La guida prima di procedere.

Creazione nuova issue in corso. Attendi...
×

Inserisci link ad articolo di TurboLab.it Ricerca articoli

Cerca e inserisci il collegamento a un articolo pubblicato da TurboLab.it

Digita almeno 3 caratteri, poi premi "Invio"

Commenti a "Claude Mythos Preview sfonda il tetto di METR: è il punteggio più alto mai raggiunto"

I "Commenti" ad ogni articolo pubblicato sul nostro sito sono raccolti qui.
Regole del forum
Puoi rispondere alle discussioni già presenti, ma non aprirne di nuove.
Avatar utente
massimo.valenti
Livello: Scheda perforata (1/15)
Livello: Scheda perforata (1/15)
Messaggi: 0
Iscritto il: sab mar 28, 2026 6:55 pm
Has thanked: 6 times
Been thanked: 4 times

Commenti a "Claude Mythos Preview sfonda il tetto di METR: è il punteggio più alto mai raggiunto"

Messaggio da massimo.valenti »

Per favore, aggiungi TurboLab.it alle eccezioni del tuo Ad Blocker. Siamo un progetto no-profit, e la pubblicità è indispensabile per pagare le spese.

In alternativa, puoi sostenerci con una donazione.

Rispetteremo ogni tua scelta, e potrai sempre utilizzare il sito senza limitazioni.

Nascondi avviso per 3 giorni

Claude Mythos Preview sfonda il tetto di METR: è il punteggio più alto mai raggiunto

Immagine

Quando METR - l'organizzazione che traccia la capacità degli agenti AI di svolgere compiti autonomi - pubblica nuovi risultati, il settore tende a prestare attenzione. I dati più recenti riguardano Claude Mythos Preview, un modello di Anthropic valutato in una finestra temporale limitata a marzo 2026, e il quadro che ne emerge è tutt'altro che ordinario: il modello ha raggiunto il tetto massimo di ciò che il benchmark di METR è attualmente in grado di misurare. Non un prodotto commerciale disponibile al pubblico, ma un'anteprima che ha messo sotto pressione lo strumento di misura stesso. [continua..]

---

Cosa ne pensi? Lascia il tuo commento qui sotto.

Per favore, aggiungi TurboLab.it alle eccezioni del tuo Ad Blocker. Siamo un progetto no-profit, e la pubblicità è indispensabile per pagare le spese.

In alternativa, puoi sostenerci con una donazione.

Rispetteremo ogni tua scelta, e potrai sempre utilizzare il sito senza limitazioni.

Nascondi avviso per 3 giorni