Anthropic lancia Claude Opus 4.8: supera GPT-5.5 su SWE-Bench Pro e introduce Dynamic Workflows (aggiornato: 29 maggio 2026, ore 07:09)

Autore umano, supporto AI

Gli articoli di TurboLab.it sono curati dagli utenti della nostra community, ma possono essere generati o migliorati tramite intelligenza artificiale.

A poco più di sei settimane dal rilascio di Opus 4.7, Anthropic torna alla carica. L'azienda ha lanciato ieri pubblicamente Claude Opus 4.8, il nuovo modello di punta della famiglia Claude, con una promessa che suona quasi controcorrente: prima l'onestà, poi le prestazioni. Un modello che sa dire «non lo so» vale più di uno che inventa risposte con sicumera. In più, miglioramenti tecnici concreti - a partire dal codice.

Immagine 1 Claude Opus 4.8 (2)

L'onestà come caratteristica tecnica

Applicato a un modello linguistico, il concetto di "onestà" può sembrare vago, quasi da comunicato stampa. Anthropic lo traduce però in metriche specifiche. Secondo i primi test, Opus 4.8 è circa quattro volte meno incline rispetto al predecessore a lasciar passare senza commento i difetti nel codice che ha generato. In pratica: se Opus 4.8 scrive una funzione con un bug, tende a segnalarlo anziché fingere che tutto vada bene.

Le valutazioni sull'allineamento mostrano anche punteggi più alti nei tratti prosociali - supporto all'autonomia dell'utente, azione nel suo interesse - e tassi inferiori di comportamento ingannevole rispetto a Opus 4.7. I livelli di misalignment sono descritti come comparabili a quelli di Claude Mythos Preview, il modello specializzato in cybersicurezza che Anthropic non ha ancora reso disponibile al grande pubblico.

Immagine 2 opus 4.8 misalignment

Per chi usa Claude come assistente alla programmazione, la differenza è tangibile. Come ha osservato un tester: «Claude Opus 4.8 ha un giudizio notevolmente migliore. In Claude Code fa le domande giuste, individua i propri errori, obietta quando un piano non regge e costruisce fiducia attorno a esplorazioni complesse e multi-servizio prima di apportare modifiche importanti. È un ottimo modello con cui lavorare».

I numeri: benchmark in crescita, ma non ovunque

Su SWE-Bench Pro, il riferimento per la valutazione del codice agentico, Opus 4.8 sale dal 64,3% di Opus 4.7 al 69,2%. Il ragionamento multidisciplinare con strumenti passa dal 54,7% al 57,9%. Il punteggio nel lavoro basato sulla conoscenza cresce da 1.753 a 1.890.

Sul fronte dell'uso del computer e dei browser agent, il modello raggiunge l'84% su Online-Mind2Web - un salto significativo rispetto sia a Opus 4.7 sia a GPT-5.5 di OpenAI. In ambito legale, Opus 4.8 è il primo modello a superare la soglia del 10% nello standard all-pass del Legal Agent Benchmark. Un traguardo che può sembrare modesto in termini assoluti, ma nel contesto del lavoro giuridico - dove la precisione è tutto - ha implicazioni concrete. «Per il lavoro legale sostanziale, è il tipo di miglioramento nell'accuratezza che si traduce direttamente nella quantità di lavoro reale che i nostri clienti possono delegare con fiducia», ha commentato un responsabile della valutazione.

Su SWE-Bench Pro e diversi altri parametri, Opus 4.8 supera anche GPT-5.5 e Gemini 3.1 Pro. Il modello di OpenAI mantiene però il vantaggio nel benchmark di codifica da terminale. Non è dominio assoluto, ma il quadro complessivo è solido.

Immagine 3 opus 4.8 benchmark

Modalità veloce: stessa intelligenza, prezzo ridotto

Una delle novità più rilevanti per l'uso quotidiano è la modalità veloce: opera a circa 2,5 volte la velocità standard ed è ora tre volte più economica rispetto alle versioni precedenti. Non si tratta di un modello distillato o alleggerito, ma del Opus 4.8 completo. Chi ha bisogno di risposte rapide non deve sacrificare la qualità del ragionamento.

Il prezzo del modello resta invariato rispetto a Opus 4.7: 5 dollari per milione di token in ingresso e 25 dollari per milione di token in uscita. La parità di costo, unita ai miglioramenti prestazionali, rende l'aggiornamento un affare semplice per chi già utilizzava il predecessore.

Controllo dello sforzo: quanta potenza servire al problema

Anthropic introduce un sistema di controllo dello sforzo che merita attenzione. Il modello opera di base in modalità «high effort», che consuma un numero di token simile a Opus 4.7 per le attività di programmazione ma con risultati migliori. Chi affronta compiti particolarmente complessi può selezionare livelli superiori: «extra» (chiamato xhigh in Claude Code) o «max», che spendono più token in cambio di prestazioni ancora più elevate.

Anthropic consiglia «extra» per i lavori difficili e i flussi di lavoro asincroni di lunga durata; i limiti di frequenza in Claude Code sono stati aumentati per sostenere il consumo più alto di token ai livelli superiori. Il controllo è disponibile come cursore scorrevole su claude.ai e Cowork, ed è accessibile su tutti i piani tariffari. Livelli inferiori significano risposte più rapide e un consumo più lento dei limiti di utilizzo: un compromesso utile per chi gestisce carichi di lavoro variegati.

Dynamic Workflows: centinaia di agenti in parallelo

Insieme a Opus 4.8 arriva in anteprima di ricerca una funzionalità chiamata Dynamic Workflows, disponibile in Claude Code per i piani Enterprise, Team e Max. Il concetto è ambizioso: Claude pianifica un'attività, avvia centinaia di sotto-agenti paralleli in una singola sessione, incrocia i risultati e restituisce un output verificato.

L'applicazione più immediatamente comprensibile è la migrazione di codice su larga scala. Anthropic dichiara che il sistema può gestire migrazioni di centinaia di migliaia di righe di codice dall'inizio alla fusione nel ramo principale - il tipo di strumento che può trasformare settimane di lavoro in ore, almeno sulla carta. I risultati reali dipenderanno dalla complessità delle basi di codice e dalla qualità dei vincoli impostati dall'utente.

Sul versante API, la Messages API accetta ora voci di sistema all'interno dell'array dei messaggi. Gli sviluppatori possono così aggiornare le istruzioni di Claude a metà di un'attività senza invalidare la cache del prompt né far transitare l'aggiornamento attraverso un turno utente. Un cambiamento tecnico sottile ma significativo per chi costruisce flussi di lavoro complessi.

Mythos all'orizzonte, ma non ancora a portata

Nell'annuncio di Opus 4.8 si intravede anche l'ombra di Claude Mythos, il modello orientato alla cybersicurezza presentato all'inizio di aprile. Anthropic promette di renderlo disponibile a tutti i clienti «nelle prossime settimane», ma l'accesso è rimasto finora limitato a stakeholder selezionati dietro le principali piattaforme software, mentre l'azienda sviluppa salvaguardie specifiche per le sue capacità avanzate in ambito di sicurezza informatica. C'è chi osserva che la disponibilità più ampia non sembra poi così imminente, nonostante le rassicurazioni. Mythos è descritto come significativamente più capace di Opus 4.8 - il che spiega sia l'attesa sia la cautela nel distribuirlo.

Un aggiornamento denso, non una rivoluzione

Opus 4.8 non è una rottura rispetto al predecessore, e Anthropic non prova nemmeno a venderlo come tale. È un aggiornamento incrementale ma denso: migliore onestà nel codice, benchmark in crescita su quasi tutti i fronti, una modalità veloce finalmente economica e strumenti nuovi per il lavoro agentico su larga scala. La parte più interessante, però, è forse il messaggio strategico: un modello che ammette i propri limiti vale più di uno che li nasconde. In un mercato dove la corsa ai benchmark rischia di premiare la sicumera artificiale quanto quella naturale, Anthropic scommette che la trasparenza paghi.

Fonti: anthropic.com, macrumors.com, 9to5mac.com