I nuovi modelli DeepSeek V4 Pro e DeepSeek V4 Flash sono ora disponibili (aggiornato: 26 aprile 2026, ore 22:47)

Autore umano, supporto AI

Gli articoli di TurboLab.it sono curati dagli utenti della nostra community, ma possono essere generati o migliorati tramite intelligenza artificiale.

DeepSeek ha pubblicato in anteprima due nuovi modelli: DeepSeek V4 Pro e DeepSeek V4 Flash. Il brief tecnico parla di Cache KV ridotta al 10% rispetto alla generazione precedente, compatibilità dichiarata con gli acceleratori Huawei Ascend e licenza MIT. È la prima vera architettura nuova dopo V3, uscito a dicembre 2024, e il primo tentativo esplicito di costruire una gamma a due livelli: un modello di punta e uno leggero, entrambi progettati per abbattere le barriere di accesso all'inferenza su larga scala.

Immagine 1 deepseek (1)

Due modelli, un'architettura rinnovata

DeepSeek V4 Pro conta 1.600 miliardi di parametri totali, di cui 49 miliardi attivi durante l'inferenza grazie all'architettura Mixture-of-Experts (MoE).

V4 Flash è più contenuto: 284 miliardi di parametri totali, 13 miliardi attivi.

Entrambi supportano una finestra di contesto da un milione di token - circa 750.000 parole - e operano in modalità solo testo, con un sistema ibrido che alterna ragionamento esplicito e risposta diretta.

La scelta di rilasciare sia la versione Base sia la versione Instruct per entrambi i modelli è insolita. Di norma i laboratori pubblicano solo il modello già ottimizzato per le istruzioni. Avere accesso ai pesi base significa che ricercatori e sviluppatori possono effettuare fine-tuning personalizzato senza partire dai vincoli imposti dall'allineamento post-addestramento.

I modelli sono disponibili su Hugging Face, tramite l'API di DeepSeek e sul servizio web dell'azienda.

La svolta nell'attenzione: CSA e HCA

Il cuore tecnico di V4 sta in un meccanismo di attenzione ibrido che combina due tecniche nuove: Compressed Sparse Attention (CSA) e Heavy Compressed Attention (HCA). L'obiettivo è duplice: ridurre i FLOP necessari durante l'inferenza e comprimere drasticamente la cache KV, la struttura dati che tiene traccia dello stato del modello durante la generazione del testo.

I numeri parlano chiaro. Con un contesto di un milione di token, V4 richiede appena il 27% dei FLOP rispetto a DeepSeek V3.2. La cache KV occupa il 10% della memoria necessaria al predecessore - una riduzione di circa 9,5 volte. Per chi gestisce servizi di inferenza, dove le cache KV vengono spesso scaricate dalla VRAM alla memoria di sistema o addirittura su SSD per evitare penalità di avvio a freddo, è una differenza che si traduce direttamente in costi operativi più bassi e hardware meno esigente.

Il rapporto tecnico - 58 pagine che diversi ricercatori hanno definito tra i più importanti e meglio scritti dell'anno - documenta anche l'adozione di Manifold Constrained Hyper-Connections (mHC), una tecnica descritta in un articolo pubblicato da DeepSeek a gennaio, e il continuo impiego dell'ottimizzatore Muon di Moonshot AI. V4 Pro è stato addestrato su un corpus nell'ordine dei 32-33 bilioni di token.

Huawei Ascend: oltre NVIDIA

Il supporto esplicito per gli acceleratori AI della famiglia Huawei Ascend, tramite lo stack software CANN di Huawei, è il dettaglio che porta V4 al centro del dibattito geopolitico sull'intelligenza artificiale. DeepSeek ha dichiarato di aver utilizzato chip Ascend per l'addestramento del modello. Non è un semplice esercizio di compatibilità: è una dimostrazione che modelli di frontiera possono essere addestrati e serviti su silicio non statunitense.

I processori Ascend sono fabbricati da Semiconductor Manufacturing International Corp. (SMIC), il principale produttore cinese di semiconduttori. Le azioni SMIC sono balzate del 10% alla borsa di Hong Kong dopo l'annuncio. Il contesto è noto: le restrizioni all'esportazione statunitensi limitano l'accesso cinese ai chip NVIDIA più avanzati e all'ecosistema CUDA. Che DeepSeek dimostri di poter fare a meno di quel know-how - almeno parzialmente - è un segnale che Washington non può ignorare.

La disponibilità di chip Ascend è stimata a circa un quarto rispetto all'offerta di NVIDIA H100, e il divario nell'ecosistema hardware resta ampio. Ma la direzione è tracciata.

Immagine 2 deepseek (2)

Prestazioni: vicino alla frontiera, non ancora oltre

V4 Pro ottiene un punteggio di 52 sull'Artificial Analysis Intelligence Index, 10 punti in più rispetto al 42 di V3.2. Questo lo colloca al secondo posto tra i modelli a pesi aperti con capacità di ragionamento, dietro a Kimi K2.6 (punteggio: 54). V4 Flash si attesta a 47, un livello paragonabile a quello di Claude Sonnet 4.6 in configurazione massima.

Dove V4 Pro eccelle davvero è nei compiti agentici su scenari reali. Sul benchmark GDPval-AA raggiunge 1.554 punti, superando Kimi K2.6 (1.484), GLM-5.1 (1.535) e MiniMax-M2.7 (1.514). I miglioramenti nella conoscenza generale sono significativi: il punteggio su AA-Omniscience passa da -21 (V3.2) a -10 (V4 Pro), un balzo di 11 punti.

DeepSeek stessa, nel rapporto tecnico, ammette che V4 «resta marginalmente indietro rispetto a GPT-5.4 e Gemini 3.1 Pro, con un ritardo stimabile in tre-sei mesi rispetto ai modelli di frontiera più avanzati». È un'onestà rara in un settore che si nutre di superlativi. Il divario con i modelli proprietari esiste, ma si sta riducendo.

Immagine 3 openai-chatgpt

Un dato meno lusinghiero: il tasso di allucinazione. V4 Pro risponde nel 94% dei casi in cui non dispone dell'informazione corretta. V4 Flash arriva al 96%. Quando non sanno qualcosa, quasi sempre fingono di saperlo. È un problema diffuso nell'intero settore, ma numeri così alti meritano attenzione.

Prezzi che parlano da soli

L'API di V4 Pro costa 3,48 dollari per milione di token in uscita. V4 Flash scende a 0,28 dollari. Per dare un ordine di grandezza: OpenAI si attesta intorno ai 30 dollari per milione di token in uscita, Anthropic intorno ai 25. Anche Kimi di Moonshot AI, a 4 dollari, costa più di V4 Pro.

Il tempismo non è casuale. Sia OpenAI sia Anthropic hanno recentemente aumentato i prezzi e introdotto limiti di utilizzo più restrittivi. Diversi sviluppatori cinesi hanno fatto lo stesso. DeepSeek si muove in direzione opposta, e il mercato ha reagito di conseguenza: le azioni di MiniMax e Knowledge Atlas, due concorrenti diretti, sono scese di oltre il 9% dopo l'annuncio.

Eseguire l'intera suite di benchmark dell'Artificial Analysis Intelligence Index su V4 Pro costa 1.071 dollari. La stessa operazione su Claude Opus 4.7 ne richiede 4.811. Non è il modello più economico da valutare - Kimi K2.6 si ferma a 948 dollari - ma il rapporto tra prestazioni e costo è aggressivo.

Cosa significa per il settore

DeepSeek V4 non è il modello più potente in circolazione. Non supera GPT-5.4, non detronizza Gemini 3.1 Pro. Ma non è questo il punto. La combinazione di riduzione della memoria di quasi un ordine di grandezza, compatibilità con hardware non NVIDIA, pesi aperti con licenza MIT e prezzi API che tagliano le gambe alla concorrenza proprietaria delinea una strategia precisa: rendere l'inferenza di modelli su scala di frontiera accessibile a un numero molto più ampio di operatori.

V3 e R1, a fine 2024 e inizio 2025, avevano già scosso il mercato dimostrando che prestazioni competitive potevano emergere da budget di addestramento relativamente contenuti. V4 sposta la pressione sull'altro lato dell'equazione: non solo addestrare costa meno, ma anche servire il modello richiede meno risorse. È un attacco su due fronti che nessun concorrente, aperto o proprietario, può permettersi di ignorare.

Detto questo, le prestazioni sui benchmark non si traducono automaticamente in risultati nel mondo reale, le opinioni degli esperti divergono su quanto V4 Pro sia davvero vicino ai modelli proprietari di punta, e il tasso di allucinazione resta preoccupante. Ma la traiettoria è inequivocabile: il divario tra modelli aperti e chiusi si assottiglia, e l'hardware necessario per eseguirli si sta diversificando. Per chiunque abbia costruito la propria strategia AI sul presupposto che NVIDIA e i modelli proprietari fossero imprescindibili, è il momento di rivedere le ipotesi.

Fonti: theregister.com, reuters.com, latent.space