Google rilascia Gemma 4 12B: modello per AI locale su PC con 16 GB di RAM (aggiornato: 4 giugno 2026, ore 07:50)
- a cura di: massimo.valenti
- Commenti:
- Letture:
- Aggiornato: 04/06/2026, 07:50
- Pubblicato: 04/06/2026, 07:44
Per favore, aggiungi TurboLab.it alle eccezioni del tuo Ad Blocker. Siamo un progetto no-profit, e la pubblicità è indispensabile per pagare le spese.
In alternativa, puoi sostenerci con una donazione.
Rispetteremo ogni tua scelta, e potrai sempre utilizzare il sito senza limitazioni.
Per anni, far girare un modello linguistico degno di questo nome sul proprio portatile ha significato scegliere tra due opzioni ugualmente frustranti: accontentarsi di modelli minuscoli e poco capaci, oppure investire in hardware con schede grafiche da diverse migliaia di euro. Google prova a scardinare questa logica con Gemma 4 12B, un modello multimodale a pesi aperti da 11,95 miliardi di parametri progettato per girare su un normale laptop con 16 GB di memoria unificata o VRAM. Licenza Apache 2.0, scaricabile gratis, già disponibile su Hugging Face, Kaggle, Ollama, LM Studio e Google AI Edge Gallery. La domanda, come sempre, è se le promesse reggano il confronto con la realtà.

La scelta progettuale più interessante di Gemma 4 12B è l'eliminazione completa degli encoder separati per visione e audio. I modelli Gemma 4 tradizionali dedicano risorse considerevoli a componenti specializzati: 550 milioni di parametri per l'encoder visivo nelle taglie medie, 300 milioni per quello audio nei modelli più piccoli. Gemma 4 12B butta via tutto e opera come un singolo transformer decoder-only.
Per la visione, l'encoder tradizionale è sostituito da un modulo di embedding leggero - una singola moltiplicazione matriciale, embedding posizionale e normalizzazioni - che pesa appena 35 milioni di parametri. Per l'audio, il segnale grezzo viene proiettato direttamente nello stesso spazio dimensionale dei token testuali tramite strati lineari leggeri, senza alcun encoder dedicato.
I vantaggi concreti di questo approccio "unificato": latenza di inferenza ridotta, minor consumo di VRAM e - aspetto non trascurabile per chi sviluppa - la possibilità di effettuare il fine-tuning dell'intero sistema multimodale in un'unica passata. Niente più pipeline frammentate con componenti da addestrare separatamente.
Il modello offre una finestra di contesto da 256.000 token, sufficiente per elaborare documenti lunghi o sessioni di conversazione estese senza perdere il filo. Le capacità dichiarate spaziano dal riconoscimento vocale automatico alla generazione di codice, dalla comprensione video al ragionamento agentico con utilizzo nativo di strumenti esterni.
È il primo modello Gemma di taglia media a supportare input audio nativi. Include una modalità "thinking" per il ragionamento passo-passo prima di generare una risposta, e drafter Multi-Token Prediction (MTP) per ridurre ulteriormente la latenza durante l'inferenza.
Google ha mostrato le capacità del modello con una dimostrazione dall'ambizione dichiarata: l'analisi di un segmento di cinque minuti del keynote di Google I/O, elaborando 313 fotogrammi a un frame al secondo più la traccia audio. In un'altra demo, Gemma 4 12B è stato usato tramite llama.cpp e un agente OpenCode per costruire un'applicazione Gradio di elaborazione immagini - usando lo stesso modello che stava costruendo l'applicazione. Un esercizio di autoreferenzialità che, almeno, dimostra versatilità.
Il requisito dichiarato è 16 GB di VRAM o memoria unificata. Vale la pena essere precisi: Google parla di VRAM o memoria unificata - come quella dei chip Apple Silicon, dove CPU e GPU condividono lo stesso pool di memoria - non di semplice RAM di sistema. Su un laptop tradizionale con GPU discreta e 8 GB di VRAM, o su una macchina con sola grafica integrata e 16 GB di RAM, i risultati potrebbero variare in modo significativo.
Per i possessori di Mac con Apple Silicon, la situazione è più favorevole. Google ha annunciato l'espansione di AI Edge Gallery dal mobile al desktop macOS, con esecuzione offline nativa sulle GPU Apple Silicon. Su un MacBook Air M2 con 16 GB di memoria unificata, il modello dovrebbe girare senza particolari acrobazie.
Su Windows e Linux dipende tutto dalla configurazione specifica. Un portatile da ufficio con 16 GB di RAM e grafica integrata Intel difficilmente offrirà un'esperienza fluida. Chi dispone di una GPU dedicata con almeno 16 GB di VRAM - una NVIDIA RTX 4060 Ti 16 GB, per esempio - è nella posizione migliore per sfruttarlo a pieno regime.
Google afferma che Gemma 4 12B raggiunge prestazioni «prossime» a quelle del modello più grande della famiglia, il Gemma 4 26B basato su architettura Mixture of Experts, pur occupando meno della metà della memoria.

Se confermato, sarebbe un risultato notevole: prestazioni da modello di fascia alta in un formato che entra in un laptop.
Il condizionale è d'obbligo. Nessuna delle fonti disponibili riporta punteggi di benchmark indipendenti o validazioni di terze parti. Tutte le affermazioni sulle prestazioni provengono esclusivamente da Google. Finché la comunità non avrà eseguito test standardizzati e confronti diretti con modelli concorrenti della stessa taglia - Llama, Mistral, Qwen - queste restano dichiarazioni di parte, per quanto provenienti da una fonte autorevole.
Gemma 4 12B si colloca in una nicchia precisa e in rapida crescita: chi vuole o deve eseguire inferenza locale, senza dipendere da servizi cloud. Professionisti che lavorano in ambienti senza connessione - aerei, reti segregate - sviluppatori indipendenti, ricercatori, piccole aziende che non possono o non vogliono inviare dati sensibili a server di terzi.
I vantaggi dell'inferenza locale sono tangibili: costi operativi azzerati dopo il download, privacy dei dati, tempi di risposta non vincolati alla latenza di rete, indipendenza dalla connessione Internet. La licenza Apache 2.0 aggiunge libertà d'uso commerciale senza vincoli particolari.
Nella famiglia Gemma 4, il 12B occupa lo spazio di mezzo: più capace del piccolo Gemma 4 E4B pensato per i dispositivi edge, meno esigente del 26B MoE. Con oltre 150 milioni di download complessivi per la famiglia Gemma 4, Google sta costruendo un ecosistema che punta sulla distribuzione capillare piuttosto che sulla pura potenza di calcolo.
Mentre la corsa ai modelli più grandi e costosi continua a dominare i titoli del settore, Gemma 4 12B scommette nella direzione opposta: rendere l'AI locale sufficientemente capace e sufficientemente leggera da funzionare sull'hardware che le persone già possiedono. Non è un'idea nuova - Meta con Llama e Mistral con i propri modelli compatti perseguono lo stesso obiettivo da tempo - ma l'approccio architetturale senza encoder e il supporto multimodale nativo a questa taglia sono elementi che lo distinguono dalla concorrenza.
Le prestazioni dichiarate attendono ancora una verifica indipendente, e «16 GB» non significa la stessa cosa su ogni macchina. Ma se i numeri di Google reggono anche solo in parte allo scrutinio della comunità, Gemma 4 12B potrebbe diventare il modello che normalizza l'AI locale per chi finora guardava da fuori - con il portatile sbagliato e il portafoglio troppo leggero per l'hardware giusto.
Fonti: blog.google, wionews.com, venturebeat.com
Nessuno ha ancora commentato.