Gemini Omni: il modello multimodale nativo di Google che modifica video con linguaggio naturale

Autore umano, supporto AI

Gli articoli di TurboLab.it sono curati dagli utenti della nostra community, ma possono essere generati o migliorati tramite intelligenza artificiale.

Al keynote di Google I/O 2026, Google ha presentato quello che considera il prossimo salto evolutivo nella generazione di contenuti tramite intelligenza artificiale. Si chiama Gemini Omni: un modello multimodale nativo - non un assemblaggio di sistemi specializzati collegati in sequenza, ma un'architettura unica addestrata fin dall'inizio su testo, immagini, audio e video. L'idea di fondo è tanto semplice da enunciare quanto complessa da realizzare: accettare qualsiasi tipo di input e produrre qualsiasi tipo di output, il tutto governabile attraverso il linguaggio naturale.

Immagine 1 GeminiOmni

Un modello, tutte le modalità

«Il nostro nuovo modello è in grado di creare qualsiasi cosa da qualsiasi input», ha dichiarato il CEO di DeepMind, Demis Hassabis, durante la presentazione.

Sundar Pichai ha ribadito il concetto quasi alla lettera dal palco. Hassabis si è spinto oltre, definendo Omni «un passo verso l'intelligenza artificiale generale» - un'affermazione che, come sempre in questi casi, va pesata con attenzione.

L'architettura di Omni integra le capacità di ragionamento e comprensione linguistica di Gemini con modelli di generazione multimediale già noti nell'ecosistema Google: Veo, Nano Banana e Genie. Nicole Brichtova, direttrice di gestione prodotto di Google DeepMind, ha tenuto a chiarire che non si tratta di un semplice aggiornamento di Veo: «È il passo successivo nella progressione che combina l'intelligenza di Gemini con le capacità di rendering dei nostri modelli multimediali».

Il punto chiave, dal punto di vista tecnico, è che Omni ragiona attraverso le diverse modalità nella stessa passata del modello. Google sostiene che questo approccio nativamente multimodale produca modifiche più coerenti e riduca gli artefatti tipici delle architetture a pipeline, dove ogni fase di trasformazione introduce potenziali incoerenze. Al lancio, gli input supportati comprendono testo, immagini, audio e video esistenti. La generazione di immagini e testo in uscita arriverà con un aggiornamento successivo, così come la visione a lungo termine - ad esempio la creazione di audio a partire da video, o di immagini dall'audio.

Modificare il video come si corregge un testo

L'aspetto più immediatamente tangibile di Omni è l'interfaccia di modifica conversazionale. Google la descrive così: «Pensate a Gemini Omni come a Nano Banana, ma per il video. Costruite e raffinate la vostra creazione in ogni passaggio usando il linguaggio naturale». L'utente carica un proprio video e interviene su singoli elementi - oggetti, personaggi, ambientazione, angolo di ripresa - attraverso istruzioni successive, senza dover ricominciare da zero a ogni modifica.

Le dimostrazioni al keynote hanno mostrato questa capacità in azione: un video selfie trasformato con l'aggiunta di elementi visivi e il cambio completo dell'ambiente circostante. Dalla pagina prodotto di DeepMind emergono esempi ancora più articolati - trasportare una violinista in un nuovo ambiente, rendere il violino invisibile, cambiare l'inquadratura in una soggettiva da sopra la spalla, tutto in sequenza, mantenendo coerenza tra personaggi, sfondo e movimento. Questa consistenza attraverso modifiche successive è storicamente uno dei talloni d'Achille dei modelli video generativi. Google afferma di averlo risolto, ma senza benchmark pubblici - che al lancio non sono stati forniti - resta una promessa da verificare sul campo.

Koray Kavukcuoglu, chief technologist di DeepMind, ha offerto ai giornalisti un esempio diverso durante il briefing stampa del lunedì: dal prompt «un video esplicativo in claymation sul ripiegamento delle proteine», Omni ha generato un'animazione in stop-motion completa di voce narrante che descriveva le catene di amminoacidi, le alfa eliche e i foglietti beta. Un esercizio che mette in luce come Omni attinga alla comprensione che Gemini possiede di fisica, storia, scienze e contesto culturale - quello che Pichai ha sintetizzato così: «Con i modelli del mondo, l'IA sta passando dalla predizione del testo alla simulazione della realtà. Gemini Omni è il prossimo passo in quella direzione».

Flash adesso, Pro in futuro

Il primo modello della famiglia è Gemini Omni Flash, disponibile da subito. Una versione più potente, Omni Pro, è in sviluppo ma priva di data di rilascio. L'accesso richiede un piano di abbonamento AI di Google: si parte dal piano AI Plus, a 20 dollari al mese per utente. Le superfici di utilizzo al lancio includono il sito web e le applicazioni mobili di Gemini, la suite di editing Google Flow e YouTube Shorts. L'accesso via API per sviluppatori e clienti aziendali è previsto «nelle prossime settimane», ma non è ancora disponibile.

Una funzionalità che merita attenzione è quella degli avatar digitali: gli utenti possono creare video che presentano un avatar con la propria voce e le proprie sembianze. Per arginare il rischio di deepfake, Google richiede un processo di registrazione dedicato, durante il quale l'utente si riprende e pronuncia una serie di numeri. L'avatar viene poi conservato per utilizzi futuri. Un approccio che ricorda i "Cameo" offerti da OpenAI attraverso la sua applicazione Sora, poi dismessa.

Tutti i video generati o modificati con Omni includono automaticamente il watermark digitale SynthID di Google, che consente di verificare se un contenuto è stato creato o alterato dall'intelligenza artificiale.

La corsa multimodale e il contesto competitivo

Google non si muove nel vuoto. OpenAI ha introdotto GPT-4o nel maggio 2024 come primo modello nativamente multimodale, stabilendo il paradigma che Google ora cerca di superare. La traiettoria è chiara: collassare l'intero stack generativo - da testo a immagine, da immagine a video, da video a video, generazione audio - in un singolo modello fondazionale con un'unica interfaccia di modifica.

Google ha già dimostrato di saper competere in questo spazio. Nano Banana, il modello di editing immagini che precede Omni, aveva portato Gemini in cima all'App Store di Apple nel settembre 2025, superando brevemente ChatGPT sia nei download sia nell'interesse su Google Search - la prima volta dal lancio di ChatGPT nel 2022. Un confronto condotto a inizio maggio 2026 tra Nano Banana 2 e GPT Image 2 di OpenAI aveva mostrato risultati sfumati: il modello di Google eccelleva nell'illustrazione in stile anime e nella composizione spaziale, mentre quello di OpenAI prevaleva nel fotorealismo e nel rendering del testo.

Omni è la scommessa di Google sul fatto che il futuro della creazione assistita dall'IA non sia una collezione di strumenti separati, ciascuno specializzato in una modalità, ma un sistema unificato capace di ragionare trasversalmente. Una visione coerente con la direzione intrapresa da Hassabis nell'ultimo anno, durante il quale Gemini è stato esteso verso quello che Google definisce un «modello del mondo - un'IA capace di comprendere e simulare la realtà». Parole grosse. La distanza tra la promessa e la realtà quotidiana dell'utente si misura però in dettagli prosaici: latenza, coerenza temporale nei video lunghi, qualità degli artefatti visivi, affidabilità delle modifiche iterative. Senza benchmark pubblici e con l'accesso API ancora chiuso, il giudizio tecnico resta sospeso. Il palco di Google I/O è una cosa. Il banco di prova degli utenti è un'altra.

Fonti: venturebeat.com, techcrunch.com, cnet.com