Gemini 3.5 Live Translate: traduzione vocale continua in oltre 70 lingue (aggiornato: 9 giugno 2026, ore 23:17)

Autore umano, supporto AI

Gli articoli di TurboLab.it sono curati dagli utenti della nostra community, ma possono essere generati o migliorati tramite intelligenza artificiale.

C'è un momento, nella storia di ogni tecnologia, in cui smette di essere un trucco da palcoscenico e diventa infrastruttura. La traduzione vocale in tempo reale ha vissuto per anni nella terra di mezzo delle demo spettacolari e dei risultati mediocri nella pratica quotidiana. Con l'annuncio del 9 giugno 2026, Google prova a far compiere a questa tecnologia il salto definitivo: Gemini 3.5 Live Translate è un modello audio specializzato nella traduzione vocale quasi istantanea, integrato direttamente in Google Translate, Google Meet e nelle API per sviluppatori.

Immagine 1 gemini 3.5 Live Translat

Come funziona: traduzione continua, non a turni

La differenza fondamentale rispetto ai sistemi precedenti sta nel flusso continuo. I traduttori automatici vocali tradizionali funzionano a turni: aspettano che chi parla finisca la frase, la elaborano, poi producono l'output. Gemini 3.5 Live Translate opera invece in modo continuo, restando «pochi secondi dietro a chi parla per tutta la durata della sessione» e generando «audio fluido, senza pause imbarazzanti». Non è interpretariato simultaneo nel senso stretto del termine - la latenza c'è - ma il modello bilancia costantemente il compromesso tra attendere abbastanza contesto per tradurre con precisione e mantenere la sincronia con il parlante.

Il sistema rileva automaticamente la lingua sorgente tra oltre 70 lingue supportate, senza che l'utente debba configurare nulla manualmente. E non si limita a convertire parole: preserva intonazione, ritmo e altezza della voce originale attraverso le lingue. Il risultato, almeno stando alle demo, è una voce tradotta che suona naturale piuttosto che robotica.

Google ha lavorato anche sulla robustezza al rumore ambientale. Il modello è progettato per filtrare i suoni di fondo e mantenere l'accuratezza in ambienti rumorosi - aeroporti, strade trafficate, situazioni dove i microfoni dei dispositivi mobili raccolgono di tutto. Un dettaglio non trascurabile: tutto l'audio generato viene contrassegnato con SynthID, un watermark impercettibile all'orecchio umano ma rilevabile algoritmicamente, pensato per rendere identificabile il contenuto prodotto dall'intelligenza artificiale.

Google Meet: da 5 a 70 lingue

L'impatto più immediato per il mondo enterprise riguarda Google Meet. Fino a oggi, la traduzione vocale nelle videochiamate di Google supportava appena cinque lingue e funzionava esclusivamente da e verso l'inglese. Con l'integrazione di Gemini 3.5 Live Translate, Meet passa a oltre 70 lingue e più di 2.000 combinazioni linguistiche utilizzabili all'interno di una singola riunione. Un partecipante che parla portoghese può essere tradotto simultaneamente in giapponese, tedesco e arabo per i colleghi connessi, senza che nessuno debba toccare un'impostazione.

Sul web, un nuovo pulsante nella barra dei controlli permette di attivare la traduzione vocale al volo. Il modello identifica automaticamente la lingua di chi sta parlando e produce la traduzione in tempo quasi reale.

C'è però un asterisco importante: l'integrazione con Meet è disponibile da questo mese solo in anteprima privata per clienti Google Workspace selezionati, con un rilascio più ampio previsto nel corso dell'anno. Per le aziende multinazionali che gestiscono riunioni multilingue quotidiane - e che oggi si affidano a interpreti umani o a strumenti frammentari - il potenziale è evidente. La distanza tra una demo controllata e una riunione caotica con dieci partecipanti che si parlano sopra, però, resta tutta da misurare.

Google Translate: traduzione in tasca

Sul fronte consumer, Gemini 3.5 Live Translate arriva nell'app Google Translate su Android e iOS con il rilascio in corso. L'accesso avviene tramite un pulsante «Traduzione simultanea» nell'angolo in basso a sinistra dell'app, utilizzabile con gli auricolari collegati.

La novità più interessante è una modalità esclusiva per Android chiamata Listening mode: consente di ricevere la traduzione direttamente dalla capsula auricolare del telefono, senza bisogno di cuffie. Si appoggia lo smartphone all'orecchio come durante una normale telefonata e si ascolta la traduzione in tempo reale di ciò che dice l'interlocutore. Un dettaglio di design che abbassa drasticamente la barriera d'ingresso: niente accessori da cercare, niente pairing Bluetooth da configurare. Basta il telefono.

Per gli sviluppatori: API e scenari d'uso

Il modello è disponibile da subito in anteprima pubblica tramite la Gemini Live API e Google AI Studio. Per gli sviluppatori, questo significa poter integrare la traduzione vocale continua nelle proprie applicazioni senza dover costruire una pipeline separata di riconoscimento vocale, traduzione testuale e sintesi vocale. Il modello gestisce l'intero flusso speech-to-speech in modo nativo.

Tra i casi d'uso suggeriti da Google: doppiaggio dal vivo di contenuti video e traduzione multilingue in tempo reale per piattaforme di comunicazione. Grab, il servizio di ride-hailing diffuso nel Sud-Est asiatico, sta già testando il modello per facilitare la comunicazione tra autisti e passeggeri che parlano lingue diverse - uno scenario che da solo vale milioni di interazioni quotidiane.

Contesto e cautele

Google presenta la traduzione in tempo reale come uno dei suoi «esperimenti pionieristici nel machine learning», coltivato per anni. Le prime implementazioni richiedevano hardware specifico - smartphone Pixel, auricolari Google - e solo l'anno scorso la funzionalità è stata estesa a un pubblico più ampio nell'app Translate. Gemini 3.5 Live Translate è il capitolo più ambizioso di questa traiettoria, presentato a Google I/O come parte della famiglia Gemini 3.5. Finora era stato rilasciato solo il modello Flash; una versione Pro è attesa nelle prossime settimane.

Le demo mostrate da Google sono state registrate in condizioni controllate. Le prestazioni nel mondo reale - con accenti marcati, sovrapposizioni di voci, connessioni instabili e gergo settoriale - non sono ancora state verificate in modo indipendente su larga scala. La traduzione automatica ha fatto progressi enormi, ma chiunque abbia usato un interprete umano sa quanto contesto, sfumatura culturale e giudizio situazionale servano per una traduzione davvero affidabile. Il modello potrà eccellere nelle conversazioni strutturate di una riunione aziendale e arrancare in una trattativa informale piena di modi di dire regionali.

Se Gemini 3.5 Live Translate mantiene anche solo una parte delle promesse, il modo in cui aziende, sviluppatori e utenti comuni gestiscono la comunicazione multilingue sta per cambiare in modo sostanziale. Non è una svolta istantanea - è un'infrastruttura che si sta posando, un pezzo alla volta.

Fonti: google.blog, nokiapoweruser.com, thurrott.com, 9to5google.com