Da qualche mese Gemini, l'AI di Google, ha reso disponibile la funzione Stream, ora fruibile anche dall'Italia, senza usare VPN o altri espedienti. Questa funzione consente di condividere il proprio schermo con Gemini e parlare, tramite microfono, direttamente con il chatbot, che potrà così guidarci nelle operazioni come fosse un "help desk" collegato da remoto (ma senza la possibilità di muovere il nostro mouse) e rispondere in tempo reale alle domande che gli poniamo riguardo ciò che viene visualizzato sul nostro monitor.

Per usare questa funzione è necessario semplicemente accedere a Google Ai Studio con il proprio account Google e cliccare sulla sinistra su Stream. Per migliorare la conversazione, nel pannello di destra, possiamo impostare la lingua italiana, scegliere fra differenti voci, calibrare alcuni parametri più avanzati e anche decidere di usare il Groundig with Google Search: una funzionalità che aggiungerà alla performance di Gemini anche la possibilità di consultare Google, così da avere informazioni più aggiornate ed eterogenee rispetto a quelle su cui è stato addestrato.

Gemini Stream: l' possiamo interrogare condividendo schermo

Cliccando sull'icona a forma di documento (vedi immagine sotto), con tag "System instructions", posta sotto il pulsante Get API key (che abbiamo già utilizzato qui), è possibile immettere alcune informazioni stilistiche e preferenze comunicative che risulteranno vincolanti per Gemini durante tutta la conversazione. Per archiviare le conversazioni su Google Drive è invece possibile usare la funzione Enable save, nel pannello di sinistra (dove trovate anche Starter Apps e Video Gen, altri strumenti avanzati di Google AI studio).

Gemini Stream: l' possiamo interrogare condividendo schermo

Una volta impostato tutto secondo le nostre preferenze, non resta che cliccare su Share Screen (ossia "condividi schermo"). Possiamo scegliere se condividere con Gemini:

  • solo una scheda del browser
  • solo una finestra di un'applicazione (ad esempio il browser)
  • tutto ciò che viene visualizzato sullo schermo.

Gemini Stream: l' possiamo interrogare condividendo schermo

Cliccando su Share (vedi punto 3 immagine sopra) partirà la connessione con i server di Gemini e non ci resterà che parlare per interagire con il chatbot, potendoci giovare della sua possibilità di osservare in tempo reale quello che facciamo, ascoltando le nostre richieste. La conversazione avrà una trascrizione nel pannello centrale, in cui verranno salvati sia le tracce audio che i video della nostra interazione con Gemini.

Gemini Stream: l' possiamo interrogare condividendo schermo

Per interrompere la condivisione dello schermo con Gemini, è sufficiente cliccare sul pulsante Stop sharing, presente nella piccola finestra che di default è in sovraimpressione, ma possiamo anche ridurre a icona.

Gemini Stream: l' possiamo interrogare condividendo schermo

Nel video in fondo all'articolo, potete osservare Gemini cimentarsi in questi test (fra bluff e richieste insidiose):

  • impostazione DNS di sistema
  • modifica immagine in Paint.Net
  • confronto oggetti e scelta per regalo
  • riconoscimento firma
  • interpretazione vignetta umoristica
  • spiegazione video
  • individuazione errore in immagine artificiale
  • consulenza scacchistica
  • analisi mail di phishing
  • riconoscimento drone.

Come sono andati questi test? Ovviamente una decina di test non è sufficiente per dare un giudizio definitivo sulle performance di Gemini Stream; comunque nella gran parte di casi Gemini è stato piuttosto efficiente e anche quando ha sofferto di "allucinazioni" ha comunque interagito rapidamente con quello che c'era sullo schermo.

Ad esempio, in un test ha riconosciuto che si trattava di una scacchiera visualizzata sullo schermo ed ha consigliato di giocare una mossa sensata; tuttavia, incalzato dall'interlocutore su possibili alternative migliori, ha proposto mosse deboli o impossibili. In un altro test, nel riconoscere prontamente l'immagine di un drone, ha confuso due modelli molto simili (che anche un umano disattento o poco esperto avrebbe confuso).

Trattandosi di un servizio gratuito, in tempo reale ed estremamente recente (in fase di rodaggio, per quanto essendo un'AI non c'è un vero "punto di arrivo"), i risultati della sua interazione sono nel complesso soddisfacenti: ha saputo guidare passo passo l'interlocutore nel cambiare le impostazioni del DNS e ha saputo spiegare come aggiungere del testo in un'immagine riconoscendo autonomamente il programma usato; ha dimostrato di avere "senso della realtà" (v. scelta del regalo, immagine con errore realizzativo e video impossibile) e persino capacità di spiegare una vignetta (solo grazie all'aiuto del grassetto?), aspetto solitamente ostico per le AI.

Si direbbe che siamo nella fase in cui "la ruota è ormai stata inventata e funziona" (Gemini vede e interpreta lo schermo dell'utente); sebbene per la "tenuta sul bagnato" e le "prestazioni su terreni sconnessi", c'è ancora da migliorare, ma potrebbe essere solo questione di tempo.

Da segnalare che la funzione Stream, può essere usata anche sullo smartphone (ci sono già video su YouTube in merito), consentendo quindi di inquadrare qualcosa con il proprio dispositivo per poi interrogare Gemini in tempo reale con domande a piacere.

Se lo avete già provato o decidete di interrogarlo, raccontateci nei commenti la vostra esperienza, ricordando che al momento non è certo J.a.r.v.i.s. di Ironman, ma potete di certo sfruttarlo in modi più interattivi e versatili rispetto a un semplice chatbot.

Video con i test