Credito: VentureBeat realizzato con Midjourney
Google ha presentato oggi Gemini 2.0 , segnando un ambizioso passo avanti verso sistemi di intelligenza artificiale in grado di completare autonomamente compiti complessi e introducendo funzionalità di generazione di immagini native e audio multilingue, caratteristiche che posizionano il gigante della tecnologia in diretta competizione con OpenAI e Anthropic in una corsa sempre più accesa per il predominio dell’intelligenza artificiale.
Il rilascio arriva quasi esattamente un anno dopo il lancio iniziale di Gemini da parte di Google , emergendo durante un momento cruciale nello sviluppo dell’intelligenza artificiale. Invece di rispondere semplicemente alle query, questi nuovi sistemi di intelligenza artificiale “agentici” possono comprendere il contesto sfumato, pianificare più passaggi in anticipo e intraprendere azioni supervisionate per conto degli utenti.
Come il nuovo assistente AI di Google potrebbe rimodellare la vita digitale quotidiana
Durante una recente conferenza stampa, Tulsee Doshi, direttore della gestione dei prodotti per Gemini, ha delineato le capacità migliorate del sistema, dimostrando la generazione di immagini in tempo reale e conversazioni multilingue. “Gemini 2.0 offre prestazioni migliorate e nuove capacità come la generazione di immagini native e audio multilingue”, ha spiegato Doshi. “Ha anche un uso di strumenti intelligenti nativi, il che significa che può accedere direttamente ai prodotti Google come la ricerca o persino eseguire codice”.
La versione iniziale è incentrata su Gemini 2.0 Flash , una versione sperimentale che Google sostiene funzioni a una velocità doppia rispetto al suo predecessore, superando al contempo le capacità di modelli più potenti. Ciò rappresenta un risultato tecnico significativo, poiché i precedenti miglioramenti della velocità in genere avvenivano a scapito di funzionalità ridotte.
All’interno della nuova generazione di agenti AI che promettono di trasformare il nostro modo di lavorare
Forse la cosa più significativa è che Google ha introdotto tre prototipi di agenti AI basati sull’architettura di Gemini 2.0 che dimostrano la visione dell’azienda per il futuro dell’AI. Project Astra , un assistente AI universale aggiornato, ha mostrato la sua capacità di mantenere conversazioni complesse in più lingue, accedendo agli strumenti Google e mantenendo la memoria contestuale delle interazioni precedenti.
“Project Astra ora ha fino a 10 minuti di memoria in sessione e può ricordare le conversazioni che hai avuto con esso in passato, così puoi avere un’esperienza più utile e personalizzata”, ha spiegato Bibo Xu, product manager di gruppo presso Google DeepMind, durante una dimostrazione dal vivo. Il sistema è passato senza problemi da una lingua all’altra e ha avuto accesso alle informazioni in tempo reale tramite Google Search e Maps, suggerendo un livello di integrazione mai visto prima nei prodotti AI consumer.
La battaglia per l’intelligenza artificiale aziendale si intensifica mentre Google prende di mira la comunità degli sviluppatori
Per sviluppatori e clienti aziendali, Google ha introdotto Project Mariner e Jules , due agenti AI specializzati progettati per automatizzare attività tecniche complesse. Project Mariner, dimostrato come estensione di Chrome, ha raggiunto un impressionante tasso di successo dell’83,5% nel benchmark WebVoyager per attività web del mondo reale, un miglioramento significativo rispetto ai precedenti tentativi di navigazione web autonoma.
“Project Mariner è un prototipo di ricerca iniziale che esplora le capacità degli agenti per la navigazione sul Web e l’azione”, ha affermato Jaclyn Konzelmann, direttore della gestione dei prodotti presso Google Labs. “Quando è stato valutato rispetto al benchmark WebVoyager , che testa le prestazioni degli agenti su attività Web end-to-end nel mondo reale, Project Mariner ha raggiunto l’impressionante risultato dell’83,5%”.
Silicio personalizzato e scala massiccia: l’infrastruttura alla base delle ambizioni di intelligenza artificiale di Google
A supportare questi progressi c’è Trillium , la sesta generazione di Tensor Processing Unit (TPU) di Google, che da oggi diventa disponibile per i clienti cloud . L’acceleratore AI personalizzato rappresenta un investimento massiccio nell’infrastruttura computazionale, con Google che distribuisce oltre 100.000 chip Trillium in un singolo fabric di rete.
Logan Kilpatrick, product manager dello studio AI e del team API Gemini, ha evidenziato l’impatto pratico di questo investimento infrastrutturale durante la conferenza stampa. “La crescita dell’utilizzo di flash è stata di oltre il 900%, il che è stato incredibile da vedere”, ha affermato Kilpatrick. “Sai, abbiamo avuto circa sei lanci di modelli sperimentali negli ultimi mesi, ora ci sono milioni di sviluppatori che utilizzano Gemini”.
La strada da percorrere: preoccupazioni per la sicurezza e concorrenza nell’era dell’intelligenza artificiale autonoma
Il passaggio di Google verso agenti autonomi rappresenta forse il perno strategico più significativo nell’intelligenza artificiale dal rilascio di ChatGPT da parte di OpenAI . Mentre i concorrenti si sono concentrati sul potenziamento delle capacità di grandi modelli linguistici, Google scommette che il futuro appartiene ai sistemi di intelligenza artificiale in grado di navigare attivamente negli ambienti digitali e completare attività complesse con un intervento umano minimo.
Questa visione di agenti AI in grado di pensare, pianificare e agire segna un allontanamento dall’attuale paradigma degli assistenti AI reattivi. È una scommessa rischiosa (i sistemi autonomi comportano intrinsecamente maggiori preoccupazioni per la sicurezza e sfide tecniche), ma che potrebbe rimodellare il panorama competitivo se avesse successo. L’enorme investimento dell’azienda in silicio e infrastrutture personalizzate suggerisce che è pronta a competere in modo aggressivo in questa nuova direzione.
Tuttavia, la transizione verso sistemi di intelligenza artificiale più autonomi solleva nuove preoccupazioni etiche e di sicurezza. Google ha sottolineato il suo impegno per uno sviluppo responsabile, inclusi test approfonditi con utenti fidati e misure di sicurezza integrate. L’approccio dell’azienda all’implementazione graduale di queste funzionalità, a partire dall’accesso degli sviluppatori e dai tester fidati, suggerisce una consapevolezza dei potenziali rischi impliciti nell’implementazione di sistemi di intelligenza artificiale autonomi.
La pubblicazione arriva in un momento cruciale per Google, che deve affrontare una pressione crescente da parte dei concorrenti e un controllo più rigoroso sulla sicurezza dell’IA. Microsoft e OpenAI hanno compiuto passi da gigante nello sviluppo dell’IA quest’anno, mentre altre aziende come Anthropic hanno guadagnato terreno presso i clienti aziendali.
“Crediamo fermamente che l’unico modo per costruire l’IA sia essere responsabili fin dall’inizio”, ha sottolineato Shrestha Basu Mallick, product manager di gruppo per l’API Gemini, durante la conferenza stampa. “Continueremo a dare priorità alla sicurezza e alla responsabilità come elementi chiave del nostro processo di sviluppo dei modelli mentre facciamo progredire i nostri modelli e agenti”.
Man mano che questi sistemi diventano più capaci di agire nel mondo reale, potrebbero fondamentalmente rimodellare il modo in cui le persone interagiscono con la tecnologia. Il successo di Gemini 2.0 potrebbe determinare non solo la posizione di Google nel mercato dell’IA, ma anche la traiettoria più ampia dello sviluppo dell’IA man mano che il settore si sposta verso sistemi più autonomi.
Un anno fa, quando Google ha lanciato la prima versione di Gemini, il panorama dell’IA era dominato da chatbot in grado di impegnarsi in conversazioni intelligenti ma che avevano difficoltà con le attività del mondo reale. Ora, mentre gli agenti dell’IA iniziano a muovere i primi passi incerti verso l’autonomia, il settore si trova a un altro punto di svolta. La questione non è più se l’IA può capirci, ma se siamo pronti a lasciare che l’IA agisca per conto nostro. Google scommette che lo siamo, e scommette alla grande.