Gemma 4 corre come un treno (ma i freni sono ancora quelli di Google)

Gemma 4 corre come un treno (ma i freni sono ancora quelli di Google)

Immaginate di dover compilare un intero progetto C++ ma, invece di leggere riga per riga, il compilatore riuscisse a indovinare le prossime dieci righe di codice prima ancora che voi finiate di digitare. Sembra magia, o il delirio di chi ha passato troppe ore su Coffee e Python, ma è esattamente l’approccio che Google sta applicando con l’ultimo aggiornamento di Gemma 4.

Il punto non è solo ‘è più veloce’. Il punto è il trucco dietro il cofano: i cosiddetti ‘Multi-Token Prediction drafters’. Normalmente, i modelli linguistici sono un po’ come noi quando cerchiamo di decidere cosa ordinare in pizzeria: analizzano tutto, pesano le opzioni e sputano fuori un singolo token (una parola o un pezzetto di essa) alla volta. Un processo lento, pesante e decisamente poco efficiente. Con l’MTP, il modello non si limita a prevedere il prossimo pezzetto, ma cerca di anticipare un’intera sequenza di token in un colpo solo. Risultato? L’inferenza schizza fino a 3x più veloce.

Da smanettone, questa cosa mi fa saltare sulla sedia. Se stiamo parlando di velocità triplicata, significa che far girare modelli seriamente capaci su hardware non necessariamente da ufficio della NASA (magari un vecchio setup con una GPU che ha visto giorni migliori o un modulo Jetson che sta morendo) diventa improvvisamente molto più realistico. Per noi che amiamo buildare automazioni locali, bot per Discord o assistenti che non inviano i nostri dati nel cloud di un’azienda californiana, l’efficienza è tutto. Meno latenza significa che l’IA può reagire in tempo reale, quasi come fosse un componente hardware integrato nel nostro sistema.

Però, non facciamoci incantare dal marketing. Sappiamo bene come funziona il gioco: Google ci regala una tecnologia performante per tenerci intrappolati nel loro ecosistema. ‘Ehi, guarda quanto è veloce Gemma!’, dicono, mentre sottilmente ci spingono a usare le loro infrastrutture e i loro tool proprietari. È il solito gioco del ‘cavallo di Troia’: ti do una funzione figa, ma il recinto è costruito con la loro logica e le loro API.

In conclusione: la tecnologia MTP è una svolta tecnica reale, non è solo fuffa da comunicato stampa. Se riusciranno a rendere questi ‘drafters’ accessibili e facili da implementare in framework open come llama.cpp o simili, potremmo vedere una vera rivoluzione nell’edge computing. Restiamo in attesa di vedere se i pesi di questi modelli saranno davvero liberi di viaggiare sui nostri server casalinghi o se rimarranno prigionieri di un altro splendido giardino recintato.

Source: Accelerating Gemma 4: faster inference with multi-token prediction drafters

Lascia un commento