
Avete presente quella sensazione di quando provate a far girare un software troppo pesante sul vostro vecchio laptop e l’unica cosa che ottenete è il rumore di una turbina di un Boeing 747 in decollo? Ecco, far girare LLM in locale fino a ieri era un po’ così: molto entusiasmo, zero risultati utili e una dose massiccia di frustrazione.
Ma le cose sono cambiate. E non parlo del solito hype da comunicato stampa scritto da un ufficio marketing che ha abusato di parole come «disruptive» o «sinergia». Parlo di sostanza. Recentemente è emerso che far girare modelli locali non è solo possibile, è diventato—finalmente—decisamente divertente e produttivo. Grazie a pesi come quelli della nuova famiglia Gemma 4 di Google, stiamo entrando nell’era del coding agentico che gira sul proprio hardware, senza dover chiedere il permesso a un server in California.
Il punto non è solo che i modelli sono più intelligenti, ma che sono diventati abbastanza agili da permetterti di fare cose serie. L’autore di un recente post su Hacker News racconta come, usando un Mac M2 con 6ass 64GB di RAM, riesca a far girare tutto in locale usando strumenti come LM Studio o Ollama. Parliamo di refactoring di script Python, scrittura di unit test e persino di far gestire a un agente (tramite Docker, perché siamo gente seria e non vogliamo che l’AI ci cancelli l’intero file system) la creazione di repository da zero. Una cosa che sei mesi fa era pura fantascienza per un setup domestico.
Per noi che amiamo smanettare, questa è la vera bomba. Perché? Perché la libertà è tutto. Far girare tutto in locale significa che puoi guardare sotto il cofano. Puoi vedere come vengono processati i token, puoi tweakare la finestra di contesto, puoi cambiare la quantizzazione e vedere esattamente dove il tuo hardware inizia a soffrire. È come passare dal guidare un’auto a noleggio con il limite di velocità bloccato al possedere un vecchio motore di un’auto d’epoca da rimontare in garage ogni domenica.
Certo, non è ancora tutto perfetto. La velocità di inferenza può essere ancora un po’ lenta se provate a esagerare con il contesto, e i prompt template ogni tanto si rompono come un vecchio circuito stampato lasciato troppo tempo in umidità. E non parliamo della gestione della memoria: se non state attenti, la vostra RAM sparirà più velocemente di un bug in un codice scritto di venerdì pomeriggio.
Ma il potenziale è enorme. L’idea di avere un assistente che non solo risponde a domande, ma che può agire all’interno di un container sicuro, è la base per costruire automazioni che prima erano appannaggio solo delle grandi corporation. Quindi, se avete un vecchio Mac o una workstation con una GPU decente che prende polvere sotto la scrivania, è il momento di dare un’occhiata. La vera rivoluzione non è nel cloud, è nel nostro garage.
Source: Running local models is good now
