
Smettete di trattare i modelli linguistici come se fossero divinità scese in terra con un’anima digitale.
Negli ultimi mesi, tra un post su LinkedIn e un comunicato stampa di qualche big tech, sembra che gli LLM siano entità magiche capaci di ‘pensare’ e ‘comprendere’. Spoiler: non è così. Se togliamo tutto il marketing aggressivo e le promesse da manuale di fantascienza, quello che resta è un’architettura incredibilmente elegante, ma fondamentalmente è un gioco di probabilità su scala massiccia. Se vi piace smontare i motori per vedere come girano i pistoni, questo articolo di 0xkato è il manuale di riparazione che stavate cercando.
L’articolo ci porta sotto il cofano, partendo dai token. Immaginate di dover smontare un set di LEGO per capire come è costruito il castello: ecco, i token sono i mattoncini elementari. Il testo non viene letto come lo leggiamo noi, ma viene frammentato in pezzi che il modello può processare matematicamente. Da qui passiamo ai Transformer blocks, il vero cuore pulsante della faccenda. Qui non c’è ‘comprensione’, c’è l’Attention Mechanism, un algoritmo che decide a quali parti del testo dare peso mentre il modello cerca di prevedere il prossimo pezzetto.
Il tutto culmina nel ‘next-token loop’. È un ciclo continuo, una predizione che alimenta se stessa. È un po’ come quando scrivi codice e il tuo IDE prova a indovinare la prossima riga: se il modello è addestrato su abbastanza dati, l’indovinata sembra quasi intelligente. Ma è solo statistica applicata con una potenza di calcolo che farebbe impallidire un vecchio mainframe degli anni ’70.
Per noi che amiamo il low-level, il retrocomputing o che passiamo le notti a far girare script custom su Godot, capire questa struttura è fondamentale. Non dobbiamo restare passivi utenti di una scatola nera proprietaria. Capire che dietro c’è un processo di pesatura matematica ci permette di approcciare l’AI con lo scetticismo necessario. Non è un oracolo, è un motore di inferenza.
Certo, c’è l’altro lato della medaglia: il problema del controllo. Mentre noi cerchiamo di capire come far girare modelli leggeri sui nostri hardware locali o come integratli nei nostri progetti maker, i giganti del settore stanno costruendo muri altissimi con API chiuse e modelli blindati. Il rischio di un vendor lock-in totale è reale e decisamente irritante. La sfida per la nostra community è non farsi fregare dal prestigio del brand, ma continuare a investigare su come questi pesi e questi vettori possano essere manipolati, ottimizzati e, se possibile, fatti girare senza dover chiedere il permesso a un server in California.
In breve: meno stupore, più ingegneria. Se riuscite a capire i pesi, smetterete di averne paura.
Source: How LLMs work
