
Avete mai provato ad ascoltare un esperto che parla con una sicurezza incrollabile, ma che dopo cinque minuti di monologo vi rendete conto che non ha idea di cosa stia dicendo? Ecco, è esattamente quello che sta succedendo con i nuovi super-modelli AI.
Le ultime metriche sono uscite e, onestamente, sono un colpo basso per chiunque abbia scommesso tutto sulla ‘scalabilità infinita’. Abbiamo questo scenario surreale: da una parte i giganti del settore, quelli con budget che fanno sembrare il PIL di una piccola nazione, che spingono su modelli con trilioni di parametri come se fossero legole. Dall’altra, il modello GLM-5.2 di Z.ai, che è sotto licenza MIT, pesa la metà eppure non si fa schiacciare affatto.
Il punto non è solo la dimensione, ma la qualità del neurone (se così possiamo chiamarlo). Il dato che fa saltare sulla sedia è il tasso di allucinazione. GPT-5.5 ha registrato un tasso di allucinazione dell’86%. In pratica, se gli chiedete una cosa, c’è una probabilità quasi totale che vi risponda con una supercazzola tecnicamente strutturata ma totalmente falsa. DeepSeek V4 Pro non sta da meno. Al contrario, il GLM-5.2, pur essendo molto più piccolo, mantiene un tasso di allucinazione al 28%.
Per farla semplice per chi non mastica Python tutto il giorno: hanno sottoposto questi modelli a un test di coding con un errore logico strutturale (un classico trick per beccare chi sta solo ‘prevedendo la prossima parola’ senza capire il concetto). I giganti hanno passato minuti interi a bruciare calcoli e token in un loop di ragionamento infinito, per poi sfornare una soluzione che era fisicamente impossibile, come chiedere a un corriere di consegnare dieci pacchi in dieci città diverse senza mai fermare il camion o scendere dal mezzo. Il modello open-weight, invece, ha capito l’inghippo in 12 secondi.
Questa è la prova che stiamo entrando in una fase di plateau. Aumentare i parametri a dismisura sta creando dei mostri che sanno solo bluffare meglio. È un problema enorme per chi cerca strumenti affidabili per il lavoro vero. Non ci serve un modello che scriva poesie d’amore in stile Shakespeare se poi, quando gli chiediamo di scrivere un modulo per gestire l’I/O asincrono, ci propone un delirio che manda in crash l’intero kernel.
La vera sfida del futuro non sarà quanto grande è il tuo dataset o quanto è pesante il tuo cluster di GPU, ma la capacità di calibrare l’incertezza. In breve: l’intelligenza non è solo accumulare dati, ma saper riconoscere i propri limiti. Se la strada per l’AGI è solo ‘più dati e più parametri’, allora siamo destinati a vivere in un mondo di chatbot estremamente eloquenti, ma completamente inaffidabili. E onestamente, preferisco mille volte un modello piccolo che sa quando deve tacere, piuttosto che un super-computer che mi convince con tutta la sua autorità che 2+2 fa 5.
Source: GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2
