Il grande bluff del LLM brasiliano: quando il ‘nuovo modello’ è solo un remix di quelli esistenti

Il grande bluff del LLM brasiliano: quando il 'nuovo modello' è solo un remix di quelli esistenti

Avete mai provato quella strana soddisfazione che si prova quando smontate un giocattolo nuovo e scoprite che dentro c’è solo lo stesso vecchio meccanismo di quello che avevate già in mano? Ecco, beh, è esattamente quello che sta succedendo nel mondo dei Large Language Models, ma con molta meno plastica e molto più marketing spazzatura.

La notizia che sta girando su Hacker News è un classico esempio di «fuffa tecnologica» che farebbe impallidire un venditore di tappeti. La municipalità di Rio de Janeiro ha presentato Rio-3.5-Open-397B come un modello originale, addestrato con fatica da IplanRIO. Peccato che il team di Nex-AGI abbia deciso di fare i veri hacker e andare a guardare sotto il cofano, scoprendo che non c’è nessun motore nuovo.

In pratica, non c’è stato alcun addestramento vero e proprio. I pesi del modello sono semplicemente un’interpolazione matematica: un mix al 60% del modello Nex e al 40% di Qwen. È come se qualcuno prendesse un hamburger di una catena famosa e un panino del bar all’angolo, li frullasse insieme e poi cercasse di venderti un nuovo ‘Signature Burger Gourmet’ creato in casa.

Le prove sono schiaccianti, roba da debugger incazzato. Primo: se togli il system prompt che dice al modello di fingere di essere ‘Rio’, il modello inizia a identificarsi come ‘Nex’ nel 79% dei casi. Addirittura, recita la storia aziendale di Nex-AGI parola per parola. Secondo: un’analisi statistica sui tensori mostra che ogni singolo strato della rete è esattamente quella combinazione matematica di Nex e Qwen. Non c’è margine d’errore, è matematica pura.

Per noi che amiamo smanettare con i pesi dei modelli, con il fine-tuning e con le architetture neurali, questa è una mezza sconfitta morale. Da un lato, l’idea di fare il merging di modelli esistenti è una tecnica legittima e super interessante per ottenere risultati interessanti senza bruciare budget infiniti in GPU. È un approccio ‘maker’, è efficiente, è smart.

Dall’altro, però, la parte ‘corporate’ che cerca di spacciarlo per un’innovazione proprietaria è fastidiosa quanto un bug che non si trova nel codice sorgente. È l’ennesimo tentativo di gonfiare il valore di un prodotto usando il nome di altri. Se vuoi fare un merge, fallo, chiamalo ‘Rio-Merge’ e dichiaralo con orgoglio. Non provare a venderci una nuova tecnologia che è solo un cocktail di quelle che già usiamo.

Alla fine della fiera, resta la lezione per tutti noi: non fidatevi mai dei comunicati stampa. Fate i vostri test, analizzate i pesi, controllate i prompt. La verità sta sempre nei bit, non nelle slide della presentazione.

Source: Rio de Janeiro's "homegrown" LLM appears to be a merge of an existing model

Lascia un commento