L’AI che non ti serve un cluster di H100 per girare (finalmente!)

Perché dobbiamo per forza far scaldare l’atmosfera ogni volta che vogliamo che un assistente virtuale chiami una funzione API? Siamo abituati all’hype dei modelli giganti, quelli che sembrano aver ingoiato l’intera Wikipedia, ma la verità è che per compiti specifici come il ‘tool calling’ (ovvero far capire all’AI quando deve usare un tool esterno), tutta quella massa muscolare è solo spreco di silicio e watt.

Qui entra in gioco Needle, l’ultimo esperimento di cactus-compute che ha fatto saltare sulla sedia tutti quelli che amano ottimizzare ogni singolo ciclo di clock. Il concetto è geniale nella sua semplicità: hanno preso la potenza di Gemini 3.1 e l’hanno distillata in un modello da soli 26 milioni di parametri. Sì, avete letto bene. 26 milioni. Per mettere le cose in prospettiva, i modelli che usiamo di solito sono ordini di grandezza più grandi.

Il progetto si basa su una ‘Simple Attention Network’ che è un piccolo gioiello di ingegneria. Non è il solito mostro computazionale che ti blocca il PC mentre provi a renderizzare una scena su Blender; questo qui è progettato per girare su dispositivi consumer, come uno smartphone, un orologio o persino degli occhari intelligenti. E la cosa più figa? Puoi fare il fine-tuning localmente sul tuo Mac o sul tuo PC senza dover chiedere il permesso a qualche big tech o affittare un cluster di GPU che ti prosciuga il conto in banca.

Da smanettone, trovo questa direzione assolutamente fondamentale. Noi che amiamo smontare hardware e far girare software custom su microcontrollori o vecchi hardware retrocomputing, non abbiamo bisogno di modelli che occupano 80GB di VRAM. Abbiamo bisogno di qualcosa che possa essere integrato in un progetto di automazione domestica, in una macchina CNC custom o in un gadget DIY senza far esplodere i fusibili. Needle punta proprio a questo: l’AI ‘on-device’ che è piccola, veloce e specializzata.

Certo, non aspettatevi che Needle scriva una tesi in filosofia o che analizzi il codice di un intero kernel Linux. Il suo scopo è il ‘single-shot function call’. Se gli dai una query e gli dici quali strumenti ha a disposizione, lui capisce istantaneamente quale tool attivare. È un chirurgo, non un enciclopedista.

Il vero vantaggio per noi maker è la playground integrata: puoi testare e addestrare il modello sui tuoi tool specifici con un click. È quel tipo di approccio ‘hands-on’ che rende la tecnologia davvero utile e non solo un gadget da showcase pubblicitario. Se volete sporcarvi le mani, il repository è su GitHub, i pesi sono aperti e la licenza è MIT. Niente fuffa, solo codice e pura ottimizzazione. Andate a testarlo, prima che qualcuno decida di metterci un abbonamento mensile e un muro di paywall.

Source: Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model

lunedi	Chiuso
martedì	20:00 — 0:00
mercoledì	Chiuso
giovedi	Chiuso
venerdì	20:00 — 0:00
sabato	Chiuso
domenica	Chiuso

Condividi:

Lascia un commento Annulla risposta