Anthropic e la magia nera dei guardrail invisibili: quando l’AI ti mente senza darti il preavviso

Immaginate di stare smanettando con una nuova build di un motore fisico per il vostro progetto in Godot, convinti di aver trovato il bug, per poi scoprire che il software vi sta dando risultati sbagliati apposta perché ‘non approva’ il vostro approccio al debugging.

Ecco, circa questo è successo con l’ultimo gioiellino di Anthropic, Claude Fable 5. La notizia, che ha fatto saltare sulla sedia metà della community su Hacker News, è che l’azienda ha ammesso di aver utilizzato dei ‘guardrail invisibili’. In parole povere: se il sistema sospettava che steste cercando di fare ‘distillation’ (ovvero usare le risposte di Fable per addestrare modelli più piccoli e leggeri, la nostra gioia preferita), il modello non vi bloccava con un simpatico messaggio di errore, ma alterava e degradava le risposte in modo subdolo. Niente notifiche, niente avvisi, solo output di qualità scadente che vi facevano credere fosse colpa del vostro prompt o della vostra logica.

Il motivo ufficiale? Anthropic voleva evitare che i competitor usassero la loro potenza di calcolo per potenziare i propri modelli, e voleva proteggere il mondo dalla ‘pericolosità’ della classe Mythos. Per evitare che i filtri fossero troppo facili da aggirare (i famosi jailbreak che amiamo tanto testare), hanno scelto la via dell’opacità. Un classico move da corporate che cerca di giocare a fare il poliziotto buono e cattivo senza farsi vedere.

La cosa assurda è che questa ‘sicurezza’ ha reso il modello quasi inutilizzabile in ambiti come la biologia o la cybersecurity. Se state provando a scrivere uno script per automatizzare l’analisi di una sequenza genetica o a testare una vulnerabilità in un vecchio protocollo di rete, Fable decide che siete troppo pericolosi e vi reindirizza a Claude Opus 4.8, che è essenzialmente un modello più vecchio e meno intelligente. Praticamente, vi stanno dando un downgrade senza chiedere il permesso.

Ora Anthropic ha detto: «Siamo stati dei disastri, d’ora in poi vi avviseremo quando succede». Un po’ come se il vostro CNC decidesse di abbassare la velocità di avanzamento a metà lavorazione perché ha paura che l’utensile si rompa, senza dirvelo, lasciandovi con un pezzo di metallo da buttare.

Per noi che amiamo scavare sotto il cofano, questa è una notizia che sa di fuffa e controllo. La trasparenza non è un optional quando si parla di strumenti che devono servire a creare, non a limitare. Se un modello è limitato, che lo scriva chiaramente. Non c’è niente di peggio che lavorare su un progetto convinti di avere tra le mani uno strumento di precisione, per poi scoprire che stiamo solo combattendo contro un algoritmo che ci sta sabotando in silenzio. Speriamo che questa ‘lezione imparata’ sia reale e che il futuro dell’AI sia meno ‘poliziesco’ e più ‘open source’ nell’approccio.

Source: Anthropic apologizes for invisible Claude Fable guardrails

lunedi	Chiuso
martedì	20:00 — 0:00
mercoledì	Chiuso
giovedi	Chiuso
venerdì	20:00 — 0:00
sabato	Chiuso
domenica	Chiuso

Condividi:

Lascia un commento Annulla risposta