
Avete presente quando state smanettando con un segnale analogico e cercate di filtrare il disturbo per trovare la frequenza pulita? Ecco, immaginate che qualcuno, con un ordine burodo, vi dica che quel rumore non deve più esistere perché ‘disturba la visione’. Sembra assurdo, ma è esattamente quello che sta succedendo ai dati del Census Bureau americano.
La notizia è arrivata dritta dai feed di Hacker News e fa venire i brividi: il Dipartimento del Commercio degli Stati Uniti ha emesso un ordine che vieta la «noise infusion» (l’aggiunta di rumore) nei prodotti statistici pubblicati dal Census Bureau e dal Bureau of Economic Analysis. In parole povere: hanno deciso di sintonizzare la realtà su una frequenza che non ammette incertezza, sperando che la verità emerga magicamente senza bisogno di filtri.
Per chi mastica un po’ di data science o semplicemente ama capire come proteggere i propri dati, la questione è seria. Quando si pubblicano statistiche basate su dataset sensibili, l’obiettivo è mostrare il quadro generale senza che sia possibile risalire al singolo individuo. Tecniche come la «differential privacy» usano proprio l’aggiunta di rumore calibrato per rendere gli attacchi di re-identificazione un incubo matematico. È come mettere del glitch artistico sopra una foto per renderla irriconoscibile, pur mantenendo la composizione originale.
Ma visto che il rumore rendeva i dati meno ‘precisi’ (e quindi più difficili da usare per chi fa gerrymandering o per chi vuole ricostruire i record privati), qualcuno ha deciso che la soluzione migliore era… eliminare il rumore. Il nuovo ordine dice che si deve preferire il «coarsening» (rendere i dati meno dettagliati, tipo dire ‘Stato’ invece di ‘Comune’) o la soppressione dei dati.
Il problema? È un trade-off brutale. Se togli il rumore, o i dati diventano inutilizzabili perché troppo sfuocati, o diventano un colabrodo per la privacy. È come se, per evitare che qualcuno leggesse i dettagli di una foto, decidessimo di pubblicare solo un pixel gigante colorato. Utile? No. Sicuro? Forse, ma a costo di buttare via tutta l’informazione.
Per noi che amiamo smontare le cose, questa è una mossa che non ha alcun senso tecnico. È pura politica che cerca di ignorare la complessità del problema. È come cercare di far funzionare una macchina CNC senza considerare la tolleranza degli errori: alla fine, o la macchina rompe tutto, o non produce nulla di utile.
Cosa significa per noi? Significa che l’era della trasparenza protetta sta finendo, sostituita da un’era di dati ‘puliti’ ma potenzialmente pericolosi o completamente inutili. Se l’obiettivo era rendere più facile il lavoro dei politici che manipolano i confini elettorali, ci sono riusciti. Se l’obiettivo era la scienza… beh, spero che abbiano un buon piano B, perché la matematica non si piega alle leggi ministeriali tanto facilmente.
Source: Noise infusion banned from statistical products published by Census Bureau
