
Hai mai pensato che un semplice PDF potesse essere un romanzo a episodi? Non stiamo parlando di un libro elettronico, ma di quelli che il Dipartimento di Giustizia (DoJ) ha pubblicato per i casi Epstein. Analizzando i file, si scopre che dietro le quinte ci sono redactions sospette, OCR approssimativi e scelte tecniche discutibili. Insomma, un mondo che merita di essere esplorato.
I PDF del DoJ sono un mix di scansioni, immagini convertite e testate OCR, ma non tutto è come sembra. Ad esempio, alcuni documenti sembrano scansionati da un vero scanner, con bordi di carta, fori per raccoglitori e macchie di caffè, mentre altri sono così perfettamente allineati da sembrare generati artificialmente. Questo suggerisce che qualcuno ha giocato con i pixel per mascherare le origini digitali di certi documenti.
La cosa più interessante? Le redactions. Alcune sono state fatte direttamente sui pixel delle immagini, il che significa che non è possibile recuperare il testo originale. Altre, invece, sono state applicate con una precisione sospetta, quasi come se volessero farci sapere che qualcosa è stato nascosto. E poi c’è l’OCR, che in alcuni casi è così approssimativo da far pensare che sia stato fatto con un algoritmo di base invece che con strumenti avanzati.
Per noi smanettoni, questa analisi è una miniera d’oro. Mostra come i PDF possano essere manipolati in modi che non ci aspetteremmo mai. Se vuoi provare a estrarre informazioni da questi documenti, potresti usare strumenti open-source come Tesseract per migliorare l’OCR o esaminare i metadati nascosti con software come PDFtk.
Ma c’è anche una critica da fare: il DoJ potrebbe fare di meglio. Eliminare i metadati è una buona pratica, ma lasciare tracce di oggetti orfani o commenti nascosti è un errore da principianti. Inoltre, la conversione forzata di JPEG in bitmap a bassa risoluzione è un passo indietro, sia per la qualità che per la dimensione dei file.
In conclusione, i PDF non sono mai semplici come sembrano. Se pensi di aver capito tutto, probabilmente ti sbagli. E se vuoi metterti alla prova, prova a scaricare uno di questi documenti e inizia a scavare. Chissà cosa troverai!
