600GB di Hacker News, ArXiv e altre robe fighe interrogabili con l’IA? Sì, grazie!

600GB di Hacker News, ArXiv e altre robe fighe interrogabili con l'IA? Sì, grazie!

WTF?! 600GB di dati indicizzati e interrogabili con l’IA? Ok, forse non è la cura per il cancro, ma di sicuro è una scusa perfetta per evitare di rispondere alle email.

Seriamente, questo progetto – chiamato Scry (link in bio, ovviamente) – è piuttosto interessante. In pratica, un tizio ha preso dati da Hacker News, ArXiv, LessWrong e altri siti di qualità (insomma, il nutrimento per la nostra dipendenza da conoscenza) e li ha ficcati in un database SQL+vector. Poi, ci ha attaccato sopra Claude (l’IA di Anthropic, per chi vive sotto una roccia) e voilà: un motore di ricerca che capisce *davvero* quello che gli chiedi.

Non è solo una ricerca per parole chiave, eh. Puoi fare cose tipo “trova i post sulla crisi FTX che non trasudano sensi di colpa”. Sì, avete capito bene. Può distinguere il tono di un testo. A me basta questo per giustificare l’esistenza dell’universo.

Il bello è che, a quanto pare, funziona anche con query complesse. Il creatore di Scry dice di usare Voyage-3.5-lite (una versione un po’ più economica di Claude) e di avere già indicizzati 1.4 milioni di post e 15.6 milioni di commenti. E promette che potrebbe indicizzare tutto se avesse più soldi (e chi non ne vorrebbe?).

Cosa significa per noi, gente che passa più tempo a configurare tmux che a dormire? Beh, significa che possiamo finalmente smettere di cercare a mano l’ago nel pagliaio di informazioni che è internet. Possiamo far fare il lavoro sporco all’IA e concentrarci sulle cose importanti: come ottimizzare il nostro setup di Vim e litigare su Reddit.

Ovviamente, c’è sempre un “ma”. Questo è un progetto personale, quindi dipende da un singolo individuo e dalla sua voglia di mantenerlo attivo. E poi, c’è il vendor lock-in con Claude. Se Anthropic decidesse di cambiare le regole del gioco, Scry potrebbe smettere di funzionare. Però, hey, almeno ci abbiamo provato.

E la privacy? Beh, i dati sono pubblici, quindi non c’è un problema immediato. Ma è sempre bene ricordare che ficcare tutto in un database centralizzato comporta dei rischi. Un po’ come avere un unico punto di fallimento, solo che in questo caso il fallimento potrebbe essere una violazione della privacy.

Comunque, a parte queste piccole riserve, direi che Scry è un progetto davvero figo. Un bel esempio di come l’IA può essere usata per risolvere problemi reali (o almeno, per rendere la nostra vita da nerd un po’ più facile). E se riuscite a convincere il creatore a rilasciare il codice sorgente, beh, allora potremmo davvero divertirci.

Ora scusatemi, devo andare a vedere se riesco a farlo funzionare con il mio feed RSS. E a trovare un modo per evitare che mi mandi email su ogni menzione di “estrogeni” in contesti psicoattivi…

Source: Show HN: Use Claude Code to Query 600 GB Indexes over Hacker News, ArXiv, etc.

Lascia un commento