
Immagina un robot che discute di filosofia con Kant, ma non sa cosa sia un TikTok. È questa l’idea dietro Time Capsule LLM, un progetto che addestra modelli di linguaggio artificiali usando solo dati storici, dal 1800 al 1875. L’obiettivo? Creare AI che ragionano senza i pregiudizi della società moderna.
Il team, guidato da Hayk Grigorian, ha sviluppato diverse versioni del modello, partendo da 187MB di documenti fino a raggiungere 15GB di testi di Londra. Non è un esercizio accademico: se un algoritmo è addestrato solo con i libri di Dickens, i giornali dell’epoca e le leggi vittoriane, potrebbe davvero offrire una prospettiva unica su problemi contemporanei?
Da smanettone, trovo l’approccio affascinante ma anche un po’ rischioso. Da un lato, limitare i dati a un arco temporale specifico potrebbe isolare l’AI da concetti moderni essenziali (per esempio, non capirebbe il clima globale). Dall’altro, è un esperimento geniale per testare quanto il bias sia radicato nei dataset attuali. Il modello più grande, v1, ha 700 milioni di parametri e gira su GPU A100, il che lo rende accessibile solo a chi può permettersi hardware costoso. Un limite che spero si superi in futuro.
Cosa significa per noi maker? Primo, che l’AI non è solo un black box di Big Tech: progetti open-source come questo dimostrano che si possono esplorare alternative creative. Secondo, che i dataset sono tutto: se vuoi un modello che ragioni in modo diverso, devi nutrirlo con dati diversi. Infine, è un promemoria che la storia non è solo nozione da libro: è un laboratorio di idee ancora attuali.
Critiche? Qualcuna. Per esempio, l’idea di “neutralità storica” è un po’ ingenua: anche i testi del 1800 avevano i loro pregiudizi. Ma l’entusiasmo del team è contagioso, e chissà, magari tra qualche anno parleremo con un’AI che cita Oscar Wilde per spiegare l’amore moderno.
Source: TimeCapsuleLLM: LLM trained only on data from 1800-1875
