In che modo possiamo conservare un sito web e renderlo accessibile nel tempo ?
Come possiamo conservare un precedente sito web all’indomani del profondo recente rinnovamento di architettura, grafica e contenuti?
Quest’ultimo problema è spesso, se non sempre, sottovalutato nell’ambito delle procedure di re-engineering di un sito web.
Come salvaguardare quindi un sito web , in quanto testimonianza storica delle attività svolte e delle strategie di comunicazione finalizzate alla valorizzazione di tali attività.
Si è impostato un progetto di web archiving per lo specifico sito web dell’Istituto Centrale per gli Archivi.
Si è partiti dall’analisi della presenza del precedente sito Icar sul sito www.archive.org ( Internet Archive) riscontrando la raccolta di 63 fermo-immagine istantanei (snapshot) che ne hanno “fotografato” le pagine dal febbraio 2008 al settembre 2016.
Valutata la scarsa copertura di questo archivio rispetto ai contenuti esistenti, si è iniziato il processo di web archiving applicandone princìpi, metodologie e tecniche.
La prima fase del progetto è consistita nell’individuazione e nell’analisi dei tool di harvesting e memorizzazione dei siti web: il web crawler prescelto è stato Heritrix, distribuito con licenza open source. Il processo di harvesting ha permesso di archiviare gran parte dei contenuti del sito, anche se sono rimasti esclusi i link esterni e il collegamento ad alcuni documenti interni.
La seconda fase del progetto ha portato, attraverso una sperimentazione specifica, alla scelta del sistema di visualizzazione e navigazione, individuato in Pywb (Python WayBack for web archive replay and live web proxy), che permette la navigazione di siti web archiviati in formato ARC e WARC.
Questo articolo è tratto dalla rivista on line “Il mondo degli archivi” ed il link originale è questo.
Il progetto è descritto in dettaglio nella pagina dedicata del sito web dell’Istituto Centrale per gli archivi.