Strumenti per il Web Archiving: alcune soluzioni

Già nel 2009 Stefano Vitali (nel saggio La conservazione a lungo termine degli archivi digitali dello stato, pubblicato in Conservare il digitale, a cura di S. Pigliapoco, EUM Edizioni Università di Macerata 2010), poneva come prioritaria la necessità di curare la conservazione dei siti web con particolare riferimento a quelli di tipo istituzionale, ma non solo.

In questi dieci anni una quantità sempre maggiore di contenuti digitali sono stati generati e veicolati attraverso il web con la conseguente necessità di essere archiviati, conservati e tutelati nel tempo in modo affidabile per consentire che queste risorse possano essere recuperate e riutilizzate in maniera efficace nel futuro.
Il primo obiettivo di un processo di web archiving è quello di conservare un sito web nel lungo periodo, il più vicino possibile alla sua forma originale, mantenendo nel contempo anche informazioni sulla sua struttura, sui diritti d’uso e sui realizzatori.
Gli aspetti evidenziati nel saggio citato in merito alla conservazione del patrimonio digitale sono stati sottovalutati nella stragrande maggioranza delle iniziative di digitalizzazione del patrimonio e in quelle di costruzione di contenuti culturali. Si assiste sempre di più alla loro scomparsa o impossibilità d’uso concreta con la conseguente perdita della loro valenza culturale e storica e delle risorse umane ed economiche impegnate.
L’archiviazione dei siti Web è un’attività in costante evoluzione che richiede continuamente nuovi approcci e strumenti per rimanere allineata con le evoluzioni delle tecnologie internet. È necessario quindi aver presente una panoramica degli strumenti per il web archiving che permettono la gestione dei processi di recupero e salvataggio in locale di siti web e la loro visualizzazione.
Le soluzioni possono essere suddivise in quelle per un uso personale con le quali è possibile scaricare e consultare un numero limitato di pagine web ed in quelle per un uso di tipo professionale/istituzionale che permettono una maggiore flessibilità e completezza nella gestione dei processi di harvesting, ma richiedono infrastrutture e competenze informatico/sistemistiche complesse e articolate.
Questa distinzione non è mutualmente esclusiva in quanto esistono soluzioni in grado di coprire agevolmente entrambi i casi. Sono presentati di seguito alcuni dei più diffusi strumenti e servizi per il web archiving sia di tipo commerciale che open source che ovviamente non esauriscono il panorama delle soluzioni disponibili.

Alcune soluzioni

HTTrack è un’applicazione open source che permette di copiarsi localmente tramite una copia speculare (mirroring) un sito web e permette anche la sua navigazione in modalità offline. Oltre al programma principale, a riga di comando, disponibile per gli ambienti Linux, Windows e Mac, esiste un’interfaccia grafica per Windows (WinHTTrack) e per Linux (WebHTTrack).
Il programma consente di riprodurre in locale il contenuto di uno o più siti web. Sono disponibili numerose opzioni per limitare o estendere il mirroring ed è anche disponibile un sistema di filtri per controllare ulteriormente il tipo e le caratteristiche dei file da scaricare in locale.
All’interno delle pagine scaricate, i link sono riorganizzati in modo da consentire l’accesso offline a tutti i file riprodotti e l’accesso online ai file non riprodotti. Vi è la possibilità di modulare il numero di connessioni contemporanee, la velocità di trasferimento, il numero di connessioni al secondo e la quantità dei dati trasferiti. Un sistema di cache permette di interrompere la procedura di mirroring e di ricominciarla in un secondo tempo, o di eseguire la ricerca di file modificati e l’aggiornamento del mirror locale senza ripetere il download dei file già disponibili nella versione corrente.
Gli oggetti ed i file generati da HTTrack riflettono esattamente gli oggetti ed i file presenti nel sito web che si scarica (HTML, CSS, javascript, JPEG, etc.).

Heritrix è il più diffuso web crawler di tipo professionale (enterprise) ed è stato sviluppato da Internet Archive già da molti anni. È distribuito con una licenza open source ed è scritto in linguaggio Java.
L’interfaccia principale è accessibile tramite un browser web ma è possibile automatizzare i processi di web crawling periodici con appositi comandi.
Il software non permette di eseguire la visualizzazione dei siti web storicizzati, operazione per la quale è necessario un apposito tool.
Il risultato dei processi di crawling viene memorizzato in file WARC ai quali il programma aggiunge propri metadati specifici. Il tool richiede una buona conoscenza sistemistica per l’installazione e soprattutto per l’utilizzo in contesti complessi. È dotato di numerosi file di log che permettono di avere una fotografia precisa del processo. Utili anche per la verifica di eventuali oggetti web mancanti e per poter ripetere scansioni in caso di errore.

Archive-It è un servizio di archiviazione web commerciale realizzato da Internet Archive .È uno strumento di acquisizione che utilizza il web crawler open source Heritrix. Ha una funzionalità di gestione che consente ai clienti di raccogliere, catalogare e gestire le proprie collezioni attraverso una applicazione web. Il sistema permette di conservare i siti web archiviati e permette di scaricare i contenuti memorizzati nel repository digitale di Internet Archive in formato WARC.
Fornisce anche un tool denominato Wayback Machine attraverso il quale è possibile consultare e navigare i propri siti web archiviati. È possibile anche utilizzare metadati specifici sia per la ricerca che per la gestione delle collezioni.
Il servizio permette di estendere le funzionalità di gestione con strumenti di analisi che partono da dati in formato WARC e Web Archive Transformation. Partendo da questi dati è possibile fare sia analisi di tipo big data sulle milioni di relazioni conservate nei siti web con report di tipo Longitudinal Graph Analysis sia estrazione di named entities dal testo dei siti web archiviati.

La NetarchiveSuite è una soluzione per il web archiving che permette di pianificare, programmare nel tempo ed eseguire harvesting di siti web.
NetarchiveSuite è composto da vari moduli: un modulo di harvesting che gestisce la definizione, la programmazione e l’esecuzione dei processi; un modulo di conservazione che permette la gestione di un repository replicato, con controlli di consistenza, e supporta l’esecuzione di azioni batch; un modulo di accesso che permette di consultare i siti web archiviati. Questa soluzione gestisce la memorizzazione del sito in un file WARC con alcuni metadati strutturali estratti automaticamente, come la struttura del sito web, i mime type e le dimensioni.

SiteStory è uno strumento open-source che permette di catturare singole risorse accessibili via web browser.
La maggior parte dei sistemi di web archiving utilizzano software automatici denominati bot (dalla contrazione di robot software) per eseguire la scansione del contenuto dei siti web di interesse. Il risultato di questo processo è una fotografia (snapshot) del contenuto del sito al momento del recupero (crawling). Poiché la frequenza di scansione non è generalmente allineata con il tasso di variazione delle pagine web, questo approccio non è in genere in grado di acquisire tutte le versioni della pagina stessa. L’archivio risultante da questi processi potrà fornire una panoramica accettabile dei contenuti nel server web nel tempo, ma non è in grado di fornire una rappresentazione accurata dell’intera cronologia delle pagine e delle modifiche ai contenuti delle pagine web.
Un archivio web costruito con SiteStory è in grado di acquisire tutte le versioni di una risorsa quando viene richiesta da un browser. L’archivio risultante è rappresentativo dell’intera cronologia di un server anche se le versioni di risorse che non sono mai state richieste da un browser non verranno mai archiviate.
Un archivio di SiteStory è accessibile tramite il protocollo Memento (che permette l’interoperabilità fra sistemi di web archiving).

Social Feed Manager è un’applicazione web che consente agli utenti di creare collezioni di dati da piattaforme di social media tra cui Twitter, Tumblr, Flickr e Sina Weibo (sito cinese di microblogging). L’applicazione raccoglie i dati dei social media tramite API pubbliche mentre le immagini e le pagine web sono collegate o incorporate nei social media utilizzando Heritrix.
Il risultato dell’elaborazione è memorizzato in un file WARC ed è possibile gestire l’esportazione delle collezioni archiviate in un foglio di calcolo. Sono integrati strumenti per le ricerche come Elasticsearch e strumenti di elaborazione dei dati come Logstash o Kibana.

Webrecorder è un servizio gratuito che permette di registrare e conservare i dati estrapolati da una navigazione web. Per questo permette di conservare anche siti interattivi e contestuali, come social media e altri contenuti dinamici, come ad esempio un video contenuto nella pagina e javascript.
A differenza di altri crawler, Webrecorder archivia il contenuto web attraverso la navigazione interattiva, catturando l’esatta sequenza di navigazione attraverso una serie di pagine web o oggetti digitali e preservando il percorso del singolo utente nella specifica interazione.
Lo strumento utilizza lo stesso software per acquisire e riprodurre il sito (questo approccio è denominato archiviazione web simmetrica). Il formato di archiviazione è WARC e sono disponibili campi personalizzabili per ulteriori metadati in formato JSON.

Consultazione dei siti web archiviati

Oltre alle soluzioni per il recupero, ne esistono anche altre che permetto la consultazione delle versioni archiviate dei siti web. Di seguito ne vengono illustrate tre: Memento, Python WayBack for Web Archive Replay e Open WayBack.

La suite di strumenti Memento è stata studiata per l’accesso alle versioni archiviate dei contenuti web. Il protocollo Memento consente la negoziazione del contenuto http, ad esempio la possibilità di navigare versioni differenti di una risorsa Web in base alla data di acquisizione o di scansione. I contenuti archiviati sono denominati ‘mementos’.
Il protocollo segue il formato Constrained RESTful Environments Link (RFC 6690) per l’interazione con l’esterno e non gestisce metadati descrittivi in quanto è centrato sulla possibilità di scoprire nella rete diverse copie di siti web archiviati piuttosto che sulla loro descrizione. È possibile avere informazioni del tipo data e url per poter costruire applicazioni che utilizzano questo protocollo.

Python WayBack for Web Archive Replay and Live Web Proxy è una implementazione in linguaggio Python di una WayBack Machine e permette la navigazione di siti web archiviati in formato ARC e WARC. Il software permette di replicare anche siti dinamici con javascript complessi e contenuti audio/video.
Questo componente richiede l’installazione su ambienti python compatibili e la gestione attenta della configurazione. Il suo meccanismo di reindirizzamento delle url interagisce con il server http e permette di gestire molti casi di configurazioni necessarie per la corretta visualizzazione dei siti web storicizzati.
È possibile personalizzare la sua semplice interfaccia grafica attraverso dei modelli che possono essere modificati allo scopo.

La Open WayBack Machine è una web application scritta in linguaggio Java che permette di organizzare e leggere i contenuti dei file WARC e ARC e riprodurli come un sito web. Viene utilizzata nell’ambito dell’Internet Archive ed è continuamente aggiornata e migliorata ad opera di una ampia comunità di utenti.
Come per il software Heritrix, anche la OpenWayBack machine è una applicazione che richiede una buona conoscenza sistemistica con anche un buon impegno per l’automatizzare le operazioni di manutenzione. È possibile estendere le funzionalità dell’applicazione con apposite librerie e interfacce di programmazione.
L’OpenWayback machine gestisce file in formato WARC e ARC e gli indici sono generati, a partire da questi, creando record di tipo CDX (capture index). Un record CDX indicizza i metadati chiave e permette di accedere direttamente alla loro posizione all’interno dei file WARC.

Conclusioni

Gli strumenti per la gestione del web archiving iniziano ad uscire da una dimensione prettamente sistemistico/informatica per iniziare ad aprirsi ad un utilizzo più personale.
La maggior richiesta di strumenti inizia a produrre soluzioni che sono gestibili sempre con maggiore semplicità e efficacia da un maggior numero di utenti.
Rimangono sia i problemi di tipo legale sul copyright dei siti che questi strumenti non affrontano sia di dimensione dei siti conservati sia di indicizzazione dei contenuti.

Archivi digitali

Strumenti per il Web Archiving: alcune soluzioni

Commenti

Evidenza

Preferiti

Un progetto