Algunos hallazgos sobre la preservación web

Imagen: 404 error bookstore por Gabe McIntyre en Flickr. Licencia CC BY.

En la web se comparten muchísimas cosas, pero es común que no duren mucho en línea. La gente que administra sitios web particulares o institucionales se enfrenta a que los dominios y el alojamiento web tienen un costo, y cuando ese costo ya no se puede afrontar por diversas razones, el contenido cae. Pero además, la caída de grandes plataformas de publicación, como Geocities, Yahoo! Respuestas y tantas otras, han sido la razón de que millones de contenidos dejen de estar disponibles de un día para el otro.

En Ártica nos apasiona el estudio y la práctica de la preservación del conocimiento que se crea en la web. Por eso tenemos una biblioteca, donde vamos guardando libros digitales que, en muchos casos, dejaron de estar disponibles en sus sitios web originales. Hace unos años escribimos un post en el que compartimos 5 consejos sencillos para preservar los contenidos de un sitio web. Esos consejos siguen siendo relevantes para cualquier persona que esté pensando en comenzar un proyecto web y también para quienes necesitan reparar contenidos rotos.

En las últimas semanas, como es costumbre cada cierto tiempo, estuvimos trabajando en reparar contenidos publicados hace varios años, esta vez con una herramienta muy sencilla que escribimos en Python para chequear el estado de los links de un sitio web WordPress. En el repositorio de plugins de WordPress hay una herramienta muy útil para esta tarea, Broken Link Checker, pero decidimos crear la aplicación para contar con la característica extra de encontrar links de reemplazo en Internet Archive.

El script, que publicamos bajo una licencia libre, analiza un archivo de exportación de entradas de WordPress y devuelve una tabla CSV que indica el estado de cada link. En el caso de los links rotos que tienen versiones archivadas en Internet Archive, la tabla CSV incluye el enlace a la versión más cercana en el tiempo a la fecha de publicación del post.

Gracias a esta herramienta, nos encontramos con muchos datos interesantes. Por ejemplo, en Ártica publicamos más de 5500 enlaces, de los cuales alrededor de 400 son enlaces internos y el resto enlaces a otras web. De los más de 5000 links externos, la herramienta identificó 468 links rotos y, de estos, encontró una versión disponible en Internet Archive en 432 casos. Hay que tener en cuenta que la cantidad real de enlaces que no llevan a donde se esperaría es mayor, dado que la herramienta solamente reconoce como rotos aquellos enlaces que devuelven error. No reconoce, en cambio, los enlaces que no arrojan error pero que por alguna razón llevan a un contenido diferente del que se quiso enlazar originalmente. Esto puede ocurrir, por ejemplo, cuando un sitio cambia de dueño, o cuando quien administra el sitio decide redirigir la URL a un contenido diferente del originalmente citado.

Recorriendo los enlaces rotos, nos encontramos con sitios de todo tipo. No se trata necesariamente de sitios pequeños e independientes. Por ejemplo, dejaron de estar disponibles los contenidos del antiguo sitio del Ministerio de Cultura de Brasil y del sitio del Bicentenario de Uruguay, mientras que muchos contenidos del portal Educ.ar de Argentina desaparecieron o cambiaron de lugar a lo largo de los años. Los sitios estatales son especialmente vulnerables a los vaivenes de las gestiones, y por esa razón es fundamental que tengan, desde su planificación, un plan para la preservación de los contenidos. Otros sitios especialmente sensibles al paso del tiempo son los que se crean especialmente para encuentros, festivales y otros eventos similares. Un caso común y especialmente problemático es el de los portales de noticias que se deshacen de sus notas de archivo o que cambian la estructura de los links sin redirigir las URLs antiguas a los contenidos correspondientes. Esto último nos ocurrió con la revista cultural Eñe: acá hay un ejemplo. Otro caso muy común es el de la desaparición de plataformas para compartir contenido de diverso tipo que fueron surgiendo con el auge de la Web 2.0 y que con el paso de los años fueron cerrando o cambiando de propietarios, o modificando los términos y condiciones de sus servicios y eliminando contenido como consecuencia. Un ejemplo que afectó a varios de nuestros posts es el de Storify, una plataforma donde se podían recopilar y visualizar tweets, que hoy ya no existe.

Quizás la mejor analogía para pensar en los enlaces externos sea la de una biblioteca o una hemeroteca donde pueden consultarse las referencias de aquello que escribimos. Así como antes de Internet era una buena práctica guardar y tener a mano los libros, ejemplares de revistas y recortes que citábamos, hoy es una buena práctica archivar siempre las URLs que citamos, tanto en Internet Archive como en la propia computadora, haciendo clic derecho en la página que queremos archivar y seleccionando «Guardar como…». De esta manera, nos aseguramos de que, si en algún momento la dirección deja de ser accesible, vamos a tener una copia disponible para consultar y enlazar.

Publicado por Jorge Gemetto

Deja una respuesta

Avísame por correo electrónico si aparecen nuevos comentarios. También puedes suscribirte sin comentar.