La ley de la oscuridad funciona igual para lo escondido, lo olvidado o lo perdido. Pero en internet las tinieblas caen sobre algo más: lo que no tiene etiquetas de búsqueda.
Millones de imágenes de la historia del mundo corrían el peligro de desaparecer para siempre. Estaban archivadas en libros digitalizados pero no tenían tags. No había forma de rescatarlas. Y eso y el olvido es lo mismo.
El experto en big data Kalev Leetaru comenzó a recuperar el pasado mes de diciembre millones de fotografías y dibujos de más de 600 millones de páginas de libros escaneados por la organización Internet Archive. Hoy son ya más de 2,6 millones de imágenes disponibles, de forma gratuita y sin copyright, en una nueva página de Flickr llamada Internet Archive Book Images.
Hasta ahora las palabras se habían impuesto sobre las imágenes. Este organismo solo había etiquetado los textos de los libros digitalizados y no había forma de acceder a estas fotos y dibujos fechados desde 1500 a 1922 mediante una búsqueda online.
El investigador de Yahoo! en la Universidad de Georgetown (Washington, EEUU) vio que las bibliotecas, al digitalizar sus archivos, habían convertido los libros en formato PDF (esto impide extraer las imágenes) y que todos los criterios de búsqueda solo hacían referencia a los textos. Leetaru pensaba que esas imágenes contienen mucha información de los últimos cinco siglos que jamás se verán en museos y galerías, y por eso había que recuperarlas.
«El propósito de este proyecto es reimaginar el libro. Quería buscar imágenes en función de una serie de criterios y encontrar imaginería de objetos a lo largo del tiempo, no solo de la actualidad», explica el experto en tecnología de la comunicación en una entrevista por correo electrónico.
«Por ejemplo, al ver imágenes de teléfonos en distintas épocas, te das cuenta de que ha pasado de ser un aparato que utilizaban los hombres en las oficinas a un aparato familiar indispensable en el hogar. Me di cuenta de que había muchos libros digitalizados que hablaban del teléfono pero no había ningún modo de ver un collage de todas las imágenes de esas obras. Mi intención era poder buscar por imágenes en vez de por palabras. Así nació el proyecto».
Y así lo llevó a cabo. «Internet Archive ya había digitalizado los libros mediante OCR. Este proceso reconoce los textos de las páginas escaneadas y así se pueden hacer búsquedas por palabras. El software OCR identifica dónde están todas las imágenes de las páginas, las ignora y va solo al texto. Lo que yo hice fue crear una herramienta que vuelve a los resultados OCR, rastrea las imágenes, las extrae, las tagea automáticamente y las guarda como archivos independientes».
Estas imágenes han escapado de la oscuridad. Incluso del pasado. Y ahora están en una pista de salida. En el punto de partida de lo que Kalev Leetaru llama «un viaje en el tiempo a través de imágenes».
The Saturday evening post (1839)
Hardware merchandising August-October 1912′
Canadian Grocer, July-December 1895
‘Our greater country; being a standard history of the United States from the discovery of the American continent to the present time…’ (1901)
Oconeean (1903)
St. Nicholas [serial] (1873)
Oconeean (1903)
Canadian machinery and metalworking (January-June 1913)
Millones de fotos rescatadas del pasado en Flickr
