El documentalista, el buscador ideal en la Web profunda

A pesar de los grandes avances tecnológicos, y la gran evolución que han sufrido los buscadores en los últimos 20 años, a día de hoy, los métodos bibliotecarios/documentales tradicionales aún resultan ser lo más eficaces en la búsqueda de información, al menos mientras la inteligencia artificial no avance más. Actualmente los buscadores son enormemente eficaces a la hora de recuperar información textual, pero esto no excluye la necesidad de la catalogación y clasificación de los recursos. Por el mismo motivo, el número de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene que ser limitados. Por ejemplo, una página web que contiene una imagen, sin mayor información textual acerca de su contenido, no podrá ser recuperada automáticamente más que por su extensión (.png, por ejemplo).

Se ha de ser conscientes de la importancia de la figura del documentalista, profesional especializado en la gestión y recuperación de la información en otras fuentes específicas más allá de los buscadores convencionales.

 

Por mucho que nos creamos que con Google tenemos el mundo a nuestros pies, hemos de ser conscientes de que en los buscadores tradicionales sólo se nos da acceso a una pequeña porción del total de la información online existente, a la conocida como Web superficial o visible. El resto, aquella a la que no llegamos, es la Web profunda o invisible, toda aquella parte de la web cuyo contenido no puede ser indexado por buscadores, son catálogos, revistas digitales, blogs, entradas a diccionarios, contenidos de sitios que solicitan identificación (aunque sea gratuito)…

¿A qué información accedemos comúnmente?: La Web superficial

La Web superficial o visible es toda aquella información que puede ser indexada por los robots de los buscadores convencionales y por tanto recuperada casi por completo con una simple consulta en un formulario de búsqueda. Aproximadamente el 85% de los usuarios navegan por este tipo de web a pesar de que ésta sólo supone el 5 % de todo el contenido que hay en Internet. Sus características principales son:

  • Es información no contenida en un base datos
  • Se trata de información de libre acceso
  • No requiere el registrarse para poder acceder a la información
  • En su mayoría está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace

¿A qué información accederiamos con un documentalista?: La Web profunda

Se define como Web profunda o invisible, en inglés deepweb, darkweb o hidden web, a toda la información contenida en Internet que no es visible para los motores de búsqueda tradicionales, y por tanto no podemos recuperar interrogando a dichos buscadores. Por lo general se trata de información almacenada y accesible en base de datos.  Esta información

es opaca para los robots de los buscadores convencionales, ya que los resultados se generan en contestación a una pregunta directa mediante páginas dinámicas.(ASP, PHP, etc.) es decir, páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta. La Web profunda abarca el 95% del contenido de internet y es actualmente de 400 a 550 veces mayor que el internet superficial.

Sherman y Price (2001) identifican 4 cuatro niveles de contenidos invisibles en la Web:

Web opaca

Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

  • Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
  •  Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
  • Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
  • URL’s desconectadas: buscadores como Google presentan los documentos por relevancia basada en el número de veces que aparecen enlazados en otros. Si un documento no tiene un enlace desde otro documento no habrá sido indizado.

La Web privada

Consiste en Webs que podrían estar indizadas en los motores de búsqueda pero son excluidas premeditadamente por alguna de estas causas:

  • Las páginas están protegidas por contraseñas (passwords).
  • Contienen un archivo “robots.txt” para evitar ser indizadas.

La Web propietaria

Se trata aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de manera gratuita o pagando.

La Web realmente invisible

Abarca todas aquellas páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

  • Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
  • Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
  • Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.
Este post forma parte de una práctica para el MOOC Encontrando tesoros en la red en Miriadax, para su realización me he apoyado en el material que se nos ha facilitado en el propio curso así como en:
Anuncios

2 comentarios el “El documentalista, el buscador ideal en la Web profunda

  1. John Orrego dice:

    Los PDF claro que pueden ser indizados.

    Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s