El documentalista, el buscador ideal en la Web profunda

A pesar de los grandes avances tecnológicos, y la gran evolución que han sufrido los buscadores en los últimos 20 años, a día de hoy, los métodos bibliotecarios/documentales tradicionales aún resultan ser lo más eficaces en la búsqueda de información, al menos mientras la inteligencia artificial no avance más. Actualmente los buscadores son enormemente eficaces a la hora de recuperar información textual, pero esto no excluye la necesidad de la catalogación y clasificación de los recursos. Por el mismo motivo, el número de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene que ser limitados. Por ejemplo, una página web que contiene una imagen, sin mayor información textual acerca de su contenido, no podrá ser recuperada automáticamente más que por su extensión (.png, por ejemplo).

Se ha de ser conscientes de la importancia de la figura del documentalista, profesional especializado en la gestión y recuperación de la información en otras fuentes específicas más allá de los buscadores convencionales.

 

Por mucho que nos creamos que con Google tenemos el mundo a nuestros pies, hemos de ser conscientes de que en los buscadores tradicionales sólo se nos da acceso a una pequeña porción del total de la información online existente, a la conocida como Web superficial o visible. El resto, aquella a la que no llegamos, es la Web profunda o invisible, toda aquella parte de la web cuyo contenido no puede ser indexado por buscadores, son catálogos, revistas digitales, blogs, entradas a diccionarios, contenidos de sitios que solicitan identificación (aunque sea gratuito)…

¿A qué información accedemos comúnmente?: La Web superficial

La Web superficial o visible es toda aquella información que puede ser indexada por los robots de los buscadores convencionales y por tanto recuperada casi por completo con una simple consulta en un formulario de búsqueda. Aproximadamente el 85% de los usuarios navegan por este tipo de web a pesar de que ésta sólo supone el 5 % de todo el contenido que hay en Internet. Sus características principales son:

  • Es información no contenida en un base datos
  • Se trata de información de libre acceso
  • No requiere el registrarse para poder acceder a la información
  • En su mayoría está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace

¿A qué información accederiamos con un documentalista?: La Web profunda

Se define como Web profunda o invisible, en inglés deepweb, darkweb o hidden web, a toda la información contenida en Internet que no es visible para los motores de búsqueda tradicionales, y por tanto no podemos recuperar interrogando a dichos buscadores. Por lo general se trata de información almacenada y accesible en base de datos.  Esta información

es opaca para los robots de los buscadores convencionales, ya que los resultados se generan en contestación a una pregunta directa mediante páginas dinámicas.(ASP, PHP, etc.) es decir, páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta. La Web profunda abarca el 95% del contenido de internet y es actualmente de 400 a 550 veces mayor que el internet superficial.

Sherman y Price (2001) identifican 4 cuatro niveles de contenidos invisibles en la Web:

Web opaca

Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

  • Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
  •  Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
  • Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
  • URL’s desconectadas: buscadores como Google presentan los documentos por relevancia basada en el número de veces que aparecen enlazados en otros. Si un documento no tiene un enlace desde otro documento no habrá sido indizado.

La Web privada

Consiste en Webs que podrían estar indizadas en los motores de búsqueda pero son excluidas premeditadamente por alguna de estas causas:

  • Las páginas están protegidas por contraseñas (passwords).
  • Contienen un archivo “robots.txt” para evitar ser indizadas.

La Web propietaria

Se trata aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de manera gratuita o pagando.

La Web realmente invisible

Abarca todas aquellas páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

  • Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
  • Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
  • Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.
Este post forma parte de una práctica para el MOOC Encontrando tesoros en la red en Miriadax, para su realización me he apoyado en el material que se nos ha facilitado en el propio curso así como en:

El documentalista-content curator, la mejor opción ante la infoxicación

Infoxicación es un término acuñado por el especialista en información Alfons Cornella para referirse a la sobresaturación o sobrecarga de información, como acrónimo de intoxicación por información.

La infoxicación afecta, en mayor o menor medida, a prácticamente el total de la sociedad desarrollada actual.  En nuestro día a día es común sentirnos agobiados o superados por la cantidad de informaciones recibidas o paralizados ante una cantidad inabarcable de información. No sería descabellado afirmar que la infoxicación es la enfermedad de la sociedad digital de principios del siglo XXI. Si bien ,como hemos dicho anteriormente, la infoxicación es fruto de un volumen incalculable de datos, informaciones, contenidos y conocimientos que principalmente obtenemos de Internet, este fenómeno se ha agudizado con las redes sociales, cualquier usuario crea y comparte contenidos continuamente, la cantidad de información que recibimos se ha multiplicado y el volumen de datos que se van a crear y vamos a recibir no va a parar de aumentar, la llegada del Internet de las cosas va a traer consigo una enorme cantidad de datos a nuestras vidas, por tanto el problema se puede agravar si no lo atajamos.

Foto de Jesús Martínez vía flickr

Foto de Jesús Martínez vía flickr

¿Cómo combatir la infoxicación?

La principal solución está en la curación de contenidos, definida por Javier Guallar, Doctor en Información y Documentación, como “disciplina, técnica o especialidad de filtrado de contenidos de aparición bastante reciente (nace en 2009) consistente en buscar, seleccionar, añadir valor y difundir contenidos sobre un tema y para una audiencia. Habitualmente se habla de curación de contenidos en el contexto de la web aunque también se puede hacer dentro de una organización”, Guallar también nos diferencia entre esta actividad de filtrado de contenidos de otros por ejemplo la recomendación social, la agregación de contenidos o la DSI (Difusión selectiva de información):

  1. “Es una actividad sistemática y regular y por tanto no es esporádica o puntual.”
  2. “Tiene un papel muy relevante la persona especialista en curar contenidos, es decir, debe ser una actividad poco automatizada.”
  3. “Debe ofrecer un alto valor añadido.”

El documentalista-content curator, el profesional ideal para combatir la infoxicación

Combatir la infoxicación requiere de un profesional con unas cualidades muy particulares, si hay un perfil profesional que las reúne es el del documentalista especializado en la curación de contenidos o documentalista-content curator, las aptitudes que lo sitúan como la mejor opción para hacer frente a la infoxicación son:

  • Está preparado para procesar grandes cantidades de información.
  • Es capaz de discernir entre la información de interés de la que no lo es a través de la tecnología.
  • El documentalista es experto en búsquedas, está habituado al manejo de operadores booleanos, uso de metabuscadores, posee conocimientos en comandos de búsqueda rápida, selección de palabras clave…
  • Conoce y está habituado a usar herramientas de curación de contenidos.
  • Tiene capacidad para monitorizar o vigilar a las asociaciones comerciales y eventos de la industria.
  • Posee conocimientos de SEO & SEM.
  • Está capacitado para el análisis de lo acontecido en las redes sociales.
  • El Documentalista-Content curator es un experto en la gestión, creación, evaluación, promoción y difusión de recursos digitales.

Artículos de interés que han sido referencia para la redacción del post:

Infoxicación, neologismo adecuado en español

Qué es la infoxicación y como escapar de ella

Deshazte de la infoxicación en Internet

¿Qué es y que cualidades ha de tener un buen “Content Curator”?

El content curator o el profesional de la desinfoxicación

Charlando con Javier Guallar sobre curación de contenidos en investigación