Recuperar información de la Internet profunda
Como si
de un enorme iceberg se tratara, Internet sólo deja ver a los motores de
búsqueda tradicionales, una pequeña parte de lo que contiene.
Los buscadores rastrean la red con un programas denominados "arañas", indizando el contenido de las páginas y saltando de una a otra siguiendo los enlaces hipertexto que contienen. Sin embargo estos programas no pueden indizar o extraer el contenido de esas páginas cuando esta información se encuentra en bases de datos, cuya información aparece solo dinámicamente, en respuesta a una consulta realizada por el usuario. Para los motores de búsqueda esta parte de la información contenida en Internet o esta "Internet profunda", les resulta completamente invisible.
Según un estudio (realizado en el año 2000), de la empresa Bright Planet, esta web profunda es actualmente de 400 a 550 veces más grande que el World Wide Web comúnmente definido, o la web superficial. El Web profundo contiene casi 550 mil millones documentos individuales comparados a los 2500 millones de documentos del Web superficial (estimación, esta última realizada por Cyveillance).
Briht Planet afirma además, que la web profunda (compuesta en su mayoría de información de acceso público y gratuito), crece a mayor velocidad, que la web superficial.
Contamos pues, con unos elementos de recuperación de información como son los motores de búsqueda, que por un lado no localizan el contenido de la Web profunda y por otro, incluso los más potentes como Google que superan los mil millones de páginas , no indizan más allá del 50% de la Red, según las estimaciones más optimistas.
Que información hay en la Internet profunda
La World Wide Web es solo una parte del contenido de Internet, hay otros protocolos de Internet, no indizables por los motores de búsqueda, y que forman la Internet Invisible: Ftp (File Transfer Protocol), e-mail, grupos de noticias, Internet Relay Chat (IRC) ...
Según Isidro F. Aguillo, atendiendo a criterios documentales, podríamos agrupar dentro de la Intenet profunda, los siguientes documentos:
- Catálogos de bibliotecas y bases de datos bibliográficas
- Bases de datos no bibliográficas
- Revistas electrónicas, en las que es necesario un registro previo y las que solo se puede recuperar la información mediante búsquedas en su base de datos
- Documentos en formatos no indizables, como documentos en pdf, word...
- Obras de referencia: enciclopedias, diccionarios... en las que es necesario interrogar a la base de datos para acceder al contenido.
Como localizar la información
La Invisibilidad para los motores de búsqueda hace que la recuperación de esa información deba hacerse por otros medios.
Una buena forma de localizar la información contenida en la Internet profunda, será a través de las secciones de referencia de las bibliotecas virtuales, como el caso del Servicio de referencia de la Biblioteca de la UNED.
Recopila una gran parte de recursos que exploran la Internet profunda:
Otras buenas selecciones, las encontraremos en la Biblioteca de la Universidad de Zaragoza ,y en DRIB: Recursos de Interés Bibliotecario.
La información que recogen estas obras se encuentra en bases de datos inaccesible para los motores de búsqueda, y por lo tanto forman parte de lo que denominamos Internet profunda.
Otros de los recursos fundamentales para localizar la información de la Internet invisible serán, las recopilaciones de bases de datos, como:
INTERNET INVISIBLE
http://www.internetinvisible.com
A imagen de su hermano anglosajón Invisible Web, este buscador cataloga e 1775 bases de datos en español, de acceso gratuito
"Internetinvisible.com recopila, describe y ofrece el enlace a las bases de datos existentes en Internet en un directorio organizado en grupos temáticos, los cuales se subdividen a su vez en materias más específicas. Cuando accedemos al web mediante uno de sus dos modos de acceso: un directorio temático, o un formulario de búsqueda -simple o avanzada- obtenemos una ficha con la descripción del contenido de la base de datos relacionada, el enlace a la pantalla de búsqueda y la entidad o persona responsable de su creación.
Pretende situarse como un directorio de referencia del contexto español, entendiendo como tal, tanto lo producido en el estado español, en cualquiera de sus lenguas oficiales, como lo procedente de otros lugares geográficos de temática o habla hispana. No obstante, lo anteriormente dicho, también incluye recursos ajenos a este criterio cuando constituyen un punto de referencia en su campo de aplicación".
Otros buscadores de bases de datos
THE INVISIBLE WEB
http://www.invisibleweb.com
Reúne, analiza y describe más de 10.000 bases de datos organizadas en un índice temáticos por categorías y subcategorías. Permite realizar búsquedas simples y avanzadas.
THE BIG HUB
http://www.thebighub.com
Desde esta página se puede buscar directamente en unas 1.500 bases de datos en Internet. Las bases de datos están organizadas por categorías y subcategorías, lo que nos permite navegar por ellas, hasta localizar la que nos interesa. Otra forma de realizar las búsquedas es mediante su buscador.
A la hora de realizar las búsquedas
en los motores tradicionales, vamos a encontrar una serie de dificultades; en
primer lugar, utilizar operadores lógicos para acotar la búsqueda y no encontrar demasiado "ruido"
documental. En segundo lugar, y suponiendo que hallamos realizado bien nuestra
búsqueda, habrá que tener en cuenta que en la lista de resultados no siempre
los primero van a ser los más relevantes, ya que en muchos buscadores se
negocia con los primeros puestos de cada categoría, no todos los motores de
búsquedas son tan "democráticos" como Google, en el que aparecen en
los primeros lugares, las páginas que tienen más hipervinculos a ellas.
En tercer lugar, una vez que realicemos nuestra búsqueda, hay que tener en
cuenta que los motores de búsqueda, incluso los más potentes, no son capaces de
indizar más que una pequeña parte de Internet, como hemos visto, no son capaces
de acceder a la información que permanece oculta en las bases de datos.
En conclusión, a la hora de realizar determinadas búsquedas habrá que recurrir a otro tipo de instrumentos de recuperación de la información como los que hemos visto, sino queremos quedarnos en la superficie, sin llegar al fondo de la cuestión.
Bibliografía
Aguillo, Isidro F. "Interent invisible o Infrantet: Definición, clasificación y evaluación". En Jornadas Españolas de Documentación (7º, 2000, Bilabao)
Bergman,Michael
K. " The Deep Web: Surfacing Hidden Value",
BrightPlanet.com http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp
"Buscadores de bases de datos". http://www.unav.es/fcom/guia/Secciones/pdmoinv.htm. En Guía de Internet para periodistas. http://www.unav.es/fcom/guia/
Millán, Jose Antonio. "El
libro del medio billón de páginas: (La ecología lingüistica de la red)" http://www.jamillan.com/ecoling.htm
Versión ampliada del artículo publicado originalmente en Revista de Libros
(Madrid), nº 45 (septiembre del 2000), con el título: "El libro de mil
millones de páginas. La ecología lingüística de la Web".http://www.revistadelibros.com
Peset, M. Fernanda; Albiñana, Ricardo y Morales, Silvia. "Internet invisible: un recurso terciario en la red". En El profesional de la Información, julio-agosto 2000, vol 9, nº 7-8 .
Escribe tu opinión del artículo en el foro