Recuperar información de la Internet profunda

Salir en Google, Posicionamiento en google

Jose Angel Ruiz Felipe

Como si de un enorme iceberg se tratara, Internet sólo deja ver a los motores de búsqueda tradicionales, una pequeña parte de lo que contiene. 

Los buscadores rastrean la red con  un programas denominados "arañas", indizando el contenido de las páginas y saltando de una a otra siguiendo los enlaces hipertexto que contienen.  Sin embargo estos programas no pueden indizar o extraer el contenido de esas páginas cuando esta información se encuentra en bases de datos, cuya información aparece solo dinámicamente, en respuesta a una consulta realizada por el usuario. Para los motores de búsqueda esta parte de la información contenida en Internet o esta "Internet profunda", les resulta completamente invisible.

Según un estudio (realizado en el año 2000), de la empresa  Bright Planet, esta web profunda es actualmente de 400 a 550 veces más grande que el World Wide Web comúnmente definido, o la web superficial.  El Web profundo contiene casi 550 mil millones documentos individuales comparados a los 2500 millones de documentos del Web superficial (estimación, esta última realizada por Cyveillance).

Briht Planet afirma además, que la web profunda (compuesta en su mayoría de información de acceso público y gratuito), crece a mayor velocidad, que la web superficial. 

Contamos pues, con unos elementos de recuperación de información como son los motores de búsqueda, que por un lado no localizan el contenido de la Web profunda y por otro,  incluso los más potentes como Google que superan los mil millones de páginas , no indizan más allá del 50% de la Red, según las estimaciones más optimistas. 

Que información hay en la Internet profunda

La World Wide Web es solo una parte del contenido de Internet, hay otros protocolos de Internet, no indizables por los motores de búsqueda, y que forman la Internet Invisible: Ftp (File Transfer Protocol), e-mail, grupos de noticias, Internet Relay Chat (IRC) ...

Según Isidro F. Aguillo, atendiendo a criterios documentales, podríamos agrupar dentro de la Intenet profunda, los siguientes documentos:

- Catálogos de bibliotecas y bases de datos bibliográficas

- Bases de datos no bibliográficas

- Revistas electrónicas, en las que es necesario un registro previo y las que solo se puede recuperar la información mediante búsquedas en su base de datos

- Documentos en formatos no indizables, como documentos en pdf, word...

- Obras de referencia: enciclopedias, diccionarios... en las que es necesario interrogar a la base de datos para acceder al contenido.

Como localizar la información

La Invisibilidad para los motores de búsqueda hace que la recuperación de esa información deba hacerse por otros medios.

Una buena forma de localizar la información contenida en la Internet profunda, será a través de las secciones de referencia de las bibliotecas virtuales, como el caso del Servicio de referencia de la Biblioteca de la UNED.

Recopila una gran parte de recursos que exploran la Internet profunda:

Otras buenas selecciones, las encontraremos en la Biblioteca de la Universidad de Zaragoza ,y en DRIB: Recursos de Interés Bibliotecario.

La información que recogen estas obras se encuentra en bases de datos inaccesible para los motores de búsqueda, y por lo tanto forman parte de lo que denominamos Internet profunda.

Otros de los recursos fundamentales para localizar la información de la Internet invisible serán, las recopilaciones de bases de datos, como:

INTERNET INVISIBLE
http://www.internetinvisible.com

A imagen de su hermano anglosajón Invisible Web, este buscador  cataloga e 1775 bases de datos en español, de acceso gratuito

"Internetinvisible.com recopila, describe y ofrece el enlace a las bases de datos existentes en Internet en un directorio organizado en grupos temáticos, los cuales se subdividen a su vez en materias más específicas. Cuando accedemos al web mediante uno de sus dos modos de acceso: un directorio temático,  o un formulario de búsqueda -simple o avanzada- obtenemos una ficha con la descripción del contenido de la base de datos relacionada, el enlace a la pantalla de búsqueda y la entidad o persona responsable de su creación.

Pretende situarse como un directorio de referencia del contexto español, entendiendo como tal, tanto lo producido en el estado español, en cualquiera de sus lenguas oficiales, como lo procedente de otros lugares geográficos de temática o habla hispana. No obstante, lo anteriormente dicho, también incluye recursos ajenos a este criterio cuando constituyen un punto de referencia en su campo de aplicación".

Otros buscadores de bases de datos

THE INVISIBLE WEB
http://www.invisibleweb.com

Reúne, analiza y describe más de 10.000 bases de datos organizadas en un índice temáticos por categorías y subcategorías. Permite realizar búsquedas simples y avanzadas.

THE BIG HUB
http://www.thebighub.com

Desde esta página se puede buscar directamente en unas 1.500 bases de datos en Internet. Las bases de datos están organizadas por categorías y subcategorías, lo que nos permite navegar por ellas, hasta localizar la que nos interesa. Otra forma de realizar las búsquedas es  mediante su buscador.

A la hora de realizar las búsquedas en los motores tradicionales, vamos a encontrar una serie de dificultades; en primer lugar, utilizar operadores lógicos para  acotar la búsqueda y no encontrar demasiado "ruido" documental. En segundo lugar, y suponiendo que hallamos realizado bien nuestra búsqueda, habrá que tener en cuenta que en la lista de resultados no siempre los primero van a ser los más relevantes, ya que en muchos buscadores se negocia con los primeros puestos de cada categoría, no todos los motores de búsquedas son tan "democráticos" como Google, en el que aparecen en los primeros lugares, las páginas  que tienen más hipervinculos a ellas.
En tercer lugar, una vez que realicemos nuestra búsqueda, hay que tener en cuenta que los motores de búsqueda, incluso los más potentes, no son capaces de indizar más que una pequeña parte de Internet, como hemos visto, no son capaces de acceder a la información que permanece oculta en las bases de datos.

En conclusión, a la hora de realizar determinadas búsquedas habrá que recurrir a otro tipo de instrumentos de recuperación de la información como los que hemos visto, sino queremos quedarnos en la superficie, sin llegar al fondo de la cuestión.

 

Bibliografía

Aguillo, Isidro F. "Interent invisible o Infrantet: Definición, clasificación y evaluación". En Jornadas Españolas de Documentación (7º, 2000, Bilabao)

Bergman,Michael K. " The Deep Web: Surfacing Hidden Value",  BrightPlanet.com   http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp

"Buscadores de bases de datos". http://www.unav.es/fcom/guia/Secciones/pdmoinv.htm. En Guía de Internet para periodistas. http://www.unav.es/fcom/guia/

Millán, Jose Antonio. "El libro del medio billón de páginas: (La ecología lingüistica de la red)" http://www.jamillan.com/ecoling.htm
Versión ampliada del artículo publicado originalmente en Revista de Libros (Madrid), nº 45 (septiembre del 2000), con el título: "El libro de mil millones de páginas. La ecología lingüística de la Web".http://www.revistadelibros.com

Peset, M. Fernanda; Albiñana, Ricardo y  Morales, Silvia. "Internet invisible: un recurso terciario en la red". En El profesional de la Información, julio-agosto 2000, vol 9, nº 7-8 .

 

Escribe tu opinión del artículo en el foro