¿QUE ES LA DEEP WEB?
Se conoce como Internet profunda
o Internet invisible (en inglés: Deepweb, Invisible Web, Deep Web, Dark Web o
Hidden Web) a todo el contenido de Internet que no forma parte del Internet
superficial, es decir, de las páginas indexadas por las redes de los motores de
búsqueda de la red. Esto se debe a las limitaciones que tienen las redes para acceder
a todos los sitios web por distintos motivos.
CAUSAS
La principal causa de la existencia
de la Internet profunda es la imposibilidad de los motores de búsqueda de
encontrar o indexar gran parte de la información existente en Internet. Se
estima que la Internet Profunda es 500 veces mayor1 que la Internet
Superficial, siendo el 95% de esta información públicamente accesible. Si los
buscadores tuvieran la capacidad para acceder a toda la información entonces la
magnitud de la "Internet profunda" se reduciría casi en su totalidad;
sin embargo, no desaparecería totalmente porque siempre existirán páginas
privadas.
Los siguientes son algunos de los
motivos por los que los buscadores son incapaces de indexar la Internet
profunda:
- Páginas y sitios web protegidos con contraseña.
- Documentos en formatos no indexables.
- Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos, como por ejemplo la base de datos de la RAE.2
TAMAÑO
En el año 2000 se estimaba3 que el tamaño de la Internet profunda era
de 7500 Terabytes de datos en unos 550 000 millones de documentos.4 Para
comparar se estima que en aquella época la Internet superficial ocupaba 167
Terabytes y el contenido de la Biblioteca del Congreso de Estados Unidos tenía
unos 3000 Terabytes que no eran accesibles por los motores de búsqueda.
La Internet profunda tiene el mayor crecimiento de nueva información
en Internet, más de la mitad del contenido de este reside en bases de datos, la
calidad del contenido de la Internet profunda es considerada por lo menos 1000
o 2000 veces mayor que la del Web superficial y el 95% de la información de la
web profunda es información totalmente pública, libre de suscripciones y
tarifas.5
Estimaciones basadas en la extrapolación de un estudio de la
Universidad de California en Berkeley especula que actualmente la Internet
profunda debe tener unos 91 000 Terabytes.
DENOMINACIÓN
Bergman, en un artículo semanal sobre la Web profunda publicado en el
Journal of Electronic Publishing, mencionó que Jill Ellsworth utilizó el
término "la Web invisible" en 1994 para referirse a los sitios web
que no están registrados por algún motor de búsqueda.
Bergman citó un artículo de 1996 de Frank García.
“Sería un sitio que, posiblemente esté diseñado razonablemente, pero
no se molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo
tanto, nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web
invisible.”
Por otra parte, el término web invisible se dice que es inexacto
porque:
- Muchos usuarios asumen que la única forma de acceder a la web es consultando un buscador.
- Alguna información puede ser encontrada más fácilmente que otra, pero ésto no quiere decir que esté invisible.
- La web contiene información de diversos tipos que es almacenada y recuperada en diferentes formas.
- El contenido indexado por los buscadores de la web es almacenado también en bases de datos y disponible solamente a través de las interrogaciones del usuario, por tanto no es correcto decir que la información almacenada en bases de datos es invisible.
INGRESANDO A LA INTERNET PROFUNDA!!!
A pesar de que son muchos los servicios y programas para acceder a la
web profunda, el software más popular es Tor (The Onion Router), pero existen
otras alternativas como I2P y Freenet.
En 2008, con el fin de facilitar el acceso de los usuarios y motores
de búsqueda de indexación de la Web profunda, Aaron Swartz diseñó Tor2web un
software de proxy capaz de proporcionar el acceso a los servicios ocultos de
Tor a través de un navegador web común.
Para descubrir el contenido en la Web, los motores de búsqueda
utilizan rastreadores web que siguen hipervínculos a través de números de
puertos virtuales de protocolos conocidos. Esta técnica es ideal para descubrir
los recursos en la red de superficie, pero a menudo es ineficaz en la búsqueda
de recursos web profundas. Estos rastreadores no tratan de encontrar las
páginas dinámicas que son el resultado de las consultas de base de datos debido
al número indeterminado de consultas que son posibles.11 Se ha observado que
esto puede ser (parcialmente ) a superar proporcionando enlaces para consultar
como resultado, pero esto podría involuntariamente inflar la popularidad de un
miembro de la Web profunda.
Referencias:
http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104
http://es.wikipedia.org/wiki/Internet_profunda


No hay comentarios:
Publicar un comentario