WEB SUPERFIAL Y WEB PROFUNDA
Google, Yahoo, Bing y otros sólo
ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha
comenzado a llamar la Web superficial o visible. Todo lo que resta en la web es
llamada la Web profunda o invisible, que es un amplio banco de información
ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y
contenido de sitios que demandan un login (gratuito o no).
WEB SUPERFICIAL O VISIBLE
Las arañas de los buscadores van
recorriendo las páginas web, almacenando información que contienen y buscando
enlaces a otros sitios web para seguir actualizando sus bases de datos. Con el
tiempo acaban recorriendo todas las páginas de Internet que tienen enlaces
desde otras.
En enero de 2005, según un
estudio reciente que investigó distintos motores de búsqueda (Google, MSN,
Yahoo y Ask Jeeves) se determinó que había 11.500 millones de páginas web en
los índices de los buscadores.
En junio de 2008 los índices
contenían más de 63.000 millones de páginas Web.
WEB PROFUNDA O INVISBLE
Se conoce informalmente como
internet profunda o internet invisible a una porción presumiblemente muy grande
de la internet que es difícil de rastrear o ha sido hecha casi imposible de
rastrear y deliberadamente, como lo es el caso del Proyecto Tor, el cual fue
creado de esta manera por medio de métodos poco convencionales, como con la
proxyficación con muchos proxys, el no utilizar direcciones de internet, sino
códigos, y el pseudodominio de nivel superior.onion el cual fue creado por la
Armada de los Estados Unidos como una prueba y ahora es aprovechada por
delincuentes cibernéticos.
En idioma inglés recibe varios
nombres:
- Deepweb
(internet profunda).
- Invisible
Web (internet invisible).
- Deep
Web (internet profunda).
- Dark
Web (internet oscura).
- Hidden
Web (internet oculta).
Se conoce así a todo el contenido
de internet que no forma parte de la internet superficial, es decir, de las
páginas indexadas por las redes de los motores de búsqueda de la red. Esto se
debe a las limitaciones que tienen las redes para acceder a todos los sitios
web por distintos motivos. La mayor parte de la información encontrada en la
internet profunda está enterrada en sitios generados dinámicamente y para los
motores de búsqueda tradicionales es difícil hallarla. Fiscales y agencias
gubernamentales han calificado a la internet profunda como un refugio para la
delincuencia debido al contenido ilícito que se encuentra en ella.
Sherman y Price identifican cuatro tipos de
contenidos invisibles en la Web:
WEB OPACA
Se compone de archivos que
podrían estar incluidos en los índices de motores de búsqueda, pero que no lo
están debido a razones de extensión de la indezación. Los nuevos motores de
búsqueda cada vez están más preparados para acceder a esta información.
WEB PRIVADA
Consiste en las páginas Web que
podrían estar indizadas en los buscadores pero son excluidas deliberadamente
por alguno de estos motivos:
- Las páginas están protegidas por
contraseñas.
- Contienen un archivo “robots.txt”
para evitar ser indizadas.
- Contienen un campo “noindex” para
evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la
página.
- Este segmento de la Web contiene,
en general, documentos excluidos deliberadamente por su falta de utilidad.
WEB PROPIETARIA
Incluye aquellas páginas en las
que es necesario registrarse para tener acceso al contenido, ya sea de forma
gratuita o arancelada.
WEB REALMENTE INVISIBLE
Se compone de páginas que no
pueden ser indizadas por limitaciones técnicas de los buscadores, programas
ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir,
que se generan a partir de datos que introduce el usuario, información
almacenada en bases de datos relacionales, que no puede ser extraída a menos
que se realice una petición específica.
Recursos de búsqueda en la Web
Profunda:
- The www virtual Library
- Infoplease
- DeepWebTech
- TechXtra

Cabe resaltar que toda información es extraída de varias páginas con la diferencia que es un resumen de ellas y no solo un copiar y pegar. Así mismo, disculparme por los errores, si los hubo, ya que al copiarlo desde un word y al cambiar de letra en el Blog se genero esos cambios.