viernes, 23 de octubre de 2015

CARACTERIZACIÓN DE LA WEB SUPERFICAL Y WEB PROFUNDA

WEB SUPERFIAL Y WEB PROFUNDA

Google, Yahoo, Bing y otros sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la Web superficial o visible. Todo lo que resta en la web es llamada la Web profunda o invisible, que es un amplio banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (gratuito o no).

WEB SUPERFICIAL O VISIBLE

Las arañas de los buscadores van recorriendo las páginas web, almacenando información que contienen y buscando enlaces a otros sitios web para seguir actualizando sus bases de datos. Con el tiempo acaban recorriendo todas las páginas de Internet que tienen enlaces desde otras.
En enero de 2005, según un estudio reciente que investigó distintos motores de búsqueda (Google, MSN, Yahoo y Ask Jeeves) se determinó que había 11.500 millones de páginas web en los índices de los buscadores.
En junio de 2008 los índices contenían más de 63.000 millones de páginas Web.

WEB PROFUNDA O INVISBLE

Se conoce informalmente como internet profunda o internet invisible a una porción presumiblemente muy grande de la internet que es difícil de rastrear o ha sido hecha casi imposible de rastrear y deliberadamente, como lo es el caso del Proyecto Tor, el cual fue creado de esta manera por medio de métodos poco convencionales, como con la proxyficación con muchos proxys, el no utilizar direcciones de internet, sino códigos, y el pseudodominio de nivel superior.onion el cual fue creado por la Armada de los Estados Unidos como una prueba y ahora es aprovechada por delincuentes cibernéticos.

En idioma inglés recibe varios nombres:

  • Deepweb (internet profunda).
  • Invisible Web (internet invisible).
  • Deep Web (internet profunda).
  • Dark Web (internet oscura).
  • Hidden Web (internet oculta).


Se conoce así a todo el contenido de internet que no forma parte de la internet superficial, es decir, de las páginas indexadas por las redes de los motores de búsqueda de la red. Esto se debe a las limitaciones que tienen las redes para acceder a todos los sitios web por distintos motivos. La mayor parte de la información encontrada en la internet profunda está enterrada en sitios generados dinámicamente y para los motores de búsqueda tradicionales es difícil hallarla. Fiscales y agencias gubernamentales han calificado a la internet profunda como un refugio para la delincuencia debido al contenido ilícito que se encuentra en ella.

 Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web:

WEB OPACA

Se compone de archivos que podrían estar incluidos en los índices de motores de búsqueda, pero que no lo están debido a razones de extensión de la indezación. Los nuevos motores de búsqueda cada vez están más preparados para acceder a esta información.

WEB PRIVADA

Consiste en las páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:
  • Las páginas están protegidas por contraseñas.
  • Contienen un archivo “robots.txt” para evitar ser indizadas.
  • Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
  • Este segmento de la Web contiene, en general, documentos excluidos deliberadamente por su falta de utilidad.


WEB PROPIETARIA

Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.

WEB REALMENTE INVISIBLE

Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Recursos de búsqueda en la Web Profunda:

  1. The www virtual Library
  2. Infoplease
  3. DeepWebTech
  4. TechXtra




Cabe resaltar que toda información es extraída de varias páginas con la diferencia que es un resumen de ellas y no solo un copiar y pegar. Así mismo, disculparme por los errores, si los hubo, ya que al copiarlo desde un word y al cambiar de letra en el Blog se genero esos cambios.

No hay comentarios:

Publicar un comentario