![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiCTTD2w9HXEy25L2xF0FfEcn16IWtBIbnCw_vPZrCOYHqtEYTmAg0th8CwEZa8BfWK1AAxguf6iZasbhr61YrGUU-PHMHS9BXz6OM_5X2DV278PCPSQMuciEl0L0-hFxToKwEcw__bJD0/s400/web.jpg)
WEB SUPERFICIAL O VISIBLE: Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda.
Características:
- Su información no está contenida en bases de datos
- Es de libre acceso
- No se requiere la realización de un proceso de registro para acceder a la información.
- Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
WEB PROFUNDA O INVISIBLE: Es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos.
SHERMAN Y PRICE, identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).
CLASIFICACIÓN DE LA WEB INVISIBLE
Según Lluis Codina: “Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado.
SHERMAN Y PRICE, identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).
CLASIFICACIÓN DE LA WEB INVISIBLE
Web Opaca: Está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:
- Extensión de la indización: a veces, por economía, no todas las páginas de un sitio son indizadas en los buscadores.
- Frecuencia de la indización: los buscadores no poseen la capacidad de indizar todas las páginas existentes; a diario se agregan y modifican muchas y la indización no se realiza al ritmo que permita incluirlas a todas.
- Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados, generalmente limitan el número de documentos que se muestran (entre 200 y 1000).
- URL desconectadas: las generaciones más recientes de buscadores, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados en otros. Si un documento no tiene un link a él, desde otro documento, será imposible que la página sea encontrada, pues no se encuentra indizada.
Web Privada: Consiste en las páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:
- Las páginas están protegidas por contraseñas.
- Contienen un archivo “robots.txt” para evitar ser indizadas.
- Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
Web Propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.
Web Realmente Invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.
Según Lluis Codina: “Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado.