web superficial y profunda

3
  MOOC “ENCONTRANDO TESOROS EN LA RED”  UTN-INSPT - MIRIADAX Web Superficial y Web Profunda ara buscar bien, es imprescin dible tener en cuenta, que además de los buscadores convencionales, hay disponibles otras fuentes específicas de información. Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe o nline, lo que se ha comenzado a llamar la Web superficial  o visible. Lo que resta, la We b profunda o invisible, es un amplio banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito) y otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional. La Web Superficial o visible La Web Superficial  comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi e n su totalidad mediante una consulta en sus formularios de búsqueda. Las características principales de los sitios de la We b visible son:  su información no está contenida en bases de datos  es de libre acceso  no se requiere la r ealización de un proceso de registro para accede r a la información.  mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y acce sibles desde otro enlace. La Web Profunda o invisible Web invisible es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos. Parte de la información es "invisible" a los robots de los buscadores co nvencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta. Sherman y Price identifican cuatro tipos de co ntenidos invisibles en la Web: la Web opaca ( the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web). P

Upload: christianrodriguezcarrion

Post on 03-Nov-2015

6 views

Category:

Documents


0 download

DESCRIPTION

web superficial

TRANSCRIPT

  • MOOC ENCONTRANDO TESOROS EN LA RED UTN-INSPT - MIRIADAX

    Web Superficial y Web Profunda

    ara buscar bien, es imprescindible tener en cuenta, que adems de los buscadores

    convencionales, hay disponibles otras fuentes especficas de informacin.

    Los buscadores tradicionales slo ofrecen acceso a una pequea parte de lo que existe online, lo

    que se ha comenzado a llamar la Web superficial o visible. Lo que resta, la Web profunda o

    invisible, es un amplio banco de informacin ubicado en catlogos, revistas digitales, blogs,

    entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito) y otros

    tipos de contenido que no aparecen entre los resultados de una bsqueda convencional.

    La Web Superficial o visible

    La Web Superficial comprende todos aquellos sitios cuya informacin puede ser indexada por los

    robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta

    en sus formularios de bsqueda.

    Las caractersticas principales de los sitios de la Web visible son:

    su informacin no est contenida en bases de datos

    es de libre acceso

    no se requiere la realizacin de un proceso de registro para acceder a la informacin.

    mayoritariamente est formada por pginas Web estticas, es decir pginas o archivos

    con una URL fija y accesibles desde otro enlace.

    La Web Profunda o invisible

    Web invisible es el trmino utilizado para describir toda la informacin disponible en Internet que

    no se recupera interrogando a los buscadores convencionales. Generalmente es informacin

    almacenada y accesible mediante bases de datos.

    Parte de la informacin es "invisible" a los robots de los buscadores convencionales, ya que los

    resultados se generan en la contestacin a una pregunta directa mediante pginas dinmicas (ASP,

    PHP, etc.) es decir pginas que no tienen una URL fija y que se construyen en el mismo instante

    (temporales) desapareciendo una vez cerrada la consulta.

    Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the

    opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la

    Web realmente invisible (the truly invisible Web).

    P

  • MOOC ENCONTRANDO TESOROS EN LA RED UTN-INSPT - MIRIADAX

    - La Web opaca est compuesta por archivos que, si bien podran estar incluidos en los

    ndices de los buscadores, no lo estn por alguno de los siguientes motivos:

    Extensin de la indizacin: a veces, por economa, no todas las pginas de un sitio son

    indizadas en los buscadores.

    Frecuencia de la indizacin: los buscadores no poseen la capacidad de indizar todas las

    pginas existentes; a diario se agregan y modifican muchas y la indizacin no se realiza

    al ritmo que permita incluirlas a todas.

    Nmero mximo de resultados visibles: aunque los motores de bsqueda arrojan a

    veces un gran nmero de resultados, generalmente limitan el nmero de documentos

    que se muestran (entre 200 y 1000).

    URL desconectadas: las generaciones ms recientes de buscadores, presentan los

    documentos por relevancia basada en el nmero de veces que aparecen referenciados

    en otros. Si un documento no tiene un link a l, desde otro documento, ser imposible

    que la pgina sea encontrada, pues no se encuentra indizada.

    - La Web privada consiste en las pginas Web que podran estar indizadas en los

    buscadores pero son excluidas deliberadamente por alguno de estos motivos:

    Las pginas estn protegidas por contraseas.

    Contienen un archivo robots.txt para evitar ser indizadas.

    Contienen un campo noindex para evitar que el buscador pueda indizar la parte

    correspondiente al cuerpo de la pgina.

    Este segmento de la Web contiene, en general, documentos excluidos deliberadamente

    por su falta de utilidad. Ya que son los dueos de la informacin que contienen, los que

    deciden que no se encuentre disponible, por lo que difcilmente se podrn encontrar

    mecanismos legtimos para franquear esa barrera.

    - La Web propietaria incluye aquellas pginas en las que es necesario registrarse para tener

    acceso al contenido, ya sea de forma gratuita o arancelada.

    - La Web realmente invisible se compone de pginas que no pueden ser indizadas por

    limitaciones tcnicas de los buscadores, programas ejecutables y archivos comprimidos,

    pginas generadas dinmicamente, es decir, que se generan a partir de datos que

    introduce el usuario, informacin almacenada en bases de datos relacionales, que no

    puede ser extrada a menos que se realice una peticin especfica.

  • MOOC ENCONTRANDO TESOROS EN LA RED UTN-INSPT - MIRIADAX

    Veamos algunos de los recursos de bsqueda en la Web Profunda:

    The WWW Virtual Library se considera el catlogo ms antiguo en la web y fue iniciado

    por Tim Berners-Lee, el creador de la web.

    Infoplease es una Web de consulta con ms de 57.000 artculos de la prestigiosa

    enciclopedia Columbia. Facilita la consulta de informacin con opciones de bsqueda por

    trminos o por reas de conocimiento. Es posible acceder a un buen nmero de

    enciclopedias, atlas, y biografas. Y tambin tiene algunas ramificaciones interesantes

    como Factmonster.com para los nios y Biosearch, un motor de bsqueda slo para

    biografas, o informacin de todo lo acontecido histricamente en un determinado da.

    DeepWebTech ofrece cinco motores de bsqueda para temas especficos. Los motores de

    bsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de bsqueda

    especficos del tema, puede consultar las bases de datos subyacentes en la Web profunda.

    TechXtra centra su informacin, en ingeniera, matemticas e informtica. Es posible

    navegar a travs de una extensa lista de revistas gratuitas especializadas de ingeniera,

    documentos tcnicos, descargas y podcasts.

    Segn Lluis Codina: Internet invisible es un nombre claramente inadecuado para referirse al sector

    de sitios y de pginas web que no pueden indizar los motores de bsqueda de uso pblico. Debera

    denominarse, en realidad, la web "no indizable", lo cual es un trmino mucho ms adecuado.