o lado bom e desconhecido da camada mais profunda da web

60
C.E.S.A.R - CENTRO DE ESTUDOS E SISTEMAS AVANÇADOS DO RECIFE PRISCILA NAVARRO PEIXOTO DE OLIVEIRA OS BENEFÍCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB RECIFE, 2012

Upload: vinicius-cardoso-garcia

Post on 31-Jul-2015

1.311 views

Category:

Documents


6 download

DESCRIPTION

Monografia apresentada ao programa de Especialização em Engenharia de Software do Centro de Estudos e Sistemas Educacionais do Recife – C.E.S.A.R, como requisito para a obtenção do título de Especialista em Engenharia de Software com ênfase em Segurança da Informação.Aluno: Priscila Navarro Peixoto de OliveiraOrientação: Prof. Vinicius Cardoso GarciaPesquisando na Web sobre Invisible Web é mais comum encontrar textos superficiais que a generalizam como um mero repositório de material ilícito. Entretanto, a Invisible Web vai além de uma rede fechada que armazena páginas daqueles que querem compartilhar conteúdo ilícito anonimamente. Pode-se entender a Invisible Web como um termo que define todas as páginas que não são indexadas pelos motores de busca convencionais, formando um imenso universo de informação de relevante valor, invisível para a maioria daqueles que utilizam a Web, mas visível para algumas empresas e instituições importantes. Neste contexto, este verdadeiro tesouro merece uma reflexão sobre a melhor forma de obter informação na Web e a necessidade de pesquisas que a explorem através de inteligência acionável. Um único buscador desenvolvido com algoritmos geniais, mas que se limita à camada superficial da Web, parece uma opção prática, embora não aquela que colherá os resultados mais satisfatórios.

TRANSCRIPT

C.E.S.A.R - CENTRO DE ESTUDOS E SISTEMAS AVANÇADOS DO

RECIFE

PRISCILA NAVARRO PEIXOTO DE OLIVEIRA

OS BENEFÍCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB

RECIFE, 2012

ii

C.E.S.A.R – CENTRO DE ESTUDOS E SISTEMAS AVANÇADOS DO RECIFE

OS BENEFÍCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB

Monografia apresentada ao programa de Especialização de Segurança em Engenharia de Software do Centro de Estudos e Sistemas Avançados do Recife – C.E.S.A.R, como requisito para a obtenção do título de Especialista em Engenharia de Software com ênfase em Segurança.

Orientação: Prof. Vinicius Cardoso Garcia

RECIFE, 2012

iii

C.E.S.A.R – CENTRO DE ESTUDOS E SISTEMAS AVANÇADOS DO RECIFE

OS BENEFÍCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB

PRISCILA NAVARRO PEIXOTO DE OLIVEIRA

Monografia apresentada ao programa de Especialização de Segurança em Engenharia de Software do Centro de Estudos e Sistemas Avançados do Recife – C.E.S.A.R, como requisito para a obtenção do título de Especialista em Engenharia de Software com ênfase em Segurança.

Data de aprovação:

_____ / _____ / 2012. Banca examinadora: _____________________________ Prof.(a).Dr.(a) C.E.S.A.R - Centro de Estudos e Sistemas Avançados do Recife _____________________________ Prof.(a).Dr.(a) C.E.S.A.R - Centro de Estudos e Sistemas Avançados do Recife _____________________________ Prof.(a).Dr.(a) C.E.S.A.R - Centro de Estudos e Sistemas Avançados do Recife

iv

AGRADECIMENTOS

Agradeço ao Senhor Jesus porque dele, e por meio dele e para ele são

todas as coisas.

Agradeço à minha mãe Sandra pela presença e apoio constante, sempre

buscando proporcionar os melhores meios para eu seguir o meu caminho.

Agradeço ao meu pai Múcio, meu grande amigo, meu porto seguro, fonte

de paz e tranquilidade.

Agradeço ao meu irmão, amigo e companheiro, presente do Senhor que

veio pra deixar a minha vida, e a dos meus pais, mais feliz.

Agradeço a Mauricio, meu amor, que me inspira, que me motiva e que me

fortalece em tudo que eu faço.

Agradeço à minha avó Eunice que sempre esteve fortemente presente na

minha vida e que agora descansa em paz no Senhor Jesus.

Agradeço à minha avó Verônica por sempre irradiar amor, tranqüilidade e

otimismo.

Agradeço aos meus tios e primos pela constante presença e certeza de

que sempre posso contar com eles.

Agradeço aos meus amigos pelo apoio, carinho e orações.

Agradeço aos meus colegas de curso por me acompanharem nesta

trajetória, principalmente aqueles mais próximos que se tornaram amigos.

Agradeço a Diego e ao professor Noilson por terem me levado a enxergar

além da Web superficial.

Agradeço ao meu orientador Vinicius Cardoso por abraçar e fortalecer o

meu tema, respondendo com agilidade, clareza e objetividade aos meus contatos.

Enfim, agradeço a toda a instituição C.E.S.A.R que me proporcionou o

ambiente e as ferramentas necessárias para eu concluir o curso.

v

Porque dele, e por meio dele, e para ele são todas as coisas.

Romanos 11:36

vi

RESUMO

Pesquisando na Web sobre Invisible Web é mais comum encontrar textos

superficiais que a generalizam como um mero repositório de material ilícito.

Entretanto, a Invisible Web vai além de uma rede fechada que armazena

páginas daqueles que querem compartilhar conteúdo ilícito anonimamente.

Pode-se entender a Invisible Web como um termo que define todas as páginas

que não são indexadas pelos motores de busca convencionais, formando um

imenso universo de informação de relevante valor, invisível para a maioria

daqueles que utilizam a Web, mas visível para algumas empresas e instituições

importantes. Neste contexto, este verdadeiro tesouro merece uma reflexão

sobre a melhor forma de obter informação na Web e a necessidade de

pesquisas que a explorem através de inteligência acionável. Um único

buscador desenvolvido com algoritmos geniais, mas que se limita à camada

superficial da Web, parece uma opção prática, embora não aquela que colherá

os resultados mais satisfatórios.

Palavras-chave

Invisible Web. Deep Web. Surface Web. Motores de busca. Anonimidade

vii

ABSTRACT

When searching the Web about Invisible Web, it is more common to find

superficial texts, which generalizes it as a mere repository of illicit material.

However, the Invisible Web goes beyond a closed network that stores pages of

those who want to share illegal content anonymously. The term Invisible Web or

Deep Web refers to all the pages that are not indexed by conventional search

engines. Thus, forming an immense universe of valuable information invisible to

most web users, but visible to some companies and important institutions. In

this context, this is a true treasure that deserves a reflection on the best way to

get information from the Web and the need for research exploring through

actionable intelligence. Choosing a single search engine developed with genius

algorithms but limited to the superficial layer of the Web, seems to be a practical

option, although not one that will reap the most satisfactory results.

Key-words

Invisible Web. Deep Web. Surface Web. Search Engines. Anonymity.

viii

LISTA DE FIGURAS

FIGURA 1 - EDITOR DE PLANILHAS NA WEB. FONTE: AUTOR. .......................................................... 7

FIGURA 2 - ROTEAMENTO EM CAMADAS. FONTE: WIKIPEDIA. ...................................................... 14

FIGURA 3 - ANALOGIA DA WEB COMO UM OCEANO. FONTE: BRANDPOWDER. ................................ 18

FIGURA 4 - EXEMPLO DE UM ARQUIVO ROBOTS.TXT. FONTE: BLOGLOVIN. ...................................... 20

FIGURA 5 - EXEMPLO DO USO DA TAG NOINDEX. FONTE: FIGHTCYBERSTALKING................................ 21

FIGURA 6 - TELA DO APLICATIVO MEDNAR. FONTE: DEEPWEBTECHNOLOGIES. ............................... 34

FIGURA 7 - PORTAL SCIENCE.GOV. FONTE: AUTOR. .................................................................... 35

FIGURA 8 - PORTAL WORLDWIDESCIENCE.ORG. FONTE: AUTOR. ................................................. 36

FIGURA 9 - PORTAL XSEARCH. FONTE: AUTOR. ......................................................................... 37

FIGURA 10 - TELA DO SISTEMA DA INTEL. FONTE: DEEPWEBTECH.................................................. 38

FIGURA 11 - SITE HUMINT. FONTE: AUTOR............................................................................ 40

FIGURA 12 - PORTAL COMPLETEPLANET. FONTE: AUTOR. ........................................................... 41

FIGURA 13 - CONECTANDO À REDE TOR. FONTE: AUTOR............................................................. 44

FIGURA 14 - HIDDEN WIKI. FONTE: AUTOR. ............................................................................. 44

ix

LISTA DE SIGLAS

Sigla Significado

CERN Conseil Européen pour la Recherche Nucléaire

URL Uniform Resource Locator

HTTP Hypertext Transfer Protocol

HTML Hypertext Markup Language

W3C

RDF

XML

World Wide Web Consortium

Resource Description Framework

Extensible Markup Language

IP

TCP

OR

SSL

TOR

EUA

PDF

TMS

DOE

OSTI

LDAP

OSINT

US

GPS

VPN

SaaS

Internet Protocol

Transmission Control Protocol

Onion Routing

Secure Sockets Layer

The Onion Router

Estados Unidos da América

Portable Document Format

Texas Medical Center

Department of Energy

Office of Scientific and Technical Information

Lightweight Directory Access Protocol

Intelligence Open Source

United States

Global Positioning System

Virtual Private Network

Software as a service

x

SUMÁRIO

LISTA DE FIGURAS..................................................................................................VIII

LISTA DE SIGLAS ...................................................................................................... IX

1 INTRODUÇÃO .................................................................................................... 1

1.1 TEMA.................................................................................................................. 1

1.2 OBJETIVO GERAL ................................................................................................ 2

1.3 OBJETIVOS ESPECÍFICOS..................................................................................... 2

1.4 METODOLOGIA .................................................................................................. 2

1.5 JUSTIFICATIVA .................................................................................................... 2

1.6 ESTRUTURA DO DOCUMENTO ........................................................................... 4

2 FUNDAMENTAÇÃO TEÓRICA.............................................................................. 5

2.1 A INTERNET E A WORLD WIDE WEB ................................................................... 5

2.2 OS MOTORES DE BUSCA..................................................................................... 9

2.3 PRIVACIDADE, CRIPTOGRAFIA E ANONIMIDADE ............................................. 12

2.4 ONION ROUTING .............................................................................................. 13

2.5 TOR................................................................................................................... 15

2.6 SURFACE WEB .................................................................................................. 17

2.7 INVISIBLE WEB.................................................................................................. 19

3 O BOM USO DA CAMADA MAIS PROFUNDA DA WEB ....................................... 32

3.1 CASO DE SUCESSO: DEEP WEB TECHNOLOGIES ............................................... 32

3.2 CASO DE SUCESSO: BRIGHTPLANET ................................................................. 38

3.3 DESMISTIFICANDO A WEB ANÔNIMA.............................................................. 42

4 CONSIDERAÇÕES FINAIS .................................................................................. 45

5 REFERÊNCIAS................................................................................................... 47

1

1 INTRODUÇÃO

1.1 TEMA

De acordo com Sami et al. (2010), no cenário Web o pesquisador tem

acesso a uma grande quantidade de informações através dos motores de

busca. Entretanto, os motores de busca convencionais rastreiam apenas a

camada mais superficial da Web, a Surface Web, deixando oculta uma imensa

quantidade de conteúdo numa camada mais profunda, a Invisible Web ou Deep

Web [1, 2].

Os motores de busca convencionais, como Google, Yahoo, Bing,

obtêm suas listas de duas formas. Na primeira, os autores apresentam as suas

próprias páginas da Web para a lista, geralmente uma quantidade menor. Já na

segunda, os motores rastreiam e indexam documentos seguindo de um link de

hipertexto para outro, através de programas chamados crawlers, que têm

limitações técnicas e critérios de seleção deliberados. Assim, as páginas que

não são contempladas formam um imenso universo. E neste contexto, afirma-

se que os motores de busca convencionais não contemplam o conteúdo da

Deep Web, que pode ser um conteúdo dinâmico servido em tempo real a partir

de um banco de dados, um formato não aceito ou, até mesmo, um conteúdo

excluído por uma escolha deliberada.

De acordo com dados apresentados por Bergman (2001), a Deep Web

é consideravelmente superior à Surface Web na qualidade e quantidade de

informações, assim como na aquisição de novas informações. Entretanto, a

supracitada camada é predominantemente definida como um espaço exclusivo

de práticas ilegais como terrorismo, pornografia, tráfico de drogas, entre outras,

apoiadas pelo anonimato oferecido por ferramentas que possibilitam o seu

acesso. E, consequentemente, um vasto repositório de sons, imagens, áudio e

outros formatos não indexados pelos crawlers se tornam inacessíveis à grande

parte daqueles que buscam informação.

2

1.2 OBJETIVO GERAL

Apresentar os benefícios pouco explorados da camada mais profunda

da Web que não são acessados pela maioria dos usuários que utilizam este

meio.

1.3 OBJETIVOS ESPECÍFICOS

� Apresentar a camada profunda da Web que é pouco conhecida por

grande parte daqueles que utilizam a Web.

� Realizar um estudo sobre os casos de sucesso no bom uso da Invisible

Web.

� Desmistificar o conceito da Invisible Web como um mero repositório de

conteúdo ilícito.

� Despertar o investimento de pesquisas na exploração inteligente da

Invisible Web.

1.4 METODOLOGIA

Utilizando a pesquisa bibliográfica, haverá um levantamento do

material já elaborado, constituído de livros (impressos e eletrônicos), páginas

eletrônicas das principais entidades envolvidas no assunto trabalhado,

pesquisas, artigos científicos, dissertações, entre outros, construindo a base

teórica do trabalho monográfico. A técnica de coleta de dados será a

observação indireta, através da leitura compreensiva e seletiva das publicações

levantadas.

1.5 JUSTIFICATIVA

Segundo Filho (2003), o século XX tem sido denominado como a Era

da Informação e, atualmente, a grande maioria das informações está disponível

3

em meios eletrônicos como a Internet. Entretanto, uma considerável parte

desta fonte está inacessível a um relevante número daqueles que buscam a

informação, e a parte que é acessível muitas vezes se apresenta carente de

qualidade, como afirmam Tomaél et al (2000).

Segundo Raghavan (2001), os motores de busca convencionais

contam com programas, os crawlers, que rastreiam as páginas estáticas da

camada mais superficial da Web, denominada Surface Web, percorrendo links

de hipertexto que apontam para outros links. Porém, este mecanismo tem

limitações técnicas que, somadas a escolhas deliberadas, excluem uma grande

quantidade de páginas, constituindo a Invisible Web ou Deep Web.

Um estudo apresentado por Bergman (2001) estimou que a Invisible

Web contém cerca de 7.500 terabytes de informação contra 19 terabytes da

Surface Web, 550 bilhões de documentos individuais, 200 mil sites, além de

possuir o maior crescimento na aquisição de novas informações e um conteúdo

mais profundo do que o encontrado na Surface Web. A qualidade total do

conteúdo da camada mais profunda da Web é de 1000 a 2000 vezes maior que

a camada mais superficial da Web. Somando-se a estes pontos, a Invisible

Web apresenta um conteúdo altamente relevante para cada necessidade de

informação, mercado e domínio, mais da metade reside em áreas específicas

do banco de dados e 95% da camada é composta de informação livre de taxas

ou assinaturas.

A Invisible Web apresenta bancos de dados que contemplam uma

variedade de áreas. Estes oferecem suporte à Educação com livros, textos,

planos de aulas, entre outros arquivos. Fornecem enciclopédia que cataloga

mais de 70 mil espécies de plantas e animais, além de proporcionar cobertura

às espécies raras e ameaçadas de extinção. Trazem portais que apresentam

milhares de revistas e notícias. Armazenam textos, artigos completos,

periódicos científicos e acadêmicos que abrangem Ciências, tópicos jurídicos e

uma diversidade de temas e linguagens, como descreve Lackie (2009).

Entretanto, apesar de existir tecnologias que difundem a exploração

desta rica fonte de informações, como a empresa BrightPlanet, a maioria da

sociedade que busca informações tem a Invisible Web como exclusivamente

um lugar que oferece anonimato para atividades ilegais ou simplesmente não

4

tem conhecimento da existência de uma camada mais profunda na Web,

ressalva Paganini (2012). Diante deste cenário, torna-se relevante um estudo

que pesquise, analise e descreva o vasto e rico conteúdo que a Invisible Web

pode oferecer para a sociedade.

1.6 ESTRUTURA DO DOCUMENTO

O presente relatório segue a seguinte estrutura:

� Capítulo 1 : introdução da pesquisa, abordando o tema, o objetivo, a

justificativa e a metodologia.

� Capítulo 2 : fundamentação teórica, contextualizando o leitor através da

descrição dos principais conceitos que envolvem o tema da pesquisa

abordada neste documento.

� Capítulo 3 : abordagem do bom uso da Invisible Web, objetivo principal

da pesquisa, através da apresentação de casos de sucesso que a

envolve, e desmistificação do conceito da Web anônima como um mero

repositório de conteúdo ilícito, apontando outros assuntos nela

encontrados.

� Capítulo 4 : considerações finais do estudo e pesquisa realizados.

5

2 FUNDAMENTAÇÃO TEÓRICA

2.1 A INTERNET E A WORLD WIDE WEB

A Internet, inicialmente denominada como Arpanet, foi desenvolvida

pelo Departamento de Defesa dos Estados Unidos no período da Guerra Fria,

com o objetivo de interligar as bases militares e os departamentos de pesquisa

do governo americano.

Atualmente, segundo Ferreira (1999), a Internet é uma “rede de

computadores de âmbito mundial, descentralizada e de acesso público, cujos

principais serviços oferecidos seriam o correio eletrônico e a Web”.

A World Wide Web ou simplesmente Web foi iniciada em 1989 por Tim

Berners-Lee no centro de pesquisa CERN (Conseil Européen pour la

Recherche Nucléaire) com a proposta de um grande sistema de hipertexto.

A ideia de hipertexto foi enunciada pela primeira vez por Vannevar

Bush em 1945, no artigo intitulado “As We May Think”. Entretanto, o termo

hipertexto, tem sua origem nos anos sessenta, com Theodor H. Nelson e seu

projeto Xanadu.

Segundo Lévy (1999, p.55, apud CUNHA, 2003, p.38):

A abordagem mais simples do hipertexto é descrevê-lo, em oposição a um texto linear, como um texto estruturado por nós (os elementos da informação, parágrafos, páginas, imagens, sequências musicais, etc.) e por links entre esses nós, referências, notas, ponteiros, “botões” indicando a passagem de um nó a outro.

Os links ou hiperlinks são apontadores num documento hipertexto para

outras partes do documento ou para outros documentos, que, segundo Koch

(2005), “permitem ao leitor realizar livremente desvios, fugas, saltos

instantâneos para outros locais virtuais da rede, de forma prática, cômoda e

econômica”.

6

Neste contexto de hipertexto aplicado à Internet, em 1990 Tim Berners-

Lee já contava com o apoio de Robert Cailliau e tinhas as principais

ferramentas necessárias para o funcionamento da Web.

Segundo Cunha (2003), ele percebeu que o conceito de hipertexto

poderia ser utilizado na grande rede de computadores em conjunto com três

tecnologias: Uniform Resource Locator (URL), um endereço único para cada

página na Web; Hypertext Transfer Protocol (HTTP), um protocolo de

transferência de dados; e HyperText Markup Language (HTML), uma

linguagem de marcação que descreve como os elementos (textuais e gráficos)

de uma página devem ser exibidos.

Dentre as ferramentas necessárias à Web, também está o navegador

ou browser, um programa de computador que permite aos usuários da Web o

acesso às páginas, e os servidores, responsáveis por receber, processar e

responder as requisições HTTP de clientes, geralmente um browser.

2.1.1 A evolução da Web

Desde o seu surgimento, a Web vive um processo evolutivo.

Inicialmente, denominada Web 1.0, oferecia um conjunto de páginas estáticas

ligadas, cujo conteúdo era alimentado apenas pelos seus responsáveis, tendo

o usuário como um mero receptor de informação.

A atual fase, após um rápido e grande crescimento, recebeu de Tim

O’Reilly o termo Web 2.0, oriundo de uma série de conferências promovidas

pela O’Reilly Media e a MediaLive International, que trouxe uma segunda

geração de serviços.

Segundo O’Reilly (2005), citado por Primo (2007), não há como

demarcar precisamente as fronteiras da Web 2.0. Trata-se de um núcleo ao

redor do qual gravitam princípios e práticas que aproximam diversos sites que

os seguem. Um desses princípios fundamentais é trabalhar a Web como uma

plataforma, ou seja, serviços como editor de textos e planilhas, que antes só

poderiam ser utilizados através de sua instalação no computador, agora são

disponíveis online. Na Figura 1, pode-se observar uma planilha disponível na

7

Web, recurso oferecido pelo Google Docs, um pacote de aplicativos da

empresa Google, que também disponibiliza a criação e o compartilhamento de

documentos, formulários, entre outros.

Figura 1 - Editor de planilhas na Web. Fonte: Autor1.

Dentre outros serviços estão as Wikis, páginas para compartilhamento

de textos, imagens e vídeos, redes sociais. As Wikis são páginas como a

Wikipedia, uma enciclopédia com conteúdo livre que permite o usuário ler,

editar e criar artigos. O’Reilly (2005) enfatiza uma arquitetura de participação

em que quanto mais usuários na rede, mais arquivos se tornam disponíveis.

Assim, páginas estáticas perderam espaço para um conteúdo dinâmico que é

gerado pelos próprios usuários.

Diante deste imenso e crescente volume de compartilhamento, cresce

a importância de ferramentas que possibilitam encontrar conteúdo relevante no

meio deste caos de informações. Neste contexto, o World Wide Web

Consortium ou W3C liderado por Tim Berners-Lee trabalha atualmente no

desenvolvimento da Web 3.0 ou Web Semântica.

1 Imagem capturada pelo autor a partir da tela do aplicativo.

8

Segundo o W3C, a Web 3.0 tem o objetivo de trazer “novas maneiras

de conectar a Internet através de uma variedade de dispositivos capazes de

pesquisar, combinar e analisar os dados”.

De acordo com Berners-Lee (2007, apud JARDIM, 2010, p.20):

A Web Semântica é sobre a colocação de arquivos de dados na Web. Não é apenas uma Web de documentos, mas também de dados. A tecnologia de dados da Web Semântica terá muitas aplicações, todas interconectadas. Pela primeira vez haverá um formato comum de dados para todos os aplicativos, permitindo que os bancos de dados e as páginas da Web troquem arquivos.

Berners-Lee et al. (2001, apud JARDIM, 2010) afirmam ainda que a

Web 3.0 é uma extensão da Web atual, em que a informação tem um

significado claro e bem definido, possibilitando uma melhor interação entre

computadores e pessoas.

A Web tradicional foi desenvolvida para ser entendida apenas pelos usuários, já a Web Semântica foi idealizada para ser compreendida também pelas máquinas. Para isso utiliza diversas tecnologias, que são capazes de operar de maneira eficiente sobre as informações, podendo entender seus significados, assim, auxiliando os usuários em operações na Web (Dziekaniak et al., 2004, apud JARDIM, 2010, p.22).

Segundo o W3C, a Web Semântica foi inicialmente pensada para ser

construída com base na flexibilidade da combinação do Resource Description

Framework (RDF) e o Extensible Markup Language (XML), trazendo uma

representação da informação compreensível para a máquina. Propõe-se que a

Web seja mais que um repositório de documentos para exibição, mas de

automação, integração e reuso em sistemas diferentes. Os dados não são

apenas apresentados, mas também interpretados e compartilhados com

organização em escala e completa integração de recursos.

9

2.2 OS MOTORES DE BUSCA

Desde o princípio da Internet houve a preocupação com a criação de

ferramentas para localização da informação e, desta forma, surgiram dois tipos

básicos: os diretórios e os motores de buscas ou search engines.

Os diretórios foram criados quando o conteúdo da Web era pequeno o

suficiente para ser pesquisado de forma manual. Os sites são coletados por

pessoas, os editores, ou por robôs, e são organizados hierarquicamente pelo

assunto, permitindo aos usuários navegarem entre categorias e subcategorias.

Os motores de busca surgiram com o significativo aumento dos

recursos da Web que tornou inviável a coleta manual dos sites e a busca por

navegação. Possuindo uma base de dados com uma grande quantidade de

itens, permite a busca por palavras-chave ou linguagem natural.

Um motor de busca é composto por quatro partes: o robô ou crawler,

um programa que percorre automaticamente a Web seguindo links encontrados

nas páginas; o indexador, que processa as páginas acessadas pelo crawler e

constrói a base de dados; o motor de busca, propriamente dito, que localiza na

base de dados o item pesquisado; e a interface, uma página Web que permite

ao usuário realizar a pesquisa.

Os crawlers tentam obter o maior número possível de páginas da Web

e possuem diversas estratégias para percorrerem os links existentes. Na

maioria das vezes iniciam o percurso nos sites mais conhecidos e utilizam seus

próprios algoritmos para determinarem quais links seguirão. A coleta de

páginas também pode ser realizada pela sugestão dos usuários que têm a

opção de não esperar pela varredura regular dos robôs.

As informações contidas nas páginas HTML localizadas pelos crawlers

são extraídas pelos indexadores e armazenadas na base de dados. A interface,

geralmente uma página Web, permite que o usuário realize uma consulta

transmitindo-a ao motor de busca, programa que localiza o item pesquisado na

base de dados e retorna o resultado (uma lista de sites), contendo a descrição

e o link, ordenados de acordo com a relevância.

De acordo com Cedón (2001), os motores de busca se diferem entre si

levando em consideração o tamanho da base de dados, os critérios para

10

indexação e inclusão de páginas, além de sua interfade de busca, frequência

de atualização das páginas e ordenação dos resultados.

O tamanho da base de dados, geralmente medido pelo número de

URLs, é um parâmetro relevante para que uma ferramenta de busca seja boa,

considerando que a informação só pode ser localizada numa pesquisa se a

ferramenta a tiver incluído. Um motor que abrange um maior número de URLs

tem maior probabilidade de conter a informação procurada e,

consequentemente, tende a ser mais usado. Entretanto, vale ressaltar que

nenhum deles consegue conter todas as páginas existentes.

Um motor de busca cria índices para tornar dinâmica a busca em sua

base de dados. Neles são inseridos todos os termos que podem ser usados

numa pesquisa e as URLs das páginas que os contêm. A posição das palavras

nas páginas e tags HTML associadas ao texto podem também serem

armazenadas para facilitar a recuperação e ordenação dos resultados. Um

termo que não é incluído no índice não pode ser localizado, assim, os critérios

de indexação influenciam consideravelmente o resultado de uma pesquisa.

Os motores de busca geralmente indexam cada palavra visível de uma

página. Porém, alguns retiram apenas as palavras mais frequentes, ou as

URLs, ou as principais palavras. Há também aqueles que incluem nos índices

outros termos que não são visíveis, mas que contém informações úteis, como

os textos encontrados nos metatags de classificação, descrição e palavras-

chave e o ALT da tag image.

De acordo com Cédon (2001):

Os metatags de classificação fornecem uma palavra-chave que define o conteúdo da página. Os de descrição retornam a descrição da página feita pelo seu autor no lugar do resumo que o robô criaria automaticamente. Os de palavra-chave fornecem as palavras-chave designadas para descrever seu conteúdo ou assunto. Por exemplo, no metatag <META name = “keyword” content=”Brasil, informação para negócios”>, as palavras Brasil e informação para negócios podem não fazer parte do texto visível da página, entretanto foram indicadas pelo seu autor como indicadores do assunto sobre os quais a página versa.

11

Os critérios utilizados para a inclusão de páginas estabelecem o

número de itens que compõem a base de dados dos motores de busca. Alguns

tentam incluir todas as páginas de um site, outros incluem apenas as principais

páginas. Além do formato HTML, é crescente a variedade coletada e indexada

pelos motores.

O dinamismo que caracteriza a Internet traz aos motores de busca a

necessidade de ter a sua base de dados atualizada, adicionando, alterando ou

excluindo novas páginas. E para isso, cada motor possui critérios e tecnologia

própria para manter esta atualização.

A interface de busca é outro parâmetro que difere um motor de busca.

De forma geral, oferecem dois tipos de pesquisa, simples e avançada. A busca

avançada se distingue da busca simples por permitir que os usuários utilizem

expressões booleanas, além de recursos como truncamento, pesquisa por

frase, sensibilidade à caixa de caracteres (caixa-alta ou caixa-baixa), limitação

por data, domínio, idioma e formato de arquivo.

Diante da quantidade de páginas existentes, geralmente uma pesquisa

retorna um grande número de páginas, tornando a ordenação dos resultados

um importante critério na caracterização de um motor de busca. Considerando

duas ferramentas que trazem a mesma quantidade de itens para uma busca, a

melhor será aquela que fornece os itens mais relevantes entre os primeiros

resultados. Assim, a maioria dos motores de busca utiliza algoritmos de

ordenação dos resultados que levam em consideração uma série de

parâmetros que eles definem.

Google Search é um motor de busca convencional que permite a busca

de informação na camada mais superficial e se destaca entre os mais

importantes buscadores por algumas razões. O crawler do Google, o

Googlebot, busca por novas informações diariamente. O referido buscador

possui ainda um algoritmo, desenvolvido pelos próprios fundadores Larry Page

e Sergey Brin, "que atribui uma pontuação a uma página Web, de acordo com

a quantidade e a qualidade das ligações (externas ou internas) que apontem

para ela”, como afirma a Wikipédia. O Google Search também oferece o

recurso “em cache”, que permite o acesso a sites que já não existem mais,

além de possuir uma interface simples, clara e leve.

12

Entretanto, Cédon (2001) ressalva que, apesar da grande quantidade

de informações na Web supracitada neste documento e das inúmeras

ferramentas de pesquisa disponíveis, o usuário fica frequentemente frustrado

diante dos insatisfatórios resultados retornados por este complexo universo dos

motores de busca e os critérios adotados por eles.

2.3 PRIVACIDADE, CRIPTOGRAFIA E ANONIMIDADE

Segundo Ishitani (2003), privacidade é um conceito abstrato, que tem

seu valor e extensão variados de acordo com cada pessoa. No contexto da

Web, Wang et al afirma que “privacidade geralmente se refere a informações

pessoais, e invasão de privacidade é geralmente interpretada como coleta,

publicação ou outro uso não autorizado de informações pessoais, como um

resultado direto de transações”. E para Westin (1987), privacidade de

informações é “a reivindicação de indivíduos, grupos ou instituições de

poderem determinar quando, como e quanto de suas informações podem ser

divulgadas a outros”.

De acordo com Wang (1998, apud ISHITANI, 2003):

As ferramentas de encriptação são as mais utilizadas e as que obtiveram mais sucesso com relação à proteção da privacidade de usuários da Internet. A vantagem dessas ferramentas é impedir que um terceiro compreenda o conteúdo de mensagens transmitidas entre dois outros indivíduos. Consequentemente, se um terceiro não é capaz de entender uma mensagem, não haverá interesse em coletar e armazenar essas informações.

Entretanto, Ishitana (2003) ressalva que esta prática não é plenamente

eficiente contra a mineração de dados, pois mesmo sem a possibilidade de ter

o conteúdo de uma mensagem revelado, ainda é possível saber o endereço IP

do cliente e servidor, o comprimento dos dados permutados, a hora em que

uma comunicação foi realizada e a frequência das transmissões. Desta forma,

13

a encriptação deve ser utilizada em conjunto com outras opções de tecnologia

para proteção da privacidade, como programas e protocolos de criptografia.

O “anonimato, ou ocultamento do nome do autor de uma ação ou obra,

representa uma forma antiga de agir ou produzir obras, com a proteção da

privacidade da identidade do autor da ação ou obra”, afirma Ishitani (2003). O

seu uso pode ter objetivos socialmente lícitos e ilícitos. Dentre os objetivos

lícitos, pode-se mencionar testemunho e denúncia de crimes, participação em

grupos de ajuda, entre outros. Quanto ao uso ilícito do anonimato, há fraudes,

envio de mensagens ameaçadoras, ações criminosas e terroristas, entre outras

práticas.

Ainda para Ishitani (2003), a anonimidade é útil para proteger a

privacidade. E, no âmbito da Web, o nome que se deseja proteger é o

endereço IP, pois estes podem conter informações pessoais, serem utilizados

para correlacionar atividades de diferentes sites e revelar a identidade de um

usuário. Vale mencionar que existem a pseudo-anonimidade e a anonimidade

de uma única vez. A diferença é que o pseudônimo é contínuo, podendo ser

utilizado pelo usuário mais de uma vez, e associado a um conjunto de

mensagens.

Uma falha de anonimidade acontece quando não se protege a

anonimidade de um usuário ao permitir que o conteúdo de uma transação

informe a identidade do usuário ao servidor Web. Muitas ferramentas Web de

anonimidade se baseiam no uso de proxies.

O proxy tem o papel de submeter as requisições Web em nome dos

usuários, assim, o seu IP é o único revelado aos sites. Considerando o fato de

o proxy conhecer a identidade dos usuários, a vulnerabilidade deste sistema se

encontra na possibilidade de alguém passar a ter o controle do proxy,

monitorando os remetentes e destinatários de todas as comunicações.

2.4 ONION ROUTING

De acordo com Dingledine et al. (2004), Onion Routing é uma rede

sobreposta distribuída que fornece anonimidade a aplicativos baseados TCP,

14

como navegadores Web, secure shell e mensagens instantâneas. Os clientes

escolhem um caminho através da rede e constroem um circuito, em que cada

nó ("onion router" ou "or") no caminho conhece seu antecessor e sucessor,

mas não os outros nós do circuito. O roteamento depende do uso de

criptografia de chave pública, que permite criptografar em camadas, de tal

forma que apenas o receptor de uma camada destinada pode decifrar a

mensagem com sua chave privada.

De forma mais detalhada, Carvalho (2010) afirma que cada router

define o próximo e criptografa a mensagem usando a chave pública do router

de destino. Assim, é gerada uma estrutura em camadas, conforme apresentado

na Figura 2, em que para chegar na mensagem original é necessário

decodificar todas as camadas externas, através do uso da chave privada de

cada roteador do caminho, na ordem predeterminada.

Figura 2 - Roteamento em camadas. Fonte: Wikipedia1.

Depois de estabelecido, o caminho permanece ativo para transmissão

de dados por certo período. Neste tempo, o remetente pode enviar mensagens

que serão “descascadas” (analogia às camadas de uma cebola), ou seja,

descriptografadas pela chave privada do router, dificultando a associação entre

mensagens que dele entram e saem.

11

http://en.wikipedia.org/wiki/File:Onion_diagram.svg, acesso em julho de 2012.

15

Carvalho (2010) ressalva que um dos pontos fracos se encontra no fato

de que “nós de saída das redes OR dão acesso completo ao conteúdo

transmitido (via sniffing) e, portanto, a rede não deve ser utilizada para

transmitir informações confidenciais sem o uso de criptografia fim-a-fim, como

SSL”. No próximo tópico, o onion routing será um pouco mais detalhado,

através da descrição de um projeto que o implementa.

2.5 TOR

The Onion Router, também conhecido como Tor1, é um software livre

da segunda geração do onion routing. E, de acordo com a sua página oficial, é

uma rede aberta que auxilia a defesa contra uma forma de vigilância que

ameaça a liberdade e privacidade de negócios e relacionamentos

confidenciais, assim como a segurança do Estado, conhecida como análise de

tráfego.

Tor foi originalmente concebido, implementado e implantado como a

terceira geração de um projeto de roteamento em camadas do Laboratório de

Pesquisa Naval dos EUA. Originalmente desenvolvido com a Marinha dos

EUA, tinha o propósito principal de proteger as comunicações do governo.

Hoje, ele é usado todos os dias por uma grande variedade de perfis e

propósitos.

A ferramenta descrita é uma rede de túneis virtuais que permite

pessoas e organizações aumentarem a sua segurança e privacidade na

Internet. Ele também permite que desenvolvedores de software criem novas

ferramentas de comunicação com características de privacidade embutidas.

Tor fornece a base para uma gama de aplicações que possibilitam

organizações e indivíduos partilharem informação através de redes públicas,

sem comprometer a sua privacidade.

A variedade de pessoas que o utilizam é parte do que o faz tão seguro.

Tor esconde o usuário entre os outros usuários na rede, de modo que o quanto

1 https://www.torproject.org

16

maior e mais diversificada for a base de usuários do Tor, mais o seu anonimato

será protegido.

Tor oferece proteção contra uma forma comum de vigilância na Internet

conhecida como "análise de tráfego”, como foi mencionado nas primeiras linhas

deste tópico. A análise de tráfego pode ser usada para inferir quem está

falando com quem, através de uma rede pública. Conhecer a origem e o

destino do seu tráfego na Internet permite que outro deduza os seus hábitos e

interesses.

Na análise de tráfego, pacotes de dados na Internet tem duas partes:

um bloco de dados e um cabeçalho usado para o encaminhamento. O bloco de

dados é o que está sendo enviado, podendo ser uma mensagem de e-mail,

uma página Web ou um arquivo de áudio. Mesmo se um indivíduo criptografa a

carga de dados de suas comunicações, a análise de tráfego ainda revela muita

coisa sobre o que ele está fazendo e, possivelmente, o que ele está dizendo.

Isso porque a tecnologia aqui apresentada se baseia no cabeçalho, o que

revela origem, destino, tamanho, timing, e assim por diante.

Um problema básico de privacidade é que o receptor pode ver o que o

emissor envia através dos cabeçalhos. Estes receptores pode ser

intermediários autorizados, como provedores de Internet, e, algumas vezes,

intermediários não autorizados também. Uma forma muito simples de análise

de tráfego pode envolver alguma parte da sessão entre o remetente e o

destinatário na rede, através dos cabeçalhos.

Mas também existem formas mais poderosas de análise de tráfego.

Alguns atacantes espiam múltiplas partes da Internet e usam técnicas

estatísticas sofisticadas para rastrear os padrões de comunicação de muitas

organizações e indivíduos. Criptografia não protege contra estes ataques, pois

apenas esconde o conteúdo do tráfego da Internet, não os cabeçalhos.

Tor promete reduzir os riscos tanto da análise de tráfego simples

quanto da sofisticada, distribuindo as suas transações por vários pontos na

Internet, tornando difícil a identificação dos pacotes de dados observados na

rede . Em vez de seguirem uma rota direta desde a origem até o destino, os

pacotes na rede Tor seguem um caminho aleatório através de diversos

servidores, que ocultam a sua passagem de forma que um observador em

17

qualquer ponto não tenha condições de afirmar de onde vêm os dados e nem

para onde vão.

Para criar um caminho privado na rede com Tor, o software do usuário

constrói incrementalmente um circuito de conexões encriptadas entre

servidores na rede. O pacote é passado de um servidor para outro e cada

servidor conhece apenas a máquina que o entregou e a máquina que o

receberá. Nenhum servidor conhece o caminho que um pacote percorreu e

cada nó do circuito tem um conjunto separado de chaves de encriptação,

garantindo que um nó não rastreie as conexões na passagem dos pacotes.

Uma vez que o circuito tenha sido estabelecido, muitos tipos de dados

podem ser trocados e vários tipos diferentes de aplicações de software podem

ser implementadas através da rede Tor. Como cada nó não vê mais do que um

salto no circuito, nem um espião, nem um servidor comprometido pode usar a

análise de tráfego para ligar a fonte do pacote ao destino.

2.6 SURFACE WEB

Bergman (2001) compara a pesquisa na Internet como lançar uma rede

na superfície de um oceano. De forma análoga, uma grande quantidade de

informações é capturada pela rede, mas uma imensa quantidade localizada

numa área mais profunda não é alcançada. Esta porção capturada é

denominada Surface Web e a porção mais profunda é conhecida como

Invisible Web ou Deep Web ou, ainda, Hidden Web. A Figura 3 ilustra a

analogia da Web como o oceano, enfatizando uma camada superficial

acessível aos motores de busca convencionais, como o Google, e uma camada

mais profunda de menor alcance.

18

Figura 3 - Analogia da Web como um oceano. Fonte: Brandpowder1.

Os motores de busca tradicionais rastreiam as páginas da Surface

Web, mas não incluem o conteúdo da Invisible Web, que, de uma forma geral,

é criado dinamicamente conforme o resultado de uma pesquisa específica ou

tem um formato não aceito ou, ainda, não é contemplado pelos seus critérios

de escolha . Assim, pelo fato dos indexadores dos mecanismos tradicionais de

busca não poderem sondar abaixo da superfície, as páginas da camada mais

profunda têm sido invisíveis para a maioria daqueles que buscam informação.

Enfatizando a diferença entre a Surface Web e Invisible Web, Bergman

mencionou um estudo realizado pela BrightPlanet, que quantificou o tamanho e

a relevância da Web mais profunda.

Entre os dados apontados, a Invisible Web contém 7.500 terabytes de

informação em comparação com dezenove terabytes de informação na Surface

Web. A Web profunda contém cerca de 550 bilhões de documentos individuais

em relação a um bilhão da Web superficial. Sessenta dos maiores sites da

Invisible Web juntos excedem o tamanho da Surface Web em quarenta vezes.

A Web profunda é a maior categoria crescente de novas informações sobre a

Internet e seus sites tendem a ter um conteúdo mais profundo do que os sites

da camada convencional. A qualidade do conteúdo da Web profunda é de

1.000 a 2.000 vezes maior do que a Web superficial.

1 http://brandpowder.files.wordpress.com/2011/10/deep-web.jpg, acesso em março de 2012.

19

2.7 INVISIBLE WEB

Sherman et al. (2003) afirmam que a Invisible Web são as páginas de

texto, arquivos ou informação, muitas vezes de alta qualidade, disponíveis na

World Wide Web, que os motes de busca convencionais não podem, devido a

limitações técnicas ou escolha deliberada, adicionar aos seus índices.

No seu nível mais básico, os motores de busca são projetados para

indexar a Web e programas chamados crawlers para encontrar e recuperar

páginas Web armazenadas em servidores de todo o mundo.

Texto, mais especificamente o hipertexto, é o meio fundamental da

Web. A principal função dos motores de busca é ajudar os usuários a

localizarem documentos de interesse em hipertexto. Os motores de busca são

altamente afinados e otimizados para lidar com páginas de texto e, mais

especificamente, as páginas de texto que foram codificados com o HyperText

Markup Language (HTML).

À medida que a Web se desenvolve e outras mídias se tornam

comuns, os motores de busca oferecem novas formas de pesquisar

informações. Mas, por agora, a função central da maioria dos motores de

busca Web é ajudar os usuários a localizar documentos de texto.

Documentos HTML são simples. Cada página tem duas partes: um

"cabeçalho" e um "corpo" que são claramente separados no código fonte de

uma página HTML. O cabeçalho contém um título no topo da janela de um

navegador e também pode conter alguns metadados adicionais que descrevem

o documento e podem ser usados por um motor de busca para ajudar a

classificar o documento. Para a maior parte, além do título, o cabeçalho de um

documento contém informações e dados que ajudam o navegador a exibir a

página, mas é irrelevante para um motor de busca.

A parte do corpo contém o documento propriamente dito e se

apresenta como a porção que o motor de pesquisa deseja explorar.

A simplicidade do formato HTML torna mais fácil para os motores de

busca a recuperação dos documentos, ou seja, indexar cada palavra em cada

página e armazená-los em enormes bancos de dados que podem ser

pesquisados sob demanda.

20

Os problemas surgem quando o conteúdo não é compatível com este

modelo simples de página web. Para entender o porquê, é válido considerar o

processo de rastreamento e os fatores que influenciam se uma página poderá

ou não ser rastreada e indexada com sucesso.

A primeira coisa que um crawler tenta determinar é se o acesso à

página desejada contida no servidor é restrito. Há três métodos para prevenir

que um motor de busca realize a indexação de uma página. Dois métodos

usam técnicas de bloqueio especificadas no Robots Exclusion Protocol, que a

maioria dos rastreadores voluntariamente honram, criando-se uma barreira

técnica que não pode ser contornada.

O Robots Exclusion Protocol é um conjunto de regras que permitem

especificar quais partes de um servidor são abertas aos crawlers e quais são

restritas. O desenvolvedor simplesmente cria uma lista de arquivos ou

diretórios que não devem ser rastreados ou indexados e salva esta lista no

servidor em um arquivo chamado robots.txt, opcional e armazenado por

convenção no nível superior de um site. A Figura 4 apresenta um exemplo de

um arquivo do tipo Robots Exclusion Protocol.

Figura 4 - Exemplo de um arquivo robots.txt. Fonte: Bloglovin1.

O segundo meio de prevenir a indexação de uma página funciona da

mesma maneira que o arquivo robots.txt, entretanto, é específico para página.

1 http://www.bloglovin.com/en/blog/3311583/blog-walker, acesso em julho de 2012.

21

O desenvolvedor inclui uma metatag noindex no cabeçalho do documento,

como se pode observar no exemplo da Figura 5. A única diferença entre a

metatag noindex e o arquivo robots.txt é que a metatag é específica da página,

enquanto o arquivo pode ser usado para impedir a indexação de páginas

individuais, grupos de arquivos, ou até mesmo sites inteiros.

Figura 5 - Exemplo do uso da tag noindex. Fonte: Fightcyberstalking1.

O uso de uma senha é o terceiro meio de impedir o rastreamento e a

indexação de uma página por um motor de busca. Esta técnica é muito mais

forte que as duas primeiras, uma vez que utiliza uma barreira técnica, e não um

padrão voluntário. Porém, páginas protegidas por senha podem ser acessadas

apenas pelos seletos usuários que sabem a senha, diferente das páginas que

usam o Robots Exclusion Protocol e permitem seu acesso à qualquer pessoa,

exceto o de um motor de busca.

Páginas usando qualquer um dos três métodos descritos acima fazem

parte da Invisible Web. Em muitos casos, eles não contêm obstáculos técnicos

que impedem o rastreamento e a indexação das páginas. Eles fazem parte

1 http://www.fightcyberstalking.org/online-safety-tips/how-to-block-your-website-from-the-search-

engines.html, acesso em maio de 2012.

22

desta camada porque o desenvolvedor optou por mantê-los fora dos motores

de busca.

Quando o crawler verifica se é permitido o acesso a uma página, o

próximo passo é tentar capturá-la e entregá-la ao indexador do motor de busca.

Este passo crucial determina em grande parte se uma página é visível ou

invisível.

2.7.1 Barreiras dos crawlers

Sherman et al. (2003) listou e examinou algumas dificuldades

encontradas pelos crawlers na descoberta de páginas na Web, usando a

mesma lógica que eles fazem para determinar se uma página é indexável ou

não.

2.7.1.1 Caso 1

O pesquisador encontra uma página que contém texto HTML simples,

eventualmente incluindo alguns elementos gráficos básicos. Este é o tipo mais

comum de página Web. É visível e pode ser indexada, assumindo que o

crawler pode encontrá-la.

2.7.1.2 Caso 2

O crawler encontra uma página feita de HTML, mas é um formulário,

composto de campos de texto, caixas de seleção, ou outros componentes que

requerem entrada do usuário.

Pode ser uma página de login, exigindo um nome de usuário e senha.

Pode ser um formulário que requer a seleção de uma ou mais opções. O

formulário em si, uma vez que é feito de HTML simples, pode ser capturado e

indexado. Mas o conteúdo que está por trás pode ser invisível para um motor

de busca. E, neste caso, há duas possibilidades.

23

O formulário é usado simplesmente para selecionar as preferências do

usuário e as outras páginas sobre o site consistem em HTML simples que pode

ser rastreado e indexado. Neste caso, a forma e o conteúdo por trás dele são

visíveis e podem ser incluídos em um índice do motor de busca. A outra

possibilidade ocorre quando o formulário é usado para coletar informações

específicas do usuário que irão gerar páginas dinâmicas após submter a

informação. Neste exemplo, embora o formulário seja visível, o conteúdo

dinâmico é invisível,considerando que única maneira de acessar o conteúdo é

inserindo dados no formulário e o fato de o crawler ser projetado simplesmente

para solicitar e buscar páginas.

A tendência é ter os formulários representando menos dificuldade para

os motores de busca, uma vez que estão em andamento projetos visando a

criação de crawlers mais inteligentes, capazes de preencher formulários e

recuperar informações. Entretanto, não é um problema trivial e se estima que a

indexação de todo o conteúdo da Invisible Web possa levar até 50 anos,

segundo Sherman (2003).

2.7.1.3 Caso 3

O pesquisador encontra uma página montada dinamicamente e exibida

sob demanda. Tecnicamente, essas páginas são parte da camda visível.

Crawlers podem buscar qualquer página que pode ser exibida em um

navegador Web, independentemente se é uma página estática armazenada

em um servidor ou gerada dinamicamente.

Páginas geradas dinamicamente representam um desafio para os

crawlers. As páginas dinâmicas são criadas por um script, um programa de

computador que monta uma página personalizada a partir da seleção de várias

opções. Até que o script é realmente executado, um crawler não tem nenhuma

maneira de saber o que esse código vai realmente fazer.

O script deve simplesmente montar uma página Web personalizada.

Infelizmente, desenvolvedores antiéticos criaram scripts maliciosos que podem

24

sobrecarregar os crawlers, gerando inúmeras páginas falsas de spam ou os

inserindo em loops infinitos.

Estas armadilhas podem ser bastante desagradáveis para os motores,

por isso a maioria simplesmente toma a decisão de não rastrear ou indexar

URLs que geram conteúdo dinâmico. Entretanto, essa decisão é flexível,

podendo existir o rastreamento e a indexação de sites gerados dinamicamente,

a partir do momento em que passam a ser conhecidos como confiáves para os

motores de busca

Uma alternativa que reduziu as barreiras para o conteúdo dinâmico é a

crescente adoção de programas denominados paid inclusion pelos principais

motores de busca. Estes programas são projetados para permitir que se

especifique as páginas que devem ser rastreadas e indexadas em troca de

uma taxa anual. As páginas que violarem as políticas dos motores de busca

estarão sujeitas à remoção do índice. Paid inclusion é um meio dos motores de

busca confiarem no conteúdo dinâmico, na teoria de que ninguém estaria

disposto a pagar apenas para ter seu conteúdo removido de qualquer maneira.

2.7.1.4 Caso 4

O pesquisador encontra uma página que não há nada para indexar.

Existem inúmeras páginas compostas de HTML básico, mas que contêm

apenas Flash, imagens, mídia streaming ou outros elementos não textuais no

corpo. Estes tipos de páginas são verdadeiramente parte da camada invisível

porque não há conteúdo que os motores possam indexar.

Os motores de busca especializados em multimídia são capazes de

reconhecer alguns desses tipos de arquivos não textuais e indexar o mínimo de

informação sobre eles, tais como nome do arquivo e tamanho, porém são de

longe soluções que atendam as buscas por palavras-chave.

25

2.7.1.5 Caso 5

O pesquisador encontra um site que oferece dados dinâmicos e em

tempo real. Há uma grande variedade de sites que fornecem este tipo de

informação, que vão desde cotação de ações em tempo real a informação de

chegada de vôo de companhia aérea. Estes são também parte da Invisible

Web porque o fluxo desses dados são, de um ponto de vista prático, não

indexáveis. Embora seja tecnicamente possível, o valor seria apenas para fins

históricos e, considerando a enorme quantidade de dados capturados e a

necessidade de uma maior capacidade de armazenamento de um motor de

busca, seria um exercício fútil.

2.7.1.6 Caso 6

O pesquisador encontra um arquivo PDF ou Postscript. PDF e

PostScript são formatos de texto que preservam a aparência de um

documento, exibindo-o de forma idêntica, independentemente do tipo de

computador usado para visualizá-lo. Enquanto muitos motores de busca

indexam arquivos PDF, a maioria não indexam o texto integral dos

documentos.

2.7.1.7 Caso 7

O pesquisador encontra um banco de dados que oferece uma interface

Web. Existem dezenas de milhares de bases de dados contendo informação

extremamente valiosa disponível através da Internet. Mas os motores de busca

não podem indexar o material em si. Apesar de mencionar como um caso

único, este cenário representa essencialmente uma combinação dos casos 2

e 3.

Os bancos de dados geram páginas Web de forma dinâmica,

respondendo aos comandos emitidos através de um formulário HTML. Embora

a interface para o banco de dados é um formulário HTML, o próprio banco de

26

dados pode ter sido criado antes do desenvolvimento do HTML e seu sistema

legado é incompatível com os protocolos utilizados pelos motores, ou podem

exigir o registro para acessar os dados. Eles também podem ser proprietários,

acessível apenas para usuários selecionados ou que pagaram uma taxa de

acesso.

Ironicamente, a especificação HTTP original desenvolvida pelo inventor

da Web Tim Berners-Lee incluiu um recurso chamado formato de negociação

que permitiu a um cliente dizer quais tipos de dados poderia manipular e

permitiu que um servidor retornasse dados em qualquer formato aceitável.

A visão de Berners-Lee abrangeu as informações na Invisible Web,

mas esta visão, pelo menos do ponto de vista do motor de busca, tem sido

largamente não realizada.

2.7.2 Os quatro tipos da Invisible Web

De acordo com Sherman et al. (2003), além razões técnicas, há outros

motivos que fazem alguns tipos de conteúdo não serem acessados dentro ou

através da Internet porque não são incluídos pelos motores de busca.

Sherman et al. (2003) afirmaram que há quatro tipos de conteúdo na

Invisible Web para facilitar a ilustração do limite amorfo que torna tão difícil a

definição da Invisible Web. Estes quatro tipos são “Opaque” Web, Private Web,

Proprietary Web e Truly Invisible Web.

2.7.2.1 Opaque Web

A “Opaque” Web consiste nos arquivos que podem ser, mas não são,

incluídos nos índices de pesquisas. A Web Opaque é muito grande e apresenta

um desafio único para um pesquisador, considerando que o conteúdo profundo

em muitos sites é acessível se souber como encontrá-lo.

A maior parte consiste em arquivos que os motores de busca podem

rastrear e indexar, mas simplesmente não o fazem. Sherman et al. (2003)

apontaram uma variedade de razões para isso, descritas logo abaixo

27

Profundidade de rastreamento

O rastreamento de um site é uma operação que consome muitos

recursos. Custa dinheiro para um motor de busca rastrear e indexar todas as

páginas de um site. No passado, a maioria dos motores selecionava apenas

algumas páginas de um site ao invés de executar um "rastreamento profundo”

que indexava cada página, partindo do pensamento que uma amostra fornecia

uma representação boa e suficiente de um site, satisfazendo as necessidades

da maioria dos pesquisadores. A limitação da profundidade de rastreamento

também reduzia o custo da indexação de um site particular.

De uma forma geral, os motores de busca não revelam como se define

a profundidade de rastreamento dos sites. Cada vez mais, há uma tendência

de rastrear mais profundamente, indexando o maior número possível de

páginas. Diante do declínio do custo de rastreamento e indexação, e o

tamanho dos índices do motor de pesquisa continuar a ser uma problema

competitivo, o problema da profundidade rastreamento está se tornando uma

preocupação menor para os pesquisadores.

No entanto, não há garantia de que cada página do site será rastreada

e indexada. Este problema recebe pouca atenção e é uma das principais

razões que fazem com que materiais que podem ser utéis estejam invisíveis

para aqueles que só utilizam ferramentas de busca de uso geral para realizar

pesquisas.

Freqüência de rastreamento

A Web está em um constante estado de fluxo dinâmico. Novas

páginas são adicionadas constantemente e as páginas existentes são alteradas

ou retiradas da Web. Diante disto, cada motor de busca deve decidir a melhor

forma de implantar os seus crawlers, criando um calendário que determina a

freqüência que uma determinada página ou site é visitado.

Não é o suficiente para um motor de pesquisa visitar uma página uma

vez e assumir que ainda estará disponível posteriormente. Crawlers deve

retornar periodicamente a uma página e não só verificar a sua existência, mas

28

também baixar as cópias mais atuais da página e, talvez, buscar novas páginas

que foram adicionadas a um site.

Os sites mais novos são os mais suscetíveis a fiscalização dos motores

de busca porque relativamente poucos outros sites na Web estarão ligados a

eles, em comparação aos sites mais estabelecidos. Até que os motores de

busca alcancem esses novos sites, eles continuam a fazer parte da camada

invisível.

Número máximo de resultados visualizáveis

É bastante comum para um motor de busca relatar um número muito

grande de resultados. No entanto, a maioria dos motores restringe o número

total de resultados que será exibido para uma consulta. Para consultas que

retornam um número enorme de resultados, isso significa que uma

considerável parte das páginas que podem ser relevantes ficam inacessíveis,

uma vez que foram deixadas de fora da lista dos resultados. Essas páginas

que foram excluídas são efetivamente invisíveis. Bons pesquisadores estão

cientes desse problema e irão tomar medidas para contornar o problema,

usando uma estratégia de pesquisa mais precisa e controles avançados de

filtragem e limitação oferecida por muitos motores. No entanto, para muitos

pesquisadores inexperientes este limite no número de resultados visualizáveis

pode ser um problema, considerando que a resposta que eles procuram pode

estar na parte que foi deixada indisponível.

URLs desconectadas

Para um crawler acessar uma página, o autor da página utiliza o

"Enviar URL" do motor de busca, recurso para solicitar o rastreamento e a

indexação da página, ou o rastreador a descobre a página por conta própria,

encontrando um link para a página em alguma outra. Páginas da Web que não

são enviadas diretamente aos motores de busca e que não têm links

apontando para elas são chamadas de URLs “desconectadas” e não podem

29

ser rastreadas e indexadas simplesmente porque o crawler não tem como

encontrá-las.

Em resumo, a Opaque Web é grande, mas não é impenetrável.

Pesquisadores determinados muitas vezes pode encontrar o material que nela

se encontra, e motores de busca estão constantemente melhorando seus

métodos para localizar e indexar esse conteúdo.

2.7.2.2 Private Web

A Private Web consiste em páginas Web tecnicamente indexáveis que

têm sido deliberadamente retiradas da inclusão nos motores de busca.

Anteriormente, foi falado neste documento que um desenvolvedor tem três

maneiras que o permitem excluir uma página de um motor de busca. A primeira

é realizada através da proteção de uma senha. O crawler não pode ir além de

um formulário que requer um nome de usuário e senha. A segunda maneira é

usar o arquivo robots.txt para impedir que o crawler acesse a página. E, por

fim, a terceira maneira é utilizar a metatag noindex para evitar que o crawler

leia o cabeçalho e indexe o corpo da página.

Para a maior parte, a Private Web é de pouco interesse para a maioria

dos pesquisadores. A páginas privadas usam apenas a Web como um eficiente

meio de acesso, mas em geral não são destinadas para uso além das pessoas

que têm permissão de acesso.

Existem outros tipos de páginas que têm acesso restrito e que podem

ser de interesse para pesquisadores, mas elas normalmente não estão

incluídas nos motores de busca. Estas páginas são parte da Proprietary Web,

descrita no próximo tópico.

2.7.2.3 Proprietary Web

Os motores de busca não podem acessar a maior parte da Proprietary

Web porque essas páginas são acessíveis apenas para pessoas que tenham

concordado com os termos especiais em troca da visualização do conteúdo.

30

Páginas da Proprietary Web podem ser simplesmente o conteúdo que é

acessível apenas para usuários que queiram se registrar-se para acessá-lo. O

registro em muitos casos é gratuito, mas um crawler não pode satisfazer as

exigências do mais simpres processo de registro. Outros tipos de conteúdo

proprietário só estão disponíveis por uma taxa, por página ou algum tipo de

assinatura.

2.7.2.4 Truly Invisible Web

Alguns sites ou páginas são realmente invisíveis, o que significa que há

razões técnicas para que os motores de busca não possam rastrear e indexar o

material que eles têm para oferecer. A definição do que constitui um recurso

verdadeiramente invisível deve necessariamente ser um pouco fluido, uma vez

que os motores estão em constante aperfeiçoamento e adaptação dos seus

métodos para abraçar novos tipos de conteúdo.

O mais simples, e menos provável de permanecer invisível ao longo do

tempo, são páginas da Web que usam formatos de arquivo que os crawlers

não estão atualmente programados para manusear. Estes formatos de arquivo

incluem PostScript, PDF, Flash, Shockwave, executáveis (programas), e

arquivos compactados. Existem duas razões para que os motores de busca

não realizem a indexação desses tipos de arquivos atualmente. Primeira, os

arquivos têm pouco ou nenhum contexto textual, por isso é difícil classificá-los,

ou compará-los por relevância com outros documentos de texto. A adição de

metadados ao HTML poderia resolver este problema, contudo, seria indexada

a descrição dos metadados e não o conteúdo do arquivo em si.

A segunda razão é que certos arquivos não aparecem nos índices de

busca simplesmente porque os motores de busca optaram por omití-los. Eles

podem ser indexados, mas não são.

O mair problema, entretanto, sáo as páginas geradas dinamicamente.

Novamente, em alguns casos, não é um problema técnico, mas sim falta de

vontade da parte dos motores de indexar este tipo de conteúdo. Isto ocorre

especialmente quando um script não interativo é usado para gerar uma página.

31

Estas são páginas estáticas e geram HTML estático que o motor poderia

rastrear. O problema é que o uso indevido de scripts também podem levar os

crawlers a armadilhas, citadas anteriormente neste documento. Isto é um

grande problema para os motores, assim, eles simplesmente optam por não

indexar URLs que contêm scripts.

Finalmente, a informação armazenada em bases de dados relacionais,

que não pode ser extraída sem uma consulta específica para o banco de

dados, é verdadeiramente invisível. Crawlers não são programados para

entender tanto a estrutura do banco de dados, como a linguagem de comando

usada para extrair informações.

2.7.3 Web anônima

Paralelamente, existe uma Web com uma grande quantidade de

informações privadas de valor inestimável para empresas privadas, governos e

a cibercriminalidade. Na imaginação de muitas pessoas, que se limitam a

informações superficiais, generalistas e, muitas vezes, sensacionalistas, os

termos Deep Web, Invisible Web e Hidden Web estão associados a intenções

criminosas protegidas por um mundo submerso e inacessível pelo conceito de

anonimidade.

Entretanto, como afirma Paganini (2012), esta imaginação é fruto de

uma interpretação errada, afinal, a referida porção abordada neste tópico é

uma rede diferente, mas com muitos assuntos comuns à Web acessível pelos

motores de busca tradicionais.

Dentre as diferenças, o seu acesso é realizado através de um software

como o Tor, a busca é mais complexa devido à ausência de indexação do

conteúdo e os domínios não tem extensões clássicas (.com, .gov, entre outras),

geralmente apresentam o sufixo .onion.

32

3 O BOM USO DA CAMADA MAIS PROFUNDA DA WEB

O presente capítulo abordará o bom uso da Invisible Web, motivação

principal da realização da pesquisa tratada neste documento, através da

apresentação de dois casos de sucesso na exploração inteligente da

supracitada camada profunda da Web. Assim como também desmistificará a

visão errônea da porção anônima da Web como um repositório exclusivo para

conteúdo ilícito.

3.1 CASO DE SUCESSO: DEEP WEB TECHNOLOGIES

Segundo a página1 da empresa, a Deep Web Technologies é líder em

federated search e oferece um produto inovador, o Explorit Research

Accelerator, que promete aos usuários acelerar suas pesquisas e atividades de

análise, melhorando a qualidade dos resultados da pesquisa, através do

acesso à informação que se encontra na Deep Web e não pode ser descoberta

pelos motores de busca convencionais.

Segundo Jacsó (2004), federated search consiste em transformar uma

consulta, transmiti-la a um grupo de banco de dados distintos ou outros

recursos da Web, com sintaxe apropriada, e apresentar a fusão dos resultados

obtidos num formato unificado e sucinto, com o mínimo de duplicação possível.

“Next-Generation” Federated Search é como a Deep Web

Technologies se refere à tecnologia que proporciona uma significativa

vantagem sobre as formas tradicionais de pesquisa, porque aumenta

significativamente a sua velocidade e abrangência, fornece em tempo real

resultados, pode incluir informações de redes sociais como o Twitter, LinkedIn,

Facebook, além de manter pesquisadores informados diariamente sobre

material novo.

Neste contexto, a Deep Web Technologies descreve seu produto

Explorit Research Accelerator como a mais poderosa e confiável solução para

federated research, sendo um software para bibliotecas e empresas, que 1 http://www.deepwebtech.com

33

pesquisa centenas de repositórios e documentos ao mesmo tempo, permitindo

a busca por assunto, autor, título e fonte; oferece resultados relevantes

classificados de acordo com filtros selecionados, como data, categoria, entre

outros; fornece tecnologia Web 2.0 para permitir a integração da pesquisa

Deep Web em intranets existentes; e disponibiliza recursos de alertas que

mostram o que é uma informação verdadeiramente nova e importante.

Através do uso da tecnologia “Next-Generation” Federated Search e

seu produto Explorit Research Accelerator, a referida empresa vem

conquistando clientes e gerando serviços que vêm se popularizando.

Mednar e Biznar são aplicativos gratuitos para plataforma iOS da

empresa Apple, que buscam informações médicas e de negócios em múltiplas

fontes da Deep Web para satisfazer as consultas dos usuários. Estes

aplicativos utilizam federated search, pesquisando em tempo real e

apresentando os resultados relevantes de acordo com os filtros selecionados

pelo usuário. Além de obterem a informação mais relevante, obtém o que há

de mais novo disponível.

Lederman (2011), presidente e fundador da Web Technologies

profundas, comentou: "Estamos no meio de uma mudança de paradigma,

onde mais e mais informação está sendo acessada através de dispositivos

móveis inteligentes. Agora, com Biznar e Mednar disponíveis na plataforma

iOS, nós temos tido um claro caminho para trazer o conteúdo da Deep Web em

qualquer lugar que o usuário esteja” [21].

Trabalhando em parceria com a Texas Medical Center (TMC), a maior

instituição médica do mundo e a 3E Enterprises, uma consultoria de software

com sede no Texas, a DWT projetou, desenvolveu e testou versões iOS dos

aplicativos Biznar e Mednar. Estas aplicações agora servem como protótipos

para a implementação de aplicativos personalizados para clientes da

plataforma móvel, como a TMC. A Figura 6 mostra o referido aplicativo

MedNar.

34

Figura 6 - Tela do aplicativo MedNar. Fonte: DeepWebTechnologies1.

Outro fruto proveniente das soluções da Deep Web Technologies é o

Science.gov, um portal para informações de ciência governamental e

resultados de pesquisa. Atualmente em sua quinta geração, Science.gov

fornece uma pesquisa em mais de 55 bases de dados científicos e 200 milhões

de páginas de informação científica, com apenas uma consulta, tornando-se

uma porta de entrada para mais de 2100 sites científicos.

Science.gov é uma iniciativa interinstitucional de 17 organizações

científicas do governo norte-americano e 13 agências federais. Estas agências

formam a Science.gov Alliance, que voluntariamente governa o portal

Science.gov, apresentado na Figura 7.

Segundo informações do próprio portal, o conteúdo do Science.gov é

uma contribuição das agências participantes, comprometidas em atender aos

cidadãos interessados em ciência, incluindo cientistas, estudantes, professores

e a comunidade empresarial. Muitas destas agências são membros do CENDI2,

que presta apoio administrativo ao referido site e mantém sua seção Explore

Selected Science Websites by Topic. O site informa, ainda, que a sua pesquisa

1 http://www.deepwebtech.com/wp-content/uploads/2011/03/Explorit-Datasheet.pdf, acesso em julho de 2012.

2 Grupo de gestores de agências do governo dos Estados Unidos.

35

é financiada pelo Department of Energy (DOE) e o Office of Scientific and

Technical Information (OSTI), que também o hospeda.

Figura 7 - Portal science.gov. Fonte: Autor1.

A Deep Web Technologies também apresenta como seu cliente, o

WorldWideScience.org2, que se descreve como um portal científico global, que

acelera a descoberta e o progresso científico, proporcionando uma busca às

bases de dados de todo o mundo, em tempo real e tradução multilingue da

literatura científica.

A Aliança WorldWideScience, uma parceria multilateral composta por

membros países, fornece a estrutura de governança para o

1 Imagem capturada pelo autor no endereço http://www.science.gov, acessado em julho de 2012.

2 http://www.science.gov

36

WorldWideScience.org, desenvolvido e mantido pelo OSTI. A Figura 8 exibe a

página principal do referido portal.

Figura 8 - Portal WorldWideScience.org. Fonte: Autor1.

Desenvolvido numa parceria das bibliotecas da Stanford University e a

Deep Web Technologies, o XSearch fornece aos alunos e professores uma

opção de pesquisa em várias fontes online. Embora tenha soluções prontas

para serem implantadas em universidades e outras organizações, a empresa

trabalhou de perto com Stanford para fornecer funcionalidades que a

universidade não teria encontrado nas soluções prontas, como a integração

com os serviços de autenticação LDAP.

Além do trabalho personalizado de integração, o Explorit, já

mencionado anteriormente, permite aos estudantes e professores, através de

páginas de pesquisa personalizadas, construir seus próprios aplicativos

federated search que busca apenas as fontes que eles precisam.

1 Imagem capturada pelo autor no endereço http://worldwidescience.org, acessado em julho de

2012.

37

O lançamento inicial do XSearch, que pode ser visto na Figura 9,

incluiu 28 fontes que contêm links para artigos de periódicos, citações de

patentes, anais de conferências e ebooks. Lederman (2010), comentou sobre o

seu envolvimento na parceria, afirmando "estamos muito satisfeitos por termos

trabalhado tão de perto com Stanford para trazer federated search aos seus

alunos e funcionários. Stanford tinha uma série de requisitos únicos que não

poderiam ter sido resolvidos com outros sistemas de busca (...) ".

Figura 9 - Portal XSearch. Fonte: Autor1.

O software Explorit também é usado por clientes corporativos, líderes

mundiais, como a Boeing, maior empresa do mundo no setor aeroespacial e

maior fabricante de aviões militares e comerciais, que também projeta e fabrica

helicópteros, mísseis, satélites, sistemas avançados de informação e

comunicação, entre outros; a Intel, multinacional americana e maior fabricante

mundial de chips semicondutores de tecnologia em semicondutores; e a BASF,

maior indútria química do mundo.

A Intel, por exemplo, necessitava de uma solução de busca que

oferecesse interface fácil de usar, poderosa otimização dos resultados e

1 Imagem capturada pelo autor no endereço https://xsearch.stanford.edu/search, acessado em

julho de 2012.

38

capacidade de integrar seguramente uma grande variedade de fontes,

incluindo bases de dados internas, eliminando a dificuldade que seus

funcionários tinham de realizar pesquisas.

Barclay Hill (2009), gerente da Intel Library Web & Systems Group,

declarou "os produtos e serviços da Deep Web Technologies contribuiram

substancialmente para o nosso sucesso. Atráves da federated search na Deep

Web, conseguimos uma perfeita integração da pesquisa com o portal da nossa

biblioteca. Temos também uma solução de pesquisa gerenciável e sustentável

de federated search que nós podemos construir para o futuro”. A Figura 10

apresenta uma das telas do referido produto da parceria entre a Intel e a Deep

Web Technologies.

Figura 10 - Tela do sistema da Intel. Fonte: Deepwebtech1.

3.2 CASO DE SUCESSO: BRIGHTPLANET

A BrightPlanet, de acordo com seu site2, foi a pioneira em inteligência

na Deep Web, sendo, inclusive, a primeira a usar este termo para denominar a

camada profunda da Web, supracitada neste documento. Há mais de 10 anos

vem atuando com as ferramentas e serviços mais rápidos para ajudar seus

clientes. E, através de soluções patenteadas e proprietárias, abraçam o desafio

1 http://www.deepwebtech.com/customers/intel.html, acesso em julho de 2012.

2 http://www.brightplanet.com

39

de colher Big Data 1 da camada mais profunda da Web, oferecendo capacidade

de inteligência no acesso aos recursos inexplorados desta camada.

Dentre estas soluções está o Deep Web Harvester, que a empresa

define como a ferramenta mais abrangente disponível para aquisição do

conteúdo da Deep Web. Após adquirir o conteúdo, a tecnologia enriquece,

normaliza e fornece informações preparadas para seus clientes analisarem.

Deep Web Harvester é completamente customizável, tornando mais

fácil a personalização de pesquisas, de acordo com a necessidade específica

do usuário, além de também apresentar capacidade de filtragem de

documentos virtualmente ilimitada, reunindo informações com análises prontas.

Este serviço está disponível como uma interface da Web independente através

de SaaS ou como uma solução corporativa acessível por trás da segurança do

firewall do cliente.

Arnold (2009) afirma que a tecnologia BrightPlanet é usada por

agências governamentais, negócios, e empresas de serviços para obter

informações pertinentes a pessoas, lugares, eventos e outros temas. Dentre

as agências, estão as de Intelligence Open Source (OSINT), que a BrightPlanet

define, resumidamente, como a prática de usar a Web para criar inteligência.

Amplamente, OSINT é uma disciplina de processamento de informação

que envolve encontrar, selecionar e adquirir informações de fontes públicas e

analisá-las para produzir inteligência acionável. Na Comunidade de Inteligência

dos Estados Unidos (U.S. Intelligence Community), o termo "open" se refere às

fontes disponíveis publicamente, ao contrário de fontes secretas ou

confidenciais.

Muitos outros "INTs” existem, como HUMINT, que explora a inteligência

dos seres humanos através da comunicação e entrevistas, e o GEOINT,

inteligência geo-espacial recolhida a partir de satélites, fotografias aéreas e

mapas/terreno de dados. A Figura 11 apresenta uma imagem da página

principal da HUMINT. 1 De acordo com a IBM (http://www-01.ibm.com/software/data/bigdata, acessado em julho de

2012), Big Data é um temo que define a imensa quantidade de dados oriundos de diversas fontes, como sensores utilizados para recolher informação sobre o clima, mensagens de redes sociais, fotos e vídeos digitais, registros de transações de compra, sinais de GPS dos celulares, entre outras.

40

Figura 11 - Site HUMINT. Fonte: Autor1.

Segundo Pederson (2010), CEO da BrightPlanet, agências de

inteligência dos EUA têm explorado Big Data a partir da Web por mais de uma

década. Estas, dependem da capacidade de coletar dados em escala,

transformar os dados brutos em informações relevantes e dar sentido à

informação para apoiar decisões com inteligência acionável. Entretanto,

noventa por cento de conteúdo Big Data está no universo em expansão de

conteúdo não-estruturado e a grande maioria destas informações estão ocultas

na Deep Web.

Neste contexto, Pederson (2010) afirma que durante anos, as agências

de inteligência dos EUA têm utilizado ferramentas para encontrar e recuperar

dados públicos, visitando sites específicos, tanto da Surface Web como da

Deep Web, através de tecnologias da BrightPlanet.

Neste documento, é válido mencionar também um projeto da

BrightPlanet, o portal CompletePlanet exibido na Figura 12, considerado o

preferido por Will Bushee (um dos líderes da empresa). O portal permite

consultar em mais de setenta mil bases de dados da Deep Web,

simultaneamente. Oferece, ainda, a possibilidade de pesquisar por temas como

agricultura, educação, esportes, literatura, medicamentos, música, viagem,

entre outros.

1 Imagem capturada pelo autor no endereço http://www.humints.com, acessado em julho de

2012.

41

Figura 12 - Portal CompletePlanet. Fonte: Autor1.

Assim como este portal da BrightPlanet, há vários outros, entre eles:

a) InfoMine (http://infomine.ucr.edu): desenvolvido e mantido pela

biblioteca da University of California.

b) Intute (http://www.intute.ac.uk): criado por universidades da

Inglaterra.

c) o IncyWincy (http://www.incywincy.com): com recurso de busca

por imagens.

d) The Virtual Library WWW (http://vlib.org): biblioteca virtual, nas

qual as páginas centrais são mantidas por um conselho criado

por Tim Berners-Lee.

e) InfoPlease (http://www.infoplease.com): contém almanaques,

enciclopédias, biografias, entre outros materiais.

f) LexiBot (http://ww5.lexibot.com): também produzido pela

BrightPlanet, usuários realizam buscas usando texto simples,

linguagem natural ou consultas booleanas em centenas de bases

1 Imagem capturada pelo autor no endereço http://aip.completeplanet.com, acessado em julho

de 2012.

42

de dados simultaneamente, para filtrar e analisar os dados, e

publicar os resultados como páginas Web.

g) Australian Government Geoscience Australia

(http://www.ga.gov.au/oracle/nuclear-explosion.jsp): base de

dados do governo australiano que mantém um histórico com

local, tempo e tamanho das explosões nucleares que ocorreram

desde 1945.

h) World Fact Book (http://www.worldfactbook.com): um diretório

pesquisável com informações de países, que incluem perfis,

mapas, referências, bandeiras, entre outras.

i) Directory of Open Access Journal (http://www.doaj.org/): uma

coleção de revistas científicas e acadêmicas mantida pela Lund

University.

j) PubMed (http://www.ncbi.nlm.nih.gov/pubmed): um serviço da US

National Library of Medicine, com mais de 18 milhões de

referências sobre Medicina.

k) TechDeepWeb (http://www.techdeepweb.com): guia de

informações na Deep Web para profissionais de TI, descrevendo

ferramentas de busca úteis, portais e sites.

3.3 DESMISTIFICANDO A WEB ANÔNIMA

Finalmente, como mencionado anteriormente, existem páginas da

Invisible Web anônimas que só podem ser acessadas por ferramentas

específicas, como o Tor. O referido software se encontra no site oficial do

projeto e é capaz de trabalhar em todas as plataformas, além de conter plugins

que tornam a integração simples com aplicações existentes, como

navegadores.

Recomenda-se navegar na Invisible Web através de uma distribuição

de sistema operacional inicializável a partir de qualquer máquina, evitando

deixar rastros. Uma vez que o pacote Tor é instalado, uma versão portátil do

navegador Firefox é disponível, sendo ideal para a navegação anônima devido

43

a um controle adequado dos plugins instalados, que não vêm na versão

comercial do navegador. E, apesar de a rede ter sido projetada para proteger a

privacidade do usuário, há aqueles que sugerem o uso de uma VPN, para

realmente estar anônimo.

Vale mencionar mais uma vez que o usuário deve ter em mente que a

navegação na Web anônima é mais complexa pela falta de indexação do seu

conteúdo e que é válido adotar uma coleção de Wikis e sites favoritos que têm

a finalidade de categorizar e agregar grupos para pesquisa, além do fato das

páginas possuírem domínios com extensões .onion.

O site Pastebin1 publicou uma lista de links que podem auxiliar a

navegação nesta porção da Web, entre estes links estão:

a) HiddenWiki (http://kpvz7ki2v5agwt35.onion): uma das páginas

mais conhecidas da rede Tor, apresenta vários links relacionados

a diversas categorias .

b) Torch (http://xmh57jrzrnw6insl.onion): um search engine da rede Tor.

c) CircleServices (http://4eiruntyxxbgfv7o.onion): um dos endereços

mais conhecidos para serviços de hospedagem de arquivos.

d) Onion Fileshare (http://f3ew3p7s6lbftqm5.onion): disponibiliza

2GB de espaço para armazenamento de arquivos.

e) Freedom Hosting (http://xqz3u5drneuzhaeo.onion): hospeda uma

grande porção dos sites .onion.

f) Onionforum (http://65bgvta7yos3sce5.onion): um fórum para

discussões.

Na Figura 13 é possível visualizar a janela de conexão do software Tor

informando que o usuário está conectado, assim como uma página informando

que o navegador, que acompanha o pacote de instalação, está configurado

para usar a rede. E a Figura 14 exibe a página da Hidden Wiki, uma das

principais páginas da rede Tor, que reúne diversos links, como mencionado

anteriormente.

1 http://pastebin.com/ADTynHbX

44

Figura 13 - Conectando à rede Tor. Fonte: Autor

1.

Figura 14 - Hidden Wiki. Fonte: Autor2.

1Imagem capturada pelo autor.

2 Imagem capturada pelo autor no endereço http://kpvz7ki2v5agwt35.onion, acessado em julho de 2012.

45

4 CONSIDERAÇÕES FINAIS

Pesquisando na Web sobre Invisible Web ou Deep Web é mais comum

encontrar textos superficiais e muitas vezes sensacionalistas, que a

generalizam como um mero repositório de material ilícito e que ainda

recomendam manter distância àqueles que não querem ter seu computador

invadido por vírus destruidores. Sim, a Invisible Web surpreende pela facilidade

de encontrar pedofilia, canibalismo, tráfico de drogas e humanos, entre tantas

outras práticas abomináveis, que parece ganhar força com o anonimato

oferecido por redes fechadas, tal qual Tor.

Entretanto, a Invisible Web vai além de uma rede fechada que

armazena páginas daqueles que querem compartilhar conteúdo ilícito. Pode-

se entender a Invisible Web como um termo que define todas as páginas que

não são indexadas pelos motores de busca convencionais, até mesmo o

revolucionário Google, seja por limitações técnicas ou deliberados critérios de

escolha. Estas páginas formam um imenso universo de informação de

relevante valor, invisível para a maioria, mas visível para empresas pioneiras

que já a tornaram seu principal serviço, como a Deep Web Technologies e a

BrightPlanet.

Fruto do investimento em inteligência na Invisible Web, estas empresas

possuem tecnologia que atrai clientes como agências governamentais,

importantes universidades do mundo e empresas líderes mundiais que

desejam agregar valor aos seus serviços. Automatizar, monitorar e rastrear

pesquisas em tempo real, através de inteligência acionável nestas fontes

profundas, torna-se uma atraente opção para governos, empresas e indivíduos

limitados pelas ferramentas convencionais de busca neste forte meio que é a

Web nos dias de hoje.

A Invisible Web contempla bases de dados de extensa quantidade,

qualidade e variedade, que podem ser pesquisadas simultaneamente. Um

verdadeiro tesouro que merece uma reflexão sobre a melhor forma de obter

informação na Web. Escolher um único buscador desenvolvido com algoritmos

geniais, mas que se limita à camada superficial da Web, parece uma opção

prática, embora não aquela que colherá os resultados mais satisfatórios.

46

Neste contexto apresentado, incentiva-se o desenvolvimento de

pesquisas e trabalhos futuros que invistam na exploração inteligente da Deep

Web. Nos últimos anos, por exemplo, alguns dos motores de busca mais

abrangentes têm trabalhado em algoritmos capazes de pesquisar nas porções

mais profundas da Web, tentando encontrar arquivos como .pdf, .doc, .xls, .ppt,

.ps, entre outros. Estes arquivos são predominantemente utilizados por

empresas para comunicação interna e divulgação de informações para mundo

externo. Assim, pesquisar essas informações utilizando técnicas de busca mais

profunda e algoritmos mais recentes permite obter uma grande quantidade de

informações corporativas que eram anteriormente indisponíveis ou

inacessíveis.

Vale mencionar também um estudo realizado por membros de algumas

universidades, entre elas a University of Illinois, que propõe um clustering

interativo capaz de integrar diferentes interfaces de fontes de dados disponíveis

na Deep Web. No âmbito da Web Semântica, uma pesquisa da University of

Karlsruhe propõe a criação de metadados a partir de informações dinâmicas

utilizando um processo de anotação que estruture, contextualize e mapeie

estes dados.

Enfim, é possível observar que já há pesquisas que investem na

Invisible Web, entretanto, juntas ainda somam um número pequeno,

desproporcional ao valor dos recursos inestimáveis que esta camada oferece.

Diante disto, enfatiza-se a necessidade e o benefício de investir em pesquisas

que superem as limitações técnicas e possibilitem ultrapassar cada vez mais a

superfície da Web, tornando os dados mais profundos amplamente acessíveis.

47

5 REFERÊNCIAS

[1] IFFAT, R., SAMI, L., Understanding the Deep Web. Library Philosophy and

Practice, 2010. Disponível em <http://ieeexplore.ieee.org>. Acesso em fevereiro

de 2012.

[2] BERGMAN, M . K., The DeepWeb: Surfacing Hidden Value. Journal of

Electronic Publishing. BrightPlanet, 2001. Disponível em

<http://www.brightplanet.com/2012/06/the-deep-web-surfacing-hidden-value>.

Acesso em fevereiro de 2012.

[3] FILHO, A. M., A era da Informação. Disponível em:

<http://www.espacoacademico.com.br/002/02col_mendes.htm> Acesso em:

fevereiro de 2012.

[4] TOMAÉL , M. I., CATARINO , M. E., VALENTIM , M. L. P., JÚNIOR, O. F. A.,

SILVA, T. E., ALCARÁ , A. R., SELMINI, D. C., MONTANARI , F. R., Fontes de

Informação na Internet. Disponível em:

<http://snbu.bvs.br/snbu2000/docs/pt/doc/t138.doc>. Acesso em fevereiro de

2012.

[5] RAGHAVAN , S., MOLINA-GARCIA, H., Crawling the HiddenWeb.

Computer Science Department Stanford University. Disponível em

<http://ieeexplore.ieee.org>. Acesso em fevereiro de 2012.

[6] LACKIE , R. J., Those Dark Hiding Places: The Invisible Web Revealed.

Rider University Libraries, 2009. Disponível em

<http://www.robertlackie.com/invisible/index.html>. Acesso em fevereiro de

2012.

[7] PAGANINI , P., What is the Deep Web? A first trip into the abyss. Disponível

em: <http://securityaffairs.co/wordpress/5650/cyber-crime/what-is-the-deep-

web-a-first-trip-into-the-abyss.html>. Acesso em março de 2012.

48

[8] FERREIRA, A. B. H., Dicionário Aurélio Eletrônico: século XXI. Versão 3.0.

Ed. Nova Fronteira e Lexikon Informática Ltda, 1999.

[9] CUNHA, J. A., Web Semântica: “O estado da arte”. Monografia apresentada

à disciplina Monografia do curso de Biblioteconomia do Centro de Ciências

Sociais Aplicadas da Universidade Federal do Rio Grande do Norte. Natal,

2006.

[10] KOCH, I. G. V., Desvendando os segredos do texto. 4. ed. São Paulo:

Cortez, 2005. 168p.

[11] PRIMO, A., O Aspecto Relacional das interações na Web 2.0. E- Compós

(Brasília), v.9, p. 1-21, 2007. Disponível em:

<http://www6.ufrgs.br/limc/PDFs/web2.pdf>. Acesso em março de 2012.

[12] O’REILLY , T., What Is Web 2.0: Design Patterns and Business Models for

the Next Generation of Software. Publicado em Copyright 2006 O’Reilly Media,

Inc., 2006. Disponível em: <http://www.oreilly.com>. Acesso em março de

2012.

[13] JARDIM , A. L., Aplicações de Modelos Semânticos em Redes Sociais.

Dissertação apresentada como requisito parcial para a obtenção do grau de

Mestre em Ciência da Computação. Pelotas, 2010.

[14] W3C: Uso de Padrões Web 2000. Disponível em:

<http://www.w3c.br/palestras/2009/W3CeGovES.pdf>. Acesso em março de

2012.

[15] CENDÓN, B. V., Ferramenta de busca na Web. Ci. Inf., Brasília, v. 30, n. 1,

p. 39-49, jan./abr. 2001. Disponível em

<http://revista.ibict.br/ciinf/index.php/ciinf/article/view/222>. Acesso em março

de 2012.

49

[16] Wikipedia . Google Search. Disponível em:

<http://en.wikipedia.org/wiki/Google_Search>. Acesso em julho de 2012.

[17] WESTIN, A. Privacy and Freedom. Bodley Head, 1987

[18] DINGLEDINE, R., MATHEWSON, G., SYVERSON, P., Tor: The Second-

Generation Onion Router. Disponível em:

<https://svn.torproject.org/svn/projects/design-paper/tor-design.pdf>. Acesso

em julho de 2012.

[19] CARVALHO , R. H., Sistemas de Anonimato. Disponível em:

<https://svn.torproject.org/svn/projects/design-paper/tor-design.pdf>. Acesso

em julho de 2012.

[20] SHERMAN, C., PRICE, G., The Invisible Web: Uncovering Sources Search

Engines Can’t See. Library Trends, 2003.

[21] NOILSON, C. T. A., Introdução a Invisible Web. Disponível em

http://ncaio.wordpress.com/2011/07/18/introducao-a-invisible-web. Acesso em

julho de 2012.

[22] Deep Web Technologies . Disponível em <http://www.deepwebtech.com>.

Acesso em julho de 2012.

[23] JACSÓ , P. Internet Insights - Thoughts about Federated Searching.

Information Today, 21(9) October, 2004, p.17. Disponível em

<http://www2.hawaii.edu/~jacso/extra/federated/federated.htm>. Acesso em

julho de 2012.

[24] ARNOLD , S. BrightPlanet Unlocks the Deep Web. Disponível em <http://brightplanet.com/wp-content/uploads/2012/03/BrightPlanet-Unlocks-the-Deep-Web.pdf>. Acesso em julho de 2012.

50

[25] PEDERSON, S., Exploiting Big Data from the Deep Web - The new frontier

for creating intelligence. BrightPlanet, 2010.

[26] Deep Web Technologies . Deep Web Technologies Mobilizes Federated

Search. Santa Fe, 2011. Disponível em

<http://www.deepwebtech.com/2011/11/deep-web-technologies-mobilizes-

federated-search>. Acesso em julho de 2012.

[27] BrightPlantet . Disponível em < http://www.brightplanet.com>. Acesso em

julho de 2012.