centro de computação mecanismos de busca na web. centro de computação internet :informação...
TRANSCRIPT
Centro de Computação
Mecanismos de Busca na Web
Centro de Computação
Internet :Informação Caótica Mecanismos de Busca : Informação Organizada O que são Mecanismos de Busca “searchs” Tipos e Finalidades Estratégia de Busca Exercitando os conceitos ( exemplos ) Referências
Tópicos
Centro de Computação
Internet - Informação Caótica
Web : estimado 800 milhões !? de páginas (não é mais : são estimados 1 bilhão em fev/00 ) fonte: Inktomi and the NEC Research Institute
Crescimento exponencial: 1/3 ao ano (últimos 2 anos).
80% dos usuários internet encontram a informação que procuram através de sites de busca ( a maior parte consegue fazê-lo de 10 a 15 minutos ) fonte: Inst. de Tecn.da Georgia/EUA
Centro de Computação
O ciclo da informação na Internet :
Informaçãoconhecimentocomunicaçãoconsumo
Internet - Informação Caótica
Pessoas Pessoas
Internet Internet
InformaçãoQualificada
Centro de Computação
Pausa para reflexão
pesquisa Cadê/Ibope:
dos internautas brasileiros 63% são do sexo
masculino
68% são jovens de idade 15 a 29 anos
79% livre de compromissos (solteiros ou separados)
59% tem renda que variam de 10 a 50 salários
mínimos
Centro de Computação
Internet - Informação Caótica
A Internet (teia) é um grande banco de dados de informação sem um padrão de catalogação (caótica).
Difícil localização de documentos, seu autor, data de validade (da informação), etc ...
É como uma enorme biblioteca sem um catálogo de referência central e os livros dispostos desordenadamente.
Centro de Computação
Mecanismos - Informação Organizada
Entram em cena os Mecanismos de Busca (catálogo central de uma Biblioteca).
Websites com recursos sofisticados: banco de dados linguagens pesquisa simples e avançada velocidade tratamento diferenciado ( personalizado ) grandes portais (vendas, serviços, help,etc)
Centro de Computação
Mecanismos - Informação Organizada
A aprendizagem de técnicas e familiarização dos Mecanismos de Busca são itens essenciais para a economia de horas em uma pesquisa.
A indexação na web é um trabalho gigantesco e interminável.
Centro de Computação
Mecanismos - Informação Organizada
A localização, com precisão, de documentos ( páginas ou arquivos ) que contenham o termo que você deseja depende, basicamente, de 2 fatores :
assunto disponível e indexado ou selecionado por
algum mecanismo de busca.
as palavras chaves (argumento da pesquisa) são
suficientemente específicos para obtenção de um
resultado satisfatório.
Centro de Computação
Mecanismos - Informação Organizada
Muitas vezes, encontrar um argumento de pesquisa específico para aquilo que procuramos não é uma tarefa fácil.
Ex: "esquizofrenia" é um bom argumento; "New York" é um argumento ruim.
Centro de Computação
Pausa para reflexão
Um dos novos sites que utiliza tecnologias avançadas para gerar resultados supreendentes em termos de relevância é o Google.
Segundo a empresa, seu mecanismo de busca calcula os resultados tomando por base uma equação de 500 milhões de variáveis e mais de dois bilhões de termos.
Centro de Computação
O que é Mecanismo de Busca
É um grande índice (catálogo de biblioteca).
Faz todo trabalho de organização das páginas espalhadas pela Web.
Fazem o trabalho de pesquisa nos mais de 800 milhões de documentos.
São os grandes "culpados" pelo crescimento exponencial da Internet.
Centro de Computação
Mecanismos de Busca - Perfil
Garimpar a internet em busca de qualidade / quantidade de informação e organizá-la em um único local ( banco de dados ).
Conquistar a preferência do público ( muitas informações, hospedagem de websites e conta de email gratuitas, seções direcionadas a determinadas faixas etárias, etc ).
Sofisticados : linguagem natural ( coloquial ).
Centro de Computação
Mecanismos de Busca - Perfil
Explorar o potencial comercial da Web (as pessoas são potenciais consumidores independente da informação que procuram).
Estão sempre vendendo alguma coisa para você (já experimentou fazer uma busca com a palavra "carro”, “ferrari” ?).
Maiores catálogos de vendas de produtos encontrados em um só lugar.
Centro de Computação
Mecanismos de Busca - Perfil
Fonte: searchengine watch
Centro de Computação
Mecanismos de Busca - Perfil
Fonte: searchengine watch
Centro de Computação
Mecanismos de Busca - Perfil
Alguns dados :
Yahoo - 50 milhões de visitas/mês. UOL - 45 milhões de visitas/mês. UNICAMP - 1,8 milhões de visitas/mês. 60% da web é indexada. Mais de 80% da web possui informação não qualificada Cresce 1/3 ao ano (dados 2 últimos anos) Estatísticas mostram que 7% dos usuários navegam
além da 3ª página de resultados)
Centro de Computação
Tipo de Mecanismos - Índices
Genéricos ou Especializados
Spiders / Robôs varrem a internet buscando
páginas, indexando-as e criando seu próprio
banco de dados.
Algoritmos de busca que acham e trazem
documentos relevantes para a pesquisa do
usuário.
Centro de Computação
Tipo de Mecanismos - Índices
Algoritmos comuns de pesquisa: número de ocorrências do argumento de pesquisa
(maior probabilidade de ser um documento que você procura)
argumento encontrado no TITLE da página argumento em negrito tamanho de fonte maior mede popularidade da página (número de links que
apontam para ela)
Centro de Computação
Tipo de Mecanismos - Índices
Principais diferencas entre eles: Capacidade de armazenagem no banco de dados.
Frequência de atualização.
Capacidade de busca (amplitude).
Velocidade de recuperação de resultados
Interface (design) na mostra dos resultados.
Recursos avançados (tradução, linguagem natural,
operadores booleanos).
Centro de Computação
Tipo de Mecanismos - Índices
Cobrem todo tipo de assunto possível, não fazem
distinção entre os sites que indexam ( pesquisa
por softwares ) .
Quando fazemos a pesquisa através de um mecanismo de busca NÃO o fazemos "ao vivo" e sim recuperamos as informações gravadas nos banco de dados.
Centro de Computação
Tipo de Mecanismos - Índices
são indicados quando pesquisamos um documento conhecido, imagens, softwares ou um trecho de alguma informação pois não requerem um conhecimento prévio do assunto.
Os índices especializados são numerosos e em grande parte desconhecidos.
Centro de Computação
Tipo de Mecanismos - Índices
Os índices especializados não se preocupam em indexar toda a Web (focam sua busca dentro de um assunto definido, uma área geográfica ou tipo de recurso).
Os índices especializados são, na maioria das vezes, mais eficientes do que os mecanismos tradicionais ( podem ser um ponto de partida para sua pesquisa ).
Centro de Computação
Tipo de Mecanismos - Índices
Exemplos de índices genéricos AltaVista (http://www.altavista.com) Excite (http://www.excite.com) FAST (http://www.alltheweb.com) Google (http://www.google.com) HotBot (http://www.hotbot.com) Infoseek (http://infoseek.go.com) Northern Light (http://www.northernlight.com)
Centro de Computação
Tipo de Mecanismos - Índices
Exemplos de índices específicos medicina
http://www.medscape.com/ http://www.planetavida.com.br/
música http://www.mp3.com
softwares http://www.tucows.com
pesquisas http://www.cnpq.br
Centro de Computação
Tipo de Mecanismos - MetaSearchs
não possuem índices próprios submetem as perguntas formuladas a vários
indexadores da Web, coletam os resultados obtidos, fazem uma formatação, eliminando resultados duplicados e geram uma listagem final.
adotam um mínimo denominador comum na forma como as pesquisas são submetidas.
Centro de Computação
Tipo de Mecanismos - MetaSearchs
O serviço de metabusca Profusion, http://www.profusion.com , é um dos mais conceituados da rede.
Brasil : MetaMiner ( http://www.miner.com.br ) programas em seu computador que realizem
metabuscas ( gratuitos ). Ex: Copernic99 - http://www.copernic.com
Centro de Computação
Tipo de Mecanismos - Diretórios
Funcionam de forma diferente dos Índices.
Organizados hierarquicamente.
A busca e organização das informações é feita
por seres humanos e somente a home page de um
site é indexada.
Vantagem : probabilidade reduzida dos
resultados estarem fora do contexto.
Centro de Computação
Tipo de Mecanismos - Diretórios
Possuem um mecanismo de busca interno.
A informação é dividida em categorias.
P. ex.: "Elvis Presley" encontramos em
"sociedade e cultura" "musica" "cantores"
Funcionam como catálogos on-line e são um
grande potencial comercial para os websites em
geral (visibilidade na lista de links).
Centro de Computação
Tipo de Mecanismos - Diretórios
São melhores para pesquisa em assuntos gerais. O prestígio está exatamente na informação qualificada para seus usuários.
Exemplos de Diretórios : LookSmart ( http://www.looksmart.com ) Cadê ( http://www.cade.com.br ) Radix ( http://magellan.excite.com/ ) Open Directory ( http://dmoz.org ) Yahoo ( http://www.yahoo.com )
Centro de Computação
Tipo de Mecanismos - Dir. Abertos
Especialistas nos assuntos compilam as informações com maior qualidade e precisão
Relacionam, fazem anotações, permitem outros especialistas se cadastrarem e abrirem novos assuntos ( manten-se a estrutura)
Exemplos: IVOX ( http://www.ivox.com.br ) About.com (http://about.com) WWW Virtual Library (http://www.vlib.org)
Centro de Computação
Tipo de Mecanismos - Desvantagens
Índices: os programas (spiders ou robôs) não possuem dissernimento sobre o que é apresentado aos usuários (qualidade dos resultados ).
Diretórios: limitados a uma pequena parcela da Internet pois todo trabalho é feito por seres humanos (classificação e análise).
Centro de Computação
Mecanismos - Estratégia de Busca
Formule uma questão e seu escopo. Ex: “quais são as escolas de samba do carnaval do Rio
de Janeiro?”
Identifique os conceitos importantes dentro da questão (palavras chave).
Ex: “escolas de samba”, “Rio de Janeiro”
Considere possíveis sinônimos e variações das palavras chaves.
Ex: “carnaval carioca” (não é um bom argumento)
Centro de Computação
Mecanismos - Estratégia de Busca
Uma estratégia bem elaborada é de suma importância ( base de informação enorme, amorfa e em evolução ).
Na escolha no mecanismo de busca optar por aqueles que oferecem mais possibilidades de busca ( pesquisa avançada ).
Centro de Computação
Mecanismos - Estratégia de Busca
Identificar mecanismos de busca especializados no assunto ( música, informática, negócios, medicina, cultura, etc ).
As técnicas básicas de busca atendem a grande maioria dos usuários.
Verifique sempre o help / ajuda .
Centro de Computação
Mecanismos - Estratégia de Busca
Utilize frases exatas. P. ex: “As invenções de Leonardo da Vinci” ao invés de “Leonardo da Vinci”
Palavras em minúsculo --> maiúsculo /minúsculo
Palavras em maiúsculo --> palavras que batem exatamente o que foi digitado.
Centro de Computação
Mecanismos - Estratégia de Busca
Procurar por bookmarks (relação de links) de outros usuários na internet. P. ex.: "music links", ”links de música", “music bookmarks”, etc ...
Centro de Computação
Pesquisando na Web - Estrutura
Podemos pesquisar uma simples palavra ou uma frase em uma página Web. O resultado pode ser encontrado em uma das seções abaixo :
Título Autor Descrição Corpo do documento
Centro de Computação
Pesquisando na Web - Estrutura
Exemplo : “tomates” Resultado da pesquisa:
doc. de título : “Filme - Tomates Verdes Fritos”
doc. que fala sobre o assunto: “cultivo de tomates”
Centro de Computação
Pesquisando na Web - Pesquisa Booleana
Pesquisa Booleana : use as palavras AND, OR, NOT para expandir e
limitar as buscas. Permite combinar os termos de pesquisa. Mais úteis em buscas complexas. São conhecidos também como Operadores
Booleanos.
Centro de Computação
Pesquisa Booleana - “AND”
AND combina palavras e/ou frases, permitindo que ambas
estejam presentes nos resultados. “eu estou interessado em soja que são transgênicas” sintaxe: “soja AND transgênica”
Centro de Computação
Pesquisa Booleana - “OR”
OR combina palavras e/ou frases, trazendo resultados que
possuam pelo menos uma das combinações. “eu estou interessado em soja ou produtos
transgênicos” sintaxe:“soja OR transgênico”
Centro de Computação
Pesquisa Booleana - “NOT”
NOT exclue palavras e/ou frases dos resultados da pesquisa. “estou interessado em informações sobre soja
excluindo-se docs que citam problemas transgênicos” sintaxe: “soja NOT transgênico”
Centro de Computação
Pesquisa Booleana - Combinação
AND, OR e NOT “Eu quero aprender a cozinhar com ervas ou pimenta” sintaxe: “cozinhar AND (ervas OR pimenta)” ou “receita AND (ervas OR pimenta)”
Centro de Computação
Pesquisando na Web - Adição/Subtração
adição “+” antes de uma palavra chave ou frase obriga que ela apareca entre os resultados relevantes. Ex: “+picanha invertida”.
subtração “-” elimina dos resultados a palavra chave ou frase. Ex: “picanha -mostarda”
CUIDADO !!!!!!
Centro de Computação
Pesquisando na Web - Funções especiais
TITLE - pesquisar pr título do documento Ex: “TITLE:Gazeta Mercantil”
HOST - traz páginas indexadas de um site. Ex: “HOST:www.unicamp.br nuclear”
URL - traz páginas que contém este parâmetro no texto de sua URL.
Ex: “URL:microsoft” traz TODAS as páginas indexadas que contém “microsoft” no endereço.
“http://www.microsoft.com” ou “http://www.software.com/microsoft”
Centro de Computação
Pesquisando na Web - Funções especiais
LINK - identifica todas as páginas que possuem um link definido neste parâmetro.
Ex: “LINK: mailto:[email protected]”
IMAGE - traz páginas que contém arquivos com
os nome definidos neste parâmetro. Ex: “IMAGE:basket*.jpg” Ex: “IMAGE:vinci”
Centro de Computação
Pesquisando na Web - Proximidade
NEAR, ADJACENT, FOLLOWED BY - alguns sites permitem que você encontre páginas com as palavras de busca próximas uma da outra ( evita-se encontrar documentos em que estas palavras aparecem sem ligação entre elas ).
Ex: “cpi NEAR narcotráfico”
Centro de Computação
Pesquisando na Web - Perfil
Assuntos relacionados ao argumento de pesquisa. Ex: viagem (viagem aérea, descontos de viagem,
agências de viagem, etc ...). Altavista, GoTo, HotBot, Infoseek, Excite;
Esquematização de resultados permite que somente 1 página de cada site seja incluído nos Top 10 dos resultados da pesquisa. Ex: Altavista, GoTo, HotBot, Infoseek, Excite,
Northern Light, Google (faz identação quando existe mais de 1 página de um mesmo site);
Centro de Computação
Pesquisando na Web - Perfil
Busca automática de frases : a utilização de frases pode obter melhores resultados nas pesquisas. Ex: Altavista, Google;
Centro de Computação
Pesquisando na Web - Perfil
Similaridades: os mecanismos de busca trazem páginas similares ao argumento ( assunto ) pelo qual você está procurando. Ex: Excite, Infoseek., Altavista;
Stemming: Palavras genéricas (ex: perigo*) permite pesquisar variações de uma palavra ou radical (resultado : perigoso, perigosamente, etc). Ex: Infoseek, Lycos, Northern Light, HotBot, etc.
Centro de Computação
Pesquisando na Web - Perfil
Ordenação por data, intervalo de data e a data em que o spider indexou a página : cuidado !!! (70% dos websites informam a data correta, 20% reportam a data atual e 10% não informam data nenhuma); Ex: Infoseek, Nortern Light, Google
Centro de Computação
Pesquisando na Web - Perfil
Pesquisando dentro dos resultados (search within): os mecanismos permitem que você faça uma pesquisa mais detalhada utilizando somente os resultados obtidos na primeira pesquisa; Ex: Infoseek, Lycos, HotBot;
Centro de Computação
Pesquisando na Web - Perfil
Pesquisa Avançada: permite entrar com um maior número de parâmetros para restringir ou modificar a pesquisa. Ex: a maioria dos mecanismos conhecidos
Tradução de documentos Ex: Altavista, Infoseek
Centro de Computação
Pesquisando na Web - Perfil
Linguagem Natural: pode-se fazer consultas utilizando frases ou perguntas em linguagem natural, ou seja, como se estivesse perguntando a outra pessoa. Altavista, AskJeeves, Google
Ex: Why womem crave chocolate ?Ex: Where can i buy classical musica CDs on-line?"Ex: Qhat is the color of japanese flag?Ex: What is the distance between Brasília and São
Paulo?Ex: What is the best soccer team?
Centro de Computação
Mecanismos - Dicas específicas
Altavista 250 milhões de páginas Interface simples e avançada Possui a maioria dos recursos de busca ( e mais:
categorias de assunto, buscas especias por imagens, vídeos, áudio, customização do portal pelo usuário)
Pode-se realizar uma busca restrita a um único site. Ex: "host:www.unicamp.br cursos"
Centro de Computação
Mecanismos - Dicas específicas
Excite 215 milhões de páginas pesquisa avançada (permite adicionar palavras
sugeridas para a busca, permite buscar documentos relacionados a este link/assunto, my Excite, etc...)
Centro de Computação
Mecanismos - Dicas específicas
Radar UOL 110 milhões de páginas busca avançada (por datas, frase exatas, informa
número de links para esta página, busca combinadas, operadores lógicos, tipo de mídia, extensão de arquivo, etc)
Centro de Computação
Mecanismos - Dicas específicas
Northern Light Possui uma seção especial mantida em conjunto com a
Billboard onde disponibiliza um repositório de músicas e websites de músicas.
Ask Jeeves Linguagem natural (perguntas e respostas)
Centro de Computação
Mecanismos - Dicas específicas
Google 350 milhões de páginas Um dos melhores índices internacionais. Possui cálculos avançados (500 milhões de variáveis) Basea-se na popularidade das páginas (número de links
que apontam para ela) Termos em negrito, palavra chave no cabeçalho e em
fontes maiores A posição de uma página depende, entre outros fatores,
do que os outros falam dela (pesquisa de opinião pública). Ex: "best bookstore" resultado: Amazon Books
Centro de Computação
Mecanismos de Busca - Referências
Procurando pessoas ( endereço de e-mail ) ? Bigfoot (http://bigfoot.com/) WhoWhere? (http://www.whowhere.lycos.com) Yahoo! People Search (http://people.yahoo.com) Altavista - People Search (http://www.av.com) UOL - (http://cf5.uol.com.br/listapub/index.cfm) Miner - (http://miner.bol.com.br/genteminer.html)
Centro de Computação
Mecanismos de Busca - Referências
Procurando pessoas (endereços e telefones) Bigfoot ( http://bigfoot.com/ ) InfoSpace Canada People Finder
(http://www.infospace.com/canada/index_ppl_ca.htm)
Switchboard.Com (http://www.switchboard.com) Telefonica
(http://www.telefonica.net.br/sp/rrobim.htm) Miner (http://miner.bol.com.br/genteminer.html)
Centro de Computação
Mecanismos de Busca - Referências
Softwares Jumbo (http://www.jumbo.com) Shareware.com (http://www.shareware.com) ZDNet Downloads
(http://www.zdnet.com/downloads/) Tucows ( http://www.tucows.com )
Centro de Computação
Mecanismos de Busca - Referências
Áudio / Vídeo AltaVista - (http://www.av.com) iAtlas - (http://www.iatlas.com) Lycos MP3 Search - (http://mp3.lycos.com) ProFusion MP3 - (http://mp3.profusion.com) Real - Snap - (http://real.snap.com) MP3 - ( http://www.mp3.com )
Centro de Computação
Mecanismos de Busca - Referências
Novidades sobre Internet e os Mecanismos de Busca: http://searchenginewatch.com/ Universo Internet - RubensQueiroz
http://www.revista.unicamp.br/navegacao/index4.html Estatística da web:
http://www.oclc.org/oclc/research/projects/webstats/statistics.htm
Revistas : “Internet.Br”, “Internet Business”, “Veja”
Centro de Computação
Sobre a Palestra
Está disponível em: http://www.ccuec.unicamp.br/treinamentos/busca/busca.ppt http://www.ccuec.unicamp.br/treinamentos/busca/index.html
Palestrante: Gian - [email protected]
Ciclo de Palestras Centro de Computação da UNICAMP
http://www.ccuec.unicamp.br