recuperar informação consiste em identificar, no...a recuperação de informação envolve: ... o...
Post on 22-Aug-2020
3 Views
Preview:
TRANSCRIPT
24/05/2017
1
Recuperação de Informação
Recuperação de Informação
� Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário.
24/05/2017
2
Recuperação de Informação
� A recuperação de informação envolve:◦ um acervo documental;
◦ pessoas que buscam por documentos relevantes para satisfazer suas necessidades de informação.
� Recuperar informação implica em operar seletivamente um estoque de informação◦ envolve processos cognitivos difíceis de serem formalizados.
� A utilização de recursos computacionais nessa tarefa parte de inevitáveis simplificações teóricas e de adequações de conceitos subjetivos◦ relevância
◦ necessidade de informação
◦ informação
O processo de recuperação de informação
24/05/2017
3
O processo de recuperação de informação
Documento
24/05/2017
4
Documento
� Documentos◦ Segundo Buckland (1991):
� o termo informação é utilizado na maioria das vezes vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também designar “algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos”.
◦ Para Le Coadic (2004, p.5):� documento é o termo genérico que designa os objetos
portadores de informação. Um documento é todo artefato que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos).
O processo de recuperação de informação
24/05/2017
5
Representação de documentos
Representação de documentos
� A principal característica do processo de representação da informação é a substituição de uma entidade linguística longa e complexa - o texto do documento - por sua descrição abreviada. O uso de tal sumarização não é apenas uma consequência de restrições práticas quanto ao volume de material a ser armazenado e recuperado. Essa sumarização é desejável pois sua função é demonstrar a essência do documento. Ela funciona então como um artifício para enfatizar o que é essencial no documento considerando sua recuperação.
Novellino (1996)
24/05/2017
6
Representação de documentos
� Representação Descritiva (catalogação descritiva)
� Representação Temática (catalogação de assunto)
Representação Descritiva(catalogação descritiva)
� Representa as características específicas do documento, denominada descrição bibliográfica, que permite a individualização do documento.
� Ela também define e padroniza os pontos de acesso, responsáveis pela busca e recuperação da informação, assim como pela reunião de documentos semelhantes, por exemplo, todas as obras de um determinado autor ou de uma série específica.
(MAIMONE; SILVEIRA; TÁLAMO, 2011)
24/05/2017
7
Representação Descritiva(catalogação descritiva)
� É composta pelo conjunto de características próprias ou atribuídas ao documento, que o individualiza em um catálogo, repositório ou outro sistema informacional.
� É necessário algum modo de padronização, tanto na estrutura de descrição (elementos descritivos ou metadados) como também nos valores que devem ser representados na estrutura de descrição.
(ALVES; SANTOS, 2013).
� Proporcionar a caracterização do recurso, tornando-o único e, ao mesmo tempo, reunindo-o com outros recursos semelhantes.
� Com a representação é possível garantir:◦ o armazenamento consistente dos dados de um documento;
◦ garantir o acesso físico ou digital ao documento;
◦ melhorar a busca e recuperação dos recursos que passam a ser identificáveis nos sistemas;
◦ etc
(ALVES, 2010).
Representação Descritiva(catalogação descritiva)
Marc
24/05/2017
8
Representação Descritiva(catalogação descritiva)
� Dublin Core◦ Title
◦ Creator
◦ Subject
◦ Description
◦ Publisher
◦ Contributor
◦ Date.
◦ Type
◦ Format
◦ Identifier
◦ Source
◦ Language
◦ Relation
◦ Coverage
◦ Rights
Representação Descritiva(catalogação descritiva)
� FRBR◦ Functional Requirements for Bibliographic Records (FRBR)
(Requisitos Funcionais para Registros Bibliográficos)
◦ Utilizada o modelo Entidade-Relacionamento;
◦ Não é um código de catalogação, não é um formato, não é uma norma, não é um padrão, não é um princípio de catalogação. Assim, não é adequado dizer coisas como “vou catalogar usando o FRBR”.
◦ Objetivos:� prover um quadro definido com clareza e estruturado para
relacionar os dados que são registrados em registros de bibliográficos às necessidades dos usuários desses registros;
� recomendar um nível básico de funcionalidade para registros criados por agências bibliográficas nacionais.
(Fabrício Assumpção)
24/05/2017
9
Representação Descritiva(catalogação descritiva)
� FRBR
Representação Temática(catalogação de assunto)
� Resumo◦ Texto breve e coerente que se destina a informar o usuário
sobre os conhecimentos essenciais transmitidos por um documento;
� Extrato◦ Versão abreviada de um documento, feita mediante a
extração de frases do próprio documento;
� Índice◦ Representação do conteúdo temático de um documento
por meio da utilização de um conjunto de palavras ou termos
(LANCASTER, 2004)
24/05/2017
10
Indexação
Indexação
� A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos.
� Os termos de indexação servem também como pontos de acesso mediante os quais o documento é localizado e recuperado em um sistema de informação.
� Lancaster (2004, p.18) distingue dois tipos de indexação:◦ indexação por extração
� A seleção dos termos fica restrita ao contexto do próprio documento. � O indexador, utilizando critérios institucionais e pessoais, seleciona no texto
palavras que serão utilizados para representar o documento.
◦ indexação por atribuição.� Utiliza-se de um elemento externo ao documento, um conjunto de termos
previamente definidos e normalizados (léxico) cuja complexidade pode variar deste uma lista de cabeçalhos de assunto até um tesauro ou uma ontologia.
� Após a leitura do texto, o indexador escolhe os termos mais adequados para representar o conteúdo informacional do documento.
24/05/2017
11
Indexaçãoautomática
Indexação Automática
� Embora a prática da indexação possa ser regulada por políticas e princípios institucionais, o processo de indexação manual é dependente de critérios subjetivos e pessoais, relacionados à formação e experiência do indexador.
� O tempo despendido e a qualidade da indexação ficam fortemente atrelados a fatores não controláveis, o que pode afetar o custo desse processo.
� As dificuldades inerentes à indexação manual e a grande quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade.
� As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950.
� A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje.
24/05/2017
12
Indexação Automática
� Vantagens◦ baixo custo da indexação automática;◦ facilidade de aplicação a grandes conjuntos de documentos◦ homogeneidade desse processo quando realizados por
algoritmos computacionais.
� O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes;
� Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo.
(ANDERSON; PEREZ-CARBALLO, 2001)
Indexação Automática: tipos
� De forma semelhante à sua classificação da indexação manual, Lancaster (2004, p.285) identifica dois tipos de indexação automática:◦ indexação automática por extração automática
� realizada geralmente por meio de cálculos matemáticos de frequência das palavras encontradas no texto de um documento.
◦ indexação automática por atribuição automática� é utilizado um elemento externo aos textos com o objetivo de
normalizar os termos de indexação atribuídos aos documentos.
24/05/2017
13
O processo de recuperação de informação
Usuário
� Segundo Le Coadic (2004, p.38-40), existem dois tipos de necessidades de informação: a necessidade de informação em função do conhecimento, originária do desejo de saber, e a necessidade de informação em função da ação, derivada de necessidades materiais determinadas pela realização de atividades humanas, profissionais e individuais.Ambas serão representadas pelo usuário quando entram em contato com o ambiente que escolheram para satisfazer a sua necessidade informacional.
24/05/2017
14
O processo de recuperação de informação
Expressão de Busca
� Meio que o usuário emprega para comunicar a sua necessidade informacional para o sistema de informação.
� Podem ser especificada em linguagem natural ou por meio de uma linguagem artificial, dependendo dos recursos oferecidos pelo sistema.
� Os usuários necessitam ter um mínimo de conhecimento do tema de interesse e do seu vocabulário do domínio.
� Principal dificuldade: predizer quais os termos que foram usadas para representar os documentos que satisfarão sua necessidade.
24/05/2017
15
O processo de recuperação de informação
Representação da Expressão de Busca
� É necessário que a expressão de busca seja representada de forma similar à utilizada na representação dos documentos.
� Essa homogeneidade permitirá a comparação entre a busca e todos os documentos do corpus do sistema por meio da função de busca.
24/05/2017
16
Interfaces de busca
Interfaces de busca
Bem concebidos, os sistemas eficazes geram sentimentos positivos em seus usuários. Quando um sistema é bem projetado, a interface quase desaparece, permitindo que os usuários se concentrar em seu trabalho, realizando-o de maneira prazerosa.
Em Sistemas de Recuperação de Informação, a função da interface de busca é auxiliar o usuário a entender e expressar a sua necessidade de informação
24/05/2017
17
Interfaces de Busca1997 - Protótipo
1999 - Beta
out.2013
24/05/2017
18
24/05/2017
19
O processo de recuperação de informação
Modelo de Recuperação de Informação
� É a especificação formal de três elementos:◦ a representação dos documentos;
◦ a representação da necessidade de informação por meio de uma expressão de busca;
◦ como estes dois elementos serão comparados: a função de busca.
� A eficiência de um sistema de recuperação de informação está diretamente ligada ao modelo que ele utiliza, influenciando diretamente em seu modo de operação.
24/05/2017
20
Modelo Booleano
� No modelo booleano um documento é representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais especializados ou automaticamente, utilizando algoritmos computacionais.
� As buscas são formuladas por meio de uma expressão booleana composta por termos ligados por operadores lógicos AND, OR e NOT e apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca.
Modelo Booleano
� Uma expressão de busca que utiliza apenas um termo t1 terá como resultado o conjunto de documentos indexados por t1;
24/05/2017
21
Modelo Booleano
DesmatamentoMata AtlânticaMadeireiras
Reflorestamento
Desmatamento
DesmatamentoAmazônia
Grilagem de terrasReflorestamento
Modelo Booleano
� Uma expressão conjuntiva de enunciado t1 AND t2
recuperará documentos indexados por ambos os termos (t1 e t2).
� Esta operação equivale à interseção do conjunto dos documentos indexados pelo termo t1 com o conjunto dos documentos indexados pelo termo t2, representado pela área cinza na figura.
24/05/2017
22
Modelo Booleano
DesmatamentoMata Atlântica
MadeireirasReflorestamento
DesmatamentoAND
Mata Atlântica
DesmatamentoAmazônia
Grilagem de terrasReflorestamento
Modelo Booleano
� Uma expressão disjuntiva t1 OR t2 recuperará o conjunto dos documentos indexados pelo termo t1ou pelo termo t2.
� Essa operação equivale à união entre o conjunto dos documentos indexados pelo termo t1 e o conjunto dos documentos indexados pelo termo t2.
24/05/2017
23
Modelo Booleano
DesmatamentoMata Atlântica
MadeireirasReflorestamento
DesmatamentoOR
Mata Atlântica
DesmatamentoAmazônia
Grilagem de terrasReflorestamento
Modelo Booleano
� A expressão NOT t1 recuperará os documentos que não são indexados pelo termo t1, representados pela área cinza da figura.
24/05/2017
24
Modelo Booleano
DesmatamentoMata AtlânticaMadeireiras
Reflorestamento
NOT Desmatamento
DesmatamentoAmazônia
Grilagem de terrasReflorestamento
Modelo Booleano
� As expressões t1 NOT t2 ou t1 AND NOT t2 terão o mesmo resultado: o conjunto dos documentos indexados por t1 e que não são indexados por t2.
� Neste caso o operador NOT pode ser visto como um operador da diferença entre conjuntos.
24/05/2017
25
Modelo Booleano
DesmatamentoMata AtlânticaMadeireiras
Reflorestamento
DesmatamentoAND NOT Madeireiras
DesmatamentoAmazônia
Grilagem de terrasReflorestamento
Modelo Booleano
� Termos e operadores booleanos podem ser combinados para especificar buscas mais amplas ou restritivas.
� Como a ordem de execução das operações lógicas de uma expressão influencia no resultado da busca, muitas vezes é necessário explicitar essa ordem, delimitando partes da expressão por meio de parênteses.
24/05/2017
26
Modelo Booleano
� As áreas cinza da figura representam o resultado de duas expressões de busca que utilizam os mesmos termos e os mesmos operadores, mas diferem na ordem de execução.
(Recuperação AND Informação) OR WEB Recuperação AND (Informação OR WEB)
Modelo Booleano
DesmatamentoMata AtlânticaMadeireiras
Reflorestamento
( Desmatamento AND Reflorestamento )OR
Amazônia
DesmatamentoAmazônia
Grilagem de terras Reflorestamento
24/05/2017
27
Modelo Booleano
DesmatamentoMata AtlânticaMadeireiras
Reflorestamento
DesmatamentoAND
( Reflorestamento OR Amazônia )
DesmatamentoAmazônia
Grilagem de terras Reflorestamento
Modelo Booleano
� Operadores de Proximidade◦ Surgimento dos sistemas de texto completo
◦ Operadores� Termos adjacentes
� Desmatamento ADJ Amazônia� Desmatamento NEAR/10 Amazônia
� Sistema STAIRS� Desmatamento WITH Amazônia (mesmo parágrafo)� Desmatamento SAME Amazônia (mesma frase)
◦ Frase Exata� “Recuperação de Informação”; “Desmatamento na Amazônia”
◦ Composição de Operadores� “Recuperação de” ADJ (informação OR documentos)
24/05/2017
28
Modelo Vetorial:
� Um documento é representado por um vetor onde cada elemento representa o peso, ou relevância, do respectivo termo de indexação para o documento.
� Cada vetor descreve a posição do documento em um espaço multidimensional, onde cada termo de indexação representa uma dimensão ou eixo.
� Cada elemento do vetor (peso) é normalizado de forma a assumir valores entre zero e um. Os pesos mais próximos de 1 indicam termos com maior importância para a descrição do documento.
Modelo Vetorial
Desmatamento 0.7Mata Atlântica 0.6Madeireiras 0.3Reflorestamento 0.2
0,7 0,6 0,3 0,2
24/05/2017
29
Modelo Vetorial
� Uma expressão de busca também é representada por um vetor numérico onde cada elemento representa a importância (peso) do respectivo termo na representação da necessidade de informação do usuário, substanciada na expressão de busca.
Usuário e sua necessidade de informação
Mata Atlântica 0.5
Desmatamento 0.8
Causas 0.7
0,5 0,8 0,7
Modelo Vetorial:cálculo da similaridade
� A utilização de uma mesma forma de representação tanto para os documentos como para as expressões de busca permite calcular a similaridade entre uma expressão de busca e cada um dos documentos do corpus, ou ainda entre dois documentos;
� Em um espaço vetorial contendo N dimensões, a similaridade (sim) entre um documento dj e uma expressão de busca q pode ser calculada utilizando a seguinte fórmula:
∑∑
∑
==
=
×
×
=N
iqi
N
iji
qi
N
i ji
j
ww
wwqdsim
1,
2
1,
2
,1 , )(),(
onde wi,j é o peso do i-ésimo termo do documento dj e wi,q é o peso do i-ésimotermo da expressão de busca q.
24/05/2017
30
O processo de recuperação de informação
Resultado da Busca
� Geralmente é composto por um conjunto de documentos que supostamente serão úteis para o usuário.
� É apresentado na forma de uma lista ordenada pelo grau de similaridade calculada pela função de busca.
� Uma busca deve resultar na recuperação de uma quantidade de documentos que possibilite ao usuário a verificação de cada um deles a fim de selecionar os que lhe serão úteis.
� O fato de um termo utilizado na expressão de busca aparecer na representação de um documento não significa que este documento seja relevante para a necessidade do usuário.
24/05/2017
31
Visualização de Resultados de Busca
Visualização de Resultados de Busca
24/05/2017
32
Visualização de Resultados de Busca
� A interface utilizada em sistema de recuperação de informação mudou muito pouco desde a década de 1950, apesar de existir muitas interfaces alternativas sendo propostas e desenvolvidas por vários pesquisadores.
� Os usuários fornecem uma lista de palavras-chave e é apresentada lista de páginas que contêm as palavras-chave;
� Os usuário se veem diante da tarefa de verificar cada um dos documentos (links) para obter as informações que procuram.
Visualização de Resultados de Busca
� As desvantagens das interfaces (textuais) baseadas em uma lista de (links a) documentos são:◦ O usuário precisa verificar sequencialmente uma longa
lista de resultados;
◦ O usuário não é informado o motivo pelo qual um determinado documento foi recuperado;
◦ Da mesma forma, o usuário não é informado da relação entre um determinado documento com a sua busca;
◦ Não é apresentada similaridades entre documentos;
◦ São apresentados aos usuários apenas um pequeno fragmento do documento.
24/05/2017
33
Visualização de Resultados de busca
� Grokker
Recuperação de Informação na WEB
24/05/2017
34
Recuperação de informação na WEB
� Sites de Busca (search engines/buscadores)◦ Permitem ao usuário submeter sua expressão de busca e
recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação
◦ Maioria de uso geral
◦ Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas).� A maioria dos mecanismos de busca da Web gera índices.� Pelo caráter dinâmico da Web esses índices devem
permanecer em constante processo de atualização
Recuperação de informação na WEB
� Sites de busca◦ Índexação
� Não Automática� O autor fornece dados sobre sua página e associa a ela uma ou
mais categorias que descrevem o assunto tratado na página
� Automática� Spiders (robôs, crawlers ou worms)� Partindo de uma lista inicial de URLs, rastreiam a estrutura
hipertextual da WEB, colhendo informações sobre as páginas que encontram;
� Idexam cada página utilizando métodos de indexação automática
24/05/2017
35
Recuperação de informação na WEB
� Indexação não-automática (manual)◦ Indexadores profissionais especificam uma hierarquia de
assuntos e indexam as páginas Web utilizando tais categorias.
◦ Uma URL submetida pode ser associada a uma categoria de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, “Ciência”, ou à subcategoria, “Ciências Humanas”, ou à sub-subcategoria, “Biblioteconomia e Ciência da Informação”.
◦ A URL cadastrada é avaliada por profissionais, que podendo alterar os dados fornecidos pelo usuário.
◦ Caso um usuário não consiga encontrar uma categoria apropriada para descrever sua página, ele pode sugerir uma nova categoria.
Recuperação de informação na WEB
24/05/2017
36
Recuperação de informação na WEB
� Indexação automática◦ A indexação automática é realizada através de duas
etapas:� Seleção de endereços (URLs) de páginas;� Indexação das páginas, gerando para cada uma um conjunto
de termos de indexação.
◦ Existem programas que “viajam” através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms.
◦ Partindo de uma lista inicial de URLs, esses robôs rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.
Recuperação de informação na WEB
� Indexação automática: Estratégias◦ breadth-first - visa maximizar a amplitude da pesquisa
descendo apenas poucos níveis de cada site
◦ depth-first - visa maximizar a profundidade buscando um maior detalhamento do assunto tratado pelo site.
� Quando uma nova página é recuperada, o spider
extrai todas as URLs dessa página e os adiciona na sua base de dados.
24/05/2017
37
Recuperação de informação na WEB
� Indexação automática◦ Para aumentar a velocidade de cobertura da Web podem
ser usados vários spiders trabalhando em paralelo, cada um cobrindo uma região ou um domínio diferente da Web e enviando suas URLs para a base de dados
◦ Depois de formado o banco de dados de URLs o robô poderá acessar cada página e indexá-la usando métodos de indexação automática.
Recuperação de Informação na WEB
� Buscas◦ Geralmente dois níveis de busca: básico e avançado
◦ Básico:� Buscas booleanas utilizando os operadores AND, OR, NOT ou
alguma outra forma;
◦ Avançado:� Buscas por proximidade: NEAR, ADJ� Buscas por tipo de mídia ou tipo de arquivo: “.JPG”, “.MPEG”,
“.GIF”, etc.
24/05/2017
38
Recuperação de Informação na WEB
Recuperação de Informação na WEB
� Meta-buscadores◦ Realizam buscas utilizando diversos mecanismos de
busca;� A expressão de busca é traduzida e enviada para cada um dos
mecanismos que o meta-buscador utiliza.� Cada buscador retornará uma lista de URLs� O meta-buscador agrega as listas em uma única lista,
eliminando possíveis duplicações.
24/05/2017
39
Recuperação de Informação na WEB
Recuperação de Informação na WEB
24/05/2017
40
Referências
Referências bibliográficas
� ANDERSON, J.D.; PEREZ-CARBALLO, J. The nature of indexing: how humans and machines analyze messages and texts for retrieval - Part I: Research, and the nature of human indexing. Information Processing and Management, v.37, n.2, 2001.
� ALVES, R. C. V. Metadados como elementos do processo de catalogação. 2010. 132f. Tese (Doutorado em Ciência da Informação)-Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2010.
� ALVES, R. C. V.; SANTOS, P. L. V. A. da C. Metadados no domínio bibliográfico. Rio de Janeiro: Intertexto, 2013.
� BUCKLAND, M.K. Information as thing. Journal of the American Society ofInformation Science, v.42, n.5, 1991. p.351-360.
� LE COADIC, Y-F. A Ciência da Informação. 2.ed. Brasília: Briquet de Lemos, 2004.
� LANCASTER, F.W. Indexação e Resumos: teoria e prática. 2ªed. Brasilia, DF: Briquet de Lemos, 2004,
� MAIMONE, G. D.; SILVEIRA, N. C.; TÁLAMO, M. de. F. G. M. Reflexões acerca das relações entre representação temática e descritiva. Informação & Sociedade: Estudos, João Pessoa, v. 21, n. 1, p. 27-35, jan./abr. 2011.
� NOVELLINO, Maria Salet Ferreira. Instrumentos e metodologias de representação da informação. Informação & Informação, Londrina, v.1, n.2, p.37-45, jul./dez. 1996.
top related