information quality criteria analysis in query reformulation in distributed dynamic environments
Post on 03-Jul-2015
210 Views
Preview:
DESCRIPTION
TRANSCRIPT
Defesa de Mestrado
Recife, 09 de setembro de 2013
Information Quality Criteria Analysis in Query
Reformulation in Distributed Dynamic Environments
Orientadora: Ana Carolina Salgado
Co-orientadora: Maria da Conceição M. Batista
Bruno Felipe de França Souzabffs@cin.ufpe.br
2
Roteiro
Motivação
Fundamentação Teórica
– Reformulação de Consultas;
– Qualidade da Informação;
– Perda Semântica e Degradação da Consulta;
– Correspondências Semânticas (enriquecimento).
Trabalhos Relacionados
Nossa abordagem: Análise de Critérios de QI em Reformulação
de Consultas
– Critérios de perda (especificação e exemplo)
– Critérios de enriquecimento (especificação e exemplo)
Experimentação e Resultados (SPEED)
Considerações Finais
Trabalhos Futuros
3
Motivação
O uso de diferentes tipos de sistemas para o
compartilhamento de informações, e.g., Sistemas de
Integração de Dados e PDMS (Peer Data
Management System).
Uso intensivo do mecanismo de consulta para obter
dados de diferentes fontes de dados (peers).
4
Motivação
Reformulação de consultas, eventuais problemas:
– Perda semântica;
– Degradação da consulta;
– Resultados vazios ou incompletos;
Em contraste, podemos ter enriquecimento
semântico de conceitos durante a reformulação da
consulta.
5
Motivação
Como medir o nível de perda e/ou enriquecimento
semântico de uma consulta?
Este resultado da medição, pode ser oportuno para o
processo de roteamento da consulta em um ambiente
dinâmico e distribuído.
6
Caracterização do Problema
Roteamento da consulta
– Análise dos conceitos da consulta durante a
reformulação;
– Perda e/ou enriquecimento semântico;
– Geração de medidas de qualidade.
Nosso Foco:
Análise da reformulação da consulta usando critérios de
qualidade da Informação (QI)
7
Objetivos
Especificar e implementar critérios de QI para a
análise de reformulação de consultas em um PDMS.
Auxiliar o roteamento da consulta, fornecendo
medidas de QI para ajudar na decisão de continuar ou
não o processo de roteamento.
Elucidar os conceitos de perda semântica e
degradação da consulta.
Realizar o experimento da análise da reformulação de
consultas no PDMS SPEED;
8
Fundamentação Teórica
9
Reformulação de Consultas
Reformulação da consulta é o processo de reformular
uma consulta entre dois peers com esquemas
heterogêneos.
A reformulação é feita por meio de correspondências
semânticas estabelecidas entre os peers vizinhos.
Correspondências – elemento a elemento.
10
Reformulação de Consultas
C = Professor, Student, Coordinator, Principal
and Staff
11
Qualidade da Informação (QI)
QI é um conjunto de critérios usados para medir o
grau de qualidade geral de um sistema.
Pode ser aplicado para medir diversos elementos de
um sistema, e.g., peers, resultados da consulta,
dados.
Os autores Wang & Strong propuseram um artigo
compilando vários critérios de QI para serem usados
em sistemas computacionais.
12
Correspondências Semânticas
SemMatcher, gera correspondências semânticas entre
dois esquemas representados por ontologias.
Tipos de correspondência:
– Equivalência (1,0);
– SubConceito (0,8);
– SuperConceito (0,5);
– Aproximação (0,3);
– “Parte de” e “Todo” (0,1).
Enriquecimento semântico, ganho de conceitos
semânticos durante a reformulação da consulta.
13
Perda Semântica e Degradação da Consulta
Perda semântica é a diferença sintática entre a
consulta original e suas reformulações [Delveroudis &
Lekeas 2007].
Alguns autores consideram o termo perda semântica
e degradação da consulta como sinônimos.
14
Trabalhos Relacionados
15
Trabalhos Relacionados
16
Nossa Abordagem
Critérios de QI para Análise da Reformulação da Consulta
17
Critérios de QI para Análise da Reformulação da
Consulta
Como obtermos medidas de qualidade para
representar a perda de conceitos durante o processo
de reformulação da consulta?
Além disso, como obtermos medidas de qualidade
para representar o enriquecimento de conceitos
durante o processo de reformulação da consulta?
Usando critérios de QI
18
Critérios de QI para Análise da Reformulação da
Consulta
Critérios de Perda
19
Critérios de QI para Análise da Reformulação da
Consulta
Nossa definição para perda semântica: é a perda de
conceitos de uma consulta Q devido à reformulação
entre peers com esquemas heterogêneos.
Degradação da Consulta: é a medida acumulada de
perdas semânticas sofrida por uma consulta Q após
sucessivas reformulações sobre esquemas
heterogêneos.
20
Critérios de QI para Análise da Reformulação da
Consulta
Critério de QI Query Loss Measure (QuLM), o qual
representa a perda semântica de conceitos entre um
par de peers.
Junto com o QuLM está o critério Accumulated Loss
Measure (AccLM) que mede a degradação da
consulta, ou seja, o acumulado de perdas semânticas
em um caminho para onde a consulta foi enviada.
21
Critérios de QI para Análise da Reformulação da
Consulta
Dado um par de peers P = {Pi, Pj} e uma consulta
reformulada Qj de Pi para Pj definimos a medida de
perda da seguinte maneira:
22
Critérios de QI para Análise da Reformulação da
Consulta
Dado um conjunto de peers P = {P1, ..., Pn} e um
conjunto de QuLM entre os pares de peers QuLM =
{QuLM1, ..., QuLMn} definimos a medida de
degradação da seguinte maneira:
23
Critérios de QI para Análise da Reformulação da
Consulta
Exemplificando...
Vamos assumir:
– um conjunto de quatro peers interconectados e
compartilhando informações no domínio de comércio.
– As correspondências semânticas entre os esquemas
dos peers já foram geradas pelo processo de matching
semântico.
– A consulta original submetida no peer P1 foi: vendedor,
shopping, produto, bicicleta.
24
Critérios de QI para Análise da Reformulação da
Consulta
25
Critérios de QI para Análise da Reformulação da
Consulta
26
Critérios de QI para Análise da Reformulação da
Consulta
27
Critérios de QI para Análise da Reformulação da
Consulta
O caminho que leva ao peer P4 obteve uma medida
de qualidade de 0,2500. Com base neste valor
podemos dizer que este é um caminho com menos
perda semântica em relação à consulta colocada pelo
usuário no peer P1
O processo de roteamento da consulta escolherá o
caminho para o peer P4
Caminho AccLM
P1 –P2 – P3 0,7525
P1 –P2 – P4 0,2500
28
Critérios de QI para Análise da Reformulação da
Consulta
Critérios de Enriquecimento
29
Critérios de QI para Análise da Reformulação da
Consulta
Critério de QI Query Enrichment Measure (QuEM), o
qual representa o enriquecimento semântico de
conceitos entre um par de peers.
Junto com o QuEM está o critério Accumulated
Enrichment Measure (AccEM) que mede o produto
acumulado de ganhos semânticos de conceitos da
consulta no caminho para onde foi enviada.
30
Critérios de QI para Análise da Reformulação da
Consulta
Dado um par de peers P = {Pi, Pj} e uma consulta
reformulada Qj de Pi para Pj definimos a medida de
enriquecimento da seguinte maneira:
Onde |Csubj| é o número de conceitos em Qj (consulta
reformulada) os quais são sub conceitos dos
conceitos em Qi (consulta corrente).
|Csupj| é o número de conceitos em Qj que são super
conceitos dos conceitos em Qi.
31
Critérios de QI para Análise da Reformulação da
Consulta
Onde |Cclj| é o número de conceitos em Qj os quais
são conceitos aproximados dos conceitos em Qi.
|Cpwj| é o número de conceitos em Qj que são
conceitos parte/todo dos conceitos em Qi.
QuLM e AccLM também são calculados.
32
Critérios de QI para Análise da Reformulação da
Consulta
Dado um conjunto de peers P = {P1, ..., Pn} e um
conjunto de QuEM entre os pares de peers QuEM =
{QuEM1, ..., QuEMn} definimos a medida de
enriquecimento acumulado da seguinte maneira:
33
Critérios de QI para Análise da Reformulação da
Consulta
Exemplificando...
Considerando correspondências semânticas super
conceito e sub conceito
34
Critérios de QI para Análise da Reformulação da
Consulta
Considerando correspondências semânticas super
conceito e sub conceito
35
Critérios de QI para Análise da Reformulação da
Consulta
Considerando correspondências semânticas super
conceito e sub conceito
36
Critérios de QI para Análise da Reformulação da
Consulta
O caminho para o peer P4 tem uma medida de perda
semântica menor.
O caminho para o peer P3 tem uma medida de
enriquecimento semântico maior.
Caminho AccLM AccEM
P1 – P2 – P3 0,7525 1,2140
P1 – P2 – P4 0,2500 0,7820
37
Experimentos e Resultados
38
Critérios de QI – Experimentos e Resultados
PDMS SPEED
Java
Eclipse
39
SPEED - Arquitetura
O sistema SPEED é um PDMS baseado em
semântica, composto de pontos cujos esquemas
exportados são representados por ontologias.
40
Critérios de QI – Experimentos e Resultados
Ações tomadas
41
Critérios de QI – Experimentos e Resultados
42
Critérios de QI – Experimentos e Resultados
Em nosso experimento levamos em consideração:
– um conjunto de cinco peers interconectados e
compartilhando informações no domínio de educação.
– A consulta original submetida no peer P2178 foi:
Professor, Manual, Schedule, Monitor.
– Serão obtidas as medidas de perdas e enriquecimento
semânticos.
– As correspondências semânticas consideradas foram:
sub conceito (subconcept), super conceito
(superconcept), aproximação (closeto) e parte/todo
(partof/wholeof)
43
Critérios de QI – Experimentos e Resultados
De onde vem as correspondências semânticas?
– Arquivo de alinhamento para cada par de peer na
rede.
44
Critérios de QI – Experimentos e Resultados
45
Critérios de QI – Experimentos e Resultados
Par de Peers Consulta Reformulada Tipos de Conceitos Adquiridos
P2178 – P2378 Software, VisitingProfessor, Schedule,
Monitor, UndergraduateStudent,
Professor, Manual, Publication
Software closeto Manual,
VisitingProfessor subconcept of
Professor, UndergraduateStudent
superconcept of Monitor, Publication
superconcept of Manual.
P2178 – P2478 VisitingProfessor, Monitor, Professor VisitingProfessor subconcept of
Professor.
P2378- P2978 Software, Course, Schedule, Product,
Professor
Software subconcept of Product, Course
part of UndergraduateStudent, Product
superconcept of Software.
P2478 – P2578 Monitor
46
Conclusões
47
Conclusões
Neste trabalho, concebemos critérios de QI que
fornecem medidas semânticas da perda e ganho de
conceitos durante o processo de reformulação da
consulta.
48
Conclusões – Contribuições
Elucidação e definição dos termos perda semântica e
degradação da consulta;
A especificação de 4 critérios de QI para análise da
reformulação de consultas;
Validação da nossa proposta com a implementação e
experimentos no PDMS SPEED;
49
Conclusões – Trabalhos Futuros
Investigar outros critérios de QI para ser usado na
avaliação de outros elementos de um ambiente
dinâmico e distribuído;
Avaliação da qualidade dos resultados da consulta.
Implantação e teste em um ambiente real.
50
Publicações
Artigo: Souza, B. F. F. ; Salgado, A.C ; Batista, M.C.M . Critérios de
Qualidade da Informação em Reformulação de Consultas em um
PDMS: Uma Perspectiva. I Escola Paraibana de Informática, 2011,
João Pessoa.
Artigo: Souza, B. F. F. ; Batista, M.C.M ; Salgado, A.C. Semantic Loss
in Query Reformulation in Dynamic Distributed Environments. 6th
Alberto Mendelzon International Workshop on Foundations of Data
Management (AMW), 2012, Ouro Preto – MG.
Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado,
A. C. Towards an Information Quality Approach to Enhance Query
Routing Processes. 14th International Conference on Information
Integration and Web-based Applications & Services (iiWAS), 2012, Bali -
Indonesia.
Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado,
A. C. Semantic Measures as Information Quality Criteria for Query
Routing Processes. International Journal of Business Intelligence and
Data Mining, 2013.
51
MUITO OBRIGADO!!!
Defesa de Mestrado
Recife, 09 de setembro de 2013
Information Quality Criteria Analysis in Distributed
Dynamic Environments
Orientadora: Ana Carolina Salgado
Co-orientadora: Maria da Conceição M. Batista
Bruno Felipe de França Souzabffs@cin.ufpe.br
top related