information quality criteria analysis in query reformulation in distributed dynamic environments

Post on 03-Jul-2015

210 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Defesa de dissertação. Este trabalho fala da concepção de quatro critérios de qualidade da informação para análise da perda e ganho de conceitos semânticos de consultas reformuladas entre peers em um Peer Data Management System (PDMS). Experimentos foram feitos no PDMS SPEED concebido no CIn-UFPE.

TRANSCRIPT

Defesa de Mestrado

Recife, 09 de setembro de 2013

Information Quality Criteria Analysis in Query

Reformulation in Distributed Dynamic Environments

Orientadora: Ana Carolina Salgado

Co-orientadora: Maria da Conceição M. Batista

Bruno Felipe de França Souzabffs@cin.ufpe.br

2

Roteiro

Motivação

Fundamentação Teórica

– Reformulação de Consultas;

– Qualidade da Informação;

– Perda Semântica e Degradação da Consulta;

– Correspondências Semânticas (enriquecimento).

Trabalhos Relacionados

Nossa abordagem: Análise de Critérios de QI em Reformulação

de Consultas

– Critérios de perda (especificação e exemplo)

– Critérios de enriquecimento (especificação e exemplo)

Experimentação e Resultados (SPEED)

Considerações Finais

Trabalhos Futuros

3

Motivação

O uso de diferentes tipos de sistemas para o

compartilhamento de informações, e.g., Sistemas de

Integração de Dados e PDMS (Peer Data

Management System).

Uso intensivo do mecanismo de consulta para obter

dados de diferentes fontes de dados (peers).

4

Motivação

Reformulação de consultas, eventuais problemas:

– Perda semântica;

– Degradação da consulta;

– Resultados vazios ou incompletos;

Em contraste, podemos ter enriquecimento

semântico de conceitos durante a reformulação da

consulta.

5

Motivação

Como medir o nível de perda e/ou enriquecimento

semântico de uma consulta?

Este resultado da medição, pode ser oportuno para o

processo de roteamento da consulta em um ambiente

dinâmico e distribuído.

6

Caracterização do Problema

Roteamento da consulta

– Análise dos conceitos da consulta durante a

reformulação;

– Perda e/ou enriquecimento semântico;

– Geração de medidas de qualidade.

Nosso Foco:

Análise da reformulação da consulta usando critérios de

qualidade da Informação (QI)

7

Objetivos

Especificar e implementar critérios de QI para a

análise de reformulação de consultas em um PDMS.

Auxiliar o roteamento da consulta, fornecendo

medidas de QI para ajudar na decisão de continuar ou

não o processo de roteamento.

Elucidar os conceitos de perda semântica e

degradação da consulta.

Realizar o experimento da análise da reformulação de

consultas no PDMS SPEED;

8

Fundamentação Teórica

9

Reformulação de Consultas

Reformulação da consulta é o processo de reformular

uma consulta entre dois peers com esquemas

heterogêneos.

A reformulação é feita por meio de correspondências

semânticas estabelecidas entre os peers vizinhos.

Correspondências – elemento a elemento.

10

Reformulação de Consultas

C = Professor, Student, Coordinator, Principal

and Staff

11

Qualidade da Informação (QI)

QI é um conjunto de critérios usados para medir o

grau de qualidade geral de um sistema.

Pode ser aplicado para medir diversos elementos de

um sistema, e.g., peers, resultados da consulta,

dados.

Os autores Wang & Strong propuseram um artigo

compilando vários critérios de QI para serem usados

em sistemas computacionais.

12

Correspondências Semânticas

SemMatcher, gera correspondências semânticas entre

dois esquemas representados por ontologias.

Tipos de correspondência:

– Equivalência (1,0);

– SubConceito (0,8);

– SuperConceito (0,5);

– Aproximação (0,3);

– “Parte de” e “Todo” (0,1).

Enriquecimento semântico, ganho de conceitos

semânticos durante a reformulação da consulta.

13

Perda Semântica e Degradação da Consulta

Perda semântica é a diferença sintática entre a

consulta original e suas reformulações [Delveroudis &

Lekeas 2007].

Alguns autores consideram o termo perda semântica

e degradação da consulta como sinônimos.

14

Trabalhos Relacionados

15

Trabalhos Relacionados

16

Nossa Abordagem

Critérios de QI para Análise da Reformulação da Consulta

17

Critérios de QI para Análise da Reformulação da

Consulta

Como obtermos medidas de qualidade para

representar a perda de conceitos durante o processo

de reformulação da consulta?

Além disso, como obtermos medidas de qualidade

para representar o enriquecimento de conceitos

durante o processo de reformulação da consulta?

Usando critérios de QI

18

Critérios de QI para Análise da Reformulação da

Consulta

Critérios de Perda

19

Critérios de QI para Análise da Reformulação da

Consulta

Nossa definição para perda semântica: é a perda de

conceitos de uma consulta Q devido à reformulação

entre peers com esquemas heterogêneos.

Degradação da Consulta: é a medida acumulada de

perdas semânticas sofrida por uma consulta Q após

sucessivas reformulações sobre esquemas

heterogêneos.

20

Critérios de QI para Análise da Reformulação da

Consulta

Critério de QI Query Loss Measure (QuLM), o qual

representa a perda semântica de conceitos entre um

par de peers.

Junto com o QuLM está o critério Accumulated Loss

Measure (AccLM) que mede a degradação da

consulta, ou seja, o acumulado de perdas semânticas

em um caminho para onde a consulta foi enviada.

21

Critérios de QI para Análise da Reformulação da

Consulta

Dado um par de peers P = {Pi, Pj} e uma consulta

reformulada Qj de Pi para Pj definimos a medida de

perda da seguinte maneira:

22

Critérios de QI para Análise da Reformulação da

Consulta

Dado um conjunto de peers P = {P1, ..., Pn} e um

conjunto de QuLM entre os pares de peers QuLM =

{QuLM1, ..., QuLMn} definimos a medida de

degradação da seguinte maneira:

23

Critérios de QI para Análise da Reformulação da

Consulta

Exemplificando...

Vamos assumir:

– um conjunto de quatro peers interconectados e

compartilhando informações no domínio de comércio.

– As correspondências semânticas entre os esquemas

dos peers já foram geradas pelo processo de matching

semântico.

– A consulta original submetida no peer P1 foi: vendedor,

shopping, produto, bicicleta.

24

Critérios de QI para Análise da Reformulação da

Consulta

25

Critérios de QI para Análise da Reformulação da

Consulta

26

Critérios de QI para Análise da Reformulação da

Consulta

27

Critérios de QI para Análise da Reformulação da

Consulta

O caminho que leva ao peer P4 obteve uma medida

de qualidade de 0,2500. Com base neste valor

podemos dizer que este é um caminho com menos

perda semântica em relação à consulta colocada pelo

usuário no peer P1

O processo de roteamento da consulta escolherá o

caminho para o peer P4

Caminho AccLM

P1 –P2 – P3 0,7525

P1 –P2 – P4 0,2500

28

Critérios de QI para Análise da Reformulação da

Consulta

Critérios de Enriquecimento

29

Critérios de QI para Análise da Reformulação da

Consulta

Critério de QI Query Enrichment Measure (QuEM), o

qual representa o enriquecimento semântico de

conceitos entre um par de peers.

Junto com o QuEM está o critério Accumulated

Enrichment Measure (AccEM) que mede o produto

acumulado de ganhos semânticos de conceitos da

consulta no caminho para onde foi enviada.

30

Critérios de QI para Análise da Reformulação da

Consulta

Dado um par de peers P = {Pi, Pj} e uma consulta

reformulada Qj de Pi para Pj definimos a medida de

enriquecimento da seguinte maneira:

Onde |Csubj| é o número de conceitos em Qj (consulta

reformulada) os quais são sub conceitos dos

conceitos em Qi (consulta corrente).

|Csupj| é o número de conceitos em Qj que são super

conceitos dos conceitos em Qi.

31

Critérios de QI para Análise da Reformulação da

Consulta

Onde |Cclj| é o número de conceitos em Qj os quais

são conceitos aproximados dos conceitos em Qi.

|Cpwj| é o número de conceitos em Qj que são

conceitos parte/todo dos conceitos em Qi.

QuLM e AccLM também são calculados.

32

Critérios de QI para Análise da Reformulação da

Consulta

Dado um conjunto de peers P = {P1, ..., Pn} e um

conjunto de QuEM entre os pares de peers QuEM =

{QuEM1, ..., QuEMn} definimos a medida de

enriquecimento acumulado da seguinte maneira:

33

Critérios de QI para Análise da Reformulação da

Consulta

Exemplificando...

Considerando correspondências semânticas super

conceito e sub conceito

34

Critérios de QI para Análise da Reformulação da

Consulta

Considerando correspondências semânticas super

conceito e sub conceito

35

Critérios de QI para Análise da Reformulação da

Consulta

Considerando correspondências semânticas super

conceito e sub conceito

36

Critérios de QI para Análise da Reformulação da

Consulta

O caminho para o peer P4 tem uma medida de perda

semântica menor.

O caminho para o peer P3 tem uma medida de

enriquecimento semântico maior.

Caminho AccLM AccEM

P1 – P2 – P3 0,7525 1,2140

P1 – P2 – P4 0,2500 0,7820

37

Experimentos e Resultados

38

Critérios de QI – Experimentos e Resultados

PDMS SPEED

Java

Eclipse

39

SPEED - Arquitetura

O sistema SPEED é um PDMS baseado em

semântica, composto de pontos cujos esquemas

exportados são representados por ontologias.

40

Critérios de QI – Experimentos e Resultados

Ações tomadas

41

Critérios de QI – Experimentos e Resultados

42

Critérios de QI – Experimentos e Resultados

Em nosso experimento levamos em consideração:

– um conjunto de cinco peers interconectados e

compartilhando informações no domínio de educação.

– A consulta original submetida no peer P2178 foi:

Professor, Manual, Schedule, Monitor.

– Serão obtidas as medidas de perdas e enriquecimento

semânticos.

– As correspondências semânticas consideradas foram:

sub conceito (subconcept), super conceito

(superconcept), aproximação (closeto) e parte/todo

(partof/wholeof)

43

Critérios de QI – Experimentos e Resultados

De onde vem as correspondências semânticas?

– Arquivo de alinhamento para cada par de peer na

rede.

44

Critérios de QI – Experimentos e Resultados

45

Critérios de QI – Experimentos e Resultados

Par de Peers Consulta Reformulada Tipos de Conceitos Adquiridos

P2178 – P2378 Software, VisitingProfessor, Schedule,

Monitor, UndergraduateStudent,

Professor, Manual, Publication

Software closeto Manual,

VisitingProfessor subconcept of

Professor, UndergraduateStudent

superconcept of Monitor, Publication

superconcept of Manual.

P2178 – P2478 VisitingProfessor, Monitor, Professor VisitingProfessor subconcept of

Professor.

P2378- P2978 Software, Course, Schedule, Product,

Professor

Software subconcept of Product, Course

part of UndergraduateStudent, Product

superconcept of Software.

P2478 – P2578 Monitor

46

Conclusões

47

Conclusões

Neste trabalho, concebemos critérios de QI que

fornecem medidas semânticas da perda e ganho de

conceitos durante o processo de reformulação da

consulta.

48

Conclusões – Contribuições

Elucidação e definição dos termos perda semântica e

degradação da consulta;

A especificação de 4 critérios de QI para análise da

reformulação de consultas;

Validação da nossa proposta com a implementação e

experimentos no PDMS SPEED;

49

Conclusões – Trabalhos Futuros

Investigar outros critérios de QI para ser usado na

avaliação de outros elementos de um ambiente

dinâmico e distribuído;

Avaliação da qualidade dos resultados da consulta.

Implantação e teste em um ambiente real.

50

Publicações

Artigo: Souza, B. F. F. ; Salgado, A.C ; Batista, M.C.M . Critérios de

Qualidade da Informação em Reformulação de Consultas em um

PDMS: Uma Perspectiva. I Escola Paraibana de Informática, 2011,

João Pessoa.

Artigo: Souza, B. F. F. ; Batista, M.C.M ; Salgado, A.C. Semantic Loss

in Query Reformulation in Dynamic Distributed Environments. 6th

Alberto Mendelzon International Workshop on Foundations of Data

Management (AMW), 2012, Ouro Preto – MG.

Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado,

A. C. Towards an Information Quality Approach to Enhance Query

Routing Processes. 14th International Conference on Information

Integration and Web-based Applications & Services (iiWAS), 2012, Bali -

Indonesia.

Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado,

A. C. Semantic Measures as Information Quality Criteria for Query

Routing Processes. International Journal of Business Intelligence and

Data Mining, 2013.

51

MUITO OBRIGADO!!!

Defesa de Mestrado

Recife, 09 de setembro de 2013

Information Quality Criteria Analysis in Distributed

Dynamic Environments

Orientadora: Ana Carolina Salgado

Co-orientadora: Maria da Conceição M. Batista

Bruno Felipe de França Souzabffs@cin.ufpe.br

top related