esperimenti di estrazione e correlazione di concetti bis

34
Esperimenti di estrazione e correlazione di concetti A cura di Riccardo Grosso CSI-Piemonte

Upload: riccardo-grosso

Post on 13-Jun-2015

304 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Esperimenti di estrazione e correlazione di concetti bis

Esperimenti di estrazione e correlazione di concetti

A cura di Riccardo Grosso

CSI-Piemonte

Page 2: Esperimenti di estrazione e correlazione di concetti bis

Esperimenti di estrazione e correlazione di concetti

• Estrarre e derivare conoscenza dai metadati descrittivi degli oggetti dei portali

• Utilizzare criteri di somiglianza per l’estrazione della conoscenza

Page 3: Esperimenti di estrazione e correlazione di concetti bis

Esperimenti di estrazione e correlazione di concetti

• Cosa dicono i guru (fonte Zach Wahl)• La nostra interpretazione• Quali strade percorrere ? • Le esperienze fatte coi tool Bicocca in ambito

strutture dati concettuali e fisiche• I punti deboli• Le migliorie per aumentare la “intelligenza”• Le migliorie per generalizzarlo al web

Page 4: Esperimenti di estrazione e correlazione di concetti bis

Cosa dicono i guru (fonte Zach Wahl)

Page 5: Esperimenti di estrazione e correlazione di concetti bis

Cosa dicono i guru (fonte Zach Wahl)

Page 6: Esperimenti di estrazione e correlazione di concetti bis

La nostra interpretazione applicata alle basi dati

• People– Soggetto

• Places– Geografia

• Luogo • Territorio • Urbanistica

• Things– Bene– Documento

Page 7: Esperimenti di estrazione e correlazione di concetti bis

GEOGRAFIA LUOGOGEOGRAFIA LUOGO

Page 8: Esperimenti di estrazione e correlazione di concetti bis

GEOGRAFIA TERRITORIOGEOGRAFIA TERRITORIO

Page 9: Esperimenti di estrazione e correlazione di concetti bis

GEOGRAFIA URBANISTICAGEOGRAFIA URBANISTICA

Page 10: Esperimenti di estrazione e correlazione di concetti bis

BENE (COSA)BENE (COSA)

Page 11: Esperimenti di estrazione e correlazione di concetti bis

DOCUMENTO (COSA)DOCUMENTO (COSA)

Page 12: Esperimenti di estrazione e correlazione di concetti bis

SOGGETTO FISICOSOGGETTO FISICO

Page 13: Esperimenti di estrazione e correlazione di concetti bis

SOGGETTO GIURIDICO (IMPRESA)SOGGETTO GIURIDICO (IMPRESA)

Page 14: Esperimenti di estrazione e correlazione di concetti bis

SOGGETTO GIURIDICO (IMPRESA)SOGGETTO GIURIDICO (IMPRESA)

Page 15: Esperimenti di estrazione e correlazione di concetti bis

Quali strade percorrere ?

• Nelle precedenti trasparenze abbiamo visto come da un singolo concetto (es. SOGGETTO) e’ possibile, con criteri di somiglianza, verificare in quali strutture dati il concetto e’ presente

• Nelle prossime vedremo come, per ogni struttura dati, con gli stessi criteri di somiglianza, e’ possibile risalire ai concetti che la struttura dati contiene

Page 16: Esperimenti di estrazione e correlazione di concetti bis

Quali strade percorrere ?

• Ma se il focus e’ sui metadati descrittivi (nomi, descrizioni) ai quali si applicano i criteri di ricerca, cosa c’e’ di diverso tra:– Una struttura dati

• (tavola, campo)

– Un servizio descritto in un portale• (servizio, componente)

– Un filmato• (collezione, prodotto= filmato)

Page 17: Esperimenti di estrazione e correlazione di concetti bis

Quali strade percorrere ?

• In altre parole, e’ possibile sofisticare i criteri (usando il text mining ?) per far si che– Incrementando la base di conoscenza concettuale

– Facendo lavorare la base di conoscenza e i criteri su qualsiasi oggetto di portale

• Si giunga al web semantico ?• Meglio non affrettare le conclusioni…

Page 18: Esperimenti di estrazione e correlazione di concetti bis

DATA BASE

NOME,DESCTAVOLA

NOME,DESCCAMPO

(Da 1 database recupero N concetti)

CONCETTUALE

FISICO

Soggetto

Cittadino

Soggetto giuridico

Soggetto fisico/Persona fisica

Bene

Tributopaga

like “cittadin” like “tribut”

Page 19: Esperimenti di estrazione e correlazione di concetti bis

DATA BASE

NOME,DESCTAVOLA

NOME,DESCCAMPO

(Da 1 database recupero N concetti)

FISICO

CONCETTUALE

Agricoltura

Bovini

PastoriziaAllevamento

Sanità

Vaccinazioni

Text mining retrieval

Page 20: Esperimenti di estrazione e correlazione di concetti bis

PORTALEMetadati testualidegli oggetti

CONCETTUALE

FISICO

Soggetto

Cittadino

Soggetto giuridico

Soggetto fisico/Persona fisica

Bene

Tributopaga

Text mining retrieval

Oggetti del portale

Page 21: Esperimenti di estrazione e correlazione di concetti bis

PORTALEMetadati testualidegli oggetti

CONCETTUALE

FISICO

Agricoltura

Bovini

PastoriziaAllevamento

Sanità

Vaccinazioni

Text mining retrieval

Oggetti del portale

Page 22: Esperimenti di estrazione e correlazione di concetti bis

Generalizzazione

Esempio di schema nel modello Entita’ Relazione

PersonaCodice

Cognome

UomoDonna

ComuneCodiceNomenato

ProvinciaCodiceNome

in in

Le persone si dividono in donne e uomini. Le persone sono descritte da codice e cognomeLe persone sono nate in Comuni, i Comuni sono localizzati in Province e le Province in RegioniComuni, Province e Regioni hanno codice e nome

RegioneCodiceNome

Entita’Relazion

e

Attributo

Page 23: Esperimenti di estrazione e correlazione di concetti bis

Dal Cobol,al modello

Entita’ Relazione al linguaggio naturale

PersonaCodice

Cognome

UomoDonna

ComuneCodiceNomenato

ProvinciaCodiceNome

In inRegioneCodiceNome

• DATA DIVISION.

• WORKING-STORAGE SECTION.

• 01 PERSONA.

• 05 UOMo.

• 10 COD-UOMO PIC X(5).

• 10 DESC-UOMO PIC X(80).

• 05 DONNA REDEFINES UOMO.

• 10 TIPO-RECORD PIC X.

• 10 COD-DONNA PIC 9(5).

• 10 DESC-DONNA PIC X(80).

• 01 AMMINISTRAZIONE.

• 05 REGIONE.

• 10 COD-REGIONE PIC X(3).

• 10 COD-DUMMY PIC X(6).

• 10 DES-REGIONE PIC X(80).

• 05 PROVINCIA REDEFINES REGIONE.

• 10 COD-REGIONE PIC X(3).

• 10 COD-PROVINCIA PIC X(3).

• 10 COD-DUMMY2 PIC X(3).

• 10 DES-PROVINCIA PIC X(80).

• 05 COMUNE REDEFINESREGIONE.

• 10 COD-REGIONE PIC X(3).

• 10 COD-PROVINCIA PIC X(3).

• 10 COD-COMUNE PIC X(3).

• 10 DES-COMUNE PIC X(80).

• 01 PERSONA-AMMINISTRAZIONE.

• 05 LEGAME.

• 10 COD-PERSONA PIC X(5).

• 10 COD-AMMIN PIC X(3).

Le persone si dividono in donne e uomini. Le persone sono descritte da codice e cognomeLe persone sono nate in Comuni, i Comuni sono localizzati in Province e le Province in RegioniComuni, Province e Regioni hanno codice e nome

Page 24: Esperimenti di estrazione e correlazione di concetti bis

Le esperienze fatte coi tool Bicocca in ambito strutture dati

concettuali e fisiche• Versione client• Versione web (necessario XP 32-

bit)• Screenshot del tool

» screenshot.ppt

Page 25: Esperimenti di estrazione e correlazione di concetti bis

I punti deboli

• Il tool grafico scelto, cioe’ erwin– Adatto per strutture dati– Non adatto al web (non consente entita’

cliccabili - ipertesti)– Meglio http://www.musicplasma.com – Meglio ancora http://cmap.ihmc.us/

Page 26: Esperimenti di estrazione e correlazione di concetti bis

I punti deboli

• Se i metadati sono poco descritti, la riconcettualizzazione e’ debole

• Quali leve– Migliorare la qualita’ dei metadati aumentando

le descrizioni– Aumentare la base di conoscenza concettuale

del tool, la sua intelligenza, la precisione del retrieval sia sui nomi che sulle descrizioni

Page 27: Esperimenti di estrazione e correlazione di concetti bis

I punti di forza del tool

• Import gerarchie

• Presenza sul web

• Java / MySql (open source oriented)

Page 28: Esperimenti di estrazione e correlazione di concetti bis

Le migliorie per aumentare l’intelligenza

• import base di conoscenza (PAC, PAL, PAegov, nuova base di conoscenza)– import schemi

• import entita‘– Import attributi

• import generalizzazioni (gia' esistente)

• import relazioni

Page 29: Esperimenti di estrazione e correlazione di concetti bis

Parentesi su PAegov

• http://www.diviana.net– http://arianna.diviana.net/Arianna/default.asp

• Registrarsi per vedere i cataloghi oggetti e servizi

Page 30: Esperimenti di estrazione e correlazione di concetti bis

Le migliorie per generalizzarlo al web

• A questo punto, se la base di conoscenza "alta" utilizzata per la riconcettualizzazione e' generalizzabile, e' possibile fare riuso anche della parte "bassa" della base di conoscenza, cioe' i metadati descrittivi di tavole e campi.

Page 31: Esperimenti di estrazione e correlazione di concetti bis

Le migliorie per generalizzarlo al web

• Cosi' come i criteri di retrieval agiscono su

• - nomi tavole• - descrizioni tavole• - nomi campi• - descrizioni campi• generalizzando possiamo far agire i

criteri su• - nomi <OGGETTI PADRE>• - descrizioni <OGGETTI PADRE>• - nomi <OGGETTI FIGLIO>• - descrizioni <OGGETTI FIGLIO>

Page 32: Esperimenti di estrazione e correlazione di concetti bis

Le migliorie per generalizzarlo al web

• PADRE e FIGLIO possono essere oggetti metadatati e correlati censiti in un portale, ad esempio:– SERVIZIO e COMPONENTE

ARCHITETTURALE

Page 33: Esperimenti di estrazione e correlazione di concetti bis

Conclusioni

• Si vorrebbe sperimentare la strada della generalizzazione del tool Bicocca (librerie di schemi concettuali usate per il retrieval sui metadati descrittivi degli oggetti dei portali)

• Sofisticando i criteri di “retrieval” con metodi e tools di text mining

• “Accorciando” se necessario le stringhe di retrieval per migliorare il retrieval stesso sui nomi degli oggetti, ove mancano le descrizioni

Page 34: Esperimenti di estrazione e correlazione di concetti bis

Conclusioni

• Arricchendo le gerarchie di concetti, e le relazioni, anche al di sotto del valore soglia, fino ad utilizzare per il retrieval le entita’ (e criteri di retrieval associati) degli schemi base PA

• Arricchendo le gerarchie di concetti, e le relazioni, con gli schemi PA egov di Arianna-Diviana