estrazione ontologie da sentenze di mafia -...

32
LORENZO DI SILVESTRO www.dmi.unict.it/~disilvestro [email protected] Estrazione ontologie da sentenze di Mafia

Upload: others

Post on 24-Mar-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

L O R E N Z O D I S I L V E S T R O

w w w . d m i . u n i c t . i t / ~ d i s i l v e s t r o

d i s i l v e s t r o @ d m i . u n i c t . i t

Estrazione ontologie da sentenze di Mafia

Page 2: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

I dati

Estrazione ontologie da sentenze di mafia

Circa 900 sentenze penali

Diventate irrevocabili in ogni ordine e gradoper almeno un imputato

Dal 2000 al 2006

Nei 4 Distretti giudiziari siciliani, per idelitti di competenza delle DirezioniDistrettuali Antimafia

[email protected]

Page 3: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Semantic Web

Estrazione ontologie da sentenze di mafia [email protected]

Page 4: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Semantic Web Cake

Estrazione ontologie da sentenze di mafia [email protected]

Page 5: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Unicode, URI e XML

Estrazione ontologie da sentenze di mafia

Unicode: standard internazionale per la definizione di una rappresentazione univoca dei caratteri

URI: stringa che identifica univocamente una risorsa

XML: standard de facto per la condivisione di documenti sul web

[email protected]

Page 6: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

XML

Estrazione ontologie da sentenze di mafia

Meno oneroso il lavoro di un parser perl’individuazione di relazioni tra i soggettidella sentenza

Facilita la pubblicazione sul web el’esportazione in diversi formati

Interoperabilità con altre banche dati a temagiuridico

[email protected]

Page 7: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

XML giuridico

Estrazione ontologie da sentenze di mafia

Progetto NormeInRete, finanziato dall’AIPA (Autorità per l’Informatica nella Pubblica Amministrazione)

Standard XML per documenti giuridici Leggi

Decreti legislativi

Decreti ministeriali

Definiti da opportuni DTD

I dati sono disponibili sul portale www.normattiva.it

[email protected]

Page 8: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

XML per sentenze penali

Estrazione ontologie da sentenze di mafia

Non esiste alcuno standardMa …

www.processotelematico.giustizia.itPerò …

Modello sperimentale

Per la redazione di vari documenti prodotti durante il processo

Quindi …

Schema ad hoc

[email protected]

Page 9: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Conversione XML

Estrazione ontologie da sentenze di mafia

Tecnologie:

Jlex (generatore di analizzatori lessicali)

CUP (generatore di parser LALR)

Fasi:

Individuazione di una semantica formale (?)

Definizione di uno XML Schema

[email protected]

Page 10: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Conversione XML

Estrazione ontologie da sentenze di mafia [email protected]

Page 11: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Conversione XML

Estrazione ontologie da sentenze di mafia [email protected]

Page 12: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Conversione XML

Estrazione ontologie da sentenze di mafia [email protected]

Page 13: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Conversione XML

Estrazione ontologie da sentenze di mafia [email protected]

Page 14: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Conversione XML

Estrazione ontologie da sentenze di mafia [email protected]

Page 15: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

XSL

Estrazione ontologie da sentenze di mafia [email protected]

Page 16: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

XSL

Estrazione ontologie da sentenze di mafia [email protected]

Page 17: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

XSL

Estrazione ontologie da sentenze di mafia [email protected]

Page 18: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Output

Estrazione ontologie da sentenze di mafia [email protected]

Page 19: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Namespace, XML Schema, XML Query

Estrazione ontologie da sentenze di mafia

Namespaces: serve a qualificare e disambiguare tag eattributi in un documento XML mediante degli URI,rendendoli quindi univoci sul web.

XML Schema: serve a definire la struttura di undocumento XML. Oggi il W3C consiglia di adottarlo alposto della DTD stessa, essendo una tecnica più recenteed avanzata.

XML Query: è un linguaggio di query concepito peressere applicabile a qualsiasi sorta di documento XML e sibasa sull'utilizzo di XPath per la specificazione di percorsiall'interno di documenti. XQuery ha funzionalità checonsentono di poter attingere da fonti di dati multiple perla ricerca, per filtrare i documenti o riunire i contenuti diinteresse.

[email protected]

Page 20: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

eXist

Estrazione ontologie da sentenze di mafia

Sviluppato da Wolfgang Meier nel 2000Open source NXD ( Native XML Database )XQuery 1.0/XPath 2.0/XSLT 1.0 e XSLT 2.0 Apache Lucene Portabile (Java + web based)Modulare Ben documentato Aggiornato

[email protected]

Page 21: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

RDF

Estrazione ontologie da sentenze di mafia

Il Resource Description Framework (RDF) è lo strumento base proposto da W3C per la codifica, lo scambio e il riutilizzo di metadati strutturati e consente l'interoperabilità tra applicazioni che si scambiano informazioni sul Web.

È costituito da due componenti: RDF Model and Syntax: espone la struttura del

modello RDF, e descrive una possibile sintassi.

RDF Schema: espone la sintassi per definire schemi e vocabolari per i metadati.

[email protected]

Page 22: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

RDF (2)

Estrazione ontologie da sentenze di mafia

L'unità base per rappresentare un'informazione in RDF è lo statement.

Uno statement è una tripla del tipo

Soggetto – Predicato – Oggetto

il soggetto è una risorsa

il predicato è una proprietà

l'oggetto è un valore (e quindi anche un URI che punta ad un'altra risorsa)

[email protected]

Page 23: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Esempio RDF

Estrazione ontologie da sentenze di mafia [email protected]

Sentenza N.0351/2006

Lorenzo Di Silvestro

Page 24: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Esempio RDF

Estrazione ontologie da sentenze di mafia [email protected]

Sentenza N.0351/2006

Lorenzo Di Silvestro

DSLLNZ28F12C594J

[email protected]

Page 25: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

OWL

Estrazione ontologie da sentenze di mafia

Ontology Web Language (OWL) è un linguaggiodi markup per rappresentare esplicitamentesignificato e semantica di termini con vocabolari erelazioni tra gli stessi.

Lo scopo di OWL è descrivere delle basi diconoscenza, effettuare delle deduzioni su di esse eintegrarle con i contenuti delle pagine web.

La rappresentazione dei termini e delle relativerelazioni è chiamata ontologia.

[email protected]

Page 26: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Ontologia

Estrazione ontologie da sentenze di mafia

Rappresentazione formale, condivisa ed esplicita di una concettualizzazione di un dominio di interesse.

Teoria assiomatica del primo ordine esprimibile in una logica descrittiva.

Applicate nel campo dell'intelligenza artificiale,nella rappresentazione e condivisione dellaconoscenza.

Ragionamento deduttivo, classificazione, tecniche di problem solving

[email protected]

Page 27: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Tassonomie

Estrazione ontologie da sentenze di mafia

L’induzione di tassonomie da testi è oggetto dinotevole interesse, tale processo prevede losviluppo di sistemi finalizzati all’inferenza diregole e assiomi da testo.

L’apprendimento automatico procedeattraverso l’utilizzo di metodologie perl’acquisizione di conoscenza alle qualicorrispondono algoritmi di complessitàcrescente, il cui stato dell’arte è lontanodall’avere trovato una soluzione definitiva.

[email protected]

Page 28: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Fasi dell’induzione automatica

Estrazione ontologie da sentenze di mafia

Estrazione automatica di terminologia

Riconoscimento dei sinonimi, in genere effettuatoutilizzando la misura della similitudinedistribuzionale (Dagan, 2000)

Popolazione della base di conoscenza per cui èpossibile utilizzare tecnologie basate su bootstrap daesempi (Fleischman e Hovy, 2002) o metodolgiebasate sul riconoscimento della similitudinedistribuzionale (Cimiano e Völker, 2005)

Sviluppo di sistemi finalizzati all’inferenza di regole eassiomi da testo

[email protected]

Page 29: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Problematiche

Estrazione ontologie da sentenze di mafia

Questo campo è stato ancora scarsamenteesplorato, ma sta divenendo oggetto di crescenteinteresse in letteratura, in quanto l’acquisizionedi regole di inferenza è certamente un aspettofondamentale legato al riconoscimentodell’implicazione nel testo (Dagan et al., 2005)

L’identificazione di tali proprietà è di importanzacruciale per attivare processi di ragionamentoautomatico

[email protected]

Page 30: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Fasi

Estrazione ontologie da sentenze di mafia

Traduzione secondo standard XML

Estrazione automatica delle informazioni

Definizione di conoscenza RDF

OWL

Reasoning

[email protected]

Page 31: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Stage e Tesi

Estrazione ontologie da sentenze di mafia

Conversione dati

Classificazione documenti

Interfaccia web d’interrogazione

D2R a tool for publishing relational databases on the Semantic Web

Algoritmi sui grafi

Reasoning automatico

[email protected]

Page 32: Estrazione Ontologie da Sentenze di Mafia - unict.itbattiato/CF1011/EstrazioneOntologieDaSentenzeDiMafia.pdf · I dati Estrazione ontologie da sentenze di mafia Circa 900 sentenze

Riferimenti

Estrazione ontologie da sentenze di mafia [email protected]

Berners-Lee, Hendler , Lassila. 2001. The Semantic Web: anew form of Web content that is meaningful to computers willunleash a revolution of new possibilities (Scientific American)

Dagan. 2000. Contextual word similarity. In Handbook ofNatural Language Processing, chapter 19, pages 459–476 (MarcelDekker Inc.)

Deerwester, Dumais, Furnas, Landauer. 1990. Indexingby latent semantic analysis. Journal of the American Society ofInformation Science

Gliozzo, Strapparava, Dagan. 2005. InvestigatingUnsupervised Learning for Text Categorization Bootstrapping. InProceedings of EMNLP-2005

Staab, Studer. 2004. Handbook on Ontologies (Springer) Signore. 2002. RDF per la rappresentazione della conoscenza.

KM2002, Conference Proceedings.