dal web 2 al web 3
DESCRIPTION
TRANSCRIPT
Dal Web 2.0 al Web 3.0 Giacomo Veneri
Summary
IntroduzioneConcetti base di statistica inferenziale (30min)Pattern recognition short view: SVM, clustering &
Neural Network (30min)Text Mining: ontologie (OWL), Linguistica
computazionale (30min)Bayesian decision framework (30min)Esempi pratici: Bing il nuovo motore microsoft (30
min)Marketing in rete
Web
1 HTML, HTTP, XML
RDB,
PSTN
Web
2.0 AJAX, RIA
WS o Servizi Integrati
Social Network
Web
3.0 IA,
Il Web Semantico
GeoSpatial
(il 3D??)
Web 2.0 > Web 3.0 Verso il 3.0
Web 3.0 Cosa è?
Web 3.0
Autenticazio
ne Integrata
Web 2.0
Social Net
AJAX e affini
?
Tag C
louding
L’aspetto E la grafica?
Grafica Centrico
Interattivo Centrico
ContenutoCentrico
HTML, SWF, …
XML, AJAX, …
XML, OWL, …
The Winner Take All Method
Rendere efficiente la prima visita!
OnMinuteSite
Foveate Animal
shape from: IntensitiesCM
100 200 300 400 500 600 700 800
50
100
150
200
250
300
350
400
The Human Brain
Main Blocks
Top Down
Bottom-Up
Saliency of Image/scene Peripheral vision
AttentionInternal statusWorking memory
WTA on OneMinute Site
ColorCM
10 20 30 40 50
5
10
1520
25
IntensitiesCM
10 20 30 40 50
5
10
15
2025
OrientationsCM
10 20 30 40 50
5
10
1520
25
The first Fixation
shape from: Red/Green (7-3)
100 200 300 400 500 600 700 800
50
100
150
200
250
300
350
400
ColorCM
10 20 30 40 50
5
10
1520
25
IntensitiesCM
10 20 30 40 50
5
10
15
2025
OrientationsCM
10 20 30 40 50
5
10
1520
25
La prima fissazione
shape from: Red/Green (7-3)
100 200 300 400 500 600 700 800
50
100
150
200
250
300
350
400
ColorCM
10 20 30 40 50
5
10
1520
25
IntensitiesCM
10 20 30 40 50
5
10
15
2025
OrientationsCM
10 20 30 40 50
5
10
1520
25
La seconda fissazione
shape from: Gabor90.0 (8-5)
100 200 300 400 500 600 700 800
50
100
150
200
250
300
350
400
La terza fissazione
shape from: Intensity (7-4)
100 200 300 400 500 600 700 800
50
100
150
200
250
300
350
400
Dalla quarta in poi i meccanismi sono altri
Aumentare l’efficienza della prima visita
Winner Take Allhttp://ilab.usc.edu/bu/
Decidere per una macchina
Perché questa roba noiosa?
Perchè
Teorema di Bayes
Statistica inferenziale
Pattern Recognition
Neural network
SVM
Text Mining
Natural LanguageGenetic Algorithm
Web SemanticoWeb Advertising
Decidere - Classificare
SI
NOAppartenere alla classe dei SI o dei NO
Concetti base di statistica inferenziale
Perché questa roba noiosa?
Moda, Media, Mediana e Varianza
La moda è un indice di posizione ed è la modalità del carattere cui corrisponde la massima frequenza.
La mediana è quel valore della variabile che bipartisce la distribuzione ordinata delle modalità di un carattere.
La media aritmetica è l’indice statistico più utilizzato per la facilità di calcolo e per le proprietà di cui gode. Essa esprime la posizione globale di una distribuzione di frequenza.
Lo scostamento quadratico medio o deviazione standard è un indice di variabilità .
L’intervallo di confidenza è uno strumento statistico utilizzato per attribuire un giudizio di validità circa la stima dei parametri.
I test di significatività
Ci consentono di vedere se due gruppi sono diversi, in via di massima:
Variabilità tra i gruppi / Variabilità all’interno del gruppo
P = 30% >> 5%
Esempio
P = 30% >> 5%
I test non parametrici
Primo assunto: l'indipendenza dei gruppi campionari Secondo assunto: normalità delle distribuzioni Terzo assunto: omoschedasticità o omogeneità delle
varianze.
Test di Mann-Whitney (o della somma dei ranghi): due campioni indipendenti; è uno dei test non parametrici più potenti e serve a verificare se due gruppi indipendenti appartengono alla stessa popolazione. È un'alternativa molto valida al test parametrico T-Student, quando non possono considerarsi i postulati del T test, oppure la scala di misura è più debole di una scala ad intervalli.
La correlazione statistica
Per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda.
Esempio
Esercizio
Prendere Excel/SPSS/MatlabInserire dei dati relativi al numero di siti aperti
durante la settimana ordinati per giorniCalcolare, Media, Mediana, Moda, e differenza tra
siti aperti nel WE e non.Cercare la correlazione con i giorni
Pattern Recognition
Classificare
Il clustering
Tutte le tecniche di clustering si basano sul concetto di distanza tra due elementi.
La bontà delle analisi ottenute dagli algoritmi di clustering dipende molto dalla scelta della metrica, e quindi da come è calcolata la distanza.
Tree classifier
Le tecniche di clustering gerarchico non producono un partizionamento flat dei punti, ma una rappresentazione gerarchica ad albero.
Esercizio
SVM
Una SVM è un classificatore binario che apprende il confine fra esempi appartenenti a due diverse classi.
Funziona proiettando gli esempi in uno spazio multidimensionale e cercando un iperpiano di separazione in questo spazio.
L'iperpiano di separazione massimizza la sua distanza (il “margine”) dagli esempi di training più vicini.
K-Mean
Neural Network
Una rete neurale artificiale (ANN "Artificial Neural Network" in inglese), normalmente è chiamata solo "rete neurale" (NN "Neural Network" in inglese), ed è un modello matematico/informatico di calcolo basato sulle reti neurali biologiche. Tale modello è costituito da un gruppo di interconnessioni di informazioni costituite da neuroni artificiali e processi che utilizzano un approccio di connessionismo di calcolo. Nella maggior parte dei casi una rete neurale artificiale è un sistema adattivo che cambia la sua struttura basata su informazioni esterne o interne che scorrono attraverso la rete durante la fase di apprendimento.
Applicazione pratica - Weka
Weka 3: Data Mining Software in Java
Creare dei servizi Qualificati sulla base del contenuto del sito del cliente
Il futuro dei motori di ricerca
L’intelligenza in un sito
Bing Alpha
Bing sfrutterà l’inferenza Bayesiana per decidere la pubblicità
Owl vs Bayesian Inference
Text Mining
Classificare il testo
Concetti Base - NL
Ti racconto quello che mi è successo nella vitaTi racconto il successo che ho avuto nella mia
vitaLemmatizzazione: successo voce del verbo
succedere o successo sostantivoDisambiguazione
Analisi sintattica: «IO» soggetto, «racconto» verbo …
Analisi semantica: successo nel senso di succedere
Text Mining
Il text mining è la disciplina che regola l’apprendimento di un testo sulla base di concetti statistici.
Stop word: il, lo, la, i gliVerbi ausiliariFrequenza della parola nel contesto:
«avvenire»,»dare», «lavoro»Keyword: «Pinocchio», «Sintra»
Lucene
http://lucene.apache.org
Lucene Analyzer
IndexSearcher is = new IndexSearcher(indexDirectory);
Analyzer analyzer = new StandardAnalyzer();
QueryParser parser = new QueryParser("article", analyzer);
Query query = parser.parse(searchCriteria); Hits hits = is.search(query);
for (int i=0; i<hits.length(); i++) { Document doc = hits.doc(i); // display the articles that were found to the user } is.close();
Indexer
Document document = new Document(); document.add(Field.Text("author", author)); document.add(Field.Text("title", title)); document.add(Field.Text("topic", topic)); document.add(Field.UnIndexed("url", url)); document.add(Field.Keyword("date", dateWritten)); document.add(Field.UnStored("article", article)); return document;
Analyzer analyzer = new StandardAnalyzer(); IndexWriter writer = new IndexWriter(indexDirectory, analyzer, false); writer.addDocument(document); writer.optimize(); writer.close();
Ontology, semantic and text mining
Il web semantico
Ontologie come base di conoscenza avente dati strutturati
Estrazione dati Inferire nuova conoscenza
Ragionamento
Ragionamento automatico che sfrutta opportuni linguaggi di query per ontologie (SQL, SeRQL, SPARQL) per estrarre dati e rendere esplicita conoscenza implicita
Ragionamento inteso come inferenza finalizzato a produrre nuova conoscenza attraverso i linguaggi di reasoning dei SW (SWRL, RuleML, Fuzzy RuleML)
Query and Reasoning Tools (Sesame, Jena, Racer, …)
I Linguaggi
A livello di sintassi (alberi e non grafi, mentre l’rdf e’ un grafo. si perdono quindi le relazioni fra le risorse)[XQuery ]
A livello di struttura (si interrogano le triple sogg-predicato-oggetto direttamente a livello di data model, ma vengono recuperate dalla query solo asserzioni esplicite) [Squish ]
La struttura OWL<?xml version="1.0"?><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns="http://www.owl-ontologies.com/unnamed.owl#" xml:base="http://www.owl-ontologies.com/unnamed.owl"> <owl:Ontology rdf:about=""/> <owl:Class rdf:ID="maschio"> <owl:disjointWith> <owl:Class rdf:ID="femmina"/> </owl:disjointWith> <rdfs:subClassOf> <owl:Class rdf:ID="persona"/> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:about="#femmina"> <rdfs:subClassOf rdf:resource="#persona"/> <owl:disjointWith rdf:resource="#maschio"/> </owl:Class> <owl:ObjectProperty rdf:ID="amicoDi"> <rdfs:domain rdf:resource="#persona"/> <rdfs:range rdf:resource="#persona"/> </owl:ObjectProperty>
<owl:ObjectProperty rdf:ID="ama"> <rdfs:domain rdf:resource="#persona"/> <rdfs:range rdf:resource="#persona"/> </owl:ObjectProperty> <persona rdf:ID="John"><amicoDi> <femmina rdf:ID="Susan"> <ama rdf:resource="#Andrea"/> </femmina> </amicoDi> </persona></rdf:RDF>
AMICIZIA(Femmina( AMARE Maschio))
John
<persona rdf:ID="John"> <amicoDi> <femmina rdf:ID =“Susan">
<femmina rdf:ID="Susan"><ama rdf:resource="#Andrea"/>
SeRQL (Sesame RDF Query Language)
5 condizioni: SELECT, FROM, WHERE, LIMIT, OFFSET
SELECT-FROM
In una query di select –from si specificano quali valori devono essere restituiti, da dove e in quale ordine.
WHERECondizione opzionale che specifica i paths del grafo RDF che sono rilevanti
nella query
select Churchfrom {Place} test:has_place_name {Church};[test:has_style {Style}]where Style like "Baroque"using namespace mis = <http://www.di.unito.it/~carmagno/mis.txt>
OWL
The OWL Web Ontology Language is designed for use by applications that need to process the content of information instead of just presenting information to humans. OWL facilitates greater machine interpretability of Web content than that supported by XML, RDF, and RDF Schema (RDF-S) by providing additional vocabulary along with a formal semantics. OWL has three increasingly-expressive sublanguages: OWL Lite, OWL DL, and OWL Full.
Fuzzy Rule ML
• Necessità di gestione dell’incertezza nel Semantic Web.
• In Fuzzy RuleML, si specifica nei fatti un “grado di importanza” (peso) degli antecedenti in relazione al conseguente.
Esempio:
Ricchezza (? p) 0.5 ^ Salute (? p) 0.9 -> Felicità (? p),
dove Ricchezza , Salute e Felicità sono predicati fuzzy
Application
OWL API – in JAVA WordNet è un database semantico-lessicale per la lingua inglese elaborato dal linguista
George Armitage Miller presso l'Università di Princeton, che si propone di organizzare, definire e descrivere i concetti espressi dai vocaboli.
• Bossam, a RETE-based rule engine with native supports for reasoning over OWL ontologies, SWRL rules, and RuleML rules. Queries in Buchingae language;
• Hoolet, an implementation of an OWL-DL reasoner (rules encoded in SWRL); • Pellet, an open-source Java OWL DL reasoner (rules encoded in SWRL, queries in
SPARQL); • KAON2 is an infrastructure for managing OWL-DL, SWRL, and F-Logic ontologies (rules
encoded in SWRL, queries in SPARQL); • FaCT, a description logic (DL) classifier e FaCT++, the new generation of FaCT OWL-DL
reasoner; • SweetRules, an integrated set of tools for Semantic web rules and ontologies (rules
encoded in SWRL); RACER PRO , a semantic web reasoning system and information repository; Jena (framework), an open source semantic web framework for Java; Sesame an open source semantic web framework for Java.