dal web 2 al web 3

Dal Web 2.0 al Web 3.0 Giacomo Veneri

Summary

IntroduzioneConcetti base di statistica inferenziale (30min)Pattern recognition short view: SVM, clustering &

Neural Network (30min)Text Mining: ontologie (OWL), Linguistica

computazionale (30min)Bayesian decision framework (30min)Esempi pratici: Bing il nuovo motore microsoft (30

min)Marketing in rete

Web

1 HTML, HTTP, XML

RDB,

PSTN

Web

2.0 AJAX, RIA

WS o Servizi Integrati

Social Network

Web

3.0 IA,

Il Web Semantico

GeoSpatial

(il 3D??)

Web 2.0 > Web 3.0 Verso il 3.0

Web 3.0 Cosa è?

Web 3.0

Autenticazio

ne Integrata

Web 2.0

Social Net

AJAX e affini

?

Tag C

louding

L’aspetto E la grafica?

Grafica Centrico

Interattivo Centrico

ContenutoCentrico

HTML, SWF, …

XML, AJAX, …

XML, OWL, …

The Winner Take All Method

Rendere efficiente la prima visita!

OnMinuteSite

Foveate Animal

shape from: IntensitiesCM

100 200 300 400 500 600 700 800

50

100

150

200

250

300

350

400

The Human Brain

Main Blocks

Top Down

Bottom-Up

Saliency of Image/scene Peripheral vision

AttentionInternal statusWorking memory

WTA on OneMinute Site

ColorCM

10 20 30 40 50

5

10

1520

25

IntensitiesCM

10 20 30 40 50

5

10

15

2025

OrientationsCM

10 20 30 40 50

5

10

1520

25

The first Fixation

shape from: Red/Green (7-3)

100 200 300 400 500 600 700 800

50

100

150

200

250

300

350

400

ColorCM

10 20 30 40 50

5

10

1520

25

IntensitiesCM

10 20 30 40 50

5

10

15

2025

OrientationsCM

10 20 30 40 50

5

10

1520

25

La prima fissazione

shape from: Red/Green (7-3)

100 200 300 400 500 600 700 800

50

100

150

200

250

300

350

400

ColorCM

10 20 30 40 50

5

10

1520

25

IntensitiesCM

10 20 30 40 50

5

10

15

2025

OrientationsCM

10 20 30 40 50

5

10

1520

25

La seconda fissazione

shape from: Gabor90.0 (8-5)

100 200 300 400 500 600 700 800

50

100

150

200

250

300

350

400

La terza fissazione

shape from: Intensity (7-4)

100 200 300 400 500 600 700 800

50

100

150

200

250

300

350

400

Dalla quarta in poi i meccanismi sono altri

Aumentare l’efficienza della prima visita

Winner Take Allhttp://ilab.usc.edu/bu/

Decidere per una macchina

Perché questa roba noiosa?

Perchè

Teorema di Bayes

Statistica inferenziale

Pattern Recognition

Neural network

SVM

Text Mining

Natural LanguageGenetic Algorithm

Web SemanticoWeb Advertising

Decidere - Classificare

SI

NOAppartenere alla classe dei SI o dei NO

Concetti base di statistica inferenziale

Perché questa roba noiosa?

Moda, Media, Mediana e Varianza

La moda è un indice di posizione ed è la modalità del carattere cui corrisponde la massima frequenza.

La mediana è quel valore della variabile che bipartisce la distribuzione ordinata delle modalità di un carattere.

La media aritmetica è l’indice statistico più utilizzato per la facilità di calcolo e per le proprietà di cui gode. Essa esprime la posizione globale di una distribuzione di frequenza.

Lo scostamento quadratico medio o deviazione standard è un indice di variabilità .

L’intervallo di confidenza è uno strumento statistico utilizzato per attribuire un giudizio di validità circa la stima dei parametri.

I test di significatività

Ci consentono di vedere se due gruppi sono diversi, in via di massima:

Variabilità tra i gruppi / Variabilità all’interno del gruppo

P = 30% >> 5%

Esempio

P = 30% >> 5%

I test non parametrici

Primo assunto: l'indipendenza dei gruppi campionari Secondo assunto: normalità delle distribuzioni Terzo assunto: omoschedasticità o omogeneità delle

varianze.

Test di Mann-Whitney (o della somma dei ranghi): due campioni indipendenti; è uno dei test non parametrici più potenti e serve a verificare se due gruppi indipendenti appartengono alla stessa popolazione. È un'alternativa molto valida al test parametrico T-Student, quando non possono considerarsi i postulati del T test, oppure la scala di misura è più debole di una scala ad intervalli.

La correlazione statistica

Per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda.

Esempio

Esercizio

Prendere Excel/SPSS/MatlabInserire dei dati relativi al numero di siti aperti

durante la settimana ordinati per giorniCalcolare, Media, Mediana, Moda, e differenza tra

siti aperti nel WE e non.Cercare la correlazione con i giorni

Pattern Recognition

Classificare

Il clustering

Tutte le tecniche di clustering si basano sul concetto di distanza tra due elementi.

La bontà delle analisi ottenute dagli algoritmi di clustering dipende molto dalla scelta della metrica, e quindi da come è calcolata la distanza.

Tree classifier

Le tecniche di clustering gerarchico non producono un partizionamento flat dei punti, ma una rappresentazione gerarchica ad albero.

Esercizio

SVM

Una SVM è un classificatore binario che apprende il confine fra esempi appartenenti a due diverse classi.

Funziona proiettando gli esempi in uno spazio multidimensionale e cercando un iperpiano di separazione in questo spazio.

L'iperpiano di separazione massimizza la sua distanza (il “margine”) dagli esempi di training più vicini.

K-Mean

Neural Network

Una rete neurale artificiale (ANN "Artificial Neural Network" in inglese), normalmente è chiamata solo "rete neurale" (NN "Neural Network" in inglese), ed è un modello matematico/informatico di calcolo basato sulle reti neurali biologiche. Tale modello è costituito da un gruppo di interconnessioni di informazioni costituite da neuroni artificiali e processi che utilizzano un approccio di connessionismo di calcolo. Nella maggior parte dei casi una rete neurale artificiale è un sistema adattivo che cambia la sua struttura basata su informazioni esterne o interne che scorrono attraverso la rete durante la fase di apprendimento.

Applicazione pratica - Weka

Weka 3: Data Mining Software in Java

Creare dei servizi Qualificati sulla base del contenuto del sito del cliente

Il futuro dei motori di ricerca

L’intelligenza in un sito

Bing Alpha

Bing sfrutterà l’inferenza Bayesiana per decidere la pubblicità

Owl vs Bayesian Inference

Text Mining

Classificare il testo

Concetti Base - NL

Ti racconto quello che mi è successo nella vitaTi racconto il successo che ho avuto nella mia

vitaLemmatizzazione: successo voce del verbo

succedere o successo sostantivoDisambiguazione

Analisi sintattica: «IO» soggetto, «racconto» verbo …

Analisi semantica: successo nel senso di succedere

Text Mining

Il text mining è la disciplina che regola l’apprendimento di un testo sulla base di concetti statistici.

Stop word: il, lo, la, i gliVerbi ausiliariFrequenza della parola nel contesto:

«avvenire»,»dare», «lavoro»Keyword: «Pinocchio», «Sintra»

Lucene

http://lucene.apache.org

Lucene Analyzer

IndexSearcher is = new IndexSearcher(indexDirectory);

Analyzer analyzer = new StandardAnalyzer();

QueryParser parser = new QueryParser("article", analyzer);

Query query = parser.parse(searchCriteria); Hits hits = is.search(query);

for (int i=0; i<hits.length(); i++) { Document doc = hits.doc(i); // display the articles that were found to the user } is.close();

Indexer

Document document = new Document(); document.add(Field.Text("author", author)); document.add(Field.Text("title", title)); document.add(Field.Text("topic", topic)); document.add(Field.UnIndexed("url", url)); document.add(Field.Keyword("date", dateWritten)); document.add(Field.UnStored("article", article)); return document;

Analyzer analyzer = new StandardAnalyzer(); IndexWriter writer = new IndexWriter(indexDirectory, analyzer, false); writer.addDocument(document); writer.optimize(); writer.close();

Ontology, semantic and text mining

Il web semantico

Ontologie come base di conoscenza avente dati strutturati

Estrazione dati Inferire nuova conoscenza

Ragionamento

Ragionamento automatico che sfrutta opportuni linguaggi di query per ontologie (SQL, SeRQL, SPARQL) per estrarre dati e rendere esplicita conoscenza implicita

Ragionamento inteso come inferenza finalizzato a produrre nuova conoscenza attraverso i linguaggi di reasoning dei SW (SWRL, RuleML, Fuzzy RuleML)

Query and Reasoning Tools (Sesame, Jena, Racer, …)

I Linguaggi

A livello di sintassi (alberi e non grafi, mentre l’rdf e’ un grafo. si perdono quindi le relazioni fra le risorse)[XQuery ]

A livello di struttura (si interrogano le triple sogg-predicato-oggetto direttamente a livello di data model, ma vengono recuperate dalla query solo asserzioni esplicite) [Squish ]

La struttura OWL<?xml version="1.0"?><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns="http://www.owl-ontologies.com/unnamed.owl#" xml:base="http://www.owl-ontologies.com/unnamed.owl"> <owl:Ontology rdf:about=""/> <owl:Class rdf:ID="maschio"> <owl:disjointWith> <owl:Class rdf:ID="femmina"/> </owl:disjointWith> <rdfs:subClassOf> <owl:Class rdf:ID="persona"/> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:about="#femmina"> <rdfs:subClassOf rdf:resource="#persona"/> <owl:disjointWith rdf:resource="#maschio"/> </owl:Class> <owl:ObjectProperty rdf:ID="amicoDi"> <rdfs:domain rdf:resource="#persona"/> <rdfs:range rdf:resource="#persona"/> </owl:ObjectProperty>

<owl:ObjectProperty rdf:ID="ama"> <rdfs:domain rdf:resource="#persona"/> <rdfs:range rdf:resource="#persona"/> </owl:ObjectProperty> <persona rdf:ID="John"><amicoDi> <femmina rdf:ID="Susan"> <ama rdf:resource="#Andrea"/> </femmina> </amicoDi> </persona></rdf:RDF>

AMICIZIA(Femmina( AMARE Maschio))

John

<persona rdf:ID="John"> <amicoDi> <femmina rdf:ID =“Susan">

<femmina rdf:ID="Susan"><ama rdf:resource="#Andrea"/>

SeRQL (Sesame RDF Query Language)

5 condizioni: SELECT, FROM, WHERE, LIMIT, OFFSET

SELECT-FROM

In una query di select –from si specificano quali valori devono essere restituiti, da dove e in quale ordine.

WHERECondizione opzionale che specifica i paths del grafo RDF che sono rilevanti

nella query

select Churchfrom {Place} test:has_place_name {Church};[test:has_style {Style}]where Style like "Baroque"using namespace mis = <http://www.di.unito.it/~carmagno/mis.txt>

OWL

The OWL Web Ontology Language is designed for use by applications that need to process the content of information instead of just presenting information to humans. OWL facilitates greater machine interpretability of Web content than that supported by XML, RDF, and RDF Schema (RDF-S) by providing additional vocabulary along with a formal semantics. OWL has three increasingly-expressive sublanguages: OWL Lite, OWL DL, and OWL Full.

Fuzzy Rule ML

• Necessità di gestione dell’incertezza nel Semantic Web.

• In Fuzzy RuleML, si specifica nei fatti un “grado di importanza” (peso) degli antecedenti in relazione al conseguente.

Esempio:

Ricchezza (? p) 0.5 ^ Salute (? p) 0.9 -> Felicità (? p),

dove Ricchezza , Salute e Felicità sono predicati fuzzy

Application

OWL API – in JAVA WordNet è un database semantico-lessicale per la lingua inglese elaborato dal linguista

George Armitage Miller presso l'Università di Princeton, che si propone di organizzare, definire e descrivere i concetti espressi dai vocaboli.

• Bossam, a RETE-based rule engine with native supports for reasoning over OWL ontologies, SWRL rules, and RuleML rules. Queries in Buchingae language;

• Hoolet, an implementation of an OWL-DL reasoner (rules encoded in SWRL); • Pellet, an open-source Java OWL DL reasoner (rules encoded in SWRL, queries in

SPARQL); • KAON2 is an infrastructure for managing OWL-DL, SWRL, and F-Logic ontologies (rules

encoded in SWRL, queries in SPARQL); • FaCT, a description logic (DL) classifier e FaCT++, the new generation of FaCT OWL-DL

reasoner; • SweetRules, an integrated set of tools for Semantic web rules and ontologies (rules

encoded in SWRL); RACER PRO , a semantic web reasoning system and information repository; Jena (framework), an open source semantic web framework for Java; Sesame an open source semantic web framework for Java.

Dal Web 2.0 al Web 3.0

[email protected]@unisi.it

Giacomo Veneri

dal web 2 al web 3

Education