presentazione ufficiale splittata
TRANSCRIPT
&
Sviluppo sistema iTag
1
Studio del sistema
Implementazione similarità
Valutazione qualità
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
2
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
IMMAGINI
2
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
IMMAGINI
VIDEO
2
Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:
IMMAGINI
VIDEO
SITI WEB
2
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)
3
“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)
In informatica, la similarità viene implementata
attraverso il concetto matematico di DISTANZA
3
“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)
In informatica, la similarità viene implementata
attraverso il concetto matematico di DISTANZA
3
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
FONTI ETEROGENEE
4
FONTI ETEROGENEE
4
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
4
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
4
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
RUMOROSI
4
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
INCONSISTENTI
RUMOROSI
4
PERCHÈ si effettua la pulizia? Molto spesso i dati sono
INCOMPLETI
INCONSISTENTI
RUMOROSI
Passi principali:
• Pulizia: levigare il rumore nei dati, risolvere le inconsistenze
• Integrazione: più fonti eterogenee vengono unite
• Riduzione: diminuire il volume del dataset
4
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
5
elemento taggato (foto, video, sito web)
piattaforma online che favorisce il contributo
degli utenti dietro incentivo economico
sistema di social bookmarking
RISORSA
DATASET
POST
DELICIOUS
CROWDSOURCING
insieme di tag dati di una risorsa
insieme di risorse, ognuna con i suoi post
5
Ogni risorsa alla quale è possibile applicare tag può risultare:
• Sovrataggata (per le più popolari)
• Sottotaggata
6
In questo modo quando un
utente effettua una ricerca
Non tutte le risorse vengono
mostrate ricerca inefficiente
6
• Sottotaggata
6
Aumentare la QUALITA’ del dataset
DATASET
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
DATASET
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
DATASET
iTAG CREA I LAVORI
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
DATASET
iTAG CREA I LAVORI
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
DATASET
iTAG CREA I LAVORI
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
DATASET
iTAG CREA I LAVORI
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
DATASET
iTAG CREA I LAVORI
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
DATASET
iTAG CREA I LAVORI
VIENE CONSEGNATO L’INCENTIVO
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
DATASET
iTAG CREA I LAVORI
VIENE CONSEGNATO L’INCENTIVO
LAVORO COMPLETATO
CROWDSOURCING
i-Tag
MOTORE DI INCENTIVI7
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
I passi sono stati:
• Analizzare iTag
• Cercare aspetti da migliorare
• Ho fatto alcune proposte:
8
I passi sono stati:
• Analizzare iTag
• Cercare aspetti da migliorare
• Ho fatto alcune proposte:
Feedback
8
I passi sono stati:
• Analizzare iTag
• Cercare aspetti da migliorare
• Ho fatto alcune proposte:
Similarità
Feedback
8
I passi sono stati:
• Analizzare iTag
• Cercare aspetti da migliorare
• Ho fatto alcune proposte:
Similarità
Feedback
Differenziazione incentivi
8
Similarità
8
Argomento approvato:
Le tre misure di similarità che ho scelto sono state:
9
Le tre misure di similarità che ho scelto sono state:
Similarità del Coseno
9
Le tre misure di similarità che ho scelto sono state:
Similarità del Coseno
Coefficiente di Dice
9
Le tre misure di similarità che ho scelto sono state:
Similarità del Coseno
Coefficiente di Dice
Similarità di Jacquard
9
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
10
Fonte: Delicious
10
Fonte: Delicious
Inizialmente i files, relativi ad 1 mese di utilizzo,
erano 4 da circa 10 GB ciascuno (40GB totali)
10
Fonte: Delicious
Inizialmente i files, relativi ad 1 mese di utilizzo,
erano 4 da circa 10 GB ciascuno (40GB totali)
Dopo le operazioni di pulizia e filtraggio del dataset,
le dimensioni si sono ridotte a 100MB
10
11
Ogni linea è una risorsa
11
Per ogni risorsa, la prima cifra
rappresenta il numero di post Ogni linea è una risorsa
11
Per ogni risorsa, la prima cifra
rappresenta il numero di post Ogni linea è una risorsa
11
Per ogni risorsa, la prima cifra
rappresenta il numero di post Ogni linea è una risorsa
11
Per ogni risorsa, la prima cifra
rappresenta il numero di post
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
Ogni linea è una risorsa
11
Per ogni risorsa, la prima cifra
rappresenta il numero di post
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
Ogni linea è una risorsa
11
Per ogni risorsa, la prima cifra
rappresenta il numero di post
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
Ogni linea è una risorsa
129
8
7
65
4
3
11
Per ogni risorsa, la prima cifra
rappresenta il numero di post
Le cifre dentro al post
rappresentano l’ID del tag
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
Ogni linea è una risorsa
129
8
7
65
4
3
11
Per ogni risorsa, la prima cifra
rappresenta il numero di post
Le cifre dentro al post
rappresentano l’ID del tag
Per ogni post, la prima cifra rappresenta il
numero di tag dentro al post
Ogni linea è una risorsa
129
8
7
65
4
3
“viaggi”11
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
12
finestra (quantità di post) utilizzata per valutare la stabilità
vettore di frequenze relative di ogni tag
STABILITÀ
w
QUALITÀ
RFD
DP
B
si ha quando il livello di informazioni per la risorsa è sufficiente
si ha quando le informazioni della risorsa superano la soglia di stabilità
algoritmo ottimo per generare gli assegnamenti delle risorse
Budget stanziato dal provider per l’incremento della qualità
12
4 X 10GB
DATASET ORIGINALE
13
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
13
CARATTERISTICHE:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
13
CARATTERISTICHE:
spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricetta
13
CARATTERISTICHE:
spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
QUESTO E’ IL RUMORE
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricetta
13
CARATTERISTICHE:
spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
QUESTO E’ IL RUMORE
r4sa334
sidofhbdjnopf
3dfasgg5
pasta
cucina
ricettaRIDUZIONE RUMORE
13
CARATTERISTICHE:
spaghetti
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RUMORE: DATI SPORCHI
Guardiamo i seguenti tag:
pasta
cucina
ricetta
13
CARATTERISTICHE:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
13
CARATTERISTICHE:
spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
cucina
pasta
pasta
spaghetti
13
CARATTERISTICHE:
spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
cucina
pasta
pasta
spaghetti
QUESTA E’ LA RIDONDANZA13
CARATTERISTICHE:
spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
cucina
pasta
pasta
spaghetti
QUESTA E’ LA RIDONDANZA
RIDUZIONE RIDONDANZA
13
CARATTERISTICHE:
spaghetti
Guardiamo i seguenti tag:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
RIDONDANZA: DATI RIPETUTI
cucina
pasta
13
CARATTERISTICHE:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
Circa 40GB 1 mese
13
CARATTERISTICHE:
Circa 1TB
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
Circa 40GB 1 mese
2 anni
13
CARATTERISTICHE:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
4 X 10GB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
4 X 10GB100 MB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
DATASET ORIGINALE
13
CARATTERISTICHE:
4 X 10GB100 MB
RUMOROSO
RIDONDANTE
TROPPO GRANDE
PULITO
FORMATTATO
RIDOTTO
DATASET ORIGINALE
13
CARATTERISTICHE:
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
APPLICAZIONE
FORMULE
STATISTICHE
14
APPLICAZIONE
FORMULE
STATISTICHE
DATASET PULITO
INPUT
14
APPLICAZIONE
FORMULE
STATISTICHE
DATASET PULITO
INPUT
OUTPUT
14
APPLICAZIONE
FORMULE
STATISTICHE
DATASET PULITO
RFD
INPUT
OUTPUT
Punto di
stabilità
14
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
DP
15
DP
RFD
Punto di
stabilità
INPUT
BUDGET
15
DP
RFD
Punto di
stabilità
INPUT OUTPUT
BUDGET
15
DP
RFD
Punto di
stabilità
INPUT OUTPUT
Qualità del
dataset
ASSIGNMENTASSIGNMENT
ASSEGNAMENTO OTTIMO
BUDGET
15
DP ASSEGNAMENTO OTTIMO
STATO INIZIALE (RANDOM)
15
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
COSINE DICE JACQUARD
16
COSINE DICE JACQUARD
16
COSINE DICE JACQUARD
COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...
16
COSINE DICE JACQUARD
COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...
... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI?
16
17
18
19
20
21
22
23
24
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
Osservando i risultati sperimentali è possibile vedere come i risultati in valore
assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi
per la Jacquard.
Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il
sistema analizzato non è presente una misura di similarità migliore delle
altre, ma sono tutte e tre equivalenti.
Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a
misura, le curve abbiano esattamente lo stesso comportamento, ottenendo
alla fine gli stessi valori di qualità.
Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On
incentive-based tagging” (ICDE 2013).
25
Per cominciare:
Cos’è un tag?
Cosa si intende per similarità?
Perchè la pulizia dei dati?
Presentazione del sistema iTag
Ricerca effettuata
Breve descrizione del dataset
Implementazione dell’algoritmo di qualità
Pulizia del dataset
Calcolo delle frequenze e del punto di stabilità
Implementazione della strategia ottima
Risultati sperimentali
Conclusioni
Sviluppi futuri
26
Effettuare i test anche con le altre strategie di assegnamentoScelta libera
Round Robin
Less Posts first
Most Unstable first
Ibrida
26
Effettuare i test anche con le altre strategie di assegnamentoScelta libera
Round Robin
Less Posts first
Most Unstable first
Ibrida
Indirizzare l’utente verso le risorse che più si addicono al suo profilo
26
Effettuare i test anche con le altre strategie di assegnamentoScelta libera
Round Robin
Less Posts first
Most Unstable first
Ibrida
Indirizzare l’utente verso le risorse che più si addicono al suo profilo
Implementare un sistema di feedback
26
Effettuare i test anche con le altre strategie di assegnamentoScelta libera
Round Robin
Less Posts first
Most Unstable first
Ibrida
Indirizzare l’utente verso le risorse che più si addicono al suo profilo
Implementare un sistema di feedback
Generare un sistema di riconoscimento semantico dei tag
26