presentazione ufficiale splittata

Sviluppo sistema iTag

1

Studio del sistema

Implementazione similarità

Valutazione qualità

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:

2


IMMAGINI

2


IMMAGINI

VIDEO

2


IMMAGINI

VIDEO

SITI WEB

2

Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)

3

“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)

In informatica, la similarità viene implementata

attraverso il concetto matematico di DISTANZA

3

Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

FONTI ETEROGENEE

4

PERCHÈ si effettua la pulizia? Molto spesso i dati sono

4


INCOMPLETI

4


INCOMPLETI

RUMOROSI

4


INCOMPLETI

INCONSISTENTI

RUMOROSI

4


INCOMPLETI

INCONSISTENTI

RUMOROSI

Passi principali:

• Pulizia: levigare il rumore nei dati, risolvere le inconsistenze

• Integrazione: più fonti eterogenee vengono unite

• Riduzione: diminuire il volume del dataset

4

Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

elemento taggato (foto, video, sito web)

piattaforma online che favorisce il contributo

degli utenti dietro incentivo economico

sistema di social bookmarking

RISORSA

DATASET

POST

DELICIOUS

CROWDSOURCING

insieme di tag dati di una risorsa

insieme di risorse, ognuna con i suoi post

5

Ogni risorsa alla quale è possibile applicare tag può risultare:

• Sovrataggata (per le più popolari)

• Sottotaggata

6

In questo modo quando un

utente effettua una ricerca

Non tutte le risorse vengono

mostrate ricerca inefficiente

6

• Sottotaggata

6

Aumentare la QUALITA’ del dataset

DATASET

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI7

DATASET

iTAG CREA I LAVORI

CROWDSOURCING

i-Tag


DATASET

iTAG CREA I LAVORI

LAVORO COMPLETATO

CROWDSOURCING

i-Tag


DATASET

iTAG CREA I LAVORI

VIENE CONSEGNATO L’INCENTIVO

LAVORO COMPLETATO

CROWDSOURCING

i-Tag


Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

I passi sono stati:

• Analizzare iTag

• Cercare aspetti da migliorare

• Ho fatto alcune proposte:

8

I passi sono stati:

• Analizzare iTag



Feedback

8

I passi sono stati:

• Analizzare iTag



Similarità

Feedback

8

I passi sono stati:

• Analizzare iTag



Similarità

Feedback

Differenziazione incentivi

8

Similarità

8

Argomento approvato:

Le tre misure di similarità che ho scelto sono state:

9


Similarità del Coseno

9



Coefficiente di Dice

9



Coefficiente di Dice

Similarità di Jacquard

9

Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

Fonte: Delicious

10

Fonte: Delicious

Inizialmente i files, relativi ad 1 mese di utilizzo,

erano 4 da circa 10 GB ciascuno (40GB totali)

10

Fonte: Delicious

Inizialmente i files, relativi ad 1 mese di utilizzo,

erano 4 da circa 10 GB ciascuno (40GB totali)

Dopo le operazioni di pulizia e filtraggio del dataset,

le dimensioni si sono ridotte a 100MB

10

Ogni linea è una risorsa

11

Per ogni risorsa, la prima cifra

rappresenta il numero di post Ogni linea è una risorsa

11


rappresenta il numero di post

Per ogni post, la prima cifra rappresenta il

numero di tag dentro al post


11






129

8

7

65

4

3

11



Le cifre dentro al post

rappresentano l’ID del tag




129

8

7

65

4

3

11



Le cifre dentro al post

rappresentano l’ID del tag




129

8

7

65

4

3

“viaggi”11

Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

finestra (quantità di post) utilizzata per valutare la stabilità

vettore di frequenze relative di ogni tag

STABILITÀ

w

QUALITÀ

RFD

DP

B

si ha quando il livello di informazioni per la risorsa è sufficiente

si ha quando le informazioni della risorsa superano la soglia di stabilità

algoritmo ottimo per generare gli assegnamenti delle risorse

Budget stanziato dal provider per l’incremento della qualità

12

4 X 10GB

DATASET ORIGINALE

13

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RUMORE: DATI SPORCHI

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE


Guardiamo i seguenti tag:

13

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE



r4sa334

sidofhbdjnopf

3dfasgg5

pasta

cucina

ricetta

13

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE



QUESTO E’ IL RUMORE

r4sa334

sidofhbdjnopf

3dfasgg5

pasta

cucina

ricetta

13

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE



QUESTO E’ IL RUMORE

r4sa334

sidofhbdjnopf

3dfasgg5

pasta

cucina

ricettaRIDUZIONE RUMORE

13

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE



pasta

cucina

ricetta

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:


4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RIDONDANZA: DATI RIPETUTI

13

CARATTERISTICHE:

spaghetti


4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE


cucina

cucina

pasta

pasta

spaghetti

13

CARATTERISTICHE:

spaghetti


4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE


cucina

cucina

pasta

pasta

spaghetti

QUESTA E’ LA RIDONDANZA13

CARATTERISTICHE:

spaghetti


4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE


cucina

cucina

pasta

pasta

spaghetti

QUESTA E’ LA RIDONDANZA

RIDUZIONE RIDONDANZA

13

CARATTERISTICHE:

spaghetti


4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE


cucina

pasta

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

Circa 40GB 1 mese

13

CARATTERISTICHE:

Circa 1TB

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

Circa 40GB 1 mese

2 anni

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:

4 X 10GB100 MB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:

4 X 10GB100 MB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

PULITO

FORMATTATO

RIDOTTO

DATASET ORIGINALE

13

CARATTERISTICHE:

Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

APPLICAZIONE

FORMULE

STATISTICHE

14

APPLICAZIONE

FORMULE

STATISTICHE

DATASET PULITO

INPUT

14

APPLICAZIONE

FORMULE

STATISTICHE

DATASET PULITO

INPUT

OUTPUT

14

APPLICAZIONE

FORMULE

STATISTICHE

DATASET PULITO

RFD

INPUT

OUTPUT

Punto di

stabilità

14

Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

DP

15

DP

RFD

Punto di

stabilità

INPUT

BUDGET

15

DP

RFD

Punto di

stabilità

INPUT OUTPUT

BUDGET

15

DP

RFD

Punto di

stabilità

INPUT OUTPUT

Qualità del

dataset

ASSIGNMENTASSIGNMENT

ASSEGNAMENTO OTTIMO

BUDGET

15

DP ASSEGNAMENTO OTTIMO

STATO INIZIALE (RANDOM)

15

Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

COSINE DICE JACQUARD

16


COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...

16


COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...

... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI?

16

Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

Osservando i risultati sperimentali è possibile vedere come i risultati in valore

assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi

per la Jacquard.

Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il

sistema analizzato non è presente una misura di similarità migliore delle

altre, ma sono tutte e tre equivalenti.

Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a

misura, le curve abbiano esattamente lo stesso comportamento, ottenendo

alla fine gli stessi valori di qualità.

Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On

incentive-based tagging” (ICDE 2013).

25

Per cominciare:

Cos’è un tag?




Ricerca effettuata



Pulizia del dataset




Conclusioni

Sviluppi futuri

Effettuare i test anche con le altre strategie di assegnamentoScelta libera

Round Robin

Less Posts first

Most Unstable first

Ibrida

26


Round Robin

Less Posts first

Most Unstable first

Ibrida

Indirizzare l’utente verso le risorse che più si addicono al suo profilo

26


Round Robin

Less Posts first

Most Unstable first

Ibrida


Implementare un sistema di feedback

26


Round Robin

Less Posts first

Most Unstable first

Ibrida


Implementare un sistema di feedback

Generare un sistema di riconoscimento semantico dei tag

26

presentazione ufficiale splittata

Documents