corso di laurea specialistica in ingegneria gestionale sistemi informativi per le decisioni
DESCRIPTION
Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni a.a. 2008-2009 Waikato Environment for Knowledge Analysis Data preprocessing e regole associative Cicolella Claudio, Minetti Elena, Triscari Dario. Argomenti. Weka Formato .arff Preprocess - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/1.jpg)
Corso di Laurea Specialistica in Ingegneria Gestionale
Sistemi Informativi per le decisioni
a.a. 2008-2009
Waikato Environment for Knowledge Analysis
Data preprocessing e regole associative
Cicolella Claudio, Minetti Elena, Triscari Dario
![Page 2: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/2.jpg)
•Weka•Formato .arff•Preprocess
Non supervisionatiAttributi:
DiscretizeRemove
ReplaceMissingValuesNormalize
StandardizeIstanze:
ResampleSupervisionati
Attributi:Discretize
AttributeSelectionIstanze:
Resample
•AssociateApriori
Argomenti
![Page 3: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/3.jpg)
•Weka•Formato .arff•Preprocess
Non supervisionatiAttributi:
DiscretizeRemove
ReplaceMissingValuesNormalize
StandardizeIstanze:
ResampleSupervisionati
Attributi:Discretize
AttributeSelectionIstanze:
Resample
•AssociateApriori
Argomenti
![Page 4: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/4.jpg)
Weka
![Page 5: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/5.jpg)
Weka: preprocess e associate
Preprocess: permette di caricare e modificare i dati su cui eseguire le varie elaborazioni
Asssociate: permette l’elaborazione e valutazione di regole di associazione
Weka
![Page 6: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/6.jpg)
Weka
![Page 7: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/7.jpg)
•Weka•Formato .arff•Preprocess
Non supervisionatiAttributi:
DiscretizeRemove
ReplaceMissingValuesNormalize
StandardizeIstanze:
ResampleSupervisionati
Attributi:Discretize
AttributeSelectionIstanze:
Resample
•AssociateApriori
Argomenti
![Page 8: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/8.jpg)
Sezione Header
Sezione Data
• ARFF (Attribute Relationship File Format)
Formato .arff
![Page 9: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/9.jpg)
•Weka•Formato .arff•Preprocess
Non supervisionatiAttributi:
DiscretizeRemove
ReplaceMissingValuesNormalize
StandardizeIstanze:
ResampleSupervisionati
Attributi:Discretize
AttributeSelectionIstanze:
Resample
•AssociateApriori
Argomenti
![Page 10: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/10.jpg)
Preprocess
![Page 11: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/11.jpg)
Preprocess
![Page 12: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/12.jpg)
Preprocess
![Page 13: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/13.jpg)
Filtri
![Page 14: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/14.jpg)
Supervisionati: esiste un attributo speciale, il class attribute, che viene usato per guidare le operazioni di filtraggio
Non supervisionati: tratta tutti gli attributi allo stesso modo
Filtri
![Page 15: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/15.jpg)
Attribute: operano su un singolo o piùattributi selezionati
Istanze: operano a livello di tuple prendendo inconsiderazione la totalità degli attributi
Filtri
![Page 16: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/16.jpg)
•Weka•Formato .arff•Preprocess
Non supervisionatiAttributi:
DiscretizeRemove
ReplaceMissingValuesNormalize
StandardizeIstanze:
ResampleSupervisionati
Attributi: Discretize
AttributeSelection Istanze:
Resample
•AssociateApriori
Argomenti
![Page 17: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/17.jpg)
•Questo tipo di filtro serve per convertire gli attributi numerici in etichette stringa.
attributeIndices: permette di selezionare l’attributo o gli attributi da discretizzare
bins: permette di scegliere il numero di bin
makeBinary: se settato “true”rende gli attributi finali in formato binario
useEqualFrequency: se settato “true”verranno formati bin di uguale frequenza invece che di uguale larghezza
findNumBins: ottimizza il numero di bin di uguale larghezza utilizzando il metodo leave-one-out; non è applicabile con useEqualFrequency
desiredWeightOfInstancesPerInterval: larghezza dell’intervallo nella divisione in bin di uguale profondità
ignoreClass: se settato
“true” ignora la classificazione prima di applicare il filtro
invertSelection: se settato “true” il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices
Filtri non supervisionati : Discretize
![Page 18: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/18.jpg)
attributeIndices: permette di selezionare l’attributo da rimuovere
invertSelection: se settato “true” il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices
Filtri non supervisionati : Remove
•Questo tipo di filtro serve per eliminare dal dataset un attributo con tutti i relativi valori.
![Page 19: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/19.jpg)
ignoreClass: se settato “true” ignora la classificazione prima di applicare il filtro
Filtri non supervisionati : ReplaceMissingValue
•Questo tipo di filtro serve per sostituire i valori mancanti all’interno del dataset con la moda nel caso di dati categorici e con la media nel caso di dati numerici .
![Page 20: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/20.jpg)
ntranslatioscaleAMAXA
Avv
*min
min'
ignoreClass: se settato “true” ignora la classificazione prima di applicare il filtro
scale: fattore di scala
translation: fattore di scala
Filtri non supervisionati : Normalize
•Questo tipo di filtro agisce sui range di variazione degli attributi uniformandoli a [0,1] (default) o ad altri intervalli.
![Page 21: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/21.jpg)
v
v' μ= valor medio statistico
σ= deviazione standard
ignoreClass: se settato “true” ignora la classificazione prima di applicare il filtro
Filtri non supervisionati : Standardize
•Questo tipo di filtro applica un altro tipo di normalizzazione ottenendo che gli attributi numerici siano distribuiti con valor medio nullo e deviazione standard unitaria.
![Page 22: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/22.jpg)
invertSelection: permette di invertire la selezione di istanze (solo se sampling senza replacement)
NoReplacement : permette di disabilitare la sostituzione dei valori originali
randomSeed: permette di scegliere il “seme” alla base della generazione dei numeri casuali
sampleSizePercent: permette di scegliere la percentuale del data set originale fornita in output
Filtri non supervisionati : Resample
•Questo tipo di filtro attua una riduzione verticale producendo un sottoinsieme casuale delle istanze del data set sia sostituendo i valori originale che mantenendo quelli già presenti.
![Page 23: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/23.jpg)
•Weka•Formato .arff•Preprocess
Non supervisionatiAttributi:
DiscretizeRemove
ReplaceMissingValuesNormalize
StandardizeIstanze:
ResampleSupervisionati
Attributi:Discretize
AttributeSelectionIstanze:
Resample
•AssociateApriori
Argomenti
![Page 24: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/24.jpg)
attributeIndices: permette di selezionare l’attributo o gli attributi da discretizzare
makeBinary: se settato “true”rende gli attributi finali in formato binario
invertSelection: se settato “true” il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices
Filtri supervisionati : Discretize
•Questo tipo di filtro serve per convertire gli attributi numerici in etichette stringa.
![Page 25: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/25.jpg)
Filtri supervisionati : AttributeSelection
•Questo tipo di filtro permette l’accesso alle funzioni di selezione di attributi così come nella sezione Select attributes.
evaluator: permette di selezionare il parametro su cui effettuare la valutazione
search: metodo attraverso cui effettuare la valutazione
numToselect: permette di scegliere numero di attributi da selezionare
startSet: permette di selezionare un elenco di attributi da ignorare
threshold: valore soglia del valutatore
![Page 26: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/26.jpg)
biasToUniformClass: permette di settare un valore che varia da 0 (non variando la distribuzione) a 1 (rendendo la distribuzione uniforme)
invertSelection: permette di invertire la selezione di istanze (solo se sampling senza replacement)
NoReplacement : permette di disabilitare la sostituzione dei valori originali randomSeed:
permette di scegliere il “seme” alla base della generazione dei numeri casuali
sampleSizePercent: permette di scegliere la percentuale del data set originale fornita in output
Filtri supervisionati : Resample
•Questo tipo di filtro produce un sottoinsieme di valori casuali del data set originale con o senza replacement. In aggiunta rispetto alla versione non supervisionata, tenta di mantenere la distribuzione dell’attributo classe o di correggerne il bias.
![Page 27: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/27.jpg)
•Weka•Formato .arff•Preprocess
Non supervisionatiAttributi:
DiscretizeRemove
ReplaceMissingValuesNormalize
StandardizeIstanze:
ResampleSupervisionati
Attributi:Discretize
AttributeSelectionIstanze:
Resample
•AssociateApriori
Argomenti
![Page 28: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/28.jpg)
Weka: preprocess e associate
Associate
![Page 29: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/29.jpg)
Associate
![Page 30: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/30.jpg)
Alcuni esempi:
•Apriori: algoritmo Apriori per le regole associative
•PredictiveApriori: algoritmo Apriori che trova regole di associazione ordinate per accuratezza nella predizione; questo parametro è ricavato da una combinazione di confidenza e supporto
•Tertius: algoritmo a conferma guidata durante la scoperta diregole di associazione
Algoritmi per regole associative
![Page 31: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/31.jpg)
Come funziona Apriori in Weka ?
Apriori in Weka comincia con il supporto minimo all'estremo superiore e diminuisce il supporto di Delta ad ogni iterazione. Si arresta quando è stato generato il numero richiesto di regole, oppure è stato raggiunto l'estremo inferiore per il supporto minimo.
Regole associative: Apriori
![Page 32: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/32.jpg)
car: settato “true” vengono generate regole associative dove il class attribute è conseguente
classIndex: indice del class attribute; se settato a -1 l’ultimo attributo è preso come class attribute
delta: permette di settare il valore delta
metricType: permette di scegliere la metrica secondo cui ordinare e selezionare i risultati
lowerBoundMinSupport: lower bound per il supporto
Regole associative: Apriori
![Page 33: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/33.jpg)
Data la regola L => R:
• confidence = Pr(L,R) / Pr(L)
• lift = Pr(L,R) / Pr(L)*Pr(R)
• leverage = Pr(L,R) - Pr(L)*Pr(R)
• conviction = Pr(L)*Pr(not R) / Pr(L,R)
Apriori: metricType
![Page 34: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/34.jpg)
numRules: permette di selezionare il numero di regole che si vuole vengano generate
removeAllMissingCols: rimuove dal dataset le colonne con tutti i valori mancanti.
upperBoundMinSupport: upper bound per il supporto minimo
minMetric: considera solo le regole che superano questo valore
outputItemSets: se settato “true”vengono mostrati gli itemset frequenti
verbose: se abilitato esegue l’algoritmo in modalità verbose
Regole associative: Apriori
![Page 35: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/35.jpg)
Associate
![Page 36: Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni](https://reader035.vdocuments.net/reader035/viewer/2022062222/56814fb9550346895dbd7230/html5/thumbnails/36.jpg)
Associate