fakultät für ingenieurwissenschaften jevgenij jakunschin christian mewes data mining cup 2012...

Post on 06-Apr-2015

107 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Fakultät für IngenieurwissenschaftenJevgenij JakunschinChristian Mewes

www.hs-wismar.de

Data Mining Cup 2012

Wissensextraktion – Multimedia Engineering

deck using PDA or similar devices

Data Mining Cup 2012 - Wissensextraktion 2

Gliederung

1. Software2. Vorverarbeitung3. Analyse4. Algorithmen5. Verfeinerung6. Auswahl

Data Mining Cup 2012 - Wissensextraktion

Software

Daten wurden in .csv Format gespeichert

Excel für frühe Analysen und Umwandlung

Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen

Matlab für für Regression, Interpolation und Approximationverfahren

Dropbox für Synchronisation

3

Data Mining Cup 2012 - Wissensextraktion 4

Data Mining Cup 2012 - Wissensextraktion

Vorverarbeitung

Keine fehlenden Werte

Keine Duplikate

Keine fehlerhaften Werte

Rein syntaxisch her Daten komplett korrekt

Allerdings...

5

Data Mining Cup 2012 - Wissensextraktion

Vorverarbeitung

Allerdings...

Starke Schwankungen, mit „Peaks“

Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn)

Werte nicht normalisiert und/oder nominalisiert

6

Data Mining Cup 2012 - Wissensextraktion

Vorverarbeitung

Erstellen von CSV Dateien mit Zusätzlichen Informationen:

-Gewinn,Wochentag, Durschnittlicher Gewinn (soweit)

Zusätzliche nominalisierten und normalisierten Werte

Durschnittswerte für Diagramme und Statistiken

Strukturieren und Anlegen von Zwischentabellen/Resultaten

Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)

7

Data Mining Cup 2012 - Wissensextraktion 8

Data Mining Cup 2012 - Wissensextraktion

Analysis

Erstellen von Tabellen mit Mittelwerten und Summen

Darstellen von Diagrammen

Notieren von Abweichungen, Min/Max-Werten

Überprüfen auf Auffälligkeiten durch gruppierte Tabellen

Starker Exceleinsatz

9

Data Mining Cup 2012 - Wissensextraktion 10

Data Mining Cup 2012 - Wissensextraktion

Algorithmen

Erstellen von Matlab und Knime Umgebungen

Möglichkeiten schnell Module und Algorithmen zu tauschen

Schnelles Anpassen der Daten...

... für Noralisieren, Partitonieren, Splitten, Clusterung...

...und schließlich Auswertung

11

Data Mining Cup 2012 - Wissensextraktion 12

Data Mining Cup 2012 - Wissensextraktion

Regression (linear, logistic, polynom, WEKA versions)

Bayes (Naive, WEKA versions, Multinomial)

Neuronal Network (MLP, PNN, WEKA Voted Perceptron

Kstar, LWL

Decission Trees

Clustering: Kmeans, Xmeans .. (usw.)

13

Algorithmen:

Data Mining Cup 2012 - Wissensextraktion

Regression (linear, logistic, polynom, WEKA versions)

Bayes (Naive, WEKA versions, Multinomial)

Neuronal Network (MLP, PNN, WEKA Voted Perceptron

Kstar, LWL

Decission Trees

Clustering: Kmeans, Xmeans .. (usw.)

14

Algorithmen:

Data Mining Cup 2012 - Wissensextraktion

Ergebnisse meist sehr ungenau (accuracy <<10%)

aber 2 Algorithmen waren klar im Vorteil:

Kstar – WEKA plugin – ungenau aber erkennt Tendenz

Regressionen (Polynom/Linear) Accuracy Werte bis zu 20%

Beide trotzdem bei weitem nicht genau genug

15

Algorithmen

Data Mining Cup 2012 - Wissensextraktion

Verbesserung der Resultate auf viele Weisen

Veränderung interner Variablen

Clusterung nach Wochentagen verbessert Ergebnisse stark

Zusätzliche Einbindung von Neuronalen Netzwerken

Entfernen oder skalieren mancher Daten

16

Verfeinerung

Data Mining Cup 2012 - Wissensextraktion

Größte Veränderung durch Sortierung nach Wochentagen

Durch mehr als 7 Cluster allerdings noch bessere Resultate

Clustersuche schlägt sich vor

K-means

Relativ gute Ergebnisse bei Regression und Kstar

17

Verfeinerung

Data Mining Cup 2012 - Wissensextraktion

Das experementieren ging dann eine Weile

weiter...

18

Data Mining Cup 2012 - Wissensextraktion

Testen - Knime

19

1) Allgemeiner Workflow und WEKA Workflow2) Anwendungen meister Algorithmen3) Entscheidung: Regression(Matlab) und Kstar(Knime)4) Kstar – Anpassung der Variablen (++)5) Kstar+MLP – Hinzufügen eines neuronalen Netzes (--)6) Kstar – Clusterung nach Wochetagen (++)7) Kstar+Kmeans – Automatische Clusterung (++)8) Kstar+Kmeans – Skalierung/Filterung (++)

Beste Kstar Ergebnisse in 600ter Bereich...

Data Mining Cup 2012 - Wissensextraktion 20

Data Mining Cup 2012 - Wissensextraktion

Verfeinern - Matlab

21

1. Durchschnitt Tag/Menge pro Produkt 2. DS Wochentag/Menge pro Produkt (~16%) 3. MIN, MAX statt DS (ca.30%) 4. Ausreißer beseitigen (+ca.1.5%) 5. Identische Datensätze (+ca.1.5%) 6. Durchschnittspreis (+ca.0.5%) 7. Approximation Menge (30-40%, aber E:NaN,

M:NaN) (8.Clustering Menge) (9.Clustering Produkt) 10.Zusammenführung aller Ansätze

Data Mining Cup 2012 - Wissensextraktion 22

Data Mining Cup 2012 - Wissensextraktion

Auswahl

23

Bis man zwischen Regression und Kstar wählen musste

(Bei Aufteilung 4:2 Wochen)

Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25%

Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4%

Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+)

Endentscheidung: Regression

Danke fürs Zuhören!

25

top related