fakultät für ingenieurwissenschaften jevgenij jakunschin christian mewes

25
Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de Data Mining Cup 2012 Wissensextraktion Multimedia Engineering deck using PDA or similar devices

Upload: idola

Post on 24-Feb-2016

40 views

Category:

Documents


0 download

DESCRIPTION

Data Mining Cup 2012. Wissensextraktion – Multimedia Engineering deck using PDA or similar devices . Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de. Gliederung. Software Vorverarbeitung Analyse Algorithmen Verfeinerung Auswahl. Software. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Fakultät für IngenieurwissenschaftenJevgenij JakunschinChristian Mewes

www.hs-wismar.de

Data Mining Cup 2012

Wissensextraktion – Multimedia Engineering

deck using PDA or similar devices

Page 2: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion 2

Gliederung1. Software2. Vorverarbeitung3. Analyse4. Algorithmen5. Verfeinerung6. Auswahl

Page 3: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Software Daten wurden in .csv Format gespeichert

Excel für frühe Analysen und Umwandlung

Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen

Matlab für für Regression, Interpolation und Approximationverfahren

Dropbox für Synchronisation

3

Page 4: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion 4

Page 5: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Vorverarbeitung Keine fehlenden Werte

Keine Duplikate

Keine fehlerhaften Werte

Rein syntaxisch her Daten komplett korrekt

Allerdings...

5

Page 6: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Vorverarbeitung Allerdings...

Starke Schwankungen, mit „Peaks“

Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn)

Werte nicht normalisiert und/oder nominalisiert

6

Page 7: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Vorverarbeitung Erstellen von CSV Dateien mit Zusätzlichen

Informationen:-Gewinn,Wochentag, Durschnittlicher Gewinn

(soweit)

Zusätzliche nominalisierten und normalisierten Werte

Durschnittswerte für Diagramme und Statistiken

Strukturieren und Anlegen von Zwischentabellen/Resultaten

Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)

7

Page 8: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion 8

Page 9: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Analysis Erstellen von Tabellen mit Mittelwerten und Summen

Darstellen von Diagrammen

Notieren von Abweichungen, Min/Max-Werten

Überprüfen auf Auffälligkeiten durch gruppierte Tabellen

Starker Exceleinsatz

9

Page 10: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion 10

Page 11: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Algorithmen Erstellen von Matlab und Knime Umgebungen

Möglichkeiten schnell Module und Algorithmen zu tauschen

Schnelles Anpassen der Daten...

... für Noralisieren, Partitonieren, Splitten, Clusterung...

...und schließlich Auswertung

11

Page 12: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion 12

Page 13: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Regression (linear, logistic, polynom, WEKA versions)

Bayes (Naive, WEKA versions, Multinomial)

Neuronal Network (MLP, PNN, WEKA Voted Perceptron

Kstar, LWL

Decission Trees

Clustering: Kmeans, Xmeans .. (usw.)

13

Algorithmen:

Page 14: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Regression (linear, logistic, polynom, WEKA versions)

Bayes (Naive, WEKA versions, Multinomial)

Neuronal Network (MLP, PNN, WEKA Voted Perceptron

Kstar, LWL

Decission Trees

Clustering: Kmeans, Xmeans .. (usw.)

14

Algorithmen:

Page 15: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Ergebnisse meist sehr ungenau (accuracy <<10%)

aber 2 Algorithmen waren klar im Vorteil:

Kstar – WEKA plugin – ungenau aber erkennt Tendenz

Regressionen (Polynom/Linear) Accuracy Werte bis zu 20%

Beide trotzdem bei weitem nicht genau genug

15

Algorithmen

Page 16: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Verbesserung der Resultate auf viele Weisen

Veränderung interner Variablen

Clusterung nach Wochentagen verbessert Ergebnisse stark

Zusätzliche Einbindung von Neuronalen Netzwerken

Entfernen oder skalieren mancher Daten

16

Verfeinerung

Page 17: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Größte Veränderung durch Sortierung nach Wochentagen

Durch mehr als 7 Cluster allerdings noch bessere Resultate

Clustersuche schlägt sich vor

K-means

Relativ gute Ergebnisse bei Regression und Kstar

17

Verfeinerung

Page 18: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Das experementieren ging dann eine Weile

weiter...

18

Page 19: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Testen - Knime

19

1) Allgemeiner Workflow und WEKA Workflow2) Anwendungen meister Algorithmen3) Entscheidung: Regression(Matlab) und Kstar(Knime)4) Kstar – Anpassung der Variablen (++)5) Kstar+MLP – Hinzufügen eines neuronalen Netzes (--)6) Kstar – Clusterung nach Wochetagen (++)7) Kstar+Kmeans – Automatische Clusterung (++)8) Kstar+Kmeans – Skalierung/Filterung (++)

Beste Kstar Ergebnisse in 600ter Bereich...

Page 20: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion 20

Page 21: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Verfeinern - Matlab

21

1. Durchschnitt Tag/Menge pro Produkt 2. DS Wochentag/Menge pro Produkt (~16%) 3. MIN, MAX statt DS (ca.30%) 4. Ausreißer beseitigen (+ca.1.5%) 5. Identische Datensätze (+ca.1.5%) 6. Durchschnittspreis (+ca.0.5%) 7. Approximation Menge (30-40%, aber E:NaN,

M:NaN) (8.Clustering Menge) (9.Clustering Produkt) 10.Zusammenführung aller Ansätze

Page 22: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion 22

Page 23: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Data Mining Cup 2012 - Wissensextraktion

Auswahl

23

Bis man zwischen Regression und Kstar wählen musste

(Bei Aufteilung 4:2 Wochen)

Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25%Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4%

Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+)Endentscheidung: Regression

Page 25: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian  Mewes

Danke fürs Zuhören!

25