fakultät für ingenieurwissenschaften jevgenij jakunschin christian mewes data mining cup 2012...

Fakultät für IngenieurwissenschaftenJevgenij JakunschinChristian Mewes

www.hs-wismar.de

Data Mining Cup 2012

Wissensextraktion – Multimedia Engineering

deck using PDA or similar devices

Data Mining Cup 2012 - Wissensextraktion 2

Gliederung

1. Software2. Vorverarbeitung3. Analyse4. Algorithmen5. Verfeinerung6. Auswahl

Data Mining Cup 2012 - Wissensextraktion

Software

Daten wurden in .csv Format gespeichert

Excel für frühe Analysen und Umwandlung

Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen

Matlab für für Regression, Interpolation und Approximationverfahren

Dropbox für Synchronisation

Vorverarbeitung

Keine fehlenden Werte

Keine Duplikate

Keine fehlerhaften Werte

Rein syntaxisch her Daten komplett korrekt

Allerdings...

Vorverarbeitung

Allerdings...

Starke Schwankungen, mit „Peaks“

Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn)

Werte nicht normalisiert und/oder nominalisiert

Vorverarbeitung

Erstellen von CSV Dateien mit Zusätzlichen Informationen:

-Gewinn,Wochentag, Durschnittlicher Gewinn (soweit)

Zusätzliche nominalisierten und normalisierten Werte

Durschnittswerte für Diagramme und Statistiken

Strukturieren und Anlegen von Zwischentabellen/Resultaten

Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)

Analysis

Erstellen von Tabellen mit Mittelwerten und Summen

Darstellen von Diagrammen

Notieren von Abweichungen, Min/Max-Werten

Überprüfen auf Auffälligkeiten durch gruppierte Tabellen

Starker Exceleinsatz

Algorithmen

Erstellen von Matlab und Knime Umgebungen

Möglichkeiten schnell Module und Algorithmen zu tauschen

Schnelles Anpassen der Daten...

... für Noralisieren, Partitonieren, Splitten, Clusterung...

...und schließlich Auswertung

Regression (linear, logistic, polynom, WEKA versions)

Bayes (Naive, WEKA versions, Multinomial)

Neuronal Network (MLP, PNN, WEKA Voted Perceptron

Kstar, LWL

Decission Trees

Clustering: Kmeans, Xmeans .. (usw.)

Algorithmen:

Regression (linear, logistic, polynom, WEKA versions)

Bayes (Naive, WEKA versions, Multinomial)

Neuronal Network (MLP, PNN, WEKA Voted Perceptron

Kstar, LWL

Decission Trees

Clustering: Kmeans, Xmeans .. (usw.)

Algorithmen:

Ergebnisse meist sehr ungenau (accuracy <<10%)

aber 2 Algorithmen waren klar im Vorteil:

Kstar – WEKA plugin – ungenau aber erkennt Tendenz

Regressionen (Polynom/Linear) Accuracy Werte bis zu 20%

Beide trotzdem bei weitem nicht genau genug

Algorithmen

Verbesserung der Resultate auf viele Weisen

Veränderung interner Variablen

Clusterung nach Wochentagen verbessert Ergebnisse stark

Zusätzliche Einbindung von Neuronalen Netzwerken

Entfernen oder skalieren mancher Daten

Verfeinerung

Größte Veränderung durch Sortierung nach Wochentagen

Durch mehr als 7 Cluster allerdings noch bessere Resultate

Clustersuche schlägt sich vor

K-means

Relativ gute Ergebnisse bei Regression und Kstar

Verfeinerung

Das experementieren ging dann eine Weile

weiter...

Testen - Knime

1) Allgemeiner Workflow und WEKA Workflow2) Anwendungen meister Algorithmen3) Entscheidung: Regression(Matlab) und Kstar(Knime)4) Kstar – Anpassung der Variablen (++)5) Kstar+MLP – Hinzufügen eines neuronalen Netzes (--)6) Kstar – Clusterung nach Wochetagen (++)7) Kstar+Kmeans – Automatische Clusterung (++)8) Kstar+Kmeans – Skalierung/Filterung (++)

Beste Kstar Ergebnisse in 600ter Bereich...

Verfeinern - Matlab

1. Durchschnitt Tag/Menge pro Produkt 2. DS Wochentag/Menge pro Produkt (~16%) 3. MIN, MAX statt DS (ca.30%) 4. Ausreißer beseitigen (+ca.1.5%) 5. Identische Datensätze (+ca.1.5%) 6. Durchschnittspreis (+ca.0.5%) 7. Approximation Menge (30-40%, aber E:NaN,

M:NaN) (8.Clustering Menge) (9.Clustering Produkt) 10.Zusammenführung aller Ansätze

Auswahl

Bis man zwischen Regression und Kstar wählen musste

(Bei Aufteilung 4:2 Wochen)

Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25%

Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4%

Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+)

Endentscheidung: Regression

Quellen und Zusatzinformationen

http://www.knime.org/

http://www.data-mining-cup.de/

http://www.knime.org/files/weka.jpg

http://www.mathworks.de/products/matlab/

https://www.dropbox.com/home

http://www.kreditrechner-kostenlos.de/wp-content/uploads/2012/03/Microsoft-Excel-2011-Logo.png

Danke fürs Zuhören!

fakultät für ingenieurwissenschaften jevgenij jakunschin christian mewes data mining cup 2012...

data mining cup

clusterung und

similar devices folie

fr noralisieren

und schlielich auswertung

weka versions bayes

math plugins fr datamining

analysis erstellen

Documents

projektarbeit...

comparative visualization for wave-based and geometric...

eurogeldscheine statt zufallsgenerator zufallsexperimente...

jevgenij paščenkobib.irb.hr/datoteka/617632._2.doc · web...

(1) johann schwarzhuber todesurteil (2) die angeklagten im...

jevgenij volosatov. nuotolinio mokymo(si) sistema...

jay & silent bob reboot · jason mewes (jay) jason mewes...

igor v. tetko,1,2,* pierre bruneau, hans-werner mewes

agencia de aduanas mewes -...

hrvatska ukrajinistika od 1939. do 1945....

newinbw.de … · web viewbeate mewes, mezzosopran als...

wissensmanagement ul - 1 - wissensbasierte systeme...

kviz (jevgenij onjegin/ a. s. puškin.)

session 51 leif broberg jevgenij petoukhov sanna sorvoja

meridian / pfs mdss capabilities john mewes & leon osborne...

career: magnetization dynamics and damping in magnetic...

digital electronics and computer interfacing tim mewes 3....

modul wissensextraktion / data mining karim eddarif...

jevgenij kurilov Švietimo iŠtekliŲ ir paslaugŲ … ·...

vorwärts gerichtete neuronale netze folie 1...