![Page 1: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/1.jpg)
Fakultät für IngenieurwissenschaftenJevgenij JakunschinChristian Mewes
www.hs-wismar.de
Data Mining Cup 2012
Wissensextraktion – Multimedia Engineering
deck using PDA or similar devices
![Page 2: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/2.jpg)
Data Mining Cup 2012 - Wissensextraktion 2
Gliederung
1. Software2. Vorverarbeitung3. Analyse4. Algorithmen5. Verfeinerung6. Auswahl
![Page 3: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/3.jpg)
Data Mining Cup 2012 - Wissensextraktion
Software
Daten wurden in .csv Format gespeichert
Excel für frühe Analysen und Umwandlung
Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen
Matlab für für Regression, Interpolation und Approximationverfahren
Dropbox für Synchronisation
3
![Page 4: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/4.jpg)
Data Mining Cup 2012 - Wissensextraktion 4
![Page 5: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/5.jpg)
Data Mining Cup 2012 - Wissensextraktion
Vorverarbeitung
Keine fehlenden Werte
Keine Duplikate
Keine fehlerhaften Werte
Rein syntaxisch her Daten komplett korrekt
Allerdings...
5
![Page 6: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/6.jpg)
Data Mining Cup 2012 - Wissensextraktion
Vorverarbeitung
Allerdings...
Starke Schwankungen, mit „Peaks“
Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn)
Werte nicht normalisiert und/oder nominalisiert
6
![Page 7: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/7.jpg)
Data Mining Cup 2012 - Wissensextraktion
Vorverarbeitung
Erstellen von CSV Dateien mit Zusätzlichen Informationen:
-Gewinn,Wochentag, Durschnittlicher Gewinn (soweit)
Zusätzliche nominalisierten und normalisierten Werte
Durschnittswerte für Diagramme und Statistiken
Strukturieren und Anlegen von Zwischentabellen/Resultaten
Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)
7
![Page 8: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/8.jpg)
Data Mining Cup 2012 - Wissensextraktion 8
![Page 9: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/9.jpg)
Data Mining Cup 2012 - Wissensextraktion
Analysis
Erstellen von Tabellen mit Mittelwerten und Summen
Darstellen von Diagrammen
Notieren von Abweichungen, Min/Max-Werten
Überprüfen auf Auffälligkeiten durch gruppierte Tabellen
Starker Exceleinsatz
9
![Page 10: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/10.jpg)
Data Mining Cup 2012 - Wissensextraktion 10
![Page 11: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/11.jpg)
Data Mining Cup 2012 - Wissensextraktion
Algorithmen
Erstellen von Matlab und Knime Umgebungen
Möglichkeiten schnell Module und Algorithmen zu tauschen
Schnelles Anpassen der Daten...
... für Noralisieren, Partitonieren, Splitten, Clusterung...
...und schließlich Auswertung
11
![Page 12: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/12.jpg)
Data Mining Cup 2012 - Wissensextraktion 12
![Page 13: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/13.jpg)
Data Mining Cup 2012 - Wissensextraktion
Regression (linear, logistic, polynom, WEKA versions)
Bayes (Naive, WEKA versions, Multinomial)
Neuronal Network (MLP, PNN, WEKA Voted Perceptron
Kstar, LWL
Decission Trees
Clustering: Kmeans, Xmeans .. (usw.)
13
Algorithmen:
![Page 14: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/14.jpg)
Data Mining Cup 2012 - Wissensextraktion
Regression (linear, logistic, polynom, WEKA versions)
Bayes (Naive, WEKA versions, Multinomial)
Neuronal Network (MLP, PNN, WEKA Voted Perceptron
Kstar, LWL
Decission Trees
Clustering: Kmeans, Xmeans .. (usw.)
14
Algorithmen:
![Page 15: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/15.jpg)
Data Mining Cup 2012 - Wissensextraktion
Ergebnisse meist sehr ungenau (accuracy <<10%)
aber 2 Algorithmen waren klar im Vorteil:
Kstar – WEKA plugin – ungenau aber erkennt Tendenz
Regressionen (Polynom/Linear) Accuracy Werte bis zu 20%
Beide trotzdem bei weitem nicht genau genug
15
Algorithmen
![Page 16: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/16.jpg)
Data Mining Cup 2012 - Wissensextraktion
Verbesserung der Resultate auf viele Weisen
Veränderung interner Variablen
Clusterung nach Wochentagen verbessert Ergebnisse stark
Zusätzliche Einbindung von Neuronalen Netzwerken
Entfernen oder skalieren mancher Daten
16
Verfeinerung
![Page 17: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/17.jpg)
Data Mining Cup 2012 - Wissensextraktion
Größte Veränderung durch Sortierung nach Wochentagen
Durch mehr als 7 Cluster allerdings noch bessere Resultate
Clustersuche schlägt sich vor
K-means
Relativ gute Ergebnisse bei Regression und Kstar
17
Verfeinerung
![Page 18: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/18.jpg)
Data Mining Cup 2012 - Wissensextraktion
Das experementieren ging dann eine Weile
weiter...
18
![Page 19: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/19.jpg)
Data Mining Cup 2012 - Wissensextraktion
Testen - Knime
19
1) Allgemeiner Workflow und WEKA Workflow2) Anwendungen meister Algorithmen3) Entscheidung: Regression(Matlab) und Kstar(Knime)4) Kstar – Anpassung der Variablen (++)5) Kstar+MLP – Hinzufügen eines neuronalen Netzes (--)6) Kstar – Clusterung nach Wochetagen (++)7) Kstar+Kmeans – Automatische Clusterung (++)8) Kstar+Kmeans – Skalierung/Filterung (++)
Beste Kstar Ergebnisse in 600ter Bereich...
![Page 20: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/20.jpg)
Data Mining Cup 2012 - Wissensextraktion 20
![Page 21: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/21.jpg)
Data Mining Cup 2012 - Wissensextraktion
Verfeinern - Matlab
21
1. Durchschnitt Tag/Menge pro Produkt 2. DS Wochentag/Menge pro Produkt (~16%) 3. MIN, MAX statt DS (ca.30%) 4. Ausreißer beseitigen (+ca.1.5%) 5. Identische Datensätze (+ca.1.5%) 6. Durchschnittspreis (+ca.0.5%) 7. Approximation Menge (30-40%, aber E:NaN,
M:NaN) (8.Clustering Menge) (9.Clustering Produkt) 10.Zusammenführung aller Ansätze
![Page 22: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/22.jpg)
Data Mining Cup 2012 - Wissensextraktion 22
![Page 23: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/23.jpg)
Data Mining Cup 2012 - Wissensextraktion
Auswahl
23
Bis man zwischen Regression und Kstar wählen musste
(Bei Aufteilung 4:2 Wochen)
Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25%
Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4%
Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+)
Endentscheidung: Regression
![Page 24: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/24.jpg)
Data Mining Cup 2012 - Wissensextraktion
Quellen und Zusatzinformationen
http://www.knime.org/
http://www.data-mining-cup.de/
http://www.knime.org/files/weka.jpg
http://www.mathworks.de/products/matlab/
https://www.dropbox.com/home
http://www.kreditrechner-kostenlos.de/wp-content/uploads/2012/03/Microsoft-Excel-2011-Logo.png
24
![Page 25: Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering](https://reader036.vdocuments.net/reader036/viewer/2022070310/55204d7649795902118cb2dd/html5/thumbnails/25.jpg)
Danke fürs Zuhören!
25