Εισαγωγή στο data mining Από τα δεδομένα στη...

49
Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Upload: others

Post on 22-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕισαγωγήστοDataMiningΑπόταδεδομέναστηγνώση

Page 2: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Ηπληροφορίαστησύγχρονηεπιχείρηση

• Πέραντουανθρώπινουδυναμικού,ηπληροφορίααποτελείτονπλέονπολύτιμοπόροτηςσύγχρονηςεπιχείρησης– Συνιστάεπομένωςκαθοριστικόπαράγονταγιατην

επίτευξητωνεπιχειρησιακώνστόχων

• Διαχείρισηγνώσης(knowledgemanagement):ηεκμετάλλευσηκαιανάπτυξητωνγνωστικώνκεφαλαίωνμίαςεπιχείρησηςμεαντικείμενοτηνπροαγωγήτωναντικειμενικώντηςεπιδιώξεων

• ΤαπληροφοριακάσυστήματαERPανταποκρίνονταιστηναπαίτησησυλλογήςκαιεπεξεργασίαςτωνεπιχειρησιακώνδεδομένων– Datawarehouses

2

••ΕισαγωγΕισαγωγήή

•ΗΑνάγκη

•Διαδικασία

•Ορισμός

•Αφετηρία

•Πρότυπα

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 3: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Cost

Time1990 2010

Communicationof Data understood

(explicit)

generated and collected

(implicit)

Dataper day

Time1990 2010

The datagap

DataStorage

MalthusLawofInformation:– Τονέοπληροφοριακόπεριεχόμενοδιπλασιάζεταικάθε

χρόνο– Οχρόνοςπουδαπανάταιγιατηνκατανάλωση

πληροφοριώνπαραμένεισταθερός

Ταεπιχειρησιακάδεδομένααφθονούν

3

•Εισαγωγή

•ΗΑνάγκη

•Διαδικασία

•Ορισμός

•Αφετηρία

•Πρότυπα

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 4: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected] 4

Ταδεδομένααφθονούν

• Μόνοέναμικρόποσοστό(5‐10%)τωνσυλλεγόμενωνδεδομένωντυγχάνειανάλυσης

• Μίατυπικήεπιχειρησιακήβάσηδεδομένωνσήμεραπεριέχεισυχνάμεγάλοαριθμόεγγραφών(108‐1012)δεδομένωνπολλώνδιαστάσεων(10‐104μεταβλητές)

• Τελικά:“Wearedrowningindata,butstarvingforknowledge!”

• Πώςμπορούνναεξερευνηθούνεκατομμύριαεγγραφώνεκατοντάδωνμεταβλητών,ώστεναανακαλυφθούνπρότυπα(patterns)?

•Εισαγωγή

•ΗΑνάγκη

•Διαδικασία

•Ορισμός

•Αφετηρία

•Πρότυπα

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 5: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Απόταδεδομέναστηνπληροφορίακαιτηγνώση

5

•Εισαγωγή

•ΗΑνάγκη

•Διαδικασία

•Ορισμός

•Αφετηρία

•Πρότυπα

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 6: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected] 6

Ορισμός

• Datamining:όροςπουχρησιμοποιείται–λανθασμένα–γιαναπεριγράψειτοσύνολοτηςδιαδικασίαςεξόρυξηςγνώσηςαπόβάσειςδεδομένων(KnowledgeDiscoveryinDatabases)

• Ορισμός:Thenontrivialextractionofimplicit,previouslyunknown,andpotentiallyusefulinformationfromdata.

• Εναλλακτικά:Statisticsatscale,speedandsimplicity.

• Στοεξής,ορίζουμε:ΕξόρυξηΠληροφορίας/ΓνώσηςαπόΔεδομένα≡DataMining

•Εισαγωγή

•ΗΑνάγκη

•Διαδικασία

•Ορισμός

•Αφετηρία

•Πρότυπα

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 7: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Αφετηρία

• Τοερευνητικόπεδίοαποτελείτομήμεθόδωνκαιεργαλείωνπουπηγάζουναπό– Στατιστική– ΜηχανικήΜάθηση– Βάσεις&αποθήκεςδεδομένων

• Αποτελείσύγχρονηεξέλιξη,τοπρώτοσχετικόσυνέδριοπραγματοποιήθηκετο1995.

• Πειραματικήεπιστήμη!

DataMining

Statistics

Artificial Intelligence& Machine

Learning

Databases &Data Warehouses

7

•Εισαγωγή

•ΗΑνάγκη

•Διαδικασία

•Ορισμός

•Αφετηρία

•Πρότυπα

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 8: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Πρότυπα

• Επομένωςαναζητούνταιαλγόριθμοιεντοπισμούπροτύπων(patterns)καικανονικοτήτωνσεδεδομένα

• Περιγραφήπροτύπων– Μαύροκουτί:μηκατανοητοίμηχανισμοί

– Διαφανέςκουτί:αποκαλύπτειτηδομήτουπροτύπου→δομικήπεριγραφή

• Οιδομικές(structural)περιγραφέςαναπαριστούνταπρότυπαμεσαφώςορισμένο(ρητό,explicit)τρόπο,μεσκοπότην– Πρόβλεψη

– Κατανόησηκαιεπεξήγησημοντέλουπρόβλεψης

8

•Εισαγωγή

•ΗΑνάγκη

•Διαδικασία

•Ορισμός

•Αφετηρία

•Πρότυπα

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 9: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Casestudy:VISA

• Απάτηκατάτηχρήσηπιστωτικώνκαρτών– 0,93%σεoff‐lineσυναλλαγές

– 1,97%σεon‐line

• Κλασσικέςστατιστικέςμέθοδοι:97λανθασμένοισυναγερμοίγιακάθεαληθή

• Ανάλυσηδεδομένωνσυμπεριφοράςμετεχνικέςμηχανικήςμάθησης

→μείωσητηςαναλογίαςλανθασμένωνσυναγερμώνστους10ανάαληθή

→ελάττωσηπεριστατικώναπάτηςαπό1576σε478,σεδείγμα7ευρωπαϊκώντραπεζών

9

•Εισαγωγή

•CaseStudies

•VISA•AmericanExpress

•Softmap•Walmart•VictoriaSecret

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 10: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Casestudy:AmericanExpress

• Πρόβλημα:Παροχήδανείου– Ερωτηματολόγιογιασχετικέςοικονομικέςκαιπροσωπικές

πληροφορίες→Αποδοχή/απόρριψηαίτησηςδανειοδότησης

• Συνήθειςστατιστικέςτεχνικέςκαλύπτουναποτελεσματικάτο90%τωνπεριπτώσεων– Οιυπόλοιπεςασαφείςπεριπτώσειςαξιολογούνταιαπό

ειδικούς– Ωστόσοτο50%τωναποδεκτώνασαφώνπεριπτώσεωνδεν

αποπληρώνουν• 1000παραδείγματαεκπαίδευσηςασαφώνπεριπτώσεων

– 20χαρακτηριστικά(ηλικία,οικογενειακήκατάσταση,διάρκειαεργασίαςυπότονίδιοεργοδότη,άλλαδάνεια…)

→Οικανόνεςπουπροέκυψαναποδείχθηκανσωστοίστο70%τωνπεριπτώσεων

10

•Εισαγωγή

•CaseStudies

•VISA•AmericanExpress

•Softmap•Walmart•VictoriaSecret

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 11: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Casestudy:Softmap

• ΚορυφαίαεταιρείαπωλήσεωνPC&softwareστηνΙαπωνία

• Οιon‐lineπωλήσειςεμφάνισανσυνεχήμείωση– Αδυναμίαπροσαρμογήςστιςειδικέςανάγκεςτου

πελάτη;

• Ανάλυσηχαρακτηριστικών2εκ.παλαιώνπελατών&ανάπτυξηδιαδικτυακούσυστήματοςυποβολήςπρότασηςμετάαπόερωτηματολόγιο→αύξησηεπισκεψιμότηταςιστοσελίδας67%→τριπλασιασμόςεσόδωνιστοσελίδαςτοέτοςεισαγωγήςτουσυστήματος

11

•Εισαγωγή

•CaseStudies

•VISA•AmericanExpress

•Softmap•Walmart•VictoriaSecret

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 12: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Casestudy:Walmart

• Τεράστιαβάσηδεδομένωναγοραστικήςσυμπεριφοράς– Ηανάλυσημεμεθόδουςμηχανικήςμάθησηςανέδειξε

συμπεράσματατηςμορφής• Οιπελάτεςπουαγοράζουνμπύρασυχνάπρομηθεύονταικαιπίτσα

• ΚάθεΠέμπτη,οιπελάτεςπουαγοράζουνμπύρααγοράζουνεπίσηςπάνες

• Τέτοιεςπληροφορίεςέχουνδυνητικάμεγάληπροστιθέμενηαξία– Αναδιάταξηπροϊόντων,– Διαχείρισηαποθεμάτων…

• Συνήθηςεφαρμογή:Ταδεδομέναπουαποκτώνταιμέσωπροσωπικώνεκπτωτικώνκαρτώνείναισυχνάμεγαλύτερηςαξίαςαπότηνπαρεχόμενηέκπτωση

12

•Εισαγωγή

•CaseStudies

•VISA•AmericanExpress

•Softmap•Walmart•VictoriaSecret

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 13: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Casestudy:VictoriaSecret

• DirectMarketing:Oιπροσφορέςπροώθησηςπροϊόντοςείναισυχνάκοστοβόρεςκαιέχουνέναπολύχαμηλό–αλλάιδιαίτεραπροσοδοφόρο–ποσοστόαπόκρισης

• VictoriaSecret:φθίνουσαπορείαεσόδωναπόταχυδρομικήαποστολήκαταλόγου

• Μετάαπότηνανάλυσηδημογραφικώνδεδομένωντωνπελατώντης,ηστόχευσηεστιάστηκεσεδιαφοροποιημένουποσύνολοπελατώνκαιπροϊόντων– Ηπορείατωνεσόδωναντιστράφηκε,ενώπαράλληλα

τοκόστοςαποστολήςμειώθηκεκατά15%

13

•Εισαγωγή

•CaseStudies

•VISA•AmericanExpress

•Softmap•Walmart•VictoriaSecret

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 14: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Ημορφήτωνδεδομένωνκαιησημασίατης

• Ηκατανόησητηςμορφήςτωνδεδομένωνκαιεξαγόμενωνείναιίσωςπερισσότεροσημαντικήαπόταενδιάμεσαβήματασεέναναλγόριθμοεξόρυξηςπληροφορίας

Δεδομένα

input

ΑλγόριθμοιΕξόρυξης

Πληροφορίας

Εξαγόμενα

output

14

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 15: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

ΣυνιστώσεςΔεδομένων,Ορολογία

• Αντίληψη(concept):τοαντικείμενοτηςμάθησης– Στόχος:εύρεσηκατανοητήςκαιλειτουργικής

περιγραφήςενόςconcept

• Υπόδειγμα(instance):τοξεχωριστόκαιανεξάρτητοπαράδειγμα(example)ενόςconcept– Σημείωση:Περισσότεροσύνθετασχήματαεισόδου

είναιπιθανά

• Χαρακτηριστικό(attribute):ημετρήσιμησυνιστώσαενόςυποδείγματος– Θαεστιάσουμεσεονομαστικέςκαιαριθμητικές

συνιστώσες

15

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 16: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

ΣυνιστώσεςΔεδομένων,Παράδειγμα

……………

YesFalse8075Rainy

YesFalse8683Overcast

NoTrue9080Sunny

NoFalse8585Sunny

PlayWindyHumidityTemperatureOutlook

inst

ance

s

attributes

If outlook = sunny and humidity = high then play = no

conceptdescription:

16

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 17: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Concept(Αντίληψη)

• Είδημάθησης:– Ταξινόμηση(classification):

πρόβλεψηδιακριτήςκατηγορίας

– Συσχέτιση(association):εντοπισμόςσυσχετίσεωνμεταξύχαρακτηριστικών

– Ομαδοποίηση(clustering):ανάδειξηομάδωνόμοιωνυποδειγμάτων

– Αριθμητικήπρόβλεψη(numericprediction):πρόβλεψηαριθμητικήςποσότητας

• Concept(αντίληψη):τοαντικείμενοτηςμάθησης

• Περιγραφήαντίληψης(conceptdescription):τοπροϊόν/σχήματηςμαθησιακήςδιαδικασίας

17

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 18: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Ταξινόμηση(Classification)

• Ταξινόμησηυποδείγματοςσεπροκαθορισμένητάξη(class)– Γιαπαράδειγμα:play/no‐play

• Μάθησημεεπίβλεψη(supervised)– Οιομάδεςταξινόμησηςείναιεκτωνπροτέρωνγνωστές– Τοπραγματικόαποτέλεσμακάθευποδείγματοςείναι

επίσηςγνωστό

• Οβαθμόςαξιοπιστίαςμετριέται– σεμηχρησιμοποιημέναγιατηδιαμόρφωσητου

conceptdescriptionδεδομένα(testdata)είτε– υποκειμενικά,ανάλογαμετοβαθμόαποδοχήςτης

περιγραφής

18

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 19: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Συσχέτιση(Association)

• Ανακάλυψησυσχετίσεωνμεταξύτωνδιάφορωνχαρακτηριστικών

• Διαφορέςμετημάθησηταξινόμησης:– Μπορείνααναδείξουντησυσχέτισηείτενα

προβλέψουντηντιμήοποιουδήποτεχαρακτηριστικούκαιόχιμόνοτηςτάξης

– Συνδέουνπιθανόνπερισσότερααπόέναχαρακτηριστικάκάθεφορά

– Επομένως,προκύπτουνπολλοίπερισσότεροικανόνεςσυσχέτισηςαπόότικανόνεςταξινόμησης

– Άραπεριορισμοίκατάτηναναζήτησηείναιαναγκαίοι,όπωςελάχιστηκάλυψη&ελάχιστηακρίβεια

19

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 20: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Ομαδοποίηση(Clustering)

• Εύρεσηομάδωναντικειμένωνμευψηλόβαθμόομοιότηταςκαιεκχώρησηυποδειγμάτωνστιςομάδεςαυτές

• Χωρίςεπίβλεψη(unsupervised)

– ητάξητουυποδείγματοςδενανήκεισεγνωστόσύνολο

Irisvirginica1.95.12.75.8102

101

52

51

2

1

Irisvirginica2.56.03.36.3

Irisversicolor1.54.53.26.4

Irisversicolor1.44.73.27.0

Irissetosa0.21.43.04.9

Irissetosa0.21.43.55.1

TypePetalwidth

Petallength

SepalwidthSepallength

20

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 21: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Αριθμητικήπρόβλεψη(Numericprediction)

• Όμοιαμεταξινόμηση,αλλάτώραη‘τάξη’είναιαριθμητική

• Μάθησημεεπίβλεψη(supervised)

– Ητιμή–στόχοςκάθευποδείγματοςείναιεκτωνπροτέρωνγνωστή

……………

40FalseNormalMildRainy

55FalseHighHotOvercast

0TrueHighHotSunny

5FalseHighHotSunny

Play‐timeWindyHumidityTemperatureOutlook

21

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 22: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Παράδειγμα(example)

• Υπόδειγμα(instance):ειδικόςτύποςπαραδείγματος– Προςταξινόμηση,συσχέτισηήομαδοποίηση

– Ιδιαίτερο&ανεξάρτητοπαράδειγματηςαντίληψηςπροςεκμάθηση

– Χαρακτηρίζεταιαπόπροκαθορισμένοσύνολοχαρακτηριστικών

• Συνήθηςμορφήδεδομένωνπροςεξόρυξηγνώσης:σύνολουποδειγμάτων(dataset)– Πίνακαςυποδειγμάτων(instances)–

χαρακτηριστικών(attributes)(επίπεδοαρχείο,flatfile)

– Μάλλονπεριοριστικήμορφήδεδομένων(καμίασυσχέτισημεταξύτωναντικειμένων)

22

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 23: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Χαρακτηριστικό(attribute)

• Κάθεπαράδειγμααποτελείταιαπόπροκαθορισμένοσύνολοστοιχείων,ταοποίακαλούνταιχαρακτηριστικά(attributes)

• Στηνπράξη,οαριθμόςτωνχαρακτηριστικώνμπορείναποικίλει

• Επίσης,ηύπαρξηενόςχαρακτηριστικούμπορείναεξαρτάταιαπότηντιμήενόςάλλου

• Πιθανοίτύποιχαρακτηριστικών(“levelsofmeasurement”):– Ονομαστικά(nominal),– τακτικά(ordinal),– περιοδικά(interval)και– αναλογικά(ratio)

23

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 24: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Προπαρασκευήδεδομένωνεισόδου

• Πρόβλημα01:διαφορετικέςπηγέςδεδομένων(γιαπαράδειγμα,σεμίαεπιχείρηση,εγγραφέςτμήματοςπωλήσεων,λογιστηρίου,…)– Διαφορές:τρόποςαποθήκευσηςεγγραφών,παραδοχές,

χρονικέςπερίοδοι,άθροισηδεδομένων,σφάλματα

– Ταδεδομέναπρέπεινασυγκεντρωθούνσεενιαίοσύνολο,μεενιαίαλιτήδομή→datawarehouse:συνεπέςσημείοπρόσβασης

– Κρίσιμοςπαράγοντας:τύποςκαιεπίπεδοάθροισηςδεδομένων

• Γιαπαράδειγμαδεδομέναανάσυναλλαγή,ανάπελάτη,ανάημέρακτλ.

• Πρόβλημα02:ανακριβείςτιμές

• Πρόβλημα03:άγνωστεςτιμές

24

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 25: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Εξερεύνησητωνδεδομένων

• Ορισμένααπλάεργαλείαοπτικοποίησηςείναιπολύχρήσιμα– Ονομαστικάχαρακτηριστικά:ιστογράμματα(είναιη

κατανομήσυμβατήμετηγνώσηπεδίου;)– Αριθμητικάχαρακτηριστικά:γραφήματα

(υπάρχουνεμφανείςτιμέςπροςεξαίρεση(outliers);)

• Διαγράμματα2&3διαστάσεωνυποδεικνύουνεξαρτήσεις&αλληλοσυσχετίσεις

• Αναγκαίαηγνώσητωνειδικών• Αχανήςόγκοςδεδομένων;Δειγματοληψία!

25

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 26: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Προεπεξεργασίαδεδομένων

• Ομετασχηματισμόςτωνδεδομένωνσεμορφήκατάλληληκαιαποδοτικήγιατηνεπιλεγμένημέθοδομάθησης– Σύνολοτεχνασμάτωνπουεφαρμόζονταιμεκύριοστόχο

τηναύξησητουβαθμούαξιοπιστίας

• Κάποιεςφορέςλειτουργούν,κάποιεςόχι,και,μέχρισήμερα,είναιδύσκολοναγνωρίζεικανείςεκτωνπροτέρωντηναποτελεσματικότητάτους

• Καθώςοπλέοναξιόπιστοςοδηγόςείναιημέθοδος‘δοκιμής&σφάλματος’(‘trial&error’),ηγνώσηκαικατανόησητωντεχνασμάτωναυτώνείναιεξαιρετικάσημαντική

26

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 27: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Τεχνοτροπίεςπροεπεξεργασίαςδεδομένων

• Προεπιλογήχαρακτηριστικών(attributes)

– Κατάκανόνα,ταπερισσότεραχαρακτηριστικά–συχνάησυντριπτικήπλειοψηφίατους–είναιευκρινώςμησυσχετιζόμεναήπεριττά→ αποκοπή

• Διακριτοποίησηχαρακτηριστικών

– Αναγκαίαότανκάποιαχαρακτηριστικάείναιαριθμητικάαλλάοεπιλεγμένοςαλγόριθμοςμπορείναχειριστείμόνορητά(categorical)χαρακτηριστικά

• Μετασχηματισμόςδεδομένων

– Μαθηματικοίμετασχηματισμοί,βασισμένοιστηγνώσηπεδίου,λογικοίμετασχηματισμοί,αλλαγήδομής/μορφήςδεδομένων

• Καθαρισμόςδεδομένων

– Οπτικοποίησηκαιαυτοματοποιημένεςμέθοδοι

27

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•Ορολογία•Αντίληψη&είδητης

•Παράδειγμα

•Χαρακτηριστικό

•Προπαρασκευή

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 28: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Ημορφήτωνεξαγόμενωνκαιησημασίατης

• ΟιτεχνικέςΜηχανικήςΜάθησηςπαρέχουνδιάφορεςδομικέςπεριγραφέςτωνεξαγόμενων

• Καθεμίααπόαυτέςυπαγορεύειτοείδοςτουαλγορίθμουπουπρέπειναχρησιμοποιηθείγιατοσχηματισμότηςαπόταδεδομένα

Δεδομένα

input

ΑλγόριθμοιΕξόρυξης

Πληροφορίας

Εξαγόμενα

output

28

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγόμενων

•Πίνακες

•Δένδρα

•Κανόνες

•Παλινδρόμηση

•Ομάδες

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 29: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Εξαγόμενα:Απεικόνισηγνώσης

• Πίνακεςαπόφασης(decisiontables)

• Δένδρααπόφασης(decisiontrees)

• Κανόνεςαπόφασης(decisionrules)

• Κανόνεςσυσχέτισης(associationrules)

• Κανόνεςμεεξαιρέσεις(ruleswithexceptions)

• Κανόνεςμεσυσχετίσεις(rulesinvolvingrelations)

• Γραμμικήπαλινδρόμηση(linearregression)

• Δένδραγιααριθμητικήπρόβλεψη(treesfornumericprediction)

• Απεικόνισημεβάσηυποδείγματα(instance‐basedrepresentation)

• Ομάδες(clusters)

29

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγόμενων

•Πίνακες

•Δένδρα

•Κανόνες

•Παλινδρόμηση

•Ομάδες

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 30: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Decisiontables

NoNormalRainy

NoHighRainy

YesNormalOvercast

YesHighOvercast

YesNormalSunny

NoHighSunny

PlayHumidityOutlook

30

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγόμενων

•Πίνακες

•Δένδρα

•Κανόνες

•Παλινδρόμηση

•Ομάδες

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 31: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Decisiontrees

31

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγόμενων

•Πίνακες

•Δένδρα

•Κανόνες

•Παλινδρόμηση

•Ομάδες

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 32: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Classificationrules

If outlook = sunny and humidity > 83

then play = no

If outlook = rainy and windy = true

then play = no

If outlook = overcast

then play = yes

If humidity < 85

then play = yes

If none of the above

then play = yes

32

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγόμενων

•Πίνακες

•Δένδρα

•Κανόνες

•Παλινδρόμηση

•Ομάδες

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 33: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Associationrules

If temperature = cool

then humidity = normal

If windy = false and play = nothen outlook = sunny and humidity = high

– Συσχετίζουντιςτιμέςτωνδιάφορωνattributesμεταξύτους

33

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγόμενων

•Πίνακες

•Δένδρα

•Κανόνες

•Παλινδρόμηση

•Ομάδες

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 34: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Regressiontree

34

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγόμενων

•Πίνακες

•Δένδρα

•Κανόνες

•Παλινδρόμηση

•Ομάδες

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 35: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Instance‐basedrepresentation

35

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγόμενων

•Πίνακες

•Δένδρα

•Κανόνες

•Παλινδρόμηση

•Ομάδες

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 36: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Clustering

36

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγόμενων

•Πίνακες

•Δένδρα

•Κανόνες

•Παλινδρόμηση

•Ομάδες

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 37: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Αποτίμηση:τοκλειδίτηςεπιτυχίας

• Πλήθοςμεθόδωνεξαγωγήςδομικώνπεριγραφώναπόδεδομένα

• Ποιεςείναιοιβέλτιστεςγιασυγκεκριμένοπρόβλημα;

• Απαιτείταισυστηματικήπροσέγγισηγιατηναποτίμησηκαιτησύγκρισηαποδοτικότηταςτωνπεριγραφώναυτών

• Αναφέρεταιρητάότιτοσφάλμασταδεδομέναεκπαίδευσηςδεναποτελείαξιόπιστοδείκτηαπόδοσηςσεμελλοντικάδεδομένα

• Λύση:διάσπασητωνδεδομένωνσεσύνολοεκπαίδευσης(trainingset)καισύνολοελέγχου(testset)– Απαιτείταιμεγάλοςόγκος(ταξινομημένων)δεδομένων

– Ωστόσο,οόγκοςτωνδεδομένωνείναισυνήθωςπεριορισμένος

– Αναγκαίαηχρήσηπερισσότεροεκλεπτυσμένωντεχνικών

37

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Αποτίμηση•Εκπαίδευση

•Επιλογή

•Πρώταταβασικά

•Μετα‐αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 38: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Εκπαίδευση&έλεγχος

• Μέτροαπόδοσηςσεπροβλήματαταξινόμησης:τιμήσφάλματος(errorrate)– Επιτυχία(success):σωστήπρόβλεψητηςτάξηςτου

υποδείγματος– Σφάλμα(error):λανθασμένηπρόβλεψητηςτάξηςτου

υποδείγματος– Τιμήσφάλματος(errorrate):αναλογίασφαλμάτωνστο

σύνολοτωνυποδειγμάτων• Ωστόσο,ενδιαφέρειηπιθανήμελλοντικήαπόδοσησενέα

παραδείγματακαιόχιηαπόδοσησταήδηδεδομέναυποδείγματαεκπαίδευσης…

• Αποτελείητιμήσφάλματοςσεήδηγνωστάδεδομένααξιόπιστηένδειξητηςτιμήςσφάλματοςσενέαδεδομένα;

38

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Αποτίμηση

•Εκπαίδευση

•Επιλογή

•Πρώταταβασικά

•Μετα‐αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 39: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Εκπαίδευση&έλεγχος

• ΗαπάντησησυνιστάέναηχηρόΟΧΙ– στηνπερίπτωσηπουταπαλαιάαυτάδεδομέναέχουν

χρησιμοποιηθείστηδιαμόρφωσητουμοντέλουκατάτηδιαδικασίαεκπαίδευσης

• Καθώςηδομικήπεριγραφήέχεισχεδιαστείμετρόποώστεναελαχιστοποιείτοσυγκεκριμένοσφάλμα,οποιαδήποτεεκτίμησητηςαποδοτικότητάςτηςβασισμένησταυποδείγματααυτάαποτελείαισιόδοξη,ανόχιανέλπιστααισιόδοξηεκτίμηση

39

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Αποτίμηση

•Εκπαίδευση

•Επιλογή

•Πρώταταβασικά

•Μετα‐αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 40: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Κριτήριαεπιλογήςμοντέλου

• Αποπειρώνταιναεπιτύχουνθετικόσυμβιβασμόμεταξύ:• Τηςπολυπλοκότηταςτουμοντέλου• Τηςακρίβειαςτωνπροβλέψεώντουσταδεδομένα

εκπαίδευσης

• Συλλογιστική:άρτιοθεωρείταιτομοντέλοπουαφενόςείναιαπλόκαιαφετέρουεπιτυγχάνειυψηλήακρίβειασταδιαθέσιμαδεδομένα– ΕπίσηςγνωστήκαιωςΞυράφιτουΌκκαμ(Occam’s

Razor):βέλτιστηείναιημικρότερηθεωρίαπουπεριγράφειόλεςτιςπληροφορίες

• ΚατάτονΑλβέρτοΑϊνστάιν:“Everythingshouldbemadeassimpleaspossible,butnosimpler.”

40

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Αποτίμηση

•Εκπαίδευση

•Επιλογή

•Πρώταταβασικά

•Μετα‐αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 41: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Κομψότηταvs.σφάλμα

• ΘεωρίαΑ:πολύαπλή,κομψήθεωρίαπουπεριγράφειταδεδομέναμεσχεδόναπόλυτοτρόπο

• ΘεωρίαΒ:σημαντικάπερισσότεροπολύπλοκηθεωρίαπουπεριγράφειταδεδομέναχωρίςλάθη

• ΗΘεωρίαΑείναιπροφανώςπροτιμώμενη– Κλασσικόπαράδειγμα:οιτρειςνόμοιτουΚέπλεργια

τηνκίνησητωνπλανητών• ΛιγότεροακριβείςαπότηντελευταίαβελτίωσητουΚοπέρνικουστηθεωρίατωνεπικύκλωντουΠτολεμαίου

41

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Αποτίμηση

•Εκπαίδευση

•Επιλογή

•Πρώταταβασικά

•Μετα‐αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 42: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Πρώταταβασικά

• Πολύσυχνά,απλοίκανόνεςεπιτυγχάνουνμηαναμενόμεναυψηλήακρίβεια– Αίτιοηαπλοϊκήδομήπουσυχνάυποβόσκειπίσωαπό

πραγματικάσύνολαδεδομένων

• Σεκάθεπερίπτωση,συνίσταταιαρχικάοπειραματισμόςμετιςπλέοναπλέςτωνμεθόδων– TheKISSprinciple:KeepItSimple,Stupid!

42

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Αποτίμηση

•Εκπαίδευση

•Επιλογή

•Πρώταταβασικά

•Μετα‐αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 43: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

“Μετα”‐μαθησιακάσχήματα

• Θεμελιώδηςιδέα:κατασκευήπολλών“εμπειρογνωμόνων”(“experts”),ανάδειξηπλειοψηφούσαςγνώμης– “εμπειρογνώμονας”:έναμοντέλοπουδημιουργήθηκεμε

τεχνικέςμηχανικήμάθησης• Πλεονέκτημα:

– Συχνάβελτιώνεισημαντικάτηνπροβλεπτικήικανότητα• Μειονέκτημα:

– Ταεξαγόμεναείναιπολύδύσκολονααναλυθούν• Σχήματα:

– Εμφωλίαση(bagging)– Ενδυνάμωση(boosting)– Συσσώρευση(stacking)– Κώδικεςδιόρθωσηςσφαλμάτωνεξόδου

(error‐correctingoutputcodes)

43

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Αποτίμηση

•Εκπαίδευση

•Επιλογή

•Πρώταταβασικά

•Μετα‐αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 44: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected] 44

Βιβλίο

“DataMining,PracticalMachineLearningToolsandTechniques”,

Witten&Frank,MorganKaufmann,Ιούνιος2005.

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Βιβλίο

•WEKA

•.arff

•.xlsσε.arff

•Επίδειξη

Page 45: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected] 45

Λογισμικό

WEKA:WaikatoEnvironmentforKnowledgeAnalysis

http://www.cs.waikato.ac.nz/ml/weka/

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Βιβλίο

•WEKA

•.arff

•.xlsσε.arff

•Επίδειξη

Page 46: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Ητυποποίηση.ARFF

%

% ARFF file for weather data with some numeric features

%

@relation weather

@attribute outlook {sunny, overcast, rainy}

@attribute temperature numeric

@attribute humidity numeric

@attribute windy {true, false}

@attribute play? {yes, no}

@data

sunny, 85, 85, false, no

sunny, 80, 90, true, no

overcast, 83, 86, false, yes

...

46

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Βιβλίο

•WEKA

•.arff

•.xlsσε.arff

•Επίδειξη

Page 47: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Μετατροπή.xlsσε.arff

• Έστωπίνακαςσεαρχείο.xls

• Saveas→saveastype→name.csv

• Openname.csvμε.txteditor,γιαπαράδειγμαnotepad

• Πρόσθεσετοόνοματουdataset(@relation),τιςπληροφορίεςτωνχαρακτηριστικών(@attribute,μίασειράγιακάθεχαρακτηριστικό)καιτησειρά@data

• Saveastype:allfiles&filename:dataset.arff

47

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Βιβλίο

•WEKA

•.arff

•.xlsσε.arff

•Επίδειξη

Page 48: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Επίδειξη

48

• Τρίτη17Ιουλίου,35°C,49διαφάνειεςμετά:– …

– Στηνπράξη;Πώςταεφαρμόζωόλααυτά;

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη

Page 49: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί

ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]

Τέλος

49

•Εισαγωγή

•CaseStudies

•ΜορφήΔεδομένων

•ΜορφήΕξαγομένων

•Αλγόριθμοι

•Λογισμικό

•Επίδειξη