Εισαγωγή στο data mining Από τα δεδομένα στη...
TRANSCRIPT
![Page 1: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/1.jpg)
ΕισαγωγήστοDataMiningΑπόταδεδομέναστηγνώση
![Page 2: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/2.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Ηπληροφορίαστησύγχρονηεπιχείρηση
• Πέραντουανθρώπινουδυναμικού,ηπληροφορίααποτελείτονπλέονπολύτιμοπόροτηςσύγχρονηςεπιχείρησης– Συνιστάεπομένωςκαθοριστικόπαράγονταγιατην
επίτευξητωνεπιχειρησιακώνστόχων
• Διαχείρισηγνώσης(knowledgemanagement):ηεκμετάλλευσηκαιανάπτυξητωνγνωστικώνκεφαλαίωνμίαςεπιχείρησηςμεαντικείμενοτηνπροαγωγήτωναντικειμενικώντηςεπιδιώξεων
• ΤαπληροφοριακάσυστήματαERPανταποκρίνονταιστηναπαίτησησυλλογήςκαιεπεξεργασίαςτωνεπιχειρησιακώνδεδομένων– Datawarehouses
2
••ΕισαγωγΕισαγωγήή
•ΗΑνάγκη
•Διαδικασία
•Ορισμός
•Αφετηρία
•Πρότυπα
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 3: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/3.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Cost
Time1990 2010
Communicationof Data understood
(explicit)
generated and collected
(implicit)
Dataper day
Time1990 2010
The datagap
DataStorage
MalthusLawofInformation:– Τονέοπληροφοριακόπεριεχόμενοδιπλασιάζεταικάθε
χρόνο– Οχρόνοςπουδαπανάταιγιατηνκατανάλωση
πληροφοριώνπαραμένεισταθερός
Ταεπιχειρησιακάδεδομένααφθονούν
3
•Εισαγωγή
•ΗΑνάγκη
•Διαδικασία
•Ορισμός
•Αφετηρία
•Πρότυπα
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 4: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/4.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected] 4
Ταδεδομένααφθονούν
• Μόνοέναμικρόποσοστό(5‐10%)τωνσυλλεγόμενωνδεδομένωντυγχάνειανάλυσης
• Μίατυπικήεπιχειρησιακήβάσηδεδομένωνσήμεραπεριέχεισυχνάμεγάλοαριθμόεγγραφών(108‐1012)δεδομένωνπολλώνδιαστάσεων(10‐104μεταβλητές)
• Τελικά:“Wearedrowningindata,butstarvingforknowledge!”
• Πώςμπορούνναεξερευνηθούνεκατομμύριαεγγραφώνεκατοντάδωνμεταβλητών,ώστεναανακαλυφθούνπρότυπα(patterns)?
•Εισαγωγή
•ΗΑνάγκη
•Διαδικασία
•Ορισμός
•Αφετηρία
•Πρότυπα
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 5: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/5.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Απόταδεδομέναστηνπληροφορίακαιτηγνώση
5
•Εισαγωγή
•ΗΑνάγκη
•Διαδικασία
•Ορισμός
•Αφετηρία
•Πρότυπα
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 6: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/6.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected] 6
Ορισμός
• Datamining:όροςπουχρησιμοποιείται–λανθασμένα–γιαναπεριγράψειτοσύνολοτηςδιαδικασίαςεξόρυξηςγνώσηςαπόβάσειςδεδομένων(KnowledgeDiscoveryinDatabases)
• Ορισμός:Thenontrivialextractionofimplicit,previouslyunknown,andpotentiallyusefulinformationfromdata.
• Εναλλακτικά:Statisticsatscale,speedandsimplicity.
• Στοεξής,ορίζουμε:ΕξόρυξηΠληροφορίας/ΓνώσηςαπόΔεδομένα≡DataMining
•Εισαγωγή
•ΗΑνάγκη
•Διαδικασία
•Ορισμός
•Αφετηρία
•Πρότυπα
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 7: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/7.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Αφετηρία
• Τοερευνητικόπεδίοαποτελείτομήμεθόδωνκαιεργαλείωνπουπηγάζουναπό– Στατιστική– ΜηχανικήΜάθηση– Βάσεις&αποθήκεςδεδομένων
• Αποτελείσύγχρονηεξέλιξη,τοπρώτοσχετικόσυνέδριοπραγματοποιήθηκετο1995.
• Πειραματικήεπιστήμη!
DataMining
Statistics
Artificial Intelligence& Machine
Learning
Databases &Data Warehouses
7
•Εισαγωγή
•ΗΑνάγκη
•Διαδικασία
•Ορισμός
•Αφετηρία
•Πρότυπα
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 8: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/8.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Πρότυπα
• Επομένωςαναζητούνταιαλγόριθμοιεντοπισμούπροτύπων(patterns)καικανονικοτήτωνσεδεδομένα
• Περιγραφήπροτύπων– Μαύροκουτί:μηκατανοητοίμηχανισμοί
– Διαφανέςκουτί:αποκαλύπτειτηδομήτουπροτύπου→δομικήπεριγραφή
• Οιδομικές(structural)περιγραφέςαναπαριστούνταπρότυπαμεσαφώςορισμένο(ρητό,explicit)τρόπο,μεσκοπότην– Πρόβλεψη
– Κατανόησηκαιεπεξήγησημοντέλουπρόβλεψης
8
•Εισαγωγή
•ΗΑνάγκη
•Διαδικασία
•Ορισμός
•Αφετηρία
•Πρότυπα
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 9: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/9.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Casestudy:VISA
• Απάτηκατάτηχρήσηπιστωτικώνκαρτών– 0,93%σεoff‐lineσυναλλαγές
– 1,97%σεon‐line
• Κλασσικέςστατιστικέςμέθοδοι:97λανθασμένοισυναγερμοίγιακάθεαληθή
• Ανάλυσηδεδομένωνσυμπεριφοράςμετεχνικέςμηχανικήςμάθησης
→μείωσητηςαναλογίαςλανθασμένωνσυναγερμώνστους10ανάαληθή
→ελάττωσηπεριστατικώναπάτηςαπό1576σε478,σεδείγμα7ευρωπαϊκώντραπεζών
9
•Εισαγωγή
•CaseStudies
•VISA•AmericanExpress
•Softmap•Walmart•VictoriaSecret
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 10: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/10.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Casestudy:AmericanExpress
• Πρόβλημα:Παροχήδανείου– Ερωτηματολόγιογιασχετικέςοικονομικέςκαιπροσωπικές
πληροφορίες→Αποδοχή/απόρριψηαίτησηςδανειοδότησης
• Συνήθειςστατιστικέςτεχνικέςκαλύπτουναποτελεσματικάτο90%τωνπεριπτώσεων– Οιυπόλοιπεςασαφείςπεριπτώσειςαξιολογούνταιαπό
ειδικούς– Ωστόσοτο50%τωναποδεκτώνασαφώνπεριπτώσεωνδεν
αποπληρώνουν• 1000παραδείγματαεκπαίδευσηςασαφώνπεριπτώσεων
– 20χαρακτηριστικά(ηλικία,οικογενειακήκατάσταση,διάρκειαεργασίαςυπότονίδιοεργοδότη,άλλαδάνεια…)
→Οικανόνεςπουπροέκυψαναποδείχθηκανσωστοίστο70%τωνπεριπτώσεων
10
•Εισαγωγή
•CaseStudies
•VISA•AmericanExpress
•Softmap•Walmart•VictoriaSecret
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 11: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/11.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Casestudy:Softmap
• ΚορυφαίαεταιρείαπωλήσεωνPC&softwareστηνΙαπωνία
• Οιon‐lineπωλήσειςεμφάνισανσυνεχήμείωση– Αδυναμίαπροσαρμογήςστιςειδικέςανάγκεςτου
πελάτη;
• Ανάλυσηχαρακτηριστικών2εκ.παλαιώνπελατών&ανάπτυξηδιαδικτυακούσυστήματοςυποβολήςπρότασηςμετάαπόερωτηματολόγιο→αύξησηεπισκεψιμότηταςιστοσελίδας67%→τριπλασιασμόςεσόδωνιστοσελίδαςτοέτοςεισαγωγήςτουσυστήματος
11
•Εισαγωγή
•CaseStudies
•VISA•AmericanExpress
•Softmap•Walmart•VictoriaSecret
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 12: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/12.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Casestudy:Walmart
• Τεράστιαβάσηδεδομένωναγοραστικήςσυμπεριφοράς– Ηανάλυσημεμεθόδουςμηχανικήςμάθησηςανέδειξε
συμπεράσματατηςμορφής• Οιπελάτεςπουαγοράζουνμπύρασυχνάπρομηθεύονταικαιπίτσα
• ΚάθεΠέμπτη,οιπελάτεςπουαγοράζουνμπύρααγοράζουνεπίσηςπάνες
• Τέτοιεςπληροφορίεςέχουνδυνητικάμεγάληπροστιθέμενηαξία– Αναδιάταξηπροϊόντων,– Διαχείρισηαποθεμάτων…
• Συνήθηςεφαρμογή:Ταδεδομέναπουαποκτώνταιμέσωπροσωπικώνεκπτωτικώνκαρτώνείναισυχνάμεγαλύτερηςαξίαςαπότηνπαρεχόμενηέκπτωση
12
•Εισαγωγή
•CaseStudies
•VISA•AmericanExpress
•Softmap•Walmart•VictoriaSecret
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 13: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/13.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Casestudy:VictoriaSecret
• DirectMarketing:Oιπροσφορέςπροώθησηςπροϊόντοςείναισυχνάκοστοβόρεςκαιέχουνέναπολύχαμηλό–αλλάιδιαίτεραπροσοδοφόρο–ποσοστόαπόκρισης
• VictoriaSecret:φθίνουσαπορείαεσόδωναπόταχυδρομικήαποστολήκαταλόγου
• Μετάαπότηνανάλυσηδημογραφικώνδεδομένωντωνπελατώντης,ηστόχευσηεστιάστηκεσεδιαφοροποιημένουποσύνολοπελατώνκαιπροϊόντων– Ηπορείατωνεσόδωναντιστράφηκε,ενώπαράλληλα
τοκόστοςαποστολήςμειώθηκεκατά15%
13
•Εισαγωγή
•CaseStudies
•VISA•AmericanExpress
•Softmap•Walmart•VictoriaSecret
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 14: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/14.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Ημορφήτωνδεδομένωνκαιησημασίατης
• Ηκατανόησητηςμορφήςτωνδεδομένωνκαιεξαγόμενωνείναιίσωςπερισσότεροσημαντικήαπόταενδιάμεσαβήματασεέναναλγόριθμοεξόρυξηςπληροφορίας
Δεδομένα
input
ΑλγόριθμοιΕξόρυξης
Πληροφορίας
Εξαγόμενα
output
14
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 15: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/15.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
ΣυνιστώσεςΔεδομένων,Ορολογία
• Αντίληψη(concept):τοαντικείμενοτηςμάθησης– Στόχος:εύρεσηκατανοητήςκαιλειτουργικής
περιγραφήςενόςconcept
• Υπόδειγμα(instance):τοξεχωριστόκαιανεξάρτητοπαράδειγμα(example)ενόςconcept– Σημείωση:Περισσότεροσύνθετασχήματαεισόδου
είναιπιθανά
• Χαρακτηριστικό(attribute):ημετρήσιμησυνιστώσαενόςυποδείγματος– Θαεστιάσουμεσεονομαστικέςκαιαριθμητικές
συνιστώσες
15
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 16: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/16.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
ΣυνιστώσεςΔεδομένων,Παράδειγμα
……………
YesFalse8075Rainy
YesFalse8683Overcast
NoTrue9080Sunny
NoFalse8585Sunny
PlayWindyHumidityTemperatureOutlook
inst
ance
s
attributes
If outlook = sunny and humidity = high then play = no
conceptdescription:
16
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 17: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/17.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Concept(Αντίληψη)
• Είδημάθησης:– Ταξινόμηση(classification):
πρόβλεψηδιακριτήςκατηγορίας
– Συσχέτιση(association):εντοπισμόςσυσχετίσεωνμεταξύχαρακτηριστικών
– Ομαδοποίηση(clustering):ανάδειξηομάδωνόμοιωνυποδειγμάτων
– Αριθμητικήπρόβλεψη(numericprediction):πρόβλεψηαριθμητικήςποσότητας
• Concept(αντίληψη):τοαντικείμενοτηςμάθησης
• Περιγραφήαντίληψης(conceptdescription):τοπροϊόν/σχήματηςμαθησιακήςδιαδικασίας
17
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 18: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/18.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Ταξινόμηση(Classification)
• Ταξινόμησηυποδείγματοςσεπροκαθορισμένητάξη(class)– Γιαπαράδειγμα:play/no‐play
• Μάθησημεεπίβλεψη(supervised)– Οιομάδεςταξινόμησηςείναιεκτωνπροτέρωνγνωστές– Τοπραγματικόαποτέλεσμακάθευποδείγματοςείναι
επίσηςγνωστό
• Οβαθμόςαξιοπιστίαςμετριέται– σεμηχρησιμοποιημέναγιατηδιαμόρφωσητου
conceptdescriptionδεδομένα(testdata)είτε– υποκειμενικά,ανάλογαμετοβαθμόαποδοχήςτης
περιγραφής
18
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 19: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/19.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Συσχέτιση(Association)
• Ανακάλυψησυσχετίσεωνμεταξύτωνδιάφορωνχαρακτηριστικών
• Διαφορέςμετημάθησηταξινόμησης:– Μπορείνααναδείξουντησυσχέτισηείτενα
προβλέψουντηντιμήοποιουδήποτεχαρακτηριστικούκαιόχιμόνοτηςτάξης
– Συνδέουνπιθανόνπερισσότερααπόέναχαρακτηριστικάκάθεφορά
– Επομένως,προκύπτουνπολλοίπερισσότεροικανόνεςσυσχέτισηςαπόότικανόνεςταξινόμησης
– Άραπεριορισμοίκατάτηναναζήτησηείναιαναγκαίοι,όπωςελάχιστηκάλυψη&ελάχιστηακρίβεια
19
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 20: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/20.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Ομαδοποίηση(Clustering)
• Εύρεσηομάδωναντικειμένωνμευψηλόβαθμόομοιότηταςκαιεκχώρησηυποδειγμάτωνστιςομάδεςαυτές
• Χωρίςεπίβλεψη(unsupervised)
– ητάξητουυποδείγματοςδενανήκεισεγνωστόσύνολο
…
…
…
Irisvirginica1.95.12.75.8102
101
52
51
2
1
Irisvirginica2.56.03.36.3
Irisversicolor1.54.53.26.4
Irisversicolor1.44.73.27.0
Irissetosa0.21.43.04.9
Irissetosa0.21.43.55.1
TypePetalwidth
Petallength
SepalwidthSepallength
20
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 21: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/21.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Αριθμητικήπρόβλεψη(Numericprediction)
• Όμοιαμεταξινόμηση,αλλάτώραη‘τάξη’είναιαριθμητική
• Μάθησημεεπίβλεψη(supervised)
– Ητιμή–στόχοςκάθευποδείγματοςείναιεκτωνπροτέρωνγνωστή
……………
40FalseNormalMildRainy
55FalseHighHotOvercast
0TrueHighHotSunny
5FalseHighHotSunny
Play‐timeWindyHumidityTemperatureOutlook
21
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 22: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/22.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Παράδειγμα(example)
• Υπόδειγμα(instance):ειδικόςτύποςπαραδείγματος– Προςταξινόμηση,συσχέτισηήομαδοποίηση
– Ιδιαίτερο&ανεξάρτητοπαράδειγματηςαντίληψηςπροςεκμάθηση
– Χαρακτηρίζεταιαπόπροκαθορισμένοσύνολοχαρακτηριστικών
• Συνήθηςμορφήδεδομένωνπροςεξόρυξηγνώσης:σύνολουποδειγμάτων(dataset)– Πίνακαςυποδειγμάτων(instances)–
χαρακτηριστικών(attributes)(επίπεδοαρχείο,flatfile)
– Μάλλονπεριοριστικήμορφήδεδομένων(καμίασυσχέτισημεταξύτωναντικειμένων)
22
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 23: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/23.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Χαρακτηριστικό(attribute)
• Κάθεπαράδειγμααποτελείταιαπόπροκαθορισμένοσύνολοστοιχείων,ταοποίακαλούνταιχαρακτηριστικά(attributes)
• Στηνπράξη,οαριθμόςτωνχαρακτηριστικώνμπορείναποικίλει
• Επίσης,ηύπαρξηενόςχαρακτηριστικούμπορείναεξαρτάταιαπότηντιμήενόςάλλου
• Πιθανοίτύποιχαρακτηριστικών(“levelsofmeasurement”):– Ονομαστικά(nominal),– τακτικά(ordinal),– περιοδικά(interval)και– αναλογικά(ratio)
23
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 24: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/24.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Προπαρασκευήδεδομένωνεισόδου
• Πρόβλημα01:διαφορετικέςπηγέςδεδομένων(γιαπαράδειγμα,σεμίαεπιχείρηση,εγγραφέςτμήματοςπωλήσεων,λογιστηρίου,…)– Διαφορές:τρόποςαποθήκευσηςεγγραφών,παραδοχές,
χρονικέςπερίοδοι,άθροισηδεδομένων,σφάλματα
– Ταδεδομέναπρέπεινασυγκεντρωθούνσεενιαίοσύνολο,μεενιαίαλιτήδομή→datawarehouse:συνεπέςσημείοπρόσβασης
– Κρίσιμοςπαράγοντας:τύποςκαιεπίπεδοάθροισηςδεδομένων
• Γιαπαράδειγμαδεδομέναανάσυναλλαγή,ανάπελάτη,ανάημέρακτλ.
• Πρόβλημα02:ανακριβείςτιμές
• Πρόβλημα03:άγνωστεςτιμές
24
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 25: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/25.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Εξερεύνησητωνδεδομένων
• Ορισμένααπλάεργαλείαοπτικοποίησηςείναιπολύχρήσιμα– Ονομαστικάχαρακτηριστικά:ιστογράμματα(είναιη
κατανομήσυμβατήμετηγνώσηπεδίου;)– Αριθμητικάχαρακτηριστικά:γραφήματα
(υπάρχουνεμφανείςτιμέςπροςεξαίρεση(outliers);)
• Διαγράμματα2&3διαστάσεωνυποδεικνύουνεξαρτήσεις&αλληλοσυσχετίσεις
• Αναγκαίαηγνώσητωνειδικών• Αχανήςόγκοςδεδομένων;Δειγματοληψία!
25
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 26: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/26.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Προεπεξεργασίαδεδομένων
• Ομετασχηματισμόςτωνδεδομένωνσεμορφήκατάλληληκαιαποδοτικήγιατηνεπιλεγμένημέθοδομάθησης– Σύνολοτεχνασμάτωνπουεφαρμόζονταιμεκύριοστόχο
τηναύξησητουβαθμούαξιοπιστίας
• Κάποιεςφορέςλειτουργούν,κάποιεςόχι,και,μέχρισήμερα,είναιδύσκολοναγνωρίζεικανείςεκτωνπροτέρωντηναποτελεσματικότητάτους
• Καθώςοπλέοναξιόπιστοςοδηγόςείναιημέθοδος‘δοκιμής&σφάλματος’(‘trial&error’),ηγνώσηκαικατανόησητωντεχνασμάτωναυτώνείναιεξαιρετικάσημαντική
26
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 27: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/27.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Τεχνοτροπίεςπροεπεξεργασίαςδεδομένων
• Προεπιλογήχαρακτηριστικών(attributes)
– Κατάκανόνα,ταπερισσότεραχαρακτηριστικά–συχνάησυντριπτικήπλειοψηφίατους–είναιευκρινώςμησυσχετιζόμεναήπεριττά→ αποκοπή
• Διακριτοποίησηχαρακτηριστικών
– Αναγκαίαότανκάποιαχαρακτηριστικάείναιαριθμητικάαλλάοεπιλεγμένοςαλγόριθμοςμπορείναχειριστείμόνορητά(categorical)χαρακτηριστικά
• Μετασχηματισμόςδεδομένων
– Μαθηματικοίμετασχηματισμοί,βασισμένοιστηγνώσηπεδίου,λογικοίμετασχηματισμοί,αλλαγήδομής/μορφήςδεδομένων
• Καθαρισμόςδεδομένων
– Οπτικοποίησηκαιαυτοματοποιημένεςμέθοδοι
27
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•Ορολογία•Αντίληψη&είδητης
•Παράδειγμα
•Χαρακτηριστικό
•Προπαρασκευή
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 28: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/28.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Ημορφήτωνεξαγόμενωνκαιησημασίατης
• ΟιτεχνικέςΜηχανικήςΜάθησηςπαρέχουνδιάφορεςδομικέςπεριγραφέςτωνεξαγόμενων
• Καθεμίααπόαυτέςυπαγορεύειτοείδοςτουαλγορίθμουπουπρέπειναχρησιμοποιηθείγιατοσχηματισμότηςαπόταδεδομένα
Δεδομένα
input
ΑλγόριθμοιΕξόρυξης
Πληροφορίας
Εξαγόμενα
output
28
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγόμενων
•Πίνακες
•Δένδρα
•Κανόνες
•Παλινδρόμηση
•Ομάδες
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 29: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/29.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Εξαγόμενα:Απεικόνισηγνώσης
• Πίνακεςαπόφασης(decisiontables)
• Δένδρααπόφασης(decisiontrees)
• Κανόνεςαπόφασης(decisionrules)
• Κανόνεςσυσχέτισης(associationrules)
• Κανόνεςμεεξαιρέσεις(ruleswithexceptions)
• Κανόνεςμεσυσχετίσεις(rulesinvolvingrelations)
• Γραμμικήπαλινδρόμηση(linearregression)
• Δένδραγιααριθμητικήπρόβλεψη(treesfornumericprediction)
• Απεικόνισημεβάσηυποδείγματα(instance‐basedrepresentation)
• Ομάδες(clusters)
29
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγόμενων
•Πίνακες
•Δένδρα
•Κανόνες
•Παλινδρόμηση
•Ομάδες
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 30: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/30.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Decisiontables
NoNormalRainy
NoHighRainy
YesNormalOvercast
YesHighOvercast
YesNormalSunny
NoHighSunny
PlayHumidityOutlook
30
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγόμενων
•Πίνακες
•Δένδρα
•Κανόνες
•Παλινδρόμηση
•Ομάδες
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 31: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/31.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Decisiontrees
31
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγόμενων
•Πίνακες
•Δένδρα
•Κανόνες
•Παλινδρόμηση
•Ομάδες
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 32: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/32.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Classificationrules
If outlook = sunny and humidity > 83
then play = no
If outlook = rainy and windy = true
then play = no
If outlook = overcast
then play = yes
If humidity < 85
then play = yes
If none of the above
then play = yes
32
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγόμενων
•Πίνακες
•Δένδρα
•Κανόνες
•Παλινδρόμηση
•Ομάδες
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 33: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/33.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Associationrules
If temperature = cool
then humidity = normal
If windy = false and play = nothen outlook = sunny and humidity = high
– Συσχετίζουντιςτιμέςτωνδιάφορωνattributesμεταξύτους
33
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγόμενων
•Πίνακες
•Δένδρα
•Κανόνες
•Παλινδρόμηση
•Ομάδες
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 34: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/34.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Regressiontree
34
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγόμενων
•Πίνακες
•Δένδρα
•Κανόνες
•Παλινδρόμηση
•Ομάδες
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 35: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/35.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Instance‐basedrepresentation
35
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγόμενων
•Πίνακες
•Δένδρα
•Κανόνες
•Παλινδρόμηση
•Ομάδες
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 36: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/36.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Clustering
36
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγόμενων
•Πίνακες
•Δένδρα
•Κανόνες
•Παλινδρόμηση
•Ομάδες
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 37: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/37.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Αποτίμηση:τοκλειδίτηςεπιτυχίας
• Πλήθοςμεθόδωνεξαγωγήςδομικώνπεριγραφώναπόδεδομένα
• Ποιεςείναιοιβέλτιστεςγιασυγκεκριμένοπρόβλημα;
• Απαιτείταισυστηματικήπροσέγγισηγιατηναποτίμησηκαιτησύγκρισηαποδοτικότηταςτωνπεριγραφώναυτών
• Αναφέρεταιρητάότιτοσφάλμασταδεδομέναεκπαίδευσηςδεναποτελείαξιόπιστοδείκτηαπόδοσηςσεμελλοντικάδεδομένα
• Λύση:διάσπασητωνδεδομένωνσεσύνολοεκπαίδευσης(trainingset)καισύνολοελέγχου(testset)– Απαιτείταιμεγάλοςόγκος(ταξινομημένων)δεδομένων
– Ωστόσο,οόγκοςτωνδεδομένωνείναισυνήθωςπεριορισμένος
– Αναγκαίαηχρήσηπερισσότεροεκλεπτυσμένωντεχνικών
37
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Αποτίμηση•Εκπαίδευση
•Επιλογή
•Πρώταταβασικά
•Μετα‐αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 38: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/38.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Εκπαίδευση&έλεγχος
• Μέτροαπόδοσηςσεπροβλήματαταξινόμησης:τιμήσφάλματος(errorrate)– Επιτυχία(success):σωστήπρόβλεψητηςτάξηςτου
υποδείγματος– Σφάλμα(error):λανθασμένηπρόβλεψητηςτάξηςτου
υποδείγματος– Τιμήσφάλματος(errorrate):αναλογίασφαλμάτωνστο
σύνολοτωνυποδειγμάτων• Ωστόσο,ενδιαφέρειηπιθανήμελλοντικήαπόδοσησενέα
παραδείγματακαιόχιηαπόδοσησταήδηδεδομέναυποδείγματαεκπαίδευσης…
• Αποτελείητιμήσφάλματοςσεήδηγνωστάδεδομένααξιόπιστηένδειξητηςτιμήςσφάλματοςσενέαδεδομένα;
38
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Αποτίμηση
•Εκπαίδευση
•Επιλογή
•Πρώταταβασικά
•Μετα‐αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 39: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/39.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Εκπαίδευση&έλεγχος
• ΗαπάντησησυνιστάέναηχηρόΟΧΙ– στηνπερίπτωσηπουταπαλαιάαυτάδεδομέναέχουν
χρησιμοποιηθείστηδιαμόρφωσητουμοντέλουκατάτηδιαδικασίαεκπαίδευσης
• Καθώςηδομικήπεριγραφήέχεισχεδιαστείμετρόποώστεναελαχιστοποιείτοσυγκεκριμένοσφάλμα,οποιαδήποτεεκτίμησητηςαποδοτικότητάςτηςβασισμένησταυποδείγματααυτάαποτελείαισιόδοξη,ανόχιανέλπιστααισιόδοξηεκτίμηση
39
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Αποτίμηση
•Εκπαίδευση
•Επιλογή
•Πρώταταβασικά
•Μετα‐αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 40: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/40.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Κριτήριαεπιλογήςμοντέλου
• Αποπειρώνταιναεπιτύχουνθετικόσυμβιβασμόμεταξύ:• Τηςπολυπλοκότηταςτουμοντέλου• Τηςακρίβειαςτωνπροβλέψεώντουσταδεδομένα
εκπαίδευσης
• Συλλογιστική:άρτιοθεωρείταιτομοντέλοπουαφενόςείναιαπλόκαιαφετέρουεπιτυγχάνειυψηλήακρίβειασταδιαθέσιμαδεδομένα– ΕπίσηςγνωστήκαιωςΞυράφιτουΌκκαμ(Occam’s
Razor):βέλτιστηείναιημικρότερηθεωρίαπουπεριγράφειόλεςτιςπληροφορίες
• ΚατάτονΑλβέρτοΑϊνστάιν:“Everythingshouldbemadeassimpleaspossible,butnosimpler.”
40
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Αποτίμηση
•Εκπαίδευση
•Επιλογή
•Πρώταταβασικά
•Μετα‐αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 41: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/41.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Κομψότηταvs.σφάλμα
• ΘεωρίαΑ:πολύαπλή,κομψήθεωρίαπουπεριγράφειταδεδομέναμεσχεδόναπόλυτοτρόπο
• ΘεωρίαΒ:σημαντικάπερισσότεροπολύπλοκηθεωρίαπουπεριγράφειταδεδομέναχωρίςλάθη
• ΗΘεωρίαΑείναιπροφανώςπροτιμώμενη– Κλασσικόπαράδειγμα:οιτρειςνόμοιτουΚέπλεργια
τηνκίνησητωνπλανητών• ΛιγότεροακριβείςαπότηντελευταίαβελτίωσητουΚοπέρνικουστηθεωρίατωνεπικύκλωντουΠτολεμαίου
41
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Αποτίμηση
•Εκπαίδευση
•Επιλογή
•Πρώταταβασικά
•Μετα‐αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 42: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/42.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Πρώταταβασικά
• Πολύσυχνά,απλοίκανόνεςεπιτυγχάνουνμηαναμενόμεναυψηλήακρίβεια– Αίτιοηαπλοϊκήδομήπουσυχνάυποβόσκειπίσωαπό
πραγματικάσύνολαδεδομένων
• Σεκάθεπερίπτωση,συνίσταταιαρχικάοπειραματισμόςμετιςπλέοναπλέςτωνμεθόδων– TheKISSprinciple:KeepItSimple,Stupid!
42
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Αποτίμηση
•Εκπαίδευση
•Επιλογή
•Πρώταταβασικά
•Μετα‐αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 43: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/43.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
“Μετα”‐μαθησιακάσχήματα
• Θεμελιώδηςιδέα:κατασκευήπολλών“εμπειρογνωμόνων”(“experts”),ανάδειξηπλειοψηφούσαςγνώμης– “εμπειρογνώμονας”:έναμοντέλοπουδημιουργήθηκεμε
τεχνικέςμηχανικήμάθησης• Πλεονέκτημα:
– Συχνάβελτιώνεισημαντικάτηνπροβλεπτικήικανότητα• Μειονέκτημα:
– Ταεξαγόμεναείναιπολύδύσκολονααναλυθούν• Σχήματα:
– Εμφωλίαση(bagging)– Ενδυνάμωση(boosting)– Συσσώρευση(stacking)– Κώδικεςδιόρθωσηςσφαλμάτωνεξόδου
(error‐correctingoutputcodes)
43
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Αποτίμηση
•Εκπαίδευση
•Επιλογή
•Πρώταταβασικά
•Μετα‐αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 44: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/44.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected] 44
Βιβλίο
“DataMining,PracticalMachineLearningToolsandTechniques”,
Witten&Frank,MorganKaufmann,Ιούνιος2005.
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Βιβλίο
•WEKA
•.arff
•.xlsσε.arff
•Επίδειξη
![Page 45: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/45.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected] 45
Λογισμικό
WEKA:WaikatoEnvironmentforKnowledgeAnalysis
http://www.cs.waikato.ac.nz/ml/weka/
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Βιβλίο
•WEKA
•.arff
•.xlsσε.arff
•Επίδειξη
![Page 46: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/46.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Ητυποποίηση.ARFF
%
% ARFF file for weather data with some numeric features
%
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {true, false}
@attribute play? {yes, no}
@data
sunny, 85, 85, false, no
sunny, 80, 90, true, no
overcast, 83, 86, false, yes
...
46
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Βιβλίο
•WEKA
•.arff
•.xlsσε.arff
•Επίδειξη
![Page 47: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/47.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Μετατροπή.xlsσε.arff
• Έστωπίνακαςσεαρχείο.xls
• Saveas→saveastype→name.csv
• Openname.csvμε.txteditor,γιαπαράδειγμαnotepad
• Πρόσθεσετοόνοματουdataset(@relation),τιςπληροφορίεςτωνχαρακτηριστικών(@attribute,μίασειράγιακάθεχαρακτηριστικό)καιτησειρά@data
• Saveastype:allfiles&filename:dataset.arff
47
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Βιβλίο
•WEKA
•.arff
•.xlsσε.arff
•Επίδειξη
![Page 48: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/48.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Επίδειξη
48
• Τρίτη17Ιουλίου,35°C,49διαφάνειεςμετά:– …
– Στηνπράξη;Πώςταεφαρμόζωόλααυτά;
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη
![Page 49: Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώσηgtziralis.com/wp-content/uploads/mis_introtodatamining.pdf · 2009-04-20 · κουτί: μη κατανοητοί](https://reader035.vdocuments.net/reader035/viewer/2022070903/5f63e1a4cad0ab57c03ebb1b/html5/thumbnails/49.jpg)
ΕΜΠΜΜΒΔΕΕ2007|ΤζιραλήςΓεώργιος,[email protected]
Τέλος
49
•Εισαγωγή
•CaseStudies
•ΜορφήΔεδομένων
•ΜορφήΕξαγομένων
•Αλγόριθμοι
•Λογισμικό
•Επίδειξη