9789607182647_chapter 1

21
47 ΟΡΓΑΝΩΣΗ ΤΟΥ ΚΕΦΑΛΑΙΟΥ Το perceptron («αισθητήρας») καταλαμβάνει μια ειδική θέση στην ιστορική εξέλιξη των νευρωνικών δικτύων: ήταν το πρώτο νευρωνικό δίκτυο που μπορούσε να περιγραφεί αλγοριθμικά. Η επινόησή του από έναν ψυχολόγο, τον Rosenblatt, ενέπνευσε μηχανι- κούς, φυσικούς και μαθηματικούς, ωθώντας τους να αφιερώσουν τις ερευνητικές τους προσπάθειες σε διαφορετικές απόψεις των νευρωνικών δικτύων, στις δεκαετίες του ’60 και του ’70. Ακόμα πιο αξιοσημείωτο, όμως, είναι το γεγονός ότι το perceptron (στη στοιχειώδη μορφή του, όπως περιγράφεται σ’ αυτό το κεφάλαιο) παραμένει τόσο ενδια- φέρον και χρήσιμο όσο ήταν το 1958, όταν πρωτοδημοσιεύτηκε η σχετική εργασία του Rosenblatt. Το κεφάλαιο οργανώνεται ως εξής: 1. Η Ενότητα 1.1 περιγράφει την πρώιμη περίοδο των νευρωνικών δικτύων, φτάνοντας έως την πρωτοποριακή εργασία των McCulloch και Pitts, το 1943. 2. Η Ενότητα 1.2 περιγράφει το Perceptron του Rosenblatt, στην απλούστερη δυνατή μορφή του. Η Ενότητα 1.3 περιγράφει το θεώρημα σύγκλισης του perceptron. Αυτό το θεώρημα αποδεικνύει ότι το perceptron, ως ταξινομητής γραμμικά διαχωρίσιμων προτύπων, συγκλίνει σε πεπερασμένο αριθμό χρονικών βημάτων. 3. Η Ενότητα 1.4 παρουσιάζει τη σχέση μεταξύ του perceptron και του ταξινομητή Bayes για ένα «Γκαουσιανό» περιβάλλον. 4. Το πείραμα που παρουσιάζεται στην Ενότητα 1.5 επιδεικνύει τη δυνατότητα ταξινό- μησης προτύπων του perceptron. 5. Η Ενότητα 1.6 γενικεύει τη συζήτηση, εισάγοντας τη συνάρτηση κόστους του perceptron και ανοίγοντας το δρόμο για τη διατύπωση της μαζικής έκδοσης του αλγόριθμου σύγκλισης του perceptron. Η Ενότητα 1.7 ολοκληρώνει το κεφάλαιο με μία επισκόπηση της ύλης του. 1.1 ΕΙΣΑΓΩΓΗ Στην πρώιμη εποχή των νευρωνικών δικτύων (1943–1958), αρκετοί ερευνητές ξεχωρί- ζουν για τις πραγματικά πρωτοποριακές συνεισφορές τους: McCulloch και Pitts (1943): εισήγαγαν τη θεώρηση των νευρωνικών δικτύων ως υπολογιστικές μηχανές. Hebb (1949): διατύπωσε τον πρώτο κανόνα αυτο-οργανούμενης μάθησης. Rosenblatt (1958): πρότεινε το perceptron ως πρώτο μοντέλο μάθησης με τη συν- δρομή ενός «εκπαιδευτή» (δηλ., εποπτευόμενη μάθηση, ή μάθηση «με επίβλεψη»). ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt

Upload: papasotiriou1

Post on 18-Nov-2014

107 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 9789607182647_CHAPTER 1

47

ΟΡΓΑΝΩΣΗ ΤΟΥ ΚΕΦΑΛΑΙΟΥΤο perceptron (laquoαισθητήραςraquo) καταλαμβάνει μια ειδική θέση στην ιστορική εξέλιξη των νευρωνικών δικτύων ήταν το πρώτο νευρωνικό δίκτυο που μπορούσε να περιγραφεί αλγοριθμικά Η επινόησή του από έναν ψυχολόγο τον Rosenblatt ενέπνευσε μηχανι-κούς φυσικούς και μαθηματικούς ωθώντας τους να αφιερώσουν τις ερευνητικές τους προσπάθειες σε διαφορετικές απόψεις των νευρωνικών δικτύων στις δεκαετίες του rsquo60 και του rsquo70 Ακόμα πιο αξιοσημείωτο όμως είναι το γεγονός ότι το perceptron (στη στοιχειώδη μορφή του όπως περιγράφεται σrsquo αυτό το κεφάλαιο) παραμένει τόσο ενδια-φέρον και χρήσιμο όσο ήταν το 1958 όταν πρωτοδημοσιεύτηκε η σχετική εργασία του Rosenblatt

Το κεφάλαιο οργανώνεται ως εξής1 Η Ενότητα 11 περιγράφει την πρώιμη περίοδο των νευρωνικών δικτύων φτάνοντας

έως την πρωτοποριακή εργασία των McCulloch και Pitts το 19432 Η Ενότητα 12 περιγράφει το Perceptron του Rosenblatt στην απλούστερη δυνατή

μορφή του Η Ενότητα 13 περιγράφει το θεώρημα σύγκλισης του perceptron Αυτό το θεώρημα αποδεικνύει ότι το perceptron ως ταξινομητής γραμμικά διαχωρίσιμων προτύπων συγκλίνει σε πεπερασμένο αριθμό χρονικών βημάτων

3 Η Ενότητα 14 παρουσιάζει τη σχέση μεταξύ του perceptron και του ταξινομητή Bayes για ένα laquoΓκαουσιανόraquo περιβάλλον

4 Το πείραμα που παρουσιάζεται στην Ενότητα 15 επιδεικνύει τη δυνατότητα ταξινό-μησης προτύπων του perceptron

5 Η Ενότητα 16 γενικεύει τη συζήτηση εισάγοντας τη συνάρτηση κόστους του perceptron και ανοίγοντας το δρόμο για τη διατύπωση της μαζικής έκδοσης του αλγόριθμου σύγκλισης του perceptronΗ Ενότητα 17 ολοκληρώνει το κεφάλαιο με μία επισκόπηση της ύλης του

11 ΕΙΣΑΓΩΓΗΣτην πρώιμη εποχή των νευρωνικών δικτύων (1943ndash1958) αρκετοί ερευνητές ξεχωρί-ζουν για τις πραγματικά πρωτοποριακές συνεισφορές τουςbull McCulloch και Pitts (1943) εισήγαγαν τη θεώρηση των νευρωνικών δικτύων ως

υπολογιστικές μηχανέςbull Hebb (1949) διατύπωσε τον πρώτο κανόνα αυτο-οργανούμενης μάθησηςbull Rosenblatt (1958) πρότεινε το perceptron ως πρώτο μοντέλο μάθησης με τη συν-

δρομή ενός laquoεκπαιδευτήraquo (δηλ εποπτευόμενη μάθηση ή μάθηση laquoμε επίβλεψηraquo)

Κ Ε Φ Α Λ Α Ι Ο 1

Το Perceptron του Rosenblatt

Νευρωνικά Δίκτυα και Μηχανική Μάθηση48

Ο αντίκτυπος της εργασίας των McCullochndashPitts στο πεδίο των νευρωνικών δικτύων παρουσιάστηκε στο εισαγωγικό κεφάλαιο Οι αρχές της Χεμπιανής μάθησης θα αναλυ-θούν εκτενώς στο Κεφάλαιο 8 Σrsquo αυτό το κεφάλαιο θα ασχοληθούμε με το perceptron του Rosenblatt

Το perceptron είναι η απλούστερη δυνατή μορφή ενός νευρωνικού δικτύου που χρη-σιμοποιείται για την ταξινόμηση προτύπων τα οποία λέγεται ότι είναι γραμμικά διαχω-ρίσιμα (δηλ πρότυπα τα οποία βρίσκονται στις αντίθετες πλευρές ενός υπερεπιπέδου) Ουσιαστικά αποτελείται από ένα μεμονωμένο νευρώνα με προσαρμόσιμα συναπτικά βάρη και laquoπροδιάθεσηraquo (πόλωση bias) Ο αλγόριθμος που χρησιμοποιείται για την προσαρμογή των ελεύθερων παραμέτρων αυτού του νευρωνικού δικτύου πρωτοεμφανί-στηκε σε μια διαδικασία μάθησης που αναπτύχθηκε από τον Rosenblatt (1958 1962) για το βασιζόμενο στο perceptron μοντέλο εγκεφάλου που πρότεινε1 Πράγματι ο Rosenblatt απέδειξε ότι εάν τα πρότυπα (διανύσματα) που χρησιμοποιούνται για την εκπαίδευση του perceptron αντλούνται από δύο γραμμικά διαχωρίσιμες κλάσεις τότε ο αλγόριθ-μος του perceptron συγκλίνει και τοποθετεί τη διαχωριστική επιφάνεια απόφασης με τη μορφή ενός υπερεπιπέδου μεταξύ των δύο κλάσεων Η απόδειξη της σύγκλισης του αλγόριθμου είναι γνωστή ως θεώρημα σύγκλισης του perceptron

Το perceptron που βασίζεται σrsquo ένα μεμονωμένο νευρώνα περιορίζεται στην ταξινό-μηση προτύπων που ανήκουν σε δύο μόνο κλάσεις (υποθέσεις) Επεκτείνοντας το επί-πεδο εξόδου του perceptron ώστε να περιλαμβάνει περισσότερους του ενός νευρώνες μπορούμε να εκτελέσουμε ταξινόμηση προτύπων που ανήκουν σε περισσότερες από δύο κλάσεις Ωστόσο οι κλάσεις αυτές πρέπει να είναι γραμμικά διαχωρίσιμες για να δουλέψει σωστά το perceptron Το σημαντικό εδώ είναι ότι από τη σκοπιά της βασικής θεωρίας του perceptron ως ταξινομητή προτύπων χρειάζεται να εξετάσουμε την περί-πτωση ενός και μόνο νευρώνα Η επέκταση της θεωρίας στην περίπτωση περισσότερων του ενός νευρώνων είναι απλή

12 ΤΟ PeRcePtRonΤο perceptron του Rosenblatt βασίζεται σrsquo ένα μη γραμμικό νευρώνα ndash συγκεκριμένα στο μοντέλο ενός νευρώνα των McCullochndashPitts Από το εισαγωγικό κεφάλαιο γνωρί-ζουμε ότι ένα τέτοιο νευρωνικό μοντέλο αποτελείται από ένα γραμμικό συνδυαστή ο οποίος ακολουθείται από έναν απότομο περιοριστή (hard limiter) ο οποίος εκτελεί τη συνάρτηση προσήμου όπως απεικονίζεται στο Σχ 11 Ο κόμβος άθροισης του νευ-ρωνικού μοντέλου υπολογίζει ένα γραμμικό συνδυασμό των εισόδων που εφαρμόζο-νται στις συνάψεις του και ενσωματώνει επίσης μια εξωτερικά εφαρμοζόμενη laquoπρο-διάθεσηraquo ή laquoπόλωσηraquo (bias) Το προκύπτον άθροισμα δηλαδή το παραγόμενο τοπικό

ΣΧΗΜΑ 11 Γράφημα ροής σήματος του perceptron

ΕίσοδοιΑπότομος

περιοριστής

Πόλωση bx1

x2

xm

wm

w2

w1

w()v Έξοδοςybull

bullbull

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 49

πεδίο (induced local field) εφαρμόζεται σrsquo έναν απότομο περιοριστή Ως απόκριση ο νευρώνας παράγει έξοδο ίση με +1 εάν η είσοδος του απότομου περιοριστή είναι θετική και minus1 εάν είναι αρνητική

Στο γράφημα ροής σήματος του Σχ 11 τα συναπτικά βάρη του perceptron συμ-βολίζονται ως w1 w2 wm Αντίστοιχα οι είσοδοι που εφαρμόζονται στο perceptron συμβολίζονται ως x1 x2 xm Η εξωτερικά εφαρμοζόμενη πόλωση συμβολίζεται ως b Από το μοντέλο βρίσκουμε ότι η είσοδος του απότομου περιοριστή ή τοπικό πεδίο του νευρώνα είναι (11)

Ο στόχος του perceptron είναι να ταξινομήσει σωστά το σύνολο των εξωτερικά εφαρ-μοζόμενων διεγέρσεων (ερεθισμάτων) x1 x2 xm σε μία από δύο κλάσεις 1 ή 2 Ο κανόνας απόφασης για την ταξινόμηση υπαγορεύει την αντιστοίχιση του σημείου που αντιπροσωπεύουν οι είσοδοι x1 x2 xm στην κλάση 1 εάν η έξοδος y του perceptron είναι +1 ή στην κλάση 2 εάν είναι minus1

Για την κατανόηση της συμπεριφοράς του ταξινομητή προτύπων συνηθίζεται να απεικονίζουμε ένα χάρτη των περιοχών απόφασης στον m-διάστατο χώρο σημάτων που καταλαμβάνουν οι m μεταβλητές εισόδου x1 x2 xm Στην απλούστερη δυνατή μορφή του perceptron υπάρχουν δύο περιοχές απόφασης διαχωριζόμενες από ένα υπερεπίπεδο το οποίο ορίζεται από την (12)

Αυτό παρουσιάζεται στο Σχ 12 για την περίπτωση δύο μεταβλητών εισόδου x1 και x2 για τις οποίες το όριο απόφασης παίρνει τη μορφή μιας ευθείας γραμμής Ένα σημείο (x1 x2) το οποίο κείται πάνω από την οριακή γραμμή αντιστοιχίζεται στην κλάση 1 ενώ ένα σημείο (x1 x2) το οποίο κείται κάτω από την οριακή γραμμή αντιστοιχίζεται στην κλάση 2 Σημειώστε επίσης ότι η επίδραση της πόλωσης b είναι απλώς να μετατοπίζει το όριο απόφασης μακριά από το σημείο αρχής των αξόνων

Τα συναπτικά βάρη w1 w2 wm του perceptron μπορούν να προσαρμόζονται μέσω μιας επαναληπτικής διαδικασίας Για την προσαρμογή μπορούμε να χρησιμοποιήσουμε

ΣΧΗΜΑ 12 Το υπερεπίπεδο (σrsquo αυτό το παράδειγμα μια ευθεία γραμμή) ως όριο απόφασης για ένα πρόβλημα ταξινόμησης προτύπων σε δύο κλάσεις

x2

x10

Κλάση 2

Όριο απόφασηςw1x1 w2x2 b 0

Κλάση 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση50

ένα κανόνα διόρθωσης σφαλμάτων γνωστό ως αλγόριθμο σύγκλισης του perceptron ο οποίος εξετάζεται παρακάτω

13 to ΘΕΩΡΗμΑ ΣΥΓΚΛΙΣΗΣ ΤΟΥ PeRcePtRonΓια να διατυπώσουμε τον αλγόριθμο μάθησης με διόρθωση σφάλματος για το perceptron θεωρούμε πιο βολικό να δουλέψουμε με το τροποποιημένο γράφημα ροής σήματος του Σχ 13 Σrsquo αυτό το δεύτερο μοντέλο το οποίο είναι ισοδύναμο μrsquo εκείνο του Σχ 11 η πόλωση b(n) αντιμετωπίζεται ως ένα συναπτικό βάρος το οποίο οδηγείται από σταθερή είσοδο ίση με +1 Άρα μπορούμε να ορίσουμε το διάνυσμα εισόδων (m + 1)-επί-1 ως όπου το n συμβολίζει το χρονικό βήμα εφαρμογής του αλγόριθμου Αντίστοιχα ορίζουμε το διάνυσμα βαρών (m + 1)-επί-1 ως Κατά συνέπεια η έξοδος του γραμμικού συνδυαστή μπορεί να γραφεί σε συμπαγή μορφή

(13)

όπου στην πρώτη γραμμή το w0(n) που αντιστοιχεί στο i = 0 αντιπροσωπεύει την πόλωση b Για σταθερό n η εξίσωση wTx = 0 εάν απεικονιστεί σrsquo έναν m-διάστατο χώρο (και για προκαθορισμένη πόλωση) με συντεταγμένες x1 x2 xm ορίζει ένα υπερεπίπεδο ως διαχωριστική επιφάνεια απόφασης μεταξύ δύο διαφορετικών κλάσεων εισόδων

Για να λειτουργήσει σωστά το perceptron οι δύο κλάσεις 1 και 2 πρέπει να είναι γραμμικά διαχωρίσιμες Αυτό με τη σειρά του σημαίνει ότι τα προς ταξινόμηση πρότυπα πρέπει να είναι επαρκώς διαχωρισμένα το ένα από το άλλο για να διασφαλιστεί ότι η επιφάνεια απόφασης αποτελείται από ένα υπερεπίπεδο Αυτή η απαίτηση απεικονίζεται στο Σχ 14 για την περίπτωση ενός perceptron δύο διαστάσεων Στο Σχ 14α οι δύο κλάσεις 1 και 2 είναι επαρκώς διαχωρισμένες μεταξύ τους και μπορεί να σχεδιαστεί ένα υπερεπίπεδο (εδώ μια ευθεία) ως όριο απόφασης Εάν ωστόσο οι δύο κλάσεις 1 και 2 πλησιάζουν πολύ κοντά η μία στην άλλη όπως στο Σχ 14β τότε γίνονται μη γραμμικά διαχωρίσιμες μια κατάσταση η οποία ξεπερνά την υπολογιστική δυνατότητα του perceptron

Ας υποθέσουμε ότι οι μεταβλητές εισόδου του perceptron προέρχονται από δύο γραμμικά διαχωρίσιμες κλάσεις Έστω ότι 1 είναι ο υποχώρος των διανυσμάτων εκπαί-δευσης x1(1) x1(2) που ανήκουν στην κλάση 1 και 2 είναι ο υποχώρος των διανυ-σμάτων εκπαίδευσης x2(1) x2(2) που ανήκουν στην κλάση 2 Η ένωση των 1 και 2 είναι ο πλήρης χώρος και συμβολίζεται ως Δοθέντων των διανυσμάτων 1 και 2

ΣΧΗΜΑ 13 Ισοδύναμο γράφημα ροής σήματος του perceptron χάριν σαφήνειας έχουμε παραλείψει την εξάρτηση από το χρόνο Είσοδοι Απότομος

περιοριστής

Γραμμικός συνδυαστής

Σταθερή είσοδος

x1

x2

xm

wm

w2

w1

x0 1

w0 b

w() Έξοδοςy

v

bullbullbull

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 51

για την εκπαίδευση του ταξινομητή η διαδικασία εκπαίδευσης απαιτεί την προσαρμογή του διανύσματος βαρών w με τρόπο ώστε οι δύο κλάσεις 1 και 2 να είναι γραμμικά διαχωρίσιμες Δηλαδή υπάρχει ένα διάνυσμα βαρών w τέτοιο ώστε να μπορούμε να δηλώσουμε

wTx 7 0 για κάθε διάνυσμα εισόδων x που ανήκει στην κλάση 1 wTx hellip 0 για κάθε διάνυσμα εισόδων x που ανήκει στην κλάση 2

(14)

Στη δεύτερη γραμμή της Εξ (14) έχουμε αποφασίσει αυθαίρετα ότι το διάνυσμα εισό-δων x ανήκει στην κλάση 2 εάν wTx = 0 Δοθέντων των υποσυνόλων των διανυσμάτων εκπαίδευσης 1 και 2 το πρόβλημα εκπαίδευσης του perceptron συνίσταται στο να βρούμε ένα διάνυσμα βαρών w τέτοιο ώστε να ικανοποιούνται οι δύο ανισότητες της Εξ (14)

Μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για την προσαρμογή του διανύ-σματος βαρών του στοιχειώδους perceptron ως εξής

1 Εάν το n-οστό μέλος του συνόλου εκπαίδευσης x(n) ταξινομείται σωστά από το διάνυσμα βαρών w(n) που υπολογίζεται στην n-οστή επανάληψη του αλγόριθμου δεν γίνεται καμιά διόρθωση στο διάνυσμα βαρών του perceptron σύμφωνα με τον κανόνα w(n + 1) = w(n) εάν wTx(n) gt 0 και x(n) ανήκει στην κλάση 1

w(n + 1) = w(n) εάν wTx(n) le 0 και x(n) ανήκει στην κλάση 2 (15)

2 Διαφορετικά το διάνυσμα βαρών του perceptron ενημερώνεται σύμφωνα με τον κανόνα w(n + 1) = w(n) ndash η(n)x(n) εάν wT(n) x(n) gt 0 και x(n) ανήκει στην κλάση 2 w(n + 1) = w(n) ndash η(n)x(n) εάν wT(n) x(n) le 0 και x(n) ανήκει στην κλάση 1

(16)

όπου η παράμετρος του ρυθμού μάθησης η(n) ελέγχει την προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών στην επανάληψη n

Εάν η(n) = η gt 0 όπου η μια σταθερά ανεξάρτητη από τον αριθμό επανάληψης n τότε έχουμε έναν κανόνα προσαρμογής μέσω σταθερής αύξησης για το perceptron

Αποδεικνύουμε πρώτα τη σύγκλιση ενός κανόνα προσαρμογής μέσω σταθερής αύξησης για τον οποίο η = 1 Προφανώς η τιμή του η είναι άνευ σημασίας εφόσον

ΣΧΗΜΑ 14 (α) Ζεύγος γραμμικά διαχωρίσιμων προτύπων (β) Ζεύγος μη γραμμικά διαχωρίσιμων προτύπων

(α) (β)

Όριο απόφασης

Κλάση 1

Κλάση 2

Κλάση 1

Κλάση 2

Νευρωνικά Δίκτυα και Μηχανική Μάθηση52

είναι θετική Τιμή η ne 1 απλώς κλιμακώνει τα διανύσματα προτύπων χωρίς να επηρεάζει τη διαχωρισιμότητά τους Η περίπτωση μεταβλητού η(n) θα εξεταστεί παρακάτω

Η απόδειξη του αλγόριθμου σύγκλισης του perceptron2 παρουσιάζεται για την αρχική συνθήκη w(0) = 0 Υποθέστε ότι wT(n)x(n) lt 0 για n = 1 2 και το διάνυσμα εισόδων x(n) ανήκει στο υποσύνολο 1 Δηλαδή το perceptron ταξινομεί εσφαλμένα τα διανύσματα x(1) x(2) εφόσον παραβιάζεται η δεύτερη συνθήκη της Εξ (14) Έτσι με το σταθερό η(n) = 1 μπορούμε να χρησιμοποιήσουμε τη δεύτερη γραμμή της Εξ (16) για να γράψουμε w(n + 1) = w(n) + x(n) για x(n) που ανήκει στην κλάση 1 (17)Δοθείσας της αρχικής συνθήκης w(0) = 0 μπορούμε να λύσουμε επαναληπτικά αυτή την εξίσωση για w(n + 1) καταλήγοντας στο αποτέλεσμα (18)Εφόσον οι κλάσεις 1 και 2 υποτίθεται ότι είναι γραμμικά διαχωρίσιμες υπάρχει μια λύση wo για την οποία wTx(n) gt 0 για τα διανύσματα x(1) x(n) που ανήκουν στο υπο-σύνολο 1 Για μια σταθερή λύση wo μπορούμε να ορίσουμε ένα θετικό αριθμό α ως

(19)

Άρα πολλαπλασιάζοντας και τις δύο πλευρές της Εξ (18) επί το διάνυσμα γραμμής wΤ

ο λαμβάνουμε Συνεπώς υπό το πρίσμα του ορισμού που δόθηκε στην Εξ (19) έχουμε (110)Στη συνέχεια κάνουμε χρήση μιας ανισότητας γνωστής ως ανισότητα CauchyndashSchwarz Δοθέντων δύο διανυσμάτων w0 και w(n + 1) η ανισότητα CauchyndashSchwarz δηλώνει ότι (111)όπου το συμβολίζει την Ευκλείδεια νόρμα του ορίσματός του και το εσωτερικό γινό-μενο wo

T w(n +1) είναι ένα βαθμωτό μέγεθος Παρατηρούμε τώρα από την Εξ (110) ότι το [ wo

T w(n + 1)]2 είναι ίσο με ή μεγαλύτερο από n2α2 Από την Εξ (111) παρατη-ρούμε ότι το ( ) 22

1o n +w w είναι ίσο με ή μεγαλύτερο από [ Tow w(n + 1)]2 Έπεται

λοιπόν ότι ή ισοδύναμα (112)

Στη συνέχεια θα ακολουθήσουμε μια διαφορετική οδό Συγκεκριμένα θα επαναδιατυ-πώσουμε την Εξ (17) στη μορφή για και (113)Υπολογίζοντας το τετράγωνο της Ευκλείδειας νόρμας και για τις δύο πλευρές της Εξ (113) λαμβάνουμε (114)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 53

Ωστόσο wT(k)x(k) le 0 Συμπεραίνουμε λοιπόν από την Εξ (114) ότι

ή ισοδύναμα (115)

Προσθέτοντας αυτές τις ανισότητες για k = 1 n και καλώντας την υποτιθέμενη αρχική συνθήκη w(0) = 0 παίρνουμε την ανισότητα

όπου β είναι ένας θετικός αριθμός που ορίζεται από την

(117)

Η Εξίσωση (116) δηλώνει ότι το τετράγωνο της Ευκλείδειας νόρμας του διανύσματος βαρών w(n + 1) αυξάνεται κατά βάση γραμμικά με τον αριθμό επαναλήψεων n

Το δεύτερο αποτέλεσμα της Εξ (116) έρχεται σε σύγκρουση με αυτό της Εξ (112) για επαρκώς μεγάλες τιμές του n Μάλιστα μπορούμε να πούμε ότι το n δεν μπορεί να είναι μεγαλύτερο από κάποια τιμή nmax για την οποία ικανοποιούνται αμφότερες οι Εξ (112) και (116) με το σύμβολο ισότητας Δηλαδή nmax είναι η λύση της εξίσωσης

Λύνοντας την εξίσωση για nmax δοθέντος ενός διανύσματος λύσεων wo βρίσκουμε ότι

(118)

Άρα έχουμε αποδείξει ότι για η(n) = 1 για όλα τα n και w(0) = 0 και δεδομένου ότι υπάρχει ένα διάνυσμα λύσεων wo ο κανόνας για την προσαρμογή των συναπτικών βαρών του perceptron πρέπει να τερματίζει μετά από nmax το μέγιστο επαναλήψεις Παρατηρή-στε επίσης από τις Εξ (19) (117) και (118) ότι δεν υπάρχει μοναδική λύση για τα wo ή nmax

Μπορούμε τώρα να διατυπώσουμε το θεώρημα σύγκλισης με σταθερή αύξηση για το perceptron (Rosenblatt 1962)

Έστω ότι τα υποσύνολα των διανυσμάτων εκπαίδευσης 1 και 2 είναι γραμμικά διαχω-ρίσιμα Έστω ότι οι είσοδοι που παρουσιάζονται στο perceptron προέρχονται από αυτά τα δύο υποσύνολα Το perceptron συγκλίνει μετά από κάποιο αριθμό no επαναλήψεων υπό την έννοια ότι το

But wT(k)x(k) 0 We therefore deduce from Eq (114) that

or equivalently

(115)

Adding these inequalities for k = 1 n and invoking the assumed initial conditionw(0) = 0 we get the inequality

(116)

where is a positive number defined by

(117)

Equation (116) states that the squared Euclidean norm of the weight vector w(n 1)grows at most linearly with the number of iterations n

The second result of Eq (116) is clearly in conflict with the earlier result ofEq (112) for sufficiently large values of n Indeed we can state that n cannot be largerthan some value nmax for which Eqs (112) and (116) are both satisfied with the equalitysign That is nmax is the solution of the equation

Solving for nmax given a solution vector wo we find that

(118)

We have thus proved that for η(n) = 1 for all n and w(0) = 0 and given that a solutionvector wo exists the rule for adapting the synaptic weights of the perceptron must ter-minate after at most nmax interations Note also from Eqs (19) (117) and (118) thatthere is no unique solution for wo or nmax

We may now state the fixed-increment covergence theorem for the perceptron asfollows (Rosenblatt 1962)

Let the subsets of training vectors h1 and h2 be linearly separable Let the inputs presentedto the perceptron originate from these two subsets The perceptron converges after someno iterations in the sense that

is a solution vector for n0 nmax

Consider next the absolute error-correction procedure for the adaptation of a single-layer perceptron for which (n) is variable In particular let (n) be the smallest integerfor which the condition

(n)xT(n)x(n) 7 wT(n)x(n)

w(no) = w(no + 1) = w(no + 2) = p

nmax = wo 2

2

n2max

2

wo 2 = nmax

= maxx(k)h1

x(k) 2 n

w(n + 1) 2 an

k=1 x(k) 2

w(k + 1) 2 - w(k) 2 x(k) 2 k = 1 n

w(k + 1) 2 w(k) 2 + x(k) 2

Section 13 The Perceptron Convergence Theorem 53

M01_HAYK1399_SE_03_C01QXD 91008 924 PM Page 53

είναι ένα διάνυσμα λύσεων για n0 le nmax

Στη συνέχεια ας εξετάσουμε τη διαδικασία απόλυτης διόρθωσης σφάλματος για την προσαρμογή ενός perceptron ενός επιπέδου για το οποίο το η(n) είναι μεταβλητό Συγκε-κριμένα έστω ότι η(n) είναι ο μικρότερος ακέραιος για τον οποίο ισχύει η συνθήκη

Νευρωνικά Δίκτυα και Μηχανική Μάθηση54

Μrsquo αυτή τη διαδικασία βρίσκουμε ότι εάν το εσωτερικό γινόμενο wT(n)x(n) στην επανάληψη n έχει λάθος πρόσημο τότε το wT(n + 1)x(n) στην επανάληψη n + 1 θα έχει σωστό πρόσημο Αυτό υποδηλώνει ότι εάν το wT(n)x(n) έχει λάθος πρόσημο στην επα-νάληψη n μπορούμε να laquoειδοποιήσουμεraquo τη διαδικασία εκπαίδευσης στην επανάληψη n + 1 θέτοντας x(n + 1) = x(n) Με άλλα λόγια κάθε πρότυπο παρουσιάζεται κατrsquo επα-νάληψη στο perceptron μέχρι να ταξινομηθεί σωστά

Σημειώστε επίσης ότι η χρήση μιας αρχικής τιμής w(0) διαφορετικής από την μηδε-νική (null) συνθήκη οδηγεί απλώς σε μείωση ή αύξηση του αριθμού των επαναλήψεων που απαιτούνται για σύγκλιση ανάλογα με το πώς σχετίζεται το w(0) με τη λύση wo Ανεξάρτητα από την τιμή που ανατίθεται στο w(0) το perceptron είναι εγγυημένο ότι θα συγκλίνει

Στον Πίνακα 11 παρουσιάζουμε μια σύνοψη του αλγόριθμου σύγκλισης του perceptron (Lippmann 1987) Το σύμβολο sgn(sdot) που χρησιμοποιείται στο βήμα 3 του πίνακα για τον υπολογισμό της πραγματικής απόκρισης του perceptron αντιπροσωπεύει τη συνάρτηση προσήμου

εάνεάν

(119)

Μπορούμε λοιπόν να εκφράσουμε την κβαντισμένη απόκριση y(n) του perceptron στην ακόλουθη συμπαγή μορφή (120)Παρατηρήστε ότι το διάνυσμα εισόδων x(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο είναι σταθερό σε +1 καθrsquo όλη τη διάρκεια του υπολογισμού

ΠΙΝΑΚΑΣ 11 Σύνοψη του Αλγόριθμου Σύγκλισης του Perceptron

Μεταβλητές και Παράμετροι x(n) = διάνυσμα εισόδων (m + 1)-επί-1 = [+1 x1(n) x2(n) xm(n)]T

w(n) = διάνυσμα βαρών (m + 1)-επί-1 = [b w1(n) w2(n) wm(n)]T

b = πόλωση y(n) = πραγματική απόκριση (κβαντισμένη) d(n) = επιθυμητή απόκριση η = παράμετρος ρυθμού μάθησης μια θετική σταθερά μικρότερη από μονάδα1 Αρχικοποίηση Θέσε w(0) = 0 Στη συνέχεια εκτέλεσε τους ακόλουθους υπολογισμούς για

χρονικό βήμα n = 1 2 2 Ενεργοποίηση Στο χρονικό βήμα n ενεργοποίησε το perceptron εφαρμόζοντας το (συνεχών

τιμών) διάνυσμα εισόδων x(n) και την επιθυμητή απόκριση d(n)3 Υπολογισμός της Πραγματικής Απόκρισης Υπολόγισε την πραγματική απόκριση του perceptron ως όπου sgn(sdot) είναι η συνάρτηση προσήμου4 Προσαρμογή του Διανύσματος Βαρών Ενημέρωσε το διάνυσμα βαρών του perceptron ώστε να

καταλήξεις στο όπου

x(n) ανήκει στην κλάση 1ndashx(n) ανήκει στην κλάση 2

εάνεάν

5 Συνέχιση Αύξησε το χρονικό βήμα n κατά ένα και επέστρεψε στο βήμα 2

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 55

Αντίστοιχα το διάνυσμα βαρών w(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο ισούται με την πόλωση b Ένα άλλο σημαντικό σημείο που πρέπει να επισημάνουμε στον Πίνακα 11 είναι ότι έχουμε εισάγει μια κβαντισμένη επιθυμητή απόκριση d(n) η οποία ορίζεται ως

εάν x(n) ανήκει στην κλάση 1

εάν ndashx(n) ανήκει στην κλάση 2 (121)

Έτσι η προσαρμογή του διανύσματος βαρών w(n) συνοψίζεται στη μορφή του κανόνα μάθησης με διόρθωση σφάλματος (122)όπου η είναι η παράμετρος ρυθμού μάθησης και η διαφορά d(n) minus y(n) παίζει το ρόλο ενός σήματος σφάλματος Η παράμετρος ρυθμού μάθησης είναι μια θετική σταθερά που περιορίζεται στο πεδίο τιμών 0 lt η le 1 Όταν της αναθέτουμε μια τιμή από αυτό το πεδίο θα πρέπει να έχουμε υπόψη δύο αντικρουόμενες απαιτήσεις (Lippmann 1987)bull υπολογισμό του μέσου όρου των παρελθουσών εισόδων για την παροχή σταθερών

εκτιμήσεων για τα βάρη ο οποίος απαιτεί μικρή ηbull γρήγορη προσαρμογή αναφορικά με τις πραγματικές μεταβολές στις υποκείμενες

κατανομές της διαδικασίας που είναι υπεύθυνη για την παραγωγή του διανύσματος εισόδων x η οποία απαιτεί μεγάλη η

14 ΣχΕΣΗ μΕΤΑξΥ PeRcePtRon ΚΑΙ ΤΑξΙΝΟμΗΤΗ Bayes ΓΙΑ ΕΝΑ ΓΚΑΟΥΣΙΑΝΟ ΠΕΡΙβΑΛΛΟΝ

Το perceptron έχει συγκεκριμένη σχέση με έναν κλασικό ταξινομητή προτύπων γνωστό ως ταξινομητή Bayes Όταν το περιβάλλον είναι Γκαουσιανό ο ταξινομητής Bayes ελα-χιστοποιείται σε έναν γραμμικό ταξινομητή Αυτή είναι η ίδια μορφή που λαμβάνει και το perceptron Ωστόσο η γραμμική φύση του perceptron δεν εξαρτάται ούτε βασίζεται στην υπόθεση ύπαρξης Γκαουσιανού περιβάλλοντος Σrsquo αυτή την ενότητα θα μελετή-σουμε αυτή τη σχέση και μέσω αυτής θα μπορέσουμε να κατανοήσουμε καλύτερα τη λειτουργία του perceptron Θα ξεκινήσουμε την συζήτησή μας με μια σύντομη αναφορά στον ταξινομητή Bayes

Ταξινομητής BayesΣτον ταξινομητή Bayes ελαχιστοποιούμε το μέσο ρίσκο που συμβολίζεται ως 5 Για ένα πρόβλημα δύο κλάσεων που συμβολίζονται ως 1 και 2 το μέσο ρίσκο ορίζεται από τον Van Trees (1968) ως

(123)

όπου οι διάφοροι όροι ορίζονται ως εξήςpi = εκ των προτέρων πιθανότητα ότι το διάνυσμα παρατηρήσεων x (που αντιπροσω-

πεύει μια υλοποίηση του τυχαίου διανύσματος X) αντλείται από τον υποχώρο i με i = 1 2 και p1 + p2 =1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση56

cij= κόστος απόφασης ευνοϊκής για την κλάση i που αντιπροσωπεύεται από τον υποχώρο i όταν η κλάση j είναι αληθής (δηλ το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο j) με i j = 1 2

= συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του τυχαίου διανύσματος X δεδομένου ότι το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο i με i = 1 2

Οι πρώτοι δύο όροι στη δεξιά πλευρά της Εξ (123) αντιπροσωπεύουν σωστές απο-φάσεις (δηλ σωστές ταξινομήσεις) ενώ οι δύο τελευταίοι όροι αντιπροσωπεύουν λαν-θασμένες αποφάσεις(δηλ λανθασμένες ταξινομήσεις) Κάθε απόφαση σταθμίζεται μέσω του γινομένου δύο παραγόντων το κόστος που εμπλέκεται στη λήψη της απόφασης και τη σχετική συχνότητα (δηλ την εκ των προτέρων πιθανότητα) με την οποία συμβαίνει

Στόχος είναι ο καθορισμός μιας στρατηγικής για επίτευξη του ελάχιστου μέσου ρίσκου Επειδή απαιτείται η λήψη μιας απόφασης κάθε διάνυσμα παρατηρήσεων x πρέπει να αντιστοιχιστεί στο συνολικό χώρο παρατηρήσεων είτε στο 1 είτε στο 2 Άρα (124)Κατά συνέπεια μπορούμε να ξαναγράψουμε την Εξ (123) στην ισοδύναμη μορφή

(125)

όπου c11 lt c21 και c22 lt c12 Παρατηρούμε δηλαδή ότι

(126)

Άρα η Εξ (125) ελαχιστοποιείται στην

(127)

Οι πρώτο δύο όροι στη δεξιά πλευρά της Εξ (127) αντιπροσωπεύουν ένα σταθερό κόστος Εφόσον η απαίτηση υπαγορεύει την ελαχιστοποίηση του μέσου ρίσκου 5 μπο-ρούμε από την Εξ(127) να εξάγουμε την ακόλουθη στρατηγική για τη βέλτιστη ταξι-νόμηση

1 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα (δηλ η έκφραση μέσα στις αγκύλες) είναι αρνητικό θα πρέπει να αντιστοιχιστούν στον υποχώρο 1 (δηλ στην κλάση 1) διότι έτσι το ολοκλήρωμα θα έχει αρνητική συνεισφορά στο ρίσκο 5

2 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα είναι θετικό θα πρέπει να εξαιρεθούν από τον υποχώρο 1 (δηλ να ανατεθούν στην κλάση 2) διότι έτσι το ολοκλήρωμα θα έχει θετική συνεισφορά στο ρίσκο 5

3 Οι τιμές του x για τις οποίες το ολοκλήρωμα είναι μηδέν δεν επηρεάζουν το μέσο ρίσκο 5 και μπορούν να αντιστοιχίζονται αυθαίρετα Θα υποθέσουμε ότι αυτά τα σημεία αντιστοιχίζονται στον υποχώρο 2 (δηλ στην κλάση 2)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 2: 9789607182647_CHAPTER 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση48

Ο αντίκτυπος της εργασίας των McCullochndashPitts στο πεδίο των νευρωνικών δικτύων παρουσιάστηκε στο εισαγωγικό κεφάλαιο Οι αρχές της Χεμπιανής μάθησης θα αναλυ-θούν εκτενώς στο Κεφάλαιο 8 Σrsquo αυτό το κεφάλαιο θα ασχοληθούμε με το perceptron του Rosenblatt

Το perceptron είναι η απλούστερη δυνατή μορφή ενός νευρωνικού δικτύου που χρη-σιμοποιείται για την ταξινόμηση προτύπων τα οποία λέγεται ότι είναι γραμμικά διαχω-ρίσιμα (δηλ πρότυπα τα οποία βρίσκονται στις αντίθετες πλευρές ενός υπερεπιπέδου) Ουσιαστικά αποτελείται από ένα μεμονωμένο νευρώνα με προσαρμόσιμα συναπτικά βάρη και laquoπροδιάθεσηraquo (πόλωση bias) Ο αλγόριθμος που χρησιμοποιείται για την προσαρμογή των ελεύθερων παραμέτρων αυτού του νευρωνικού δικτύου πρωτοεμφανί-στηκε σε μια διαδικασία μάθησης που αναπτύχθηκε από τον Rosenblatt (1958 1962) για το βασιζόμενο στο perceptron μοντέλο εγκεφάλου που πρότεινε1 Πράγματι ο Rosenblatt απέδειξε ότι εάν τα πρότυπα (διανύσματα) που χρησιμοποιούνται για την εκπαίδευση του perceptron αντλούνται από δύο γραμμικά διαχωρίσιμες κλάσεις τότε ο αλγόριθ-μος του perceptron συγκλίνει και τοποθετεί τη διαχωριστική επιφάνεια απόφασης με τη μορφή ενός υπερεπιπέδου μεταξύ των δύο κλάσεων Η απόδειξη της σύγκλισης του αλγόριθμου είναι γνωστή ως θεώρημα σύγκλισης του perceptron

Το perceptron που βασίζεται σrsquo ένα μεμονωμένο νευρώνα περιορίζεται στην ταξινό-μηση προτύπων που ανήκουν σε δύο μόνο κλάσεις (υποθέσεις) Επεκτείνοντας το επί-πεδο εξόδου του perceptron ώστε να περιλαμβάνει περισσότερους του ενός νευρώνες μπορούμε να εκτελέσουμε ταξινόμηση προτύπων που ανήκουν σε περισσότερες από δύο κλάσεις Ωστόσο οι κλάσεις αυτές πρέπει να είναι γραμμικά διαχωρίσιμες για να δουλέψει σωστά το perceptron Το σημαντικό εδώ είναι ότι από τη σκοπιά της βασικής θεωρίας του perceptron ως ταξινομητή προτύπων χρειάζεται να εξετάσουμε την περί-πτωση ενός και μόνο νευρώνα Η επέκταση της θεωρίας στην περίπτωση περισσότερων του ενός νευρώνων είναι απλή

12 ΤΟ PeRcePtRonΤο perceptron του Rosenblatt βασίζεται σrsquo ένα μη γραμμικό νευρώνα ndash συγκεκριμένα στο μοντέλο ενός νευρώνα των McCullochndashPitts Από το εισαγωγικό κεφάλαιο γνωρί-ζουμε ότι ένα τέτοιο νευρωνικό μοντέλο αποτελείται από ένα γραμμικό συνδυαστή ο οποίος ακολουθείται από έναν απότομο περιοριστή (hard limiter) ο οποίος εκτελεί τη συνάρτηση προσήμου όπως απεικονίζεται στο Σχ 11 Ο κόμβος άθροισης του νευ-ρωνικού μοντέλου υπολογίζει ένα γραμμικό συνδυασμό των εισόδων που εφαρμόζο-νται στις συνάψεις του και ενσωματώνει επίσης μια εξωτερικά εφαρμοζόμενη laquoπρο-διάθεσηraquo ή laquoπόλωσηraquo (bias) Το προκύπτον άθροισμα δηλαδή το παραγόμενο τοπικό

ΣΧΗΜΑ 11 Γράφημα ροής σήματος του perceptron

ΕίσοδοιΑπότομος

περιοριστής

Πόλωση bx1

x2

xm

wm

w2

w1

w()v Έξοδοςybull

bullbull

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 49

πεδίο (induced local field) εφαρμόζεται σrsquo έναν απότομο περιοριστή Ως απόκριση ο νευρώνας παράγει έξοδο ίση με +1 εάν η είσοδος του απότομου περιοριστή είναι θετική και minus1 εάν είναι αρνητική

Στο γράφημα ροής σήματος του Σχ 11 τα συναπτικά βάρη του perceptron συμ-βολίζονται ως w1 w2 wm Αντίστοιχα οι είσοδοι που εφαρμόζονται στο perceptron συμβολίζονται ως x1 x2 xm Η εξωτερικά εφαρμοζόμενη πόλωση συμβολίζεται ως b Από το μοντέλο βρίσκουμε ότι η είσοδος του απότομου περιοριστή ή τοπικό πεδίο του νευρώνα είναι (11)

Ο στόχος του perceptron είναι να ταξινομήσει σωστά το σύνολο των εξωτερικά εφαρ-μοζόμενων διεγέρσεων (ερεθισμάτων) x1 x2 xm σε μία από δύο κλάσεις 1 ή 2 Ο κανόνας απόφασης για την ταξινόμηση υπαγορεύει την αντιστοίχιση του σημείου που αντιπροσωπεύουν οι είσοδοι x1 x2 xm στην κλάση 1 εάν η έξοδος y του perceptron είναι +1 ή στην κλάση 2 εάν είναι minus1

Για την κατανόηση της συμπεριφοράς του ταξινομητή προτύπων συνηθίζεται να απεικονίζουμε ένα χάρτη των περιοχών απόφασης στον m-διάστατο χώρο σημάτων που καταλαμβάνουν οι m μεταβλητές εισόδου x1 x2 xm Στην απλούστερη δυνατή μορφή του perceptron υπάρχουν δύο περιοχές απόφασης διαχωριζόμενες από ένα υπερεπίπεδο το οποίο ορίζεται από την (12)

Αυτό παρουσιάζεται στο Σχ 12 για την περίπτωση δύο μεταβλητών εισόδου x1 και x2 για τις οποίες το όριο απόφασης παίρνει τη μορφή μιας ευθείας γραμμής Ένα σημείο (x1 x2) το οποίο κείται πάνω από την οριακή γραμμή αντιστοιχίζεται στην κλάση 1 ενώ ένα σημείο (x1 x2) το οποίο κείται κάτω από την οριακή γραμμή αντιστοιχίζεται στην κλάση 2 Σημειώστε επίσης ότι η επίδραση της πόλωσης b είναι απλώς να μετατοπίζει το όριο απόφασης μακριά από το σημείο αρχής των αξόνων

Τα συναπτικά βάρη w1 w2 wm του perceptron μπορούν να προσαρμόζονται μέσω μιας επαναληπτικής διαδικασίας Για την προσαρμογή μπορούμε να χρησιμοποιήσουμε

ΣΧΗΜΑ 12 Το υπερεπίπεδο (σrsquo αυτό το παράδειγμα μια ευθεία γραμμή) ως όριο απόφασης για ένα πρόβλημα ταξινόμησης προτύπων σε δύο κλάσεις

x2

x10

Κλάση 2

Όριο απόφασηςw1x1 w2x2 b 0

Κλάση 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση50

ένα κανόνα διόρθωσης σφαλμάτων γνωστό ως αλγόριθμο σύγκλισης του perceptron ο οποίος εξετάζεται παρακάτω

13 to ΘΕΩΡΗμΑ ΣΥΓΚΛΙΣΗΣ ΤΟΥ PeRcePtRonΓια να διατυπώσουμε τον αλγόριθμο μάθησης με διόρθωση σφάλματος για το perceptron θεωρούμε πιο βολικό να δουλέψουμε με το τροποποιημένο γράφημα ροής σήματος του Σχ 13 Σrsquo αυτό το δεύτερο μοντέλο το οποίο είναι ισοδύναμο μrsquo εκείνο του Σχ 11 η πόλωση b(n) αντιμετωπίζεται ως ένα συναπτικό βάρος το οποίο οδηγείται από σταθερή είσοδο ίση με +1 Άρα μπορούμε να ορίσουμε το διάνυσμα εισόδων (m + 1)-επί-1 ως όπου το n συμβολίζει το χρονικό βήμα εφαρμογής του αλγόριθμου Αντίστοιχα ορίζουμε το διάνυσμα βαρών (m + 1)-επί-1 ως Κατά συνέπεια η έξοδος του γραμμικού συνδυαστή μπορεί να γραφεί σε συμπαγή μορφή

(13)

όπου στην πρώτη γραμμή το w0(n) που αντιστοιχεί στο i = 0 αντιπροσωπεύει την πόλωση b Για σταθερό n η εξίσωση wTx = 0 εάν απεικονιστεί σrsquo έναν m-διάστατο χώρο (και για προκαθορισμένη πόλωση) με συντεταγμένες x1 x2 xm ορίζει ένα υπερεπίπεδο ως διαχωριστική επιφάνεια απόφασης μεταξύ δύο διαφορετικών κλάσεων εισόδων

Για να λειτουργήσει σωστά το perceptron οι δύο κλάσεις 1 και 2 πρέπει να είναι γραμμικά διαχωρίσιμες Αυτό με τη σειρά του σημαίνει ότι τα προς ταξινόμηση πρότυπα πρέπει να είναι επαρκώς διαχωρισμένα το ένα από το άλλο για να διασφαλιστεί ότι η επιφάνεια απόφασης αποτελείται από ένα υπερεπίπεδο Αυτή η απαίτηση απεικονίζεται στο Σχ 14 για την περίπτωση ενός perceptron δύο διαστάσεων Στο Σχ 14α οι δύο κλάσεις 1 και 2 είναι επαρκώς διαχωρισμένες μεταξύ τους και μπορεί να σχεδιαστεί ένα υπερεπίπεδο (εδώ μια ευθεία) ως όριο απόφασης Εάν ωστόσο οι δύο κλάσεις 1 και 2 πλησιάζουν πολύ κοντά η μία στην άλλη όπως στο Σχ 14β τότε γίνονται μη γραμμικά διαχωρίσιμες μια κατάσταση η οποία ξεπερνά την υπολογιστική δυνατότητα του perceptron

Ας υποθέσουμε ότι οι μεταβλητές εισόδου του perceptron προέρχονται από δύο γραμμικά διαχωρίσιμες κλάσεις Έστω ότι 1 είναι ο υποχώρος των διανυσμάτων εκπαί-δευσης x1(1) x1(2) που ανήκουν στην κλάση 1 και 2 είναι ο υποχώρος των διανυ-σμάτων εκπαίδευσης x2(1) x2(2) που ανήκουν στην κλάση 2 Η ένωση των 1 και 2 είναι ο πλήρης χώρος και συμβολίζεται ως Δοθέντων των διανυσμάτων 1 και 2

ΣΧΗΜΑ 13 Ισοδύναμο γράφημα ροής σήματος του perceptron χάριν σαφήνειας έχουμε παραλείψει την εξάρτηση από το χρόνο Είσοδοι Απότομος

περιοριστής

Γραμμικός συνδυαστής

Σταθερή είσοδος

x1

x2

xm

wm

w2

w1

x0 1

w0 b

w() Έξοδοςy

v

bullbullbull

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 51

για την εκπαίδευση του ταξινομητή η διαδικασία εκπαίδευσης απαιτεί την προσαρμογή του διανύσματος βαρών w με τρόπο ώστε οι δύο κλάσεις 1 και 2 να είναι γραμμικά διαχωρίσιμες Δηλαδή υπάρχει ένα διάνυσμα βαρών w τέτοιο ώστε να μπορούμε να δηλώσουμε

wTx 7 0 για κάθε διάνυσμα εισόδων x που ανήκει στην κλάση 1 wTx hellip 0 για κάθε διάνυσμα εισόδων x που ανήκει στην κλάση 2

(14)

Στη δεύτερη γραμμή της Εξ (14) έχουμε αποφασίσει αυθαίρετα ότι το διάνυσμα εισό-δων x ανήκει στην κλάση 2 εάν wTx = 0 Δοθέντων των υποσυνόλων των διανυσμάτων εκπαίδευσης 1 και 2 το πρόβλημα εκπαίδευσης του perceptron συνίσταται στο να βρούμε ένα διάνυσμα βαρών w τέτοιο ώστε να ικανοποιούνται οι δύο ανισότητες της Εξ (14)

Μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για την προσαρμογή του διανύ-σματος βαρών του στοιχειώδους perceptron ως εξής

1 Εάν το n-οστό μέλος του συνόλου εκπαίδευσης x(n) ταξινομείται σωστά από το διάνυσμα βαρών w(n) που υπολογίζεται στην n-οστή επανάληψη του αλγόριθμου δεν γίνεται καμιά διόρθωση στο διάνυσμα βαρών του perceptron σύμφωνα με τον κανόνα w(n + 1) = w(n) εάν wTx(n) gt 0 και x(n) ανήκει στην κλάση 1

w(n + 1) = w(n) εάν wTx(n) le 0 και x(n) ανήκει στην κλάση 2 (15)

2 Διαφορετικά το διάνυσμα βαρών του perceptron ενημερώνεται σύμφωνα με τον κανόνα w(n + 1) = w(n) ndash η(n)x(n) εάν wT(n) x(n) gt 0 και x(n) ανήκει στην κλάση 2 w(n + 1) = w(n) ndash η(n)x(n) εάν wT(n) x(n) le 0 και x(n) ανήκει στην κλάση 1

(16)

όπου η παράμετρος του ρυθμού μάθησης η(n) ελέγχει την προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών στην επανάληψη n

Εάν η(n) = η gt 0 όπου η μια σταθερά ανεξάρτητη από τον αριθμό επανάληψης n τότε έχουμε έναν κανόνα προσαρμογής μέσω σταθερής αύξησης για το perceptron

Αποδεικνύουμε πρώτα τη σύγκλιση ενός κανόνα προσαρμογής μέσω σταθερής αύξησης για τον οποίο η = 1 Προφανώς η τιμή του η είναι άνευ σημασίας εφόσον

ΣΧΗΜΑ 14 (α) Ζεύγος γραμμικά διαχωρίσιμων προτύπων (β) Ζεύγος μη γραμμικά διαχωρίσιμων προτύπων

(α) (β)

Όριο απόφασης

Κλάση 1

Κλάση 2

Κλάση 1

Κλάση 2

Νευρωνικά Δίκτυα και Μηχανική Μάθηση52

είναι θετική Τιμή η ne 1 απλώς κλιμακώνει τα διανύσματα προτύπων χωρίς να επηρεάζει τη διαχωρισιμότητά τους Η περίπτωση μεταβλητού η(n) θα εξεταστεί παρακάτω

Η απόδειξη του αλγόριθμου σύγκλισης του perceptron2 παρουσιάζεται για την αρχική συνθήκη w(0) = 0 Υποθέστε ότι wT(n)x(n) lt 0 για n = 1 2 και το διάνυσμα εισόδων x(n) ανήκει στο υποσύνολο 1 Δηλαδή το perceptron ταξινομεί εσφαλμένα τα διανύσματα x(1) x(2) εφόσον παραβιάζεται η δεύτερη συνθήκη της Εξ (14) Έτσι με το σταθερό η(n) = 1 μπορούμε να χρησιμοποιήσουμε τη δεύτερη γραμμή της Εξ (16) για να γράψουμε w(n + 1) = w(n) + x(n) για x(n) που ανήκει στην κλάση 1 (17)Δοθείσας της αρχικής συνθήκης w(0) = 0 μπορούμε να λύσουμε επαναληπτικά αυτή την εξίσωση για w(n + 1) καταλήγοντας στο αποτέλεσμα (18)Εφόσον οι κλάσεις 1 και 2 υποτίθεται ότι είναι γραμμικά διαχωρίσιμες υπάρχει μια λύση wo για την οποία wTx(n) gt 0 για τα διανύσματα x(1) x(n) που ανήκουν στο υπο-σύνολο 1 Για μια σταθερή λύση wo μπορούμε να ορίσουμε ένα θετικό αριθμό α ως

(19)

Άρα πολλαπλασιάζοντας και τις δύο πλευρές της Εξ (18) επί το διάνυσμα γραμμής wΤ

ο λαμβάνουμε Συνεπώς υπό το πρίσμα του ορισμού που δόθηκε στην Εξ (19) έχουμε (110)Στη συνέχεια κάνουμε χρήση μιας ανισότητας γνωστής ως ανισότητα CauchyndashSchwarz Δοθέντων δύο διανυσμάτων w0 και w(n + 1) η ανισότητα CauchyndashSchwarz δηλώνει ότι (111)όπου το συμβολίζει την Ευκλείδεια νόρμα του ορίσματός του και το εσωτερικό γινό-μενο wo

T w(n +1) είναι ένα βαθμωτό μέγεθος Παρατηρούμε τώρα από την Εξ (110) ότι το [ wo

T w(n + 1)]2 είναι ίσο με ή μεγαλύτερο από n2α2 Από την Εξ (111) παρατη-ρούμε ότι το ( ) 22

1o n +w w είναι ίσο με ή μεγαλύτερο από [ Tow w(n + 1)]2 Έπεται

λοιπόν ότι ή ισοδύναμα (112)

Στη συνέχεια θα ακολουθήσουμε μια διαφορετική οδό Συγκεκριμένα θα επαναδιατυ-πώσουμε την Εξ (17) στη μορφή για και (113)Υπολογίζοντας το τετράγωνο της Ευκλείδειας νόρμας και για τις δύο πλευρές της Εξ (113) λαμβάνουμε (114)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 53

Ωστόσο wT(k)x(k) le 0 Συμπεραίνουμε λοιπόν από την Εξ (114) ότι

ή ισοδύναμα (115)

Προσθέτοντας αυτές τις ανισότητες για k = 1 n και καλώντας την υποτιθέμενη αρχική συνθήκη w(0) = 0 παίρνουμε την ανισότητα

όπου β είναι ένας θετικός αριθμός που ορίζεται από την

(117)

Η Εξίσωση (116) δηλώνει ότι το τετράγωνο της Ευκλείδειας νόρμας του διανύσματος βαρών w(n + 1) αυξάνεται κατά βάση γραμμικά με τον αριθμό επαναλήψεων n

Το δεύτερο αποτέλεσμα της Εξ (116) έρχεται σε σύγκρουση με αυτό της Εξ (112) για επαρκώς μεγάλες τιμές του n Μάλιστα μπορούμε να πούμε ότι το n δεν μπορεί να είναι μεγαλύτερο από κάποια τιμή nmax για την οποία ικανοποιούνται αμφότερες οι Εξ (112) και (116) με το σύμβολο ισότητας Δηλαδή nmax είναι η λύση της εξίσωσης

Λύνοντας την εξίσωση για nmax δοθέντος ενός διανύσματος λύσεων wo βρίσκουμε ότι

(118)

Άρα έχουμε αποδείξει ότι για η(n) = 1 για όλα τα n και w(0) = 0 και δεδομένου ότι υπάρχει ένα διάνυσμα λύσεων wo ο κανόνας για την προσαρμογή των συναπτικών βαρών του perceptron πρέπει να τερματίζει μετά από nmax το μέγιστο επαναλήψεις Παρατηρή-στε επίσης από τις Εξ (19) (117) και (118) ότι δεν υπάρχει μοναδική λύση για τα wo ή nmax

Μπορούμε τώρα να διατυπώσουμε το θεώρημα σύγκλισης με σταθερή αύξηση για το perceptron (Rosenblatt 1962)

Έστω ότι τα υποσύνολα των διανυσμάτων εκπαίδευσης 1 και 2 είναι γραμμικά διαχω-ρίσιμα Έστω ότι οι είσοδοι που παρουσιάζονται στο perceptron προέρχονται από αυτά τα δύο υποσύνολα Το perceptron συγκλίνει μετά από κάποιο αριθμό no επαναλήψεων υπό την έννοια ότι το

But wT(k)x(k) 0 We therefore deduce from Eq (114) that

or equivalently

(115)

Adding these inequalities for k = 1 n and invoking the assumed initial conditionw(0) = 0 we get the inequality

(116)

where is a positive number defined by

(117)

Equation (116) states that the squared Euclidean norm of the weight vector w(n 1)grows at most linearly with the number of iterations n

The second result of Eq (116) is clearly in conflict with the earlier result ofEq (112) for sufficiently large values of n Indeed we can state that n cannot be largerthan some value nmax for which Eqs (112) and (116) are both satisfied with the equalitysign That is nmax is the solution of the equation

Solving for nmax given a solution vector wo we find that

(118)

We have thus proved that for η(n) = 1 for all n and w(0) = 0 and given that a solutionvector wo exists the rule for adapting the synaptic weights of the perceptron must ter-minate after at most nmax interations Note also from Eqs (19) (117) and (118) thatthere is no unique solution for wo or nmax

We may now state the fixed-increment covergence theorem for the perceptron asfollows (Rosenblatt 1962)

Let the subsets of training vectors h1 and h2 be linearly separable Let the inputs presentedto the perceptron originate from these two subsets The perceptron converges after someno iterations in the sense that

is a solution vector for n0 nmax

Consider next the absolute error-correction procedure for the adaptation of a single-layer perceptron for which (n) is variable In particular let (n) be the smallest integerfor which the condition

(n)xT(n)x(n) 7 wT(n)x(n)

w(no) = w(no + 1) = w(no + 2) = p

nmax = wo 2

2

n2max

2

wo 2 = nmax

= maxx(k)h1

x(k) 2 n

w(n + 1) 2 an

k=1 x(k) 2

w(k + 1) 2 - w(k) 2 x(k) 2 k = 1 n

w(k + 1) 2 w(k) 2 + x(k) 2

Section 13 The Perceptron Convergence Theorem 53

M01_HAYK1399_SE_03_C01QXD 91008 924 PM Page 53

είναι ένα διάνυσμα λύσεων για n0 le nmax

Στη συνέχεια ας εξετάσουμε τη διαδικασία απόλυτης διόρθωσης σφάλματος για την προσαρμογή ενός perceptron ενός επιπέδου για το οποίο το η(n) είναι μεταβλητό Συγκε-κριμένα έστω ότι η(n) είναι ο μικρότερος ακέραιος για τον οποίο ισχύει η συνθήκη

Νευρωνικά Δίκτυα και Μηχανική Μάθηση54

Μrsquo αυτή τη διαδικασία βρίσκουμε ότι εάν το εσωτερικό γινόμενο wT(n)x(n) στην επανάληψη n έχει λάθος πρόσημο τότε το wT(n + 1)x(n) στην επανάληψη n + 1 θα έχει σωστό πρόσημο Αυτό υποδηλώνει ότι εάν το wT(n)x(n) έχει λάθος πρόσημο στην επα-νάληψη n μπορούμε να laquoειδοποιήσουμεraquo τη διαδικασία εκπαίδευσης στην επανάληψη n + 1 θέτοντας x(n + 1) = x(n) Με άλλα λόγια κάθε πρότυπο παρουσιάζεται κατrsquo επα-νάληψη στο perceptron μέχρι να ταξινομηθεί σωστά

Σημειώστε επίσης ότι η χρήση μιας αρχικής τιμής w(0) διαφορετικής από την μηδε-νική (null) συνθήκη οδηγεί απλώς σε μείωση ή αύξηση του αριθμού των επαναλήψεων που απαιτούνται για σύγκλιση ανάλογα με το πώς σχετίζεται το w(0) με τη λύση wo Ανεξάρτητα από την τιμή που ανατίθεται στο w(0) το perceptron είναι εγγυημένο ότι θα συγκλίνει

Στον Πίνακα 11 παρουσιάζουμε μια σύνοψη του αλγόριθμου σύγκλισης του perceptron (Lippmann 1987) Το σύμβολο sgn(sdot) που χρησιμοποιείται στο βήμα 3 του πίνακα για τον υπολογισμό της πραγματικής απόκρισης του perceptron αντιπροσωπεύει τη συνάρτηση προσήμου

εάνεάν

(119)

Μπορούμε λοιπόν να εκφράσουμε την κβαντισμένη απόκριση y(n) του perceptron στην ακόλουθη συμπαγή μορφή (120)Παρατηρήστε ότι το διάνυσμα εισόδων x(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο είναι σταθερό σε +1 καθrsquo όλη τη διάρκεια του υπολογισμού

ΠΙΝΑΚΑΣ 11 Σύνοψη του Αλγόριθμου Σύγκλισης του Perceptron

Μεταβλητές και Παράμετροι x(n) = διάνυσμα εισόδων (m + 1)-επί-1 = [+1 x1(n) x2(n) xm(n)]T

w(n) = διάνυσμα βαρών (m + 1)-επί-1 = [b w1(n) w2(n) wm(n)]T

b = πόλωση y(n) = πραγματική απόκριση (κβαντισμένη) d(n) = επιθυμητή απόκριση η = παράμετρος ρυθμού μάθησης μια θετική σταθερά μικρότερη από μονάδα1 Αρχικοποίηση Θέσε w(0) = 0 Στη συνέχεια εκτέλεσε τους ακόλουθους υπολογισμούς για

χρονικό βήμα n = 1 2 2 Ενεργοποίηση Στο χρονικό βήμα n ενεργοποίησε το perceptron εφαρμόζοντας το (συνεχών

τιμών) διάνυσμα εισόδων x(n) και την επιθυμητή απόκριση d(n)3 Υπολογισμός της Πραγματικής Απόκρισης Υπολόγισε την πραγματική απόκριση του perceptron ως όπου sgn(sdot) είναι η συνάρτηση προσήμου4 Προσαρμογή του Διανύσματος Βαρών Ενημέρωσε το διάνυσμα βαρών του perceptron ώστε να

καταλήξεις στο όπου

x(n) ανήκει στην κλάση 1ndashx(n) ανήκει στην κλάση 2

εάνεάν

5 Συνέχιση Αύξησε το χρονικό βήμα n κατά ένα και επέστρεψε στο βήμα 2

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 55

Αντίστοιχα το διάνυσμα βαρών w(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο ισούται με την πόλωση b Ένα άλλο σημαντικό σημείο που πρέπει να επισημάνουμε στον Πίνακα 11 είναι ότι έχουμε εισάγει μια κβαντισμένη επιθυμητή απόκριση d(n) η οποία ορίζεται ως

εάν x(n) ανήκει στην κλάση 1

εάν ndashx(n) ανήκει στην κλάση 2 (121)

Έτσι η προσαρμογή του διανύσματος βαρών w(n) συνοψίζεται στη μορφή του κανόνα μάθησης με διόρθωση σφάλματος (122)όπου η είναι η παράμετρος ρυθμού μάθησης και η διαφορά d(n) minus y(n) παίζει το ρόλο ενός σήματος σφάλματος Η παράμετρος ρυθμού μάθησης είναι μια θετική σταθερά που περιορίζεται στο πεδίο τιμών 0 lt η le 1 Όταν της αναθέτουμε μια τιμή από αυτό το πεδίο θα πρέπει να έχουμε υπόψη δύο αντικρουόμενες απαιτήσεις (Lippmann 1987)bull υπολογισμό του μέσου όρου των παρελθουσών εισόδων για την παροχή σταθερών

εκτιμήσεων για τα βάρη ο οποίος απαιτεί μικρή ηbull γρήγορη προσαρμογή αναφορικά με τις πραγματικές μεταβολές στις υποκείμενες

κατανομές της διαδικασίας που είναι υπεύθυνη για την παραγωγή του διανύσματος εισόδων x η οποία απαιτεί μεγάλη η

14 ΣχΕΣΗ μΕΤΑξΥ PeRcePtRon ΚΑΙ ΤΑξΙΝΟμΗΤΗ Bayes ΓΙΑ ΕΝΑ ΓΚΑΟΥΣΙΑΝΟ ΠΕΡΙβΑΛΛΟΝ

Το perceptron έχει συγκεκριμένη σχέση με έναν κλασικό ταξινομητή προτύπων γνωστό ως ταξινομητή Bayes Όταν το περιβάλλον είναι Γκαουσιανό ο ταξινομητής Bayes ελα-χιστοποιείται σε έναν γραμμικό ταξινομητή Αυτή είναι η ίδια μορφή που λαμβάνει και το perceptron Ωστόσο η γραμμική φύση του perceptron δεν εξαρτάται ούτε βασίζεται στην υπόθεση ύπαρξης Γκαουσιανού περιβάλλοντος Σrsquo αυτή την ενότητα θα μελετή-σουμε αυτή τη σχέση και μέσω αυτής θα μπορέσουμε να κατανοήσουμε καλύτερα τη λειτουργία του perceptron Θα ξεκινήσουμε την συζήτησή μας με μια σύντομη αναφορά στον ταξινομητή Bayes

Ταξινομητής BayesΣτον ταξινομητή Bayes ελαχιστοποιούμε το μέσο ρίσκο που συμβολίζεται ως 5 Για ένα πρόβλημα δύο κλάσεων που συμβολίζονται ως 1 και 2 το μέσο ρίσκο ορίζεται από τον Van Trees (1968) ως

(123)

όπου οι διάφοροι όροι ορίζονται ως εξήςpi = εκ των προτέρων πιθανότητα ότι το διάνυσμα παρατηρήσεων x (που αντιπροσω-

πεύει μια υλοποίηση του τυχαίου διανύσματος X) αντλείται από τον υποχώρο i με i = 1 2 και p1 + p2 =1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση56

cij= κόστος απόφασης ευνοϊκής για την κλάση i που αντιπροσωπεύεται από τον υποχώρο i όταν η κλάση j είναι αληθής (δηλ το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο j) με i j = 1 2

= συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του τυχαίου διανύσματος X δεδομένου ότι το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο i με i = 1 2

Οι πρώτοι δύο όροι στη δεξιά πλευρά της Εξ (123) αντιπροσωπεύουν σωστές απο-φάσεις (δηλ σωστές ταξινομήσεις) ενώ οι δύο τελευταίοι όροι αντιπροσωπεύουν λαν-θασμένες αποφάσεις(δηλ λανθασμένες ταξινομήσεις) Κάθε απόφαση σταθμίζεται μέσω του γινομένου δύο παραγόντων το κόστος που εμπλέκεται στη λήψη της απόφασης και τη σχετική συχνότητα (δηλ την εκ των προτέρων πιθανότητα) με την οποία συμβαίνει

Στόχος είναι ο καθορισμός μιας στρατηγικής για επίτευξη του ελάχιστου μέσου ρίσκου Επειδή απαιτείται η λήψη μιας απόφασης κάθε διάνυσμα παρατηρήσεων x πρέπει να αντιστοιχιστεί στο συνολικό χώρο παρατηρήσεων είτε στο 1 είτε στο 2 Άρα (124)Κατά συνέπεια μπορούμε να ξαναγράψουμε την Εξ (123) στην ισοδύναμη μορφή

(125)

όπου c11 lt c21 και c22 lt c12 Παρατηρούμε δηλαδή ότι

(126)

Άρα η Εξ (125) ελαχιστοποιείται στην

(127)

Οι πρώτο δύο όροι στη δεξιά πλευρά της Εξ (127) αντιπροσωπεύουν ένα σταθερό κόστος Εφόσον η απαίτηση υπαγορεύει την ελαχιστοποίηση του μέσου ρίσκου 5 μπο-ρούμε από την Εξ(127) να εξάγουμε την ακόλουθη στρατηγική για τη βέλτιστη ταξι-νόμηση

1 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα (δηλ η έκφραση μέσα στις αγκύλες) είναι αρνητικό θα πρέπει να αντιστοιχιστούν στον υποχώρο 1 (δηλ στην κλάση 1) διότι έτσι το ολοκλήρωμα θα έχει αρνητική συνεισφορά στο ρίσκο 5

2 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα είναι θετικό θα πρέπει να εξαιρεθούν από τον υποχώρο 1 (δηλ να ανατεθούν στην κλάση 2) διότι έτσι το ολοκλήρωμα θα έχει θετική συνεισφορά στο ρίσκο 5

3 Οι τιμές του x για τις οποίες το ολοκλήρωμα είναι μηδέν δεν επηρεάζουν το μέσο ρίσκο 5 και μπορούν να αντιστοιχίζονται αυθαίρετα Θα υποθέσουμε ότι αυτά τα σημεία αντιστοιχίζονται στον υποχώρο 2 (δηλ στην κλάση 2)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 3: 9789607182647_CHAPTER 1

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 49

πεδίο (induced local field) εφαρμόζεται σrsquo έναν απότομο περιοριστή Ως απόκριση ο νευρώνας παράγει έξοδο ίση με +1 εάν η είσοδος του απότομου περιοριστή είναι θετική και minus1 εάν είναι αρνητική

Στο γράφημα ροής σήματος του Σχ 11 τα συναπτικά βάρη του perceptron συμ-βολίζονται ως w1 w2 wm Αντίστοιχα οι είσοδοι που εφαρμόζονται στο perceptron συμβολίζονται ως x1 x2 xm Η εξωτερικά εφαρμοζόμενη πόλωση συμβολίζεται ως b Από το μοντέλο βρίσκουμε ότι η είσοδος του απότομου περιοριστή ή τοπικό πεδίο του νευρώνα είναι (11)

Ο στόχος του perceptron είναι να ταξινομήσει σωστά το σύνολο των εξωτερικά εφαρ-μοζόμενων διεγέρσεων (ερεθισμάτων) x1 x2 xm σε μία από δύο κλάσεις 1 ή 2 Ο κανόνας απόφασης για την ταξινόμηση υπαγορεύει την αντιστοίχιση του σημείου που αντιπροσωπεύουν οι είσοδοι x1 x2 xm στην κλάση 1 εάν η έξοδος y του perceptron είναι +1 ή στην κλάση 2 εάν είναι minus1

Για την κατανόηση της συμπεριφοράς του ταξινομητή προτύπων συνηθίζεται να απεικονίζουμε ένα χάρτη των περιοχών απόφασης στον m-διάστατο χώρο σημάτων που καταλαμβάνουν οι m μεταβλητές εισόδου x1 x2 xm Στην απλούστερη δυνατή μορφή του perceptron υπάρχουν δύο περιοχές απόφασης διαχωριζόμενες από ένα υπερεπίπεδο το οποίο ορίζεται από την (12)

Αυτό παρουσιάζεται στο Σχ 12 για την περίπτωση δύο μεταβλητών εισόδου x1 και x2 για τις οποίες το όριο απόφασης παίρνει τη μορφή μιας ευθείας γραμμής Ένα σημείο (x1 x2) το οποίο κείται πάνω από την οριακή γραμμή αντιστοιχίζεται στην κλάση 1 ενώ ένα σημείο (x1 x2) το οποίο κείται κάτω από την οριακή γραμμή αντιστοιχίζεται στην κλάση 2 Σημειώστε επίσης ότι η επίδραση της πόλωσης b είναι απλώς να μετατοπίζει το όριο απόφασης μακριά από το σημείο αρχής των αξόνων

Τα συναπτικά βάρη w1 w2 wm του perceptron μπορούν να προσαρμόζονται μέσω μιας επαναληπτικής διαδικασίας Για την προσαρμογή μπορούμε να χρησιμοποιήσουμε

ΣΧΗΜΑ 12 Το υπερεπίπεδο (σrsquo αυτό το παράδειγμα μια ευθεία γραμμή) ως όριο απόφασης για ένα πρόβλημα ταξινόμησης προτύπων σε δύο κλάσεις

x2

x10

Κλάση 2

Όριο απόφασηςw1x1 w2x2 b 0

Κλάση 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση50

ένα κανόνα διόρθωσης σφαλμάτων γνωστό ως αλγόριθμο σύγκλισης του perceptron ο οποίος εξετάζεται παρακάτω

13 to ΘΕΩΡΗμΑ ΣΥΓΚΛΙΣΗΣ ΤΟΥ PeRcePtRonΓια να διατυπώσουμε τον αλγόριθμο μάθησης με διόρθωση σφάλματος για το perceptron θεωρούμε πιο βολικό να δουλέψουμε με το τροποποιημένο γράφημα ροής σήματος του Σχ 13 Σrsquo αυτό το δεύτερο μοντέλο το οποίο είναι ισοδύναμο μrsquo εκείνο του Σχ 11 η πόλωση b(n) αντιμετωπίζεται ως ένα συναπτικό βάρος το οποίο οδηγείται από σταθερή είσοδο ίση με +1 Άρα μπορούμε να ορίσουμε το διάνυσμα εισόδων (m + 1)-επί-1 ως όπου το n συμβολίζει το χρονικό βήμα εφαρμογής του αλγόριθμου Αντίστοιχα ορίζουμε το διάνυσμα βαρών (m + 1)-επί-1 ως Κατά συνέπεια η έξοδος του γραμμικού συνδυαστή μπορεί να γραφεί σε συμπαγή μορφή

(13)

όπου στην πρώτη γραμμή το w0(n) που αντιστοιχεί στο i = 0 αντιπροσωπεύει την πόλωση b Για σταθερό n η εξίσωση wTx = 0 εάν απεικονιστεί σrsquo έναν m-διάστατο χώρο (και για προκαθορισμένη πόλωση) με συντεταγμένες x1 x2 xm ορίζει ένα υπερεπίπεδο ως διαχωριστική επιφάνεια απόφασης μεταξύ δύο διαφορετικών κλάσεων εισόδων

Για να λειτουργήσει σωστά το perceptron οι δύο κλάσεις 1 και 2 πρέπει να είναι γραμμικά διαχωρίσιμες Αυτό με τη σειρά του σημαίνει ότι τα προς ταξινόμηση πρότυπα πρέπει να είναι επαρκώς διαχωρισμένα το ένα από το άλλο για να διασφαλιστεί ότι η επιφάνεια απόφασης αποτελείται από ένα υπερεπίπεδο Αυτή η απαίτηση απεικονίζεται στο Σχ 14 για την περίπτωση ενός perceptron δύο διαστάσεων Στο Σχ 14α οι δύο κλάσεις 1 και 2 είναι επαρκώς διαχωρισμένες μεταξύ τους και μπορεί να σχεδιαστεί ένα υπερεπίπεδο (εδώ μια ευθεία) ως όριο απόφασης Εάν ωστόσο οι δύο κλάσεις 1 και 2 πλησιάζουν πολύ κοντά η μία στην άλλη όπως στο Σχ 14β τότε γίνονται μη γραμμικά διαχωρίσιμες μια κατάσταση η οποία ξεπερνά την υπολογιστική δυνατότητα του perceptron

Ας υποθέσουμε ότι οι μεταβλητές εισόδου του perceptron προέρχονται από δύο γραμμικά διαχωρίσιμες κλάσεις Έστω ότι 1 είναι ο υποχώρος των διανυσμάτων εκπαί-δευσης x1(1) x1(2) που ανήκουν στην κλάση 1 και 2 είναι ο υποχώρος των διανυ-σμάτων εκπαίδευσης x2(1) x2(2) που ανήκουν στην κλάση 2 Η ένωση των 1 και 2 είναι ο πλήρης χώρος και συμβολίζεται ως Δοθέντων των διανυσμάτων 1 και 2

ΣΧΗΜΑ 13 Ισοδύναμο γράφημα ροής σήματος του perceptron χάριν σαφήνειας έχουμε παραλείψει την εξάρτηση από το χρόνο Είσοδοι Απότομος

περιοριστής

Γραμμικός συνδυαστής

Σταθερή είσοδος

x1

x2

xm

wm

w2

w1

x0 1

w0 b

w() Έξοδοςy

v

bullbullbull

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 51

για την εκπαίδευση του ταξινομητή η διαδικασία εκπαίδευσης απαιτεί την προσαρμογή του διανύσματος βαρών w με τρόπο ώστε οι δύο κλάσεις 1 και 2 να είναι γραμμικά διαχωρίσιμες Δηλαδή υπάρχει ένα διάνυσμα βαρών w τέτοιο ώστε να μπορούμε να δηλώσουμε

wTx 7 0 για κάθε διάνυσμα εισόδων x που ανήκει στην κλάση 1 wTx hellip 0 για κάθε διάνυσμα εισόδων x που ανήκει στην κλάση 2

(14)

Στη δεύτερη γραμμή της Εξ (14) έχουμε αποφασίσει αυθαίρετα ότι το διάνυσμα εισό-δων x ανήκει στην κλάση 2 εάν wTx = 0 Δοθέντων των υποσυνόλων των διανυσμάτων εκπαίδευσης 1 και 2 το πρόβλημα εκπαίδευσης του perceptron συνίσταται στο να βρούμε ένα διάνυσμα βαρών w τέτοιο ώστε να ικανοποιούνται οι δύο ανισότητες της Εξ (14)

Μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για την προσαρμογή του διανύ-σματος βαρών του στοιχειώδους perceptron ως εξής

1 Εάν το n-οστό μέλος του συνόλου εκπαίδευσης x(n) ταξινομείται σωστά από το διάνυσμα βαρών w(n) που υπολογίζεται στην n-οστή επανάληψη του αλγόριθμου δεν γίνεται καμιά διόρθωση στο διάνυσμα βαρών του perceptron σύμφωνα με τον κανόνα w(n + 1) = w(n) εάν wTx(n) gt 0 και x(n) ανήκει στην κλάση 1

w(n + 1) = w(n) εάν wTx(n) le 0 και x(n) ανήκει στην κλάση 2 (15)

2 Διαφορετικά το διάνυσμα βαρών του perceptron ενημερώνεται σύμφωνα με τον κανόνα w(n + 1) = w(n) ndash η(n)x(n) εάν wT(n) x(n) gt 0 και x(n) ανήκει στην κλάση 2 w(n + 1) = w(n) ndash η(n)x(n) εάν wT(n) x(n) le 0 και x(n) ανήκει στην κλάση 1

(16)

όπου η παράμετρος του ρυθμού μάθησης η(n) ελέγχει την προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών στην επανάληψη n

Εάν η(n) = η gt 0 όπου η μια σταθερά ανεξάρτητη από τον αριθμό επανάληψης n τότε έχουμε έναν κανόνα προσαρμογής μέσω σταθερής αύξησης για το perceptron

Αποδεικνύουμε πρώτα τη σύγκλιση ενός κανόνα προσαρμογής μέσω σταθερής αύξησης για τον οποίο η = 1 Προφανώς η τιμή του η είναι άνευ σημασίας εφόσον

ΣΧΗΜΑ 14 (α) Ζεύγος γραμμικά διαχωρίσιμων προτύπων (β) Ζεύγος μη γραμμικά διαχωρίσιμων προτύπων

(α) (β)

Όριο απόφασης

Κλάση 1

Κλάση 2

Κλάση 1

Κλάση 2

Νευρωνικά Δίκτυα και Μηχανική Μάθηση52

είναι θετική Τιμή η ne 1 απλώς κλιμακώνει τα διανύσματα προτύπων χωρίς να επηρεάζει τη διαχωρισιμότητά τους Η περίπτωση μεταβλητού η(n) θα εξεταστεί παρακάτω

Η απόδειξη του αλγόριθμου σύγκλισης του perceptron2 παρουσιάζεται για την αρχική συνθήκη w(0) = 0 Υποθέστε ότι wT(n)x(n) lt 0 για n = 1 2 και το διάνυσμα εισόδων x(n) ανήκει στο υποσύνολο 1 Δηλαδή το perceptron ταξινομεί εσφαλμένα τα διανύσματα x(1) x(2) εφόσον παραβιάζεται η δεύτερη συνθήκη της Εξ (14) Έτσι με το σταθερό η(n) = 1 μπορούμε να χρησιμοποιήσουμε τη δεύτερη γραμμή της Εξ (16) για να γράψουμε w(n + 1) = w(n) + x(n) για x(n) που ανήκει στην κλάση 1 (17)Δοθείσας της αρχικής συνθήκης w(0) = 0 μπορούμε να λύσουμε επαναληπτικά αυτή την εξίσωση για w(n + 1) καταλήγοντας στο αποτέλεσμα (18)Εφόσον οι κλάσεις 1 και 2 υποτίθεται ότι είναι γραμμικά διαχωρίσιμες υπάρχει μια λύση wo για την οποία wTx(n) gt 0 για τα διανύσματα x(1) x(n) που ανήκουν στο υπο-σύνολο 1 Για μια σταθερή λύση wo μπορούμε να ορίσουμε ένα θετικό αριθμό α ως

(19)

Άρα πολλαπλασιάζοντας και τις δύο πλευρές της Εξ (18) επί το διάνυσμα γραμμής wΤ

ο λαμβάνουμε Συνεπώς υπό το πρίσμα του ορισμού που δόθηκε στην Εξ (19) έχουμε (110)Στη συνέχεια κάνουμε χρήση μιας ανισότητας γνωστής ως ανισότητα CauchyndashSchwarz Δοθέντων δύο διανυσμάτων w0 και w(n + 1) η ανισότητα CauchyndashSchwarz δηλώνει ότι (111)όπου το συμβολίζει την Ευκλείδεια νόρμα του ορίσματός του και το εσωτερικό γινό-μενο wo

T w(n +1) είναι ένα βαθμωτό μέγεθος Παρατηρούμε τώρα από την Εξ (110) ότι το [ wo

T w(n + 1)]2 είναι ίσο με ή μεγαλύτερο από n2α2 Από την Εξ (111) παρατη-ρούμε ότι το ( ) 22

1o n +w w είναι ίσο με ή μεγαλύτερο από [ Tow w(n + 1)]2 Έπεται

λοιπόν ότι ή ισοδύναμα (112)

Στη συνέχεια θα ακολουθήσουμε μια διαφορετική οδό Συγκεκριμένα θα επαναδιατυ-πώσουμε την Εξ (17) στη μορφή για και (113)Υπολογίζοντας το τετράγωνο της Ευκλείδειας νόρμας και για τις δύο πλευρές της Εξ (113) λαμβάνουμε (114)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 53

Ωστόσο wT(k)x(k) le 0 Συμπεραίνουμε λοιπόν από την Εξ (114) ότι

ή ισοδύναμα (115)

Προσθέτοντας αυτές τις ανισότητες για k = 1 n και καλώντας την υποτιθέμενη αρχική συνθήκη w(0) = 0 παίρνουμε την ανισότητα

όπου β είναι ένας θετικός αριθμός που ορίζεται από την

(117)

Η Εξίσωση (116) δηλώνει ότι το τετράγωνο της Ευκλείδειας νόρμας του διανύσματος βαρών w(n + 1) αυξάνεται κατά βάση γραμμικά με τον αριθμό επαναλήψεων n

Το δεύτερο αποτέλεσμα της Εξ (116) έρχεται σε σύγκρουση με αυτό της Εξ (112) για επαρκώς μεγάλες τιμές του n Μάλιστα μπορούμε να πούμε ότι το n δεν μπορεί να είναι μεγαλύτερο από κάποια τιμή nmax για την οποία ικανοποιούνται αμφότερες οι Εξ (112) και (116) με το σύμβολο ισότητας Δηλαδή nmax είναι η λύση της εξίσωσης

Λύνοντας την εξίσωση για nmax δοθέντος ενός διανύσματος λύσεων wo βρίσκουμε ότι

(118)

Άρα έχουμε αποδείξει ότι για η(n) = 1 για όλα τα n και w(0) = 0 και δεδομένου ότι υπάρχει ένα διάνυσμα λύσεων wo ο κανόνας για την προσαρμογή των συναπτικών βαρών του perceptron πρέπει να τερματίζει μετά από nmax το μέγιστο επαναλήψεις Παρατηρή-στε επίσης από τις Εξ (19) (117) και (118) ότι δεν υπάρχει μοναδική λύση για τα wo ή nmax

Μπορούμε τώρα να διατυπώσουμε το θεώρημα σύγκλισης με σταθερή αύξηση για το perceptron (Rosenblatt 1962)

Έστω ότι τα υποσύνολα των διανυσμάτων εκπαίδευσης 1 και 2 είναι γραμμικά διαχω-ρίσιμα Έστω ότι οι είσοδοι που παρουσιάζονται στο perceptron προέρχονται από αυτά τα δύο υποσύνολα Το perceptron συγκλίνει μετά από κάποιο αριθμό no επαναλήψεων υπό την έννοια ότι το

But wT(k)x(k) 0 We therefore deduce from Eq (114) that

or equivalently

(115)

Adding these inequalities for k = 1 n and invoking the assumed initial conditionw(0) = 0 we get the inequality

(116)

where is a positive number defined by

(117)

Equation (116) states that the squared Euclidean norm of the weight vector w(n 1)grows at most linearly with the number of iterations n

The second result of Eq (116) is clearly in conflict with the earlier result ofEq (112) for sufficiently large values of n Indeed we can state that n cannot be largerthan some value nmax for which Eqs (112) and (116) are both satisfied with the equalitysign That is nmax is the solution of the equation

Solving for nmax given a solution vector wo we find that

(118)

We have thus proved that for η(n) = 1 for all n and w(0) = 0 and given that a solutionvector wo exists the rule for adapting the synaptic weights of the perceptron must ter-minate after at most nmax interations Note also from Eqs (19) (117) and (118) thatthere is no unique solution for wo or nmax

We may now state the fixed-increment covergence theorem for the perceptron asfollows (Rosenblatt 1962)

Let the subsets of training vectors h1 and h2 be linearly separable Let the inputs presentedto the perceptron originate from these two subsets The perceptron converges after someno iterations in the sense that

is a solution vector for n0 nmax

Consider next the absolute error-correction procedure for the adaptation of a single-layer perceptron for which (n) is variable In particular let (n) be the smallest integerfor which the condition

(n)xT(n)x(n) 7 wT(n)x(n)

w(no) = w(no + 1) = w(no + 2) = p

nmax = wo 2

2

n2max

2

wo 2 = nmax

= maxx(k)h1

x(k) 2 n

w(n + 1) 2 an

k=1 x(k) 2

w(k + 1) 2 - w(k) 2 x(k) 2 k = 1 n

w(k + 1) 2 w(k) 2 + x(k) 2

Section 13 The Perceptron Convergence Theorem 53

M01_HAYK1399_SE_03_C01QXD 91008 924 PM Page 53

είναι ένα διάνυσμα λύσεων για n0 le nmax

Στη συνέχεια ας εξετάσουμε τη διαδικασία απόλυτης διόρθωσης σφάλματος για την προσαρμογή ενός perceptron ενός επιπέδου για το οποίο το η(n) είναι μεταβλητό Συγκε-κριμένα έστω ότι η(n) είναι ο μικρότερος ακέραιος για τον οποίο ισχύει η συνθήκη

Νευρωνικά Δίκτυα και Μηχανική Μάθηση54

Μrsquo αυτή τη διαδικασία βρίσκουμε ότι εάν το εσωτερικό γινόμενο wT(n)x(n) στην επανάληψη n έχει λάθος πρόσημο τότε το wT(n + 1)x(n) στην επανάληψη n + 1 θα έχει σωστό πρόσημο Αυτό υποδηλώνει ότι εάν το wT(n)x(n) έχει λάθος πρόσημο στην επα-νάληψη n μπορούμε να laquoειδοποιήσουμεraquo τη διαδικασία εκπαίδευσης στην επανάληψη n + 1 θέτοντας x(n + 1) = x(n) Με άλλα λόγια κάθε πρότυπο παρουσιάζεται κατrsquo επα-νάληψη στο perceptron μέχρι να ταξινομηθεί σωστά

Σημειώστε επίσης ότι η χρήση μιας αρχικής τιμής w(0) διαφορετικής από την μηδε-νική (null) συνθήκη οδηγεί απλώς σε μείωση ή αύξηση του αριθμού των επαναλήψεων που απαιτούνται για σύγκλιση ανάλογα με το πώς σχετίζεται το w(0) με τη λύση wo Ανεξάρτητα από την τιμή που ανατίθεται στο w(0) το perceptron είναι εγγυημένο ότι θα συγκλίνει

Στον Πίνακα 11 παρουσιάζουμε μια σύνοψη του αλγόριθμου σύγκλισης του perceptron (Lippmann 1987) Το σύμβολο sgn(sdot) που χρησιμοποιείται στο βήμα 3 του πίνακα για τον υπολογισμό της πραγματικής απόκρισης του perceptron αντιπροσωπεύει τη συνάρτηση προσήμου

εάνεάν

(119)

Μπορούμε λοιπόν να εκφράσουμε την κβαντισμένη απόκριση y(n) του perceptron στην ακόλουθη συμπαγή μορφή (120)Παρατηρήστε ότι το διάνυσμα εισόδων x(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο είναι σταθερό σε +1 καθrsquo όλη τη διάρκεια του υπολογισμού

ΠΙΝΑΚΑΣ 11 Σύνοψη του Αλγόριθμου Σύγκλισης του Perceptron

Μεταβλητές και Παράμετροι x(n) = διάνυσμα εισόδων (m + 1)-επί-1 = [+1 x1(n) x2(n) xm(n)]T

w(n) = διάνυσμα βαρών (m + 1)-επί-1 = [b w1(n) w2(n) wm(n)]T

b = πόλωση y(n) = πραγματική απόκριση (κβαντισμένη) d(n) = επιθυμητή απόκριση η = παράμετρος ρυθμού μάθησης μια θετική σταθερά μικρότερη από μονάδα1 Αρχικοποίηση Θέσε w(0) = 0 Στη συνέχεια εκτέλεσε τους ακόλουθους υπολογισμούς για

χρονικό βήμα n = 1 2 2 Ενεργοποίηση Στο χρονικό βήμα n ενεργοποίησε το perceptron εφαρμόζοντας το (συνεχών

τιμών) διάνυσμα εισόδων x(n) και την επιθυμητή απόκριση d(n)3 Υπολογισμός της Πραγματικής Απόκρισης Υπολόγισε την πραγματική απόκριση του perceptron ως όπου sgn(sdot) είναι η συνάρτηση προσήμου4 Προσαρμογή του Διανύσματος Βαρών Ενημέρωσε το διάνυσμα βαρών του perceptron ώστε να

καταλήξεις στο όπου

x(n) ανήκει στην κλάση 1ndashx(n) ανήκει στην κλάση 2

εάνεάν

5 Συνέχιση Αύξησε το χρονικό βήμα n κατά ένα και επέστρεψε στο βήμα 2

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 55

Αντίστοιχα το διάνυσμα βαρών w(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο ισούται με την πόλωση b Ένα άλλο σημαντικό σημείο που πρέπει να επισημάνουμε στον Πίνακα 11 είναι ότι έχουμε εισάγει μια κβαντισμένη επιθυμητή απόκριση d(n) η οποία ορίζεται ως

εάν x(n) ανήκει στην κλάση 1

εάν ndashx(n) ανήκει στην κλάση 2 (121)

Έτσι η προσαρμογή του διανύσματος βαρών w(n) συνοψίζεται στη μορφή του κανόνα μάθησης με διόρθωση σφάλματος (122)όπου η είναι η παράμετρος ρυθμού μάθησης και η διαφορά d(n) minus y(n) παίζει το ρόλο ενός σήματος σφάλματος Η παράμετρος ρυθμού μάθησης είναι μια θετική σταθερά που περιορίζεται στο πεδίο τιμών 0 lt η le 1 Όταν της αναθέτουμε μια τιμή από αυτό το πεδίο θα πρέπει να έχουμε υπόψη δύο αντικρουόμενες απαιτήσεις (Lippmann 1987)bull υπολογισμό του μέσου όρου των παρελθουσών εισόδων για την παροχή σταθερών

εκτιμήσεων για τα βάρη ο οποίος απαιτεί μικρή ηbull γρήγορη προσαρμογή αναφορικά με τις πραγματικές μεταβολές στις υποκείμενες

κατανομές της διαδικασίας που είναι υπεύθυνη για την παραγωγή του διανύσματος εισόδων x η οποία απαιτεί μεγάλη η

14 ΣχΕΣΗ μΕΤΑξΥ PeRcePtRon ΚΑΙ ΤΑξΙΝΟμΗΤΗ Bayes ΓΙΑ ΕΝΑ ΓΚΑΟΥΣΙΑΝΟ ΠΕΡΙβΑΛΛΟΝ

Το perceptron έχει συγκεκριμένη σχέση με έναν κλασικό ταξινομητή προτύπων γνωστό ως ταξινομητή Bayes Όταν το περιβάλλον είναι Γκαουσιανό ο ταξινομητής Bayes ελα-χιστοποιείται σε έναν γραμμικό ταξινομητή Αυτή είναι η ίδια μορφή που λαμβάνει και το perceptron Ωστόσο η γραμμική φύση του perceptron δεν εξαρτάται ούτε βασίζεται στην υπόθεση ύπαρξης Γκαουσιανού περιβάλλοντος Σrsquo αυτή την ενότητα θα μελετή-σουμε αυτή τη σχέση και μέσω αυτής θα μπορέσουμε να κατανοήσουμε καλύτερα τη λειτουργία του perceptron Θα ξεκινήσουμε την συζήτησή μας με μια σύντομη αναφορά στον ταξινομητή Bayes

Ταξινομητής BayesΣτον ταξινομητή Bayes ελαχιστοποιούμε το μέσο ρίσκο που συμβολίζεται ως 5 Για ένα πρόβλημα δύο κλάσεων που συμβολίζονται ως 1 και 2 το μέσο ρίσκο ορίζεται από τον Van Trees (1968) ως

(123)

όπου οι διάφοροι όροι ορίζονται ως εξήςpi = εκ των προτέρων πιθανότητα ότι το διάνυσμα παρατηρήσεων x (που αντιπροσω-

πεύει μια υλοποίηση του τυχαίου διανύσματος X) αντλείται από τον υποχώρο i με i = 1 2 και p1 + p2 =1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση56

cij= κόστος απόφασης ευνοϊκής για την κλάση i που αντιπροσωπεύεται από τον υποχώρο i όταν η κλάση j είναι αληθής (δηλ το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο j) με i j = 1 2

= συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του τυχαίου διανύσματος X δεδομένου ότι το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο i με i = 1 2

Οι πρώτοι δύο όροι στη δεξιά πλευρά της Εξ (123) αντιπροσωπεύουν σωστές απο-φάσεις (δηλ σωστές ταξινομήσεις) ενώ οι δύο τελευταίοι όροι αντιπροσωπεύουν λαν-θασμένες αποφάσεις(δηλ λανθασμένες ταξινομήσεις) Κάθε απόφαση σταθμίζεται μέσω του γινομένου δύο παραγόντων το κόστος που εμπλέκεται στη λήψη της απόφασης και τη σχετική συχνότητα (δηλ την εκ των προτέρων πιθανότητα) με την οποία συμβαίνει

Στόχος είναι ο καθορισμός μιας στρατηγικής για επίτευξη του ελάχιστου μέσου ρίσκου Επειδή απαιτείται η λήψη μιας απόφασης κάθε διάνυσμα παρατηρήσεων x πρέπει να αντιστοιχιστεί στο συνολικό χώρο παρατηρήσεων είτε στο 1 είτε στο 2 Άρα (124)Κατά συνέπεια μπορούμε να ξαναγράψουμε την Εξ (123) στην ισοδύναμη μορφή

(125)

όπου c11 lt c21 και c22 lt c12 Παρατηρούμε δηλαδή ότι

(126)

Άρα η Εξ (125) ελαχιστοποιείται στην

(127)

Οι πρώτο δύο όροι στη δεξιά πλευρά της Εξ (127) αντιπροσωπεύουν ένα σταθερό κόστος Εφόσον η απαίτηση υπαγορεύει την ελαχιστοποίηση του μέσου ρίσκου 5 μπο-ρούμε από την Εξ(127) να εξάγουμε την ακόλουθη στρατηγική για τη βέλτιστη ταξι-νόμηση

1 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα (δηλ η έκφραση μέσα στις αγκύλες) είναι αρνητικό θα πρέπει να αντιστοιχιστούν στον υποχώρο 1 (δηλ στην κλάση 1) διότι έτσι το ολοκλήρωμα θα έχει αρνητική συνεισφορά στο ρίσκο 5

2 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα είναι θετικό θα πρέπει να εξαιρεθούν από τον υποχώρο 1 (δηλ να ανατεθούν στην κλάση 2) διότι έτσι το ολοκλήρωμα θα έχει θετική συνεισφορά στο ρίσκο 5

3 Οι τιμές του x για τις οποίες το ολοκλήρωμα είναι μηδέν δεν επηρεάζουν το μέσο ρίσκο 5 και μπορούν να αντιστοιχίζονται αυθαίρετα Θα υποθέσουμε ότι αυτά τα σημεία αντιστοιχίζονται στον υποχώρο 2 (δηλ στην κλάση 2)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 4: 9789607182647_CHAPTER 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση50

ένα κανόνα διόρθωσης σφαλμάτων γνωστό ως αλγόριθμο σύγκλισης του perceptron ο οποίος εξετάζεται παρακάτω

13 to ΘΕΩΡΗμΑ ΣΥΓΚΛΙΣΗΣ ΤΟΥ PeRcePtRonΓια να διατυπώσουμε τον αλγόριθμο μάθησης με διόρθωση σφάλματος για το perceptron θεωρούμε πιο βολικό να δουλέψουμε με το τροποποιημένο γράφημα ροής σήματος του Σχ 13 Σrsquo αυτό το δεύτερο μοντέλο το οποίο είναι ισοδύναμο μrsquo εκείνο του Σχ 11 η πόλωση b(n) αντιμετωπίζεται ως ένα συναπτικό βάρος το οποίο οδηγείται από σταθερή είσοδο ίση με +1 Άρα μπορούμε να ορίσουμε το διάνυσμα εισόδων (m + 1)-επί-1 ως όπου το n συμβολίζει το χρονικό βήμα εφαρμογής του αλγόριθμου Αντίστοιχα ορίζουμε το διάνυσμα βαρών (m + 1)-επί-1 ως Κατά συνέπεια η έξοδος του γραμμικού συνδυαστή μπορεί να γραφεί σε συμπαγή μορφή

(13)

όπου στην πρώτη γραμμή το w0(n) που αντιστοιχεί στο i = 0 αντιπροσωπεύει την πόλωση b Για σταθερό n η εξίσωση wTx = 0 εάν απεικονιστεί σrsquo έναν m-διάστατο χώρο (και για προκαθορισμένη πόλωση) με συντεταγμένες x1 x2 xm ορίζει ένα υπερεπίπεδο ως διαχωριστική επιφάνεια απόφασης μεταξύ δύο διαφορετικών κλάσεων εισόδων

Για να λειτουργήσει σωστά το perceptron οι δύο κλάσεις 1 και 2 πρέπει να είναι γραμμικά διαχωρίσιμες Αυτό με τη σειρά του σημαίνει ότι τα προς ταξινόμηση πρότυπα πρέπει να είναι επαρκώς διαχωρισμένα το ένα από το άλλο για να διασφαλιστεί ότι η επιφάνεια απόφασης αποτελείται από ένα υπερεπίπεδο Αυτή η απαίτηση απεικονίζεται στο Σχ 14 για την περίπτωση ενός perceptron δύο διαστάσεων Στο Σχ 14α οι δύο κλάσεις 1 και 2 είναι επαρκώς διαχωρισμένες μεταξύ τους και μπορεί να σχεδιαστεί ένα υπερεπίπεδο (εδώ μια ευθεία) ως όριο απόφασης Εάν ωστόσο οι δύο κλάσεις 1 και 2 πλησιάζουν πολύ κοντά η μία στην άλλη όπως στο Σχ 14β τότε γίνονται μη γραμμικά διαχωρίσιμες μια κατάσταση η οποία ξεπερνά την υπολογιστική δυνατότητα του perceptron

Ας υποθέσουμε ότι οι μεταβλητές εισόδου του perceptron προέρχονται από δύο γραμμικά διαχωρίσιμες κλάσεις Έστω ότι 1 είναι ο υποχώρος των διανυσμάτων εκπαί-δευσης x1(1) x1(2) που ανήκουν στην κλάση 1 και 2 είναι ο υποχώρος των διανυ-σμάτων εκπαίδευσης x2(1) x2(2) που ανήκουν στην κλάση 2 Η ένωση των 1 και 2 είναι ο πλήρης χώρος και συμβολίζεται ως Δοθέντων των διανυσμάτων 1 και 2

ΣΧΗΜΑ 13 Ισοδύναμο γράφημα ροής σήματος του perceptron χάριν σαφήνειας έχουμε παραλείψει την εξάρτηση από το χρόνο Είσοδοι Απότομος

περιοριστής

Γραμμικός συνδυαστής

Σταθερή είσοδος

x1

x2

xm

wm

w2

w1

x0 1

w0 b

w() Έξοδοςy

v

bullbullbull

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 51

για την εκπαίδευση του ταξινομητή η διαδικασία εκπαίδευσης απαιτεί την προσαρμογή του διανύσματος βαρών w με τρόπο ώστε οι δύο κλάσεις 1 και 2 να είναι γραμμικά διαχωρίσιμες Δηλαδή υπάρχει ένα διάνυσμα βαρών w τέτοιο ώστε να μπορούμε να δηλώσουμε

wTx 7 0 για κάθε διάνυσμα εισόδων x που ανήκει στην κλάση 1 wTx hellip 0 για κάθε διάνυσμα εισόδων x που ανήκει στην κλάση 2

(14)

Στη δεύτερη γραμμή της Εξ (14) έχουμε αποφασίσει αυθαίρετα ότι το διάνυσμα εισό-δων x ανήκει στην κλάση 2 εάν wTx = 0 Δοθέντων των υποσυνόλων των διανυσμάτων εκπαίδευσης 1 και 2 το πρόβλημα εκπαίδευσης του perceptron συνίσταται στο να βρούμε ένα διάνυσμα βαρών w τέτοιο ώστε να ικανοποιούνται οι δύο ανισότητες της Εξ (14)

Μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για την προσαρμογή του διανύ-σματος βαρών του στοιχειώδους perceptron ως εξής

1 Εάν το n-οστό μέλος του συνόλου εκπαίδευσης x(n) ταξινομείται σωστά από το διάνυσμα βαρών w(n) που υπολογίζεται στην n-οστή επανάληψη του αλγόριθμου δεν γίνεται καμιά διόρθωση στο διάνυσμα βαρών του perceptron σύμφωνα με τον κανόνα w(n + 1) = w(n) εάν wTx(n) gt 0 και x(n) ανήκει στην κλάση 1

w(n + 1) = w(n) εάν wTx(n) le 0 και x(n) ανήκει στην κλάση 2 (15)

2 Διαφορετικά το διάνυσμα βαρών του perceptron ενημερώνεται σύμφωνα με τον κανόνα w(n + 1) = w(n) ndash η(n)x(n) εάν wT(n) x(n) gt 0 και x(n) ανήκει στην κλάση 2 w(n + 1) = w(n) ndash η(n)x(n) εάν wT(n) x(n) le 0 και x(n) ανήκει στην κλάση 1

(16)

όπου η παράμετρος του ρυθμού μάθησης η(n) ελέγχει την προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών στην επανάληψη n

Εάν η(n) = η gt 0 όπου η μια σταθερά ανεξάρτητη από τον αριθμό επανάληψης n τότε έχουμε έναν κανόνα προσαρμογής μέσω σταθερής αύξησης για το perceptron

Αποδεικνύουμε πρώτα τη σύγκλιση ενός κανόνα προσαρμογής μέσω σταθερής αύξησης για τον οποίο η = 1 Προφανώς η τιμή του η είναι άνευ σημασίας εφόσον

ΣΧΗΜΑ 14 (α) Ζεύγος γραμμικά διαχωρίσιμων προτύπων (β) Ζεύγος μη γραμμικά διαχωρίσιμων προτύπων

(α) (β)

Όριο απόφασης

Κλάση 1

Κλάση 2

Κλάση 1

Κλάση 2

Νευρωνικά Δίκτυα και Μηχανική Μάθηση52

είναι θετική Τιμή η ne 1 απλώς κλιμακώνει τα διανύσματα προτύπων χωρίς να επηρεάζει τη διαχωρισιμότητά τους Η περίπτωση μεταβλητού η(n) θα εξεταστεί παρακάτω

Η απόδειξη του αλγόριθμου σύγκλισης του perceptron2 παρουσιάζεται για την αρχική συνθήκη w(0) = 0 Υποθέστε ότι wT(n)x(n) lt 0 για n = 1 2 και το διάνυσμα εισόδων x(n) ανήκει στο υποσύνολο 1 Δηλαδή το perceptron ταξινομεί εσφαλμένα τα διανύσματα x(1) x(2) εφόσον παραβιάζεται η δεύτερη συνθήκη της Εξ (14) Έτσι με το σταθερό η(n) = 1 μπορούμε να χρησιμοποιήσουμε τη δεύτερη γραμμή της Εξ (16) για να γράψουμε w(n + 1) = w(n) + x(n) για x(n) που ανήκει στην κλάση 1 (17)Δοθείσας της αρχικής συνθήκης w(0) = 0 μπορούμε να λύσουμε επαναληπτικά αυτή την εξίσωση για w(n + 1) καταλήγοντας στο αποτέλεσμα (18)Εφόσον οι κλάσεις 1 και 2 υποτίθεται ότι είναι γραμμικά διαχωρίσιμες υπάρχει μια λύση wo για την οποία wTx(n) gt 0 για τα διανύσματα x(1) x(n) που ανήκουν στο υπο-σύνολο 1 Για μια σταθερή λύση wo μπορούμε να ορίσουμε ένα θετικό αριθμό α ως

(19)

Άρα πολλαπλασιάζοντας και τις δύο πλευρές της Εξ (18) επί το διάνυσμα γραμμής wΤ

ο λαμβάνουμε Συνεπώς υπό το πρίσμα του ορισμού που δόθηκε στην Εξ (19) έχουμε (110)Στη συνέχεια κάνουμε χρήση μιας ανισότητας γνωστής ως ανισότητα CauchyndashSchwarz Δοθέντων δύο διανυσμάτων w0 και w(n + 1) η ανισότητα CauchyndashSchwarz δηλώνει ότι (111)όπου το συμβολίζει την Ευκλείδεια νόρμα του ορίσματός του και το εσωτερικό γινό-μενο wo

T w(n +1) είναι ένα βαθμωτό μέγεθος Παρατηρούμε τώρα από την Εξ (110) ότι το [ wo

T w(n + 1)]2 είναι ίσο με ή μεγαλύτερο από n2α2 Από την Εξ (111) παρατη-ρούμε ότι το ( ) 22

1o n +w w είναι ίσο με ή μεγαλύτερο από [ Tow w(n + 1)]2 Έπεται

λοιπόν ότι ή ισοδύναμα (112)

Στη συνέχεια θα ακολουθήσουμε μια διαφορετική οδό Συγκεκριμένα θα επαναδιατυ-πώσουμε την Εξ (17) στη μορφή για και (113)Υπολογίζοντας το τετράγωνο της Ευκλείδειας νόρμας και για τις δύο πλευρές της Εξ (113) λαμβάνουμε (114)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 53

Ωστόσο wT(k)x(k) le 0 Συμπεραίνουμε λοιπόν από την Εξ (114) ότι

ή ισοδύναμα (115)

Προσθέτοντας αυτές τις ανισότητες για k = 1 n και καλώντας την υποτιθέμενη αρχική συνθήκη w(0) = 0 παίρνουμε την ανισότητα

όπου β είναι ένας θετικός αριθμός που ορίζεται από την

(117)

Η Εξίσωση (116) δηλώνει ότι το τετράγωνο της Ευκλείδειας νόρμας του διανύσματος βαρών w(n + 1) αυξάνεται κατά βάση γραμμικά με τον αριθμό επαναλήψεων n

Το δεύτερο αποτέλεσμα της Εξ (116) έρχεται σε σύγκρουση με αυτό της Εξ (112) για επαρκώς μεγάλες τιμές του n Μάλιστα μπορούμε να πούμε ότι το n δεν μπορεί να είναι μεγαλύτερο από κάποια τιμή nmax για την οποία ικανοποιούνται αμφότερες οι Εξ (112) και (116) με το σύμβολο ισότητας Δηλαδή nmax είναι η λύση της εξίσωσης

Λύνοντας την εξίσωση για nmax δοθέντος ενός διανύσματος λύσεων wo βρίσκουμε ότι

(118)

Άρα έχουμε αποδείξει ότι για η(n) = 1 για όλα τα n και w(0) = 0 και δεδομένου ότι υπάρχει ένα διάνυσμα λύσεων wo ο κανόνας για την προσαρμογή των συναπτικών βαρών του perceptron πρέπει να τερματίζει μετά από nmax το μέγιστο επαναλήψεις Παρατηρή-στε επίσης από τις Εξ (19) (117) και (118) ότι δεν υπάρχει μοναδική λύση για τα wo ή nmax

Μπορούμε τώρα να διατυπώσουμε το θεώρημα σύγκλισης με σταθερή αύξηση για το perceptron (Rosenblatt 1962)

Έστω ότι τα υποσύνολα των διανυσμάτων εκπαίδευσης 1 και 2 είναι γραμμικά διαχω-ρίσιμα Έστω ότι οι είσοδοι που παρουσιάζονται στο perceptron προέρχονται από αυτά τα δύο υποσύνολα Το perceptron συγκλίνει μετά από κάποιο αριθμό no επαναλήψεων υπό την έννοια ότι το

But wT(k)x(k) 0 We therefore deduce from Eq (114) that

or equivalently

(115)

Adding these inequalities for k = 1 n and invoking the assumed initial conditionw(0) = 0 we get the inequality

(116)

where is a positive number defined by

(117)

Equation (116) states that the squared Euclidean norm of the weight vector w(n 1)grows at most linearly with the number of iterations n

The second result of Eq (116) is clearly in conflict with the earlier result ofEq (112) for sufficiently large values of n Indeed we can state that n cannot be largerthan some value nmax for which Eqs (112) and (116) are both satisfied with the equalitysign That is nmax is the solution of the equation

Solving for nmax given a solution vector wo we find that

(118)

We have thus proved that for η(n) = 1 for all n and w(0) = 0 and given that a solutionvector wo exists the rule for adapting the synaptic weights of the perceptron must ter-minate after at most nmax interations Note also from Eqs (19) (117) and (118) thatthere is no unique solution for wo or nmax

We may now state the fixed-increment covergence theorem for the perceptron asfollows (Rosenblatt 1962)

Let the subsets of training vectors h1 and h2 be linearly separable Let the inputs presentedto the perceptron originate from these two subsets The perceptron converges after someno iterations in the sense that

is a solution vector for n0 nmax

Consider next the absolute error-correction procedure for the adaptation of a single-layer perceptron for which (n) is variable In particular let (n) be the smallest integerfor which the condition

(n)xT(n)x(n) 7 wT(n)x(n)

w(no) = w(no + 1) = w(no + 2) = p

nmax = wo 2

2

n2max

2

wo 2 = nmax

= maxx(k)h1

x(k) 2 n

w(n + 1) 2 an

k=1 x(k) 2

w(k + 1) 2 - w(k) 2 x(k) 2 k = 1 n

w(k + 1) 2 w(k) 2 + x(k) 2

Section 13 The Perceptron Convergence Theorem 53

M01_HAYK1399_SE_03_C01QXD 91008 924 PM Page 53

είναι ένα διάνυσμα λύσεων για n0 le nmax

Στη συνέχεια ας εξετάσουμε τη διαδικασία απόλυτης διόρθωσης σφάλματος για την προσαρμογή ενός perceptron ενός επιπέδου για το οποίο το η(n) είναι μεταβλητό Συγκε-κριμένα έστω ότι η(n) είναι ο μικρότερος ακέραιος για τον οποίο ισχύει η συνθήκη

Νευρωνικά Δίκτυα και Μηχανική Μάθηση54

Μrsquo αυτή τη διαδικασία βρίσκουμε ότι εάν το εσωτερικό γινόμενο wT(n)x(n) στην επανάληψη n έχει λάθος πρόσημο τότε το wT(n + 1)x(n) στην επανάληψη n + 1 θα έχει σωστό πρόσημο Αυτό υποδηλώνει ότι εάν το wT(n)x(n) έχει λάθος πρόσημο στην επα-νάληψη n μπορούμε να laquoειδοποιήσουμεraquo τη διαδικασία εκπαίδευσης στην επανάληψη n + 1 θέτοντας x(n + 1) = x(n) Με άλλα λόγια κάθε πρότυπο παρουσιάζεται κατrsquo επα-νάληψη στο perceptron μέχρι να ταξινομηθεί σωστά

Σημειώστε επίσης ότι η χρήση μιας αρχικής τιμής w(0) διαφορετικής από την μηδε-νική (null) συνθήκη οδηγεί απλώς σε μείωση ή αύξηση του αριθμού των επαναλήψεων που απαιτούνται για σύγκλιση ανάλογα με το πώς σχετίζεται το w(0) με τη λύση wo Ανεξάρτητα από την τιμή που ανατίθεται στο w(0) το perceptron είναι εγγυημένο ότι θα συγκλίνει

Στον Πίνακα 11 παρουσιάζουμε μια σύνοψη του αλγόριθμου σύγκλισης του perceptron (Lippmann 1987) Το σύμβολο sgn(sdot) που χρησιμοποιείται στο βήμα 3 του πίνακα για τον υπολογισμό της πραγματικής απόκρισης του perceptron αντιπροσωπεύει τη συνάρτηση προσήμου

εάνεάν

(119)

Μπορούμε λοιπόν να εκφράσουμε την κβαντισμένη απόκριση y(n) του perceptron στην ακόλουθη συμπαγή μορφή (120)Παρατηρήστε ότι το διάνυσμα εισόδων x(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο είναι σταθερό σε +1 καθrsquo όλη τη διάρκεια του υπολογισμού

ΠΙΝΑΚΑΣ 11 Σύνοψη του Αλγόριθμου Σύγκλισης του Perceptron

Μεταβλητές και Παράμετροι x(n) = διάνυσμα εισόδων (m + 1)-επί-1 = [+1 x1(n) x2(n) xm(n)]T

w(n) = διάνυσμα βαρών (m + 1)-επί-1 = [b w1(n) w2(n) wm(n)]T

b = πόλωση y(n) = πραγματική απόκριση (κβαντισμένη) d(n) = επιθυμητή απόκριση η = παράμετρος ρυθμού μάθησης μια θετική σταθερά μικρότερη από μονάδα1 Αρχικοποίηση Θέσε w(0) = 0 Στη συνέχεια εκτέλεσε τους ακόλουθους υπολογισμούς για

χρονικό βήμα n = 1 2 2 Ενεργοποίηση Στο χρονικό βήμα n ενεργοποίησε το perceptron εφαρμόζοντας το (συνεχών

τιμών) διάνυσμα εισόδων x(n) και την επιθυμητή απόκριση d(n)3 Υπολογισμός της Πραγματικής Απόκρισης Υπολόγισε την πραγματική απόκριση του perceptron ως όπου sgn(sdot) είναι η συνάρτηση προσήμου4 Προσαρμογή του Διανύσματος Βαρών Ενημέρωσε το διάνυσμα βαρών του perceptron ώστε να

καταλήξεις στο όπου

x(n) ανήκει στην κλάση 1ndashx(n) ανήκει στην κλάση 2

εάνεάν

5 Συνέχιση Αύξησε το χρονικό βήμα n κατά ένα και επέστρεψε στο βήμα 2

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 55

Αντίστοιχα το διάνυσμα βαρών w(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο ισούται με την πόλωση b Ένα άλλο σημαντικό σημείο που πρέπει να επισημάνουμε στον Πίνακα 11 είναι ότι έχουμε εισάγει μια κβαντισμένη επιθυμητή απόκριση d(n) η οποία ορίζεται ως

εάν x(n) ανήκει στην κλάση 1

εάν ndashx(n) ανήκει στην κλάση 2 (121)

Έτσι η προσαρμογή του διανύσματος βαρών w(n) συνοψίζεται στη μορφή του κανόνα μάθησης με διόρθωση σφάλματος (122)όπου η είναι η παράμετρος ρυθμού μάθησης και η διαφορά d(n) minus y(n) παίζει το ρόλο ενός σήματος σφάλματος Η παράμετρος ρυθμού μάθησης είναι μια θετική σταθερά που περιορίζεται στο πεδίο τιμών 0 lt η le 1 Όταν της αναθέτουμε μια τιμή από αυτό το πεδίο θα πρέπει να έχουμε υπόψη δύο αντικρουόμενες απαιτήσεις (Lippmann 1987)bull υπολογισμό του μέσου όρου των παρελθουσών εισόδων για την παροχή σταθερών

εκτιμήσεων για τα βάρη ο οποίος απαιτεί μικρή ηbull γρήγορη προσαρμογή αναφορικά με τις πραγματικές μεταβολές στις υποκείμενες

κατανομές της διαδικασίας που είναι υπεύθυνη για την παραγωγή του διανύσματος εισόδων x η οποία απαιτεί μεγάλη η

14 ΣχΕΣΗ μΕΤΑξΥ PeRcePtRon ΚΑΙ ΤΑξΙΝΟμΗΤΗ Bayes ΓΙΑ ΕΝΑ ΓΚΑΟΥΣΙΑΝΟ ΠΕΡΙβΑΛΛΟΝ

Το perceptron έχει συγκεκριμένη σχέση με έναν κλασικό ταξινομητή προτύπων γνωστό ως ταξινομητή Bayes Όταν το περιβάλλον είναι Γκαουσιανό ο ταξινομητής Bayes ελα-χιστοποιείται σε έναν γραμμικό ταξινομητή Αυτή είναι η ίδια μορφή που λαμβάνει και το perceptron Ωστόσο η γραμμική φύση του perceptron δεν εξαρτάται ούτε βασίζεται στην υπόθεση ύπαρξης Γκαουσιανού περιβάλλοντος Σrsquo αυτή την ενότητα θα μελετή-σουμε αυτή τη σχέση και μέσω αυτής θα μπορέσουμε να κατανοήσουμε καλύτερα τη λειτουργία του perceptron Θα ξεκινήσουμε την συζήτησή μας με μια σύντομη αναφορά στον ταξινομητή Bayes

Ταξινομητής BayesΣτον ταξινομητή Bayes ελαχιστοποιούμε το μέσο ρίσκο που συμβολίζεται ως 5 Για ένα πρόβλημα δύο κλάσεων που συμβολίζονται ως 1 και 2 το μέσο ρίσκο ορίζεται από τον Van Trees (1968) ως

(123)

όπου οι διάφοροι όροι ορίζονται ως εξήςpi = εκ των προτέρων πιθανότητα ότι το διάνυσμα παρατηρήσεων x (που αντιπροσω-

πεύει μια υλοποίηση του τυχαίου διανύσματος X) αντλείται από τον υποχώρο i με i = 1 2 και p1 + p2 =1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση56

cij= κόστος απόφασης ευνοϊκής για την κλάση i που αντιπροσωπεύεται από τον υποχώρο i όταν η κλάση j είναι αληθής (δηλ το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο j) με i j = 1 2

= συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του τυχαίου διανύσματος X δεδομένου ότι το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο i με i = 1 2

Οι πρώτοι δύο όροι στη δεξιά πλευρά της Εξ (123) αντιπροσωπεύουν σωστές απο-φάσεις (δηλ σωστές ταξινομήσεις) ενώ οι δύο τελευταίοι όροι αντιπροσωπεύουν λαν-θασμένες αποφάσεις(δηλ λανθασμένες ταξινομήσεις) Κάθε απόφαση σταθμίζεται μέσω του γινομένου δύο παραγόντων το κόστος που εμπλέκεται στη λήψη της απόφασης και τη σχετική συχνότητα (δηλ την εκ των προτέρων πιθανότητα) με την οποία συμβαίνει

Στόχος είναι ο καθορισμός μιας στρατηγικής για επίτευξη του ελάχιστου μέσου ρίσκου Επειδή απαιτείται η λήψη μιας απόφασης κάθε διάνυσμα παρατηρήσεων x πρέπει να αντιστοιχιστεί στο συνολικό χώρο παρατηρήσεων είτε στο 1 είτε στο 2 Άρα (124)Κατά συνέπεια μπορούμε να ξαναγράψουμε την Εξ (123) στην ισοδύναμη μορφή

(125)

όπου c11 lt c21 και c22 lt c12 Παρατηρούμε δηλαδή ότι

(126)

Άρα η Εξ (125) ελαχιστοποιείται στην

(127)

Οι πρώτο δύο όροι στη δεξιά πλευρά της Εξ (127) αντιπροσωπεύουν ένα σταθερό κόστος Εφόσον η απαίτηση υπαγορεύει την ελαχιστοποίηση του μέσου ρίσκου 5 μπο-ρούμε από την Εξ(127) να εξάγουμε την ακόλουθη στρατηγική για τη βέλτιστη ταξι-νόμηση

1 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα (δηλ η έκφραση μέσα στις αγκύλες) είναι αρνητικό θα πρέπει να αντιστοιχιστούν στον υποχώρο 1 (δηλ στην κλάση 1) διότι έτσι το ολοκλήρωμα θα έχει αρνητική συνεισφορά στο ρίσκο 5

2 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα είναι θετικό θα πρέπει να εξαιρεθούν από τον υποχώρο 1 (δηλ να ανατεθούν στην κλάση 2) διότι έτσι το ολοκλήρωμα θα έχει θετική συνεισφορά στο ρίσκο 5

3 Οι τιμές του x για τις οποίες το ολοκλήρωμα είναι μηδέν δεν επηρεάζουν το μέσο ρίσκο 5 και μπορούν να αντιστοιχίζονται αυθαίρετα Θα υποθέσουμε ότι αυτά τα σημεία αντιστοιχίζονται στον υποχώρο 2 (δηλ στην κλάση 2)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 5: 9789607182647_CHAPTER 1

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 51

για την εκπαίδευση του ταξινομητή η διαδικασία εκπαίδευσης απαιτεί την προσαρμογή του διανύσματος βαρών w με τρόπο ώστε οι δύο κλάσεις 1 και 2 να είναι γραμμικά διαχωρίσιμες Δηλαδή υπάρχει ένα διάνυσμα βαρών w τέτοιο ώστε να μπορούμε να δηλώσουμε

wTx 7 0 για κάθε διάνυσμα εισόδων x που ανήκει στην κλάση 1 wTx hellip 0 για κάθε διάνυσμα εισόδων x που ανήκει στην κλάση 2

(14)

Στη δεύτερη γραμμή της Εξ (14) έχουμε αποφασίσει αυθαίρετα ότι το διάνυσμα εισό-δων x ανήκει στην κλάση 2 εάν wTx = 0 Δοθέντων των υποσυνόλων των διανυσμάτων εκπαίδευσης 1 και 2 το πρόβλημα εκπαίδευσης του perceptron συνίσταται στο να βρούμε ένα διάνυσμα βαρών w τέτοιο ώστε να ικανοποιούνται οι δύο ανισότητες της Εξ (14)

Μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για την προσαρμογή του διανύ-σματος βαρών του στοιχειώδους perceptron ως εξής

1 Εάν το n-οστό μέλος του συνόλου εκπαίδευσης x(n) ταξινομείται σωστά από το διάνυσμα βαρών w(n) που υπολογίζεται στην n-οστή επανάληψη του αλγόριθμου δεν γίνεται καμιά διόρθωση στο διάνυσμα βαρών του perceptron σύμφωνα με τον κανόνα w(n + 1) = w(n) εάν wTx(n) gt 0 και x(n) ανήκει στην κλάση 1

w(n + 1) = w(n) εάν wTx(n) le 0 και x(n) ανήκει στην κλάση 2 (15)

2 Διαφορετικά το διάνυσμα βαρών του perceptron ενημερώνεται σύμφωνα με τον κανόνα w(n + 1) = w(n) ndash η(n)x(n) εάν wT(n) x(n) gt 0 και x(n) ανήκει στην κλάση 2 w(n + 1) = w(n) ndash η(n)x(n) εάν wT(n) x(n) le 0 και x(n) ανήκει στην κλάση 1

(16)

όπου η παράμετρος του ρυθμού μάθησης η(n) ελέγχει την προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών στην επανάληψη n

Εάν η(n) = η gt 0 όπου η μια σταθερά ανεξάρτητη από τον αριθμό επανάληψης n τότε έχουμε έναν κανόνα προσαρμογής μέσω σταθερής αύξησης για το perceptron

Αποδεικνύουμε πρώτα τη σύγκλιση ενός κανόνα προσαρμογής μέσω σταθερής αύξησης για τον οποίο η = 1 Προφανώς η τιμή του η είναι άνευ σημασίας εφόσον

ΣΧΗΜΑ 14 (α) Ζεύγος γραμμικά διαχωρίσιμων προτύπων (β) Ζεύγος μη γραμμικά διαχωρίσιμων προτύπων

(α) (β)

Όριο απόφασης

Κλάση 1

Κλάση 2

Κλάση 1

Κλάση 2

Νευρωνικά Δίκτυα και Μηχανική Μάθηση52

είναι θετική Τιμή η ne 1 απλώς κλιμακώνει τα διανύσματα προτύπων χωρίς να επηρεάζει τη διαχωρισιμότητά τους Η περίπτωση μεταβλητού η(n) θα εξεταστεί παρακάτω

Η απόδειξη του αλγόριθμου σύγκλισης του perceptron2 παρουσιάζεται για την αρχική συνθήκη w(0) = 0 Υποθέστε ότι wT(n)x(n) lt 0 για n = 1 2 και το διάνυσμα εισόδων x(n) ανήκει στο υποσύνολο 1 Δηλαδή το perceptron ταξινομεί εσφαλμένα τα διανύσματα x(1) x(2) εφόσον παραβιάζεται η δεύτερη συνθήκη της Εξ (14) Έτσι με το σταθερό η(n) = 1 μπορούμε να χρησιμοποιήσουμε τη δεύτερη γραμμή της Εξ (16) για να γράψουμε w(n + 1) = w(n) + x(n) για x(n) που ανήκει στην κλάση 1 (17)Δοθείσας της αρχικής συνθήκης w(0) = 0 μπορούμε να λύσουμε επαναληπτικά αυτή την εξίσωση για w(n + 1) καταλήγοντας στο αποτέλεσμα (18)Εφόσον οι κλάσεις 1 και 2 υποτίθεται ότι είναι γραμμικά διαχωρίσιμες υπάρχει μια λύση wo για την οποία wTx(n) gt 0 για τα διανύσματα x(1) x(n) που ανήκουν στο υπο-σύνολο 1 Για μια σταθερή λύση wo μπορούμε να ορίσουμε ένα θετικό αριθμό α ως

(19)

Άρα πολλαπλασιάζοντας και τις δύο πλευρές της Εξ (18) επί το διάνυσμα γραμμής wΤ

ο λαμβάνουμε Συνεπώς υπό το πρίσμα του ορισμού που δόθηκε στην Εξ (19) έχουμε (110)Στη συνέχεια κάνουμε χρήση μιας ανισότητας γνωστής ως ανισότητα CauchyndashSchwarz Δοθέντων δύο διανυσμάτων w0 και w(n + 1) η ανισότητα CauchyndashSchwarz δηλώνει ότι (111)όπου το συμβολίζει την Ευκλείδεια νόρμα του ορίσματός του και το εσωτερικό γινό-μενο wo

T w(n +1) είναι ένα βαθμωτό μέγεθος Παρατηρούμε τώρα από την Εξ (110) ότι το [ wo

T w(n + 1)]2 είναι ίσο με ή μεγαλύτερο από n2α2 Από την Εξ (111) παρατη-ρούμε ότι το ( ) 22

1o n +w w είναι ίσο με ή μεγαλύτερο από [ Tow w(n + 1)]2 Έπεται

λοιπόν ότι ή ισοδύναμα (112)

Στη συνέχεια θα ακολουθήσουμε μια διαφορετική οδό Συγκεκριμένα θα επαναδιατυ-πώσουμε την Εξ (17) στη μορφή για και (113)Υπολογίζοντας το τετράγωνο της Ευκλείδειας νόρμας και για τις δύο πλευρές της Εξ (113) λαμβάνουμε (114)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 53

Ωστόσο wT(k)x(k) le 0 Συμπεραίνουμε λοιπόν από την Εξ (114) ότι

ή ισοδύναμα (115)

Προσθέτοντας αυτές τις ανισότητες για k = 1 n και καλώντας την υποτιθέμενη αρχική συνθήκη w(0) = 0 παίρνουμε την ανισότητα

όπου β είναι ένας θετικός αριθμός που ορίζεται από την

(117)

Η Εξίσωση (116) δηλώνει ότι το τετράγωνο της Ευκλείδειας νόρμας του διανύσματος βαρών w(n + 1) αυξάνεται κατά βάση γραμμικά με τον αριθμό επαναλήψεων n

Το δεύτερο αποτέλεσμα της Εξ (116) έρχεται σε σύγκρουση με αυτό της Εξ (112) για επαρκώς μεγάλες τιμές του n Μάλιστα μπορούμε να πούμε ότι το n δεν μπορεί να είναι μεγαλύτερο από κάποια τιμή nmax για την οποία ικανοποιούνται αμφότερες οι Εξ (112) και (116) με το σύμβολο ισότητας Δηλαδή nmax είναι η λύση της εξίσωσης

Λύνοντας την εξίσωση για nmax δοθέντος ενός διανύσματος λύσεων wo βρίσκουμε ότι

(118)

Άρα έχουμε αποδείξει ότι για η(n) = 1 για όλα τα n και w(0) = 0 και δεδομένου ότι υπάρχει ένα διάνυσμα λύσεων wo ο κανόνας για την προσαρμογή των συναπτικών βαρών του perceptron πρέπει να τερματίζει μετά από nmax το μέγιστο επαναλήψεις Παρατηρή-στε επίσης από τις Εξ (19) (117) και (118) ότι δεν υπάρχει μοναδική λύση για τα wo ή nmax

Μπορούμε τώρα να διατυπώσουμε το θεώρημα σύγκλισης με σταθερή αύξηση για το perceptron (Rosenblatt 1962)

Έστω ότι τα υποσύνολα των διανυσμάτων εκπαίδευσης 1 και 2 είναι γραμμικά διαχω-ρίσιμα Έστω ότι οι είσοδοι που παρουσιάζονται στο perceptron προέρχονται από αυτά τα δύο υποσύνολα Το perceptron συγκλίνει μετά από κάποιο αριθμό no επαναλήψεων υπό την έννοια ότι το

But wT(k)x(k) 0 We therefore deduce from Eq (114) that

or equivalently

(115)

Adding these inequalities for k = 1 n and invoking the assumed initial conditionw(0) = 0 we get the inequality

(116)

where is a positive number defined by

(117)

Equation (116) states that the squared Euclidean norm of the weight vector w(n 1)grows at most linearly with the number of iterations n

The second result of Eq (116) is clearly in conflict with the earlier result ofEq (112) for sufficiently large values of n Indeed we can state that n cannot be largerthan some value nmax for which Eqs (112) and (116) are both satisfied with the equalitysign That is nmax is the solution of the equation

Solving for nmax given a solution vector wo we find that

(118)

We have thus proved that for η(n) = 1 for all n and w(0) = 0 and given that a solutionvector wo exists the rule for adapting the synaptic weights of the perceptron must ter-minate after at most nmax interations Note also from Eqs (19) (117) and (118) thatthere is no unique solution for wo or nmax

We may now state the fixed-increment covergence theorem for the perceptron asfollows (Rosenblatt 1962)

Let the subsets of training vectors h1 and h2 be linearly separable Let the inputs presentedto the perceptron originate from these two subsets The perceptron converges after someno iterations in the sense that

is a solution vector for n0 nmax

Consider next the absolute error-correction procedure for the adaptation of a single-layer perceptron for which (n) is variable In particular let (n) be the smallest integerfor which the condition

(n)xT(n)x(n) 7 wT(n)x(n)

w(no) = w(no + 1) = w(no + 2) = p

nmax = wo 2

2

n2max

2

wo 2 = nmax

= maxx(k)h1

x(k) 2 n

w(n + 1) 2 an

k=1 x(k) 2

w(k + 1) 2 - w(k) 2 x(k) 2 k = 1 n

w(k + 1) 2 w(k) 2 + x(k) 2

Section 13 The Perceptron Convergence Theorem 53

M01_HAYK1399_SE_03_C01QXD 91008 924 PM Page 53

είναι ένα διάνυσμα λύσεων για n0 le nmax

Στη συνέχεια ας εξετάσουμε τη διαδικασία απόλυτης διόρθωσης σφάλματος για την προσαρμογή ενός perceptron ενός επιπέδου για το οποίο το η(n) είναι μεταβλητό Συγκε-κριμένα έστω ότι η(n) είναι ο μικρότερος ακέραιος για τον οποίο ισχύει η συνθήκη

Νευρωνικά Δίκτυα και Μηχανική Μάθηση54

Μrsquo αυτή τη διαδικασία βρίσκουμε ότι εάν το εσωτερικό γινόμενο wT(n)x(n) στην επανάληψη n έχει λάθος πρόσημο τότε το wT(n + 1)x(n) στην επανάληψη n + 1 θα έχει σωστό πρόσημο Αυτό υποδηλώνει ότι εάν το wT(n)x(n) έχει λάθος πρόσημο στην επα-νάληψη n μπορούμε να laquoειδοποιήσουμεraquo τη διαδικασία εκπαίδευσης στην επανάληψη n + 1 θέτοντας x(n + 1) = x(n) Με άλλα λόγια κάθε πρότυπο παρουσιάζεται κατrsquo επα-νάληψη στο perceptron μέχρι να ταξινομηθεί σωστά

Σημειώστε επίσης ότι η χρήση μιας αρχικής τιμής w(0) διαφορετικής από την μηδε-νική (null) συνθήκη οδηγεί απλώς σε μείωση ή αύξηση του αριθμού των επαναλήψεων που απαιτούνται για σύγκλιση ανάλογα με το πώς σχετίζεται το w(0) με τη λύση wo Ανεξάρτητα από την τιμή που ανατίθεται στο w(0) το perceptron είναι εγγυημένο ότι θα συγκλίνει

Στον Πίνακα 11 παρουσιάζουμε μια σύνοψη του αλγόριθμου σύγκλισης του perceptron (Lippmann 1987) Το σύμβολο sgn(sdot) που χρησιμοποιείται στο βήμα 3 του πίνακα για τον υπολογισμό της πραγματικής απόκρισης του perceptron αντιπροσωπεύει τη συνάρτηση προσήμου

εάνεάν

(119)

Μπορούμε λοιπόν να εκφράσουμε την κβαντισμένη απόκριση y(n) του perceptron στην ακόλουθη συμπαγή μορφή (120)Παρατηρήστε ότι το διάνυσμα εισόδων x(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο είναι σταθερό σε +1 καθrsquo όλη τη διάρκεια του υπολογισμού

ΠΙΝΑΚΑΣ 11 Σύνοψη του Αλγόριθμου Σύγκλισης του Perceptron

Μεταβλητές και Παράμετροι x(n) = διάνυσμα εισόδων (m + 1)-επί-1 = [+1 x1(n) x2(n) xm(n)]T

w(n) = διάνυσμα βαρών (m + 1)-επί-1 = [b w1(n) w2(n) wm(n)]T

b = πόλωση y(n) = πραγματική απόκριση (κβαντισμένη) d(n) = επιθυμητή απόκριση η = παράμετρος ρυθμού μάθησης μια θετική σταθερά μικρότερη από μονάδα1 Αρχικοποίηση Θέσε w(0) = 0 Στη συνέχεια εκτέλεσε τους ακόλουθους υπολογισμούς για

χρονικό βήμα n = 1 2 2 Ενεργοποίηση Στο χρονικό βήμα n ενεργοποίησε το perceptron εφαρμόζοντας το (συνεχών

τιμών) διάνυσμα εισόδων x(n) και την επιθυμητή απόκριση d(n)3 Υπολογισμός της Πραγματικής Απόκρισης Υπολόγισε την πραγματική απόκριση του perceptron ως όπου sgn(sdot) είναι η συνάρτηση προσήμου4 Προσαρμογή του Διανύσματος Βαρών Ενημέρωσε το διάνυσμα βαρών του perceptron ώστε να

καταλήξεις στο όπου

x(n) ανήκει στην κλάση 1ndashx(n) ανήκει στην κλάση 2

εάνεάν

5 Συνέχιση Αύξησε το χρονικό βήμα n κατά ένα και επέστρεψε στο βήμα 2

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 55

Αντίστοιχα το διάνυσμα βαρών w(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο ισούται με την πόλωση b Ένα άλλο σημαντικό σημείο που πρέπει να επισημάνουμε στον Πίνακα 11 είναι ότι έχουμε εισάγει μια κβαντισμένη επιθυμητή απόκριση d(n) η οποία ορίζεται ως

εάν x(n) ανήκει στην κλάση 1

εάν ndashx(n) ανήκει στην κλάση 2 (121)

Έτσι η προσαρμογή του διανύσματος βαρών w(n) συνοψίζεται στη μορφή του κανόνα μάθησης με διόρθωση σφάλματος (122)όπου η είναι η παράμετρος ρυθμού μάθησης και η διαφορά d(n) minus y(n) παίζει το ρόλο ενός σήματος σφάλματος Η παράμετρος ρυθμού μάθησης είναι μια θετική σταθερά που περιορίζεται στο πεδίο τιμών 0 lt η le 1 Όταν της αναθέτουμε μια τιμή από αυτό το πεδίο θα πρέπει να έχουμε υπόψη δύο αντικρουόμενες απαιτήσεις (Lippmann 1987)bull υπολογισμό του μέσου όρου των παρελθουσών εισόδων για την παροχή σταθερών

εκτιμήσεων για τα βάρη ο οποίος απαιτεί μικρή ηbull γρήγορη προσαρμογή αναφορικά με τις πραγματικές μεταβολές στις υποκείμενες

κατανομές της διαδικασίας που είναι υπεύθυνη για την παραγωγή του διανύσματος εισόδων x η οποία απαιτεί μεγάλη η

14 ΣχΕΣΗ μΕΤΑξΥ PeRcePtRon ΚΑΙ ΤΑξΙΝΟμΗΤΗ Bayes ΓΙΑ ΕΝΑ ΓΚΑΟΥΣΙΑΝΟ ΠΕΡΙβΑΛΛΟΝ

Το perceptron έχει συγκεκριμένη σχέση με έναν κλασικό ταξινομητή προτύπων γνωστό ως ταξινομητή Bayes Όταν το περιβάλλον είναι Γκαουσιανό ο ταξινομητής Bayes ελα-χιστοποιείται σε έναν γραμμικό ταξινομητή Αυτή είναι η ίδια μορφή που λαμβάνει και το perceptron Ωστόσο η γραμμική φύση του perceptron δεν εξαρτάται ούτε βασίζεται στην υπόθεση ύπαρξης Γκαουσιανού περιβάλλοντος Σrsquo αυτή την ενότητα θα μελετή-σουμε αυτή τη σχέση και μέσω αυτής θα μπορέσουμε να κατανοήσουμε καλύτερα τη λειτουργία του perceptron Θα ξεκινήσουμε την συζήτησή μας με μια σύντομη αναφορά στον ταξινομητή Bayes

Ταξινομητής BayesΣτον ταξινομητή Bayes ελαχιστοποιούμε το μέσο ρίσκο που συμβολίζεται ως 5 Για ένα πρόβλημα δύο κλάσεων που συμβολίζονται ως 1 και 2 το μέσο ρίσκο ορίζεται από τον Van Trees (1968) ως

(123)

όπου οι διάφοροι όροι ορίζονται ως εξήςpi = εκ των προτέρων πιθανότητα ότι το διάνυσμα παρατηρήσεων x (που αντιπροσω-

πεύει μια υλοποίηση του τυχαίου διανύσματος X) αντλείται από τον υποχώρο i με i = 1 2 και p1 + p2 =1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση56

cij= κόστος απόφασης ευνοϊκής για την κλάση i που αντιπροσωπεύεται από τον υποχώρο i όταν η κλάση j είναι αληθής (δηλ το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο j) με i j = 1 2

= συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του τυχαίου διανύσματος X δεδομένου ότι το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο i με i = 1 2

Οι πρώτοι δύο όροι στη δεξιά πλευρά της Εξ (123) αντιπροσωπεύουν σωστές απο-φάσεις (δηλ σωστές ταξινομήσεις) ενώ οι δύο τελευταίοι όροι αντιπροσωπεύουν λαν-θασμένες αποφάσεις(δηλ λανθασμένες ταξινομήσεις) Κάθε απόφαση σταθμίζεται μέσω του γινομένου δύο παραγόντων το κόστος που εμπλέκεται στη λήψη της απόφασης και τη σχετική συχνότητα (δηλ την εκ των προτέρων πιθανότητα) με την οποία συμβαίνει

Στόχος είναι ο καθορισμός μιας στρατηγικής για επίτευξη του ελάχιστου μέσου ρίσκου Επειδή απαιτείται η λήψη μιας απόφασης κάθε διάνυσμα παρατηρήσεων x πρέπει να αντιστοιχιστεί στο συνολικό χώρο παρατηρήσεων είτε στο 1 είτε στο 2 Άρα (124)Κατά συνέπεια μπορούμε να ξαναγράψουμε την Εξ (123) στην ισοδύναμη μορφή

(125)

όπου c11 lt c21 και c22 lt c12 Παρατηρούμε δηλαδή ότι

(126)

Άρα η Εξ (125) ελαχιστοποιείται στην

(127)

Οι πρώτο δύο όροι στη δεξιά πλευρά της Εξ (127) αντιπροσωπεύουν ένα σταθερό κόστος Εφόσον η απαίτηση υπαγορεύει την ελαχιστοποίηση του μέσου ρίσκου 5 μπο-ρούμε από την Εξ(127) να εξάγουμε την ακόλουθη στρατηγική για τη βέλτιστη ταξι-νόμηση

1 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα (δηλ η έκφραση μέσα στις αγκύλες) είναι αρνητικό θα πρέπει να αντιστοιχιστούν στον υποχώρο 1 (δηλ στην κλάση 1) διότι έτσι το ολοκλήρωμα θα έχει αρνητική συνεισφορά στο ρίσκο 5

2 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα είναι θετικό θα πρέπει να εξαιρεθούν από τον υποχώρο 1 (δηλ να ανατεθούν στην κλάση 2) διότι έτσι το ολοκλήρωμα θα έχει θετική συνεισφορά στο ρίσκο 5

3 Οι τιμές του x για τις οποίες το ολοκλήρωμα είναι μηδέν δεν επηρεάζουν το μέσο ρίσκο 5 και μπορούν να αντιστοιχίζονται αυθαίρετα Θα υποθέσουμε ότι αυτά τα σημεία αντιστοιχίζονται στον υποχώρο 2 (δηλ στην κλάση 2)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 6: 9789607182647_CHAPTER 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση52

είναι θετική Τιμή η ne 1 απλώς κλιμακώνει τα διανύσματα προτύπων χωρίς να επηρεάζει τη διαχωρισιμότητά τους Η περίπτωση μεταβλητού η(n) θα εξεταστεί παρακάτω

Η απόδειξη του αλγόριθμου σύγκλισης του perceptron2 παρουσιάζεται για την αρχική συνθήκη w(0) = 0 Υποθέστε ότι wT(n)x(n) lt 0 για n = 1 2 και το διάνυσμα εισόδων x(n) ανήκει στο υποσύνολο 1 Δηλαδή το perceptron ταξινομεί εσφαλμένα τα διανύσματα x(1) x(2) εφόσον παραβιάζεται η δεύτερη συνθήκη της Εξ (14) Έτσι με το σταθερό η(n) = 1 μπορούμε να χρησιμοποιήσουμε τη δεύτερη γραμμή της Εξ (16) για να γράψουμε w(n + 1) = w(n) + x(n) για x(n) που ανήκει στην κλάση 1 (17)Δοθείσας της αρχικής συνθήκης w(0) = 0 μπορούμε να λύσουμε επαναληπτικά αυτή την εξίσωση για w(n + 1) καταλήγοντας στο αποτέλεσμα (18)Εφόσον οι κλάσεις 1 και 2 υποτίθεται ότι είναι γραμμικά διαχωρίσιμες υπάρχει μια λύση wo για την οποία wTx(n) gt 0 για τα διανύσματα x(1) x(n) που ανήκουν στο υπο-σύνολο 1 Για μια σταθερή λύση wo μπορούμε να ορίσουμε ένα θετικό αριθμό α ως

(19)

Άρα πολλαπλασιάζοντας και τις δύο πλευρές της Εξ (18) επί το διάνυσμα γραμμής wΤ

ο λαμβάνουμε Συνεπώς υπό το πρίσμα του ορισμού που δόθηκε στην Εξ (19) έχουμε (110)Στη συνέχεια κάνουμε χρήση μιας ανισότητας γνωστής ως ανισότητα CauchyndashSchwarz Δοθέντων δύο διανυσμάτων w0 και w(n + 1) η ανισότητα CauchyndashSchwarz δηλώνει ότι (111)όπου το συμβολίζει την Ευκλείδεια νόρμα του ορίσματός του και το εσωτερικό γινό-μενο wo

T w(n +1) είναι ένα βαθμωτό μέγεθος Παρατηρούμε τώρα από την Εξ (110) ότι το [ wo

T w(n + 1)]2 είναι ίσο με ή μεγαλύτερο από n2α2 Από την Εξ (111) παρατη-ρούμε ότι το ( ) 22

1o n +w w είναι ίσο με ή μεγαλύτερο από [ Tow w(n + 1)]2 Έπεται

λοιπόν ότι ή ισοδύναμα (112)

Στη συνέχεια θα ακολουθήσουμε μια διαφορετική οδό Συγκεκριμένα θα επαναδιατυ-πώσουμε την Εξ (17) στη μορφή για και (113)Υπολογίζοντας το τετράγωνο της Ευκλείδειας νόρμας και για τις δύο πλευρές της Εξ (113) λαμβάνουμε (114)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 53

Ωστόσο wT(k)x(k) le 0 Συμπεραίνουμε λοιπόν από την Εξ (114) ότι

ή ισοδύναμα (115)

Προσθέτοντας αυτές τις ανισότητες για k = 1 n και καλώντας την υποτιθέμενη αρχική συνθήκη w(0) = 0 παίρνουμε την ανισότητα

όπου β είναι ένας θετικός αριθμός που ορίζεται από την

(117)

Η Εξίσωση (116) δηλώνει ότι το τετράγωνο της Ευκλείδειας νόρμας του διανύσματος βαρών w(n + 1) αυξάνεται κατά βάση γραμμικά με τον αριθμό επαναλήψεων n

Το δεύτερο αποτέλεσμα της Εξ (116) έρχεται σε σύγκρουση με αυτό της Εξ (112) για επαρκώς μεγάλες τιμές του n Μάλιστα μπορούμε να πούμε ότι το n δεν μπορεί να είναι μεγαλύτερο από κάποια τιμή nmax για την οποία ικανοποιούνται αμφότερες οι Εξ (112) και (116) με το σύμβολο ισότητας Δηλαδή nmax είναι η λύση της εξίσωσης

Λύνοντας την εξίσωση για nmax δοθέντος ενός διανύσματος λύσεων wo βρίσκουμε ότι

(118)

Άρα έχουμε αποδείξει ότι για η(n) = 1 για όλα τα n και w(0) = 0 και δεδομένου ότι υπάρχει ένα διάνυσμα λύσεων wo ο κανόνας για την προσαρμογή των συναπτικών βαρών του perceptron πρέπει να τερματίζει μετά από nmax το μέγιστο επαναλήψεις Παρατηρή-στε επίσης από τις Εξ (19) (117) και (118) ότι δεν υπάρχει μοναδική λύση για τα wo ή nmax

Μπορούμε τώρα να διατυπώσουμε το θεώρημα σύγκλισης με σταθερή αύξηση για το perceptron (Rosenblatt 1962)

Έστω ότι τα υποσύνολα των διανυσμάτων εκπαίδευσης 1 και 2 είναι γραμμικά διαχω-ρίσιμα Έστω ότι οι είσοδοι που παρουσιάζονται στο perceptron προέρχονται από αυτά τα δύο υποσύνολα Το perceptron συγκλίνει μετά από κάποιο αριθμό no επαναλήψεων υπό την έννοια ότι το

But wT(k)x(k) 0 We therefore deduce from Eq (114) that

or equivalently

(115)

Adding these inequalities for k = 1 n and invoking the assumed initial conditionw(0) = 0 we get the inequality

(116)

where is a positive number defined by

(117)

Equation (116) states that the squared Euclidean norm of the weight vector w(n 1)grows at most linearly with the number of iterations n

The second result of Eq (116) is clearly in conflict with the earlier result ofEq (112) for sufficiently large values of n Indeed we can state that n cannot be largerthan some value nmax for which Eqs (112) and (116) are both satisfied with the equalitysign That is nmax is the solution of the equation

Solving for nmax given a solution vector wo we find that

(118)

We have thus proved that for η(n) = 1 for all n and w(0) = 0 and given that a solutionvector wo exists the rule for adapting the synaptic weights of the perceptron must ter-minate after at most nmax interations Note also from Eqs (19) (117) and (118) thatthere is no unique solution for wo or nmax

We may now state the fixed-increment covergence theorem for the perceptron asfollows (Rosenblatt 1962)

Let the subsets of training vectors h1 and h2 be linearly separable Let the inputs presentedto the perceptron originate from these two subsets The perceptron converges after someno iterations in the sense that

is a solution vector for n0 nmax

Consider next the absolute error-correction procedure for the adaptation of a single-layer perceptron for which (n) is variable In particular let (n) be the smallest integerfor which the condition

(n)xT(n)x(n) 7 wT(n)x(n)

w(no) = w(no + 1) = w(no + 2) = p

nmax = wo 2

2

n2max

2

wo 2 = nmax

= maxx(k)h1

x(k) 2 n

w(n + 1) 2 an

k=1 x(k) 2

w(k + 1) 2 - w(k) 2 x(k) 2 k = 1 n

w(k + 1) 2 w(k) 2 + x(k) 2

Section 13 The Perceptron Convergence Theorem 53

M01_HAYK1399_SE_03_C01QXD 91008 924 PM Page 53

είναι ένα διάνυσμα λύσεων για n0 le nmax

Στη συνέχεια ας εξετάσουμε τη διαδικασία απόλυτης διόρθωσης σφάλματος για την προσαρμογή ενός perceptron ενός επιπέδου για το οποίο το η(n) είναι μεταβλητό Συγκε-κριμένα έστω ότι η(n) είναι ο μικρότερος ακέραιος για τον οποίο ισχύει η συνθήκη

Νευρωνικά Δίκτυα και Μηχανική Μάθηση54

Μrsquo αυτή τη διαδικασία βρίσκουμε ότι εάν το εσωτερικό γινόμενο wT(n)x(n) στην επανάληψη n έχει λάθος πρόσημο τότε το wT(n + 1)x(n) στην επανάληψη n + 1 θα έχει σωστό πρόσημο Αυτό υποδηλώνει ότι εάν το wT(n)x(n) έχει λάθος πρόσημο στην επα-νάληψη n μπορούμε να laquoειδοποιήσουμεraquo τη διαδικασία εκπαίδευσης στην επανάληψη n + 1 θέτοντας x(n + 1) = x(n) Με άλλα λόγια κάθε πρότυπο παρουσιάζεται κατrsquo επα-νάληψη στο perceptron μέχρι να ταξινομηθεί σωστά

Σημειώστε επίσης ότι η χρήση μιας αρχικής τιμής w(0) διαφορετικής από την μηδε-νική (null) συνθήκη οδηγεί απλώς σε μείωση ή αύξηση του αριθμού των επαναλήψεων που απαιτούνται για σύγκλιση ανάλογα με το πώς σχετίζεται το w(0) με τη λύση wo Ανεξάρτητα από την τιμή που ανατίθεται στο w(0) το perceptron είναι εγγυημένο ότι θα συγκλίνει

Στον Πίνακα 11 παρουσιάζουμε μια σύνοψη του αλγόριθμου σύγκλισης του perceptron (Lippmann 1987) Το σύμβολο sgn(sdot) που χρησιμοποιείται στο βήμα 3 του πίνακα για τον υπολογισμό της πραγματικής απόκρισης του perceptron αντιπροσωπεύει τη συνάρτηση προσήμου

εάνεάν

(119)

Μπορούμε λοιπόν να εκφράσουμε την κβαντισμένη απόκριση y(n) του perceptron στην ακόλουθη συμπαγή μορφή (120)Παρατηρήστε ότι το διάνυσμα εισόδων x(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο είναι σταθερό σε +1 καθrsquo όλη τη διάρκεια του υπολογισμού

ΠΙΝΑΚΑΣ 11 Σύνοψη του Αλγόριθμου Σύγκλισης του Perceptron

Μεταβλητές και Παράμετροι x(n) = διάνυσμα εισόδων (m + 1)-επί-1 = [+1 x1(n) x2(n) xm(n)]T

w(n) = διάνυσμα βαρών (m + 1)-επί-1 = [b w1(n) w2(n) wm(n)]T

b = πόλωση y(n) = πραγματική απόκριση (κβαντισμένη) d(n) = επιθυμητή απόκριση η = παράμετρος ρυθμού μάθησης μια θετική σταθερά μικρότερη από μονάδα1 Αρχικοποίηση Θέσε w(0) = 0 Στη συνέχεια εκτέλεσε τους ακόλουθους υπολογισμούς για

χρονικό βήμα n = 1 2 2 Ενεργοποίηση Στο χρονικό βήμα n ενεργοποίησε το perceptron εφαρμόζοντας το (συνεχών

τιμών) διάνυσμα εισόδων x(n) και την επιθυμητή απόκριση d(n)3 Υπολογισμός της Πραγματικής Απόκρισης Υπολόγισε την πραγματική απόκριση του perceptron ως όπου sgn(sdot) είναι η συνάρτηση προσήμου4 Προσαρμογή του Διανύσματος Βαρών Ενημέρωσε το διάνυσμα βαρών του perceptron ώστε να

καταλήξεις στο όπου

x(n) ανήκει στην κλάση 1ndashx(n) ανήκει στην κλάση 2

εάνεάν

5 Συνέχιση Αύξησε το χρονικό βήμα n κατά ένα και επέστρεψε στο βήμα 2

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 55

Αντίστοιχα το διάνυσμα βαρών w(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο ισούται με την πόλωση b Ένα άλλο σημαντικό σημείο που πρέπει να επισημάνουμε στον Πίνακα 11 είναι ότι έχουμε εισάγει μια κβαντισμένη επιθυμητή απόκριση d(n) η οποία ορίζεται ως

εάν x(n) ανήκει στην κλάση 1

εάν ndashx(n) ανήκει στην κλάση 2 (121)

Έτσι η προσαρμογή του διανύσματος βαρών w(n) συνοψίζεται στη μορφή του κανόνα μάθησης με διόρθωση σφάλματος (122)όπου η είναι η παράμετρος ρυθμού μάθησης και η διαφορά d(n) minus y(n) παίζει το ρόλο ενός σήματος σφάλματος Η παράμετρος ρυθμού μάθησης είναι μια θετική σταθερά που περιορίζεται στο πεδίο τιμών 0 lt η le 1 Όταν της αναθέτουμε μια τιμή από αυτό το πεδίο θα πρέπει να έχουμε υπόψη δύο αντικρουόμενες απαιτήσεις (Lippmann 1987)bull υπολογισμό του μέσου όρου των παρελθουσών εισόδων για την παροχή σταθερών

εκτιμήσεων για τα βάρη ο οποίος απαιτεί μικρή ηbull γρήγορη προσαρμογή αναφορικά με τις πραγματικές μεταβολές στις υποκείμενες

κατανομές της διαδικασίας που είναι υπεύθυνη για την παραγωγή του διανύσματος εισόδων x η οποία απαιτεί μεγάλη η

14 ΣχΕΣΗ μΕΤΑξΥ PeRcePtRon ΚΑΙ ΤΑξΙΝΟμΗΤΗ Bayes ΓΙΑ ΕΝΑ ΓΚΑΟΥΣΙΑΝΟ ΠΕΡΙβΑΛΛΟΝ

Το perceptron έχει συγκεκριμένη σχέση με έναν κλασικό ταξινομητή προτύπων γνωστό ως ταξινομητή Bayes Όταν το περιβάλλον είναι Γκαουσιανό ο ταξινομητής Bayes ελα-χιστοποιείται σε έναν γραμμικό ταξινομητή Αυτή είναι η ίδια μορφή που λαμβάνει και το perceptron Ωστόσο η γραμμική φύση του perceptron δεν εξαρτάται ούτε βασίζεται στην υπόθεση ύπαρξης Γκαουσιανού περιβάλλοντος Σrsquo αυτή την ενότητα θα μελετή-σουμε αυτή τη σχέση και μέσω αυτής θα μπορέσουμε να κατανοήσουμε καλύτερα τη λειτουργία του perceptron Θα ξεκινήσουμε την συζήτησή μας με μια σύντομη αναφορά στον ταξινομητή Bayes

Ταξινομητής BayesΣτον ταξινομητή Bayes ελαχιστοποιούμε το μέσο ρίσκο που συμβολίζεται ως 5 Για ένα πρόβλημα δύο κλάσεων που συμβολίζονται ως 1 και 2 το μέσο ρίσκο ορίζεται από τον Van Trees (1968) ως

(123)

όπου οι διάφοροι όροι ορίζονται ως εξήςpi = εκ των προτέρων πιθανότητα ότι το διάνυσμα παρατηρήσεων x (που αντιπροσω-

πεύει μια υλοποίηση του τυχαίου διανύσματος X) αντλείται από τον υποχώρο i με i = 1 2 και p1 + p2 =1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση56

cij= κόστος απόφασης ευνοϊκής για την κλάση i που αντιπροσωπεύεται από τον υποχώρο i όταν η κλάση j είναι αληθής (δηλ το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο j) με i j = 1 2

= συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του τυχαίου διανύσματος X δεδομένου ότι το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο i με i = 1 2

Οι πρώτοι δύο όροι στη δεξιά πλευρά της Εξ (123) αντιπροσωπεύουν σωστές απο-φάσεις (δηλ σωστές ταξινομήσεις) ενώ οι δύο τελευταίοι όροι αντιπροσωπεύουν λαν-θασμένες αποφάσεις(δηλ λανθασμένες ταξινομήσεις) Κάθε απόφαση σταθμίζεται μέσω του γινομένου δύο παραγόντων το κόστος που εμπλέκεται στη λήψη της απόφασης και τη σχετική συχνότητα (δηλ την εκ των προτέρων πιθανότητα) με την οποία συμβαίνει

Στόχος είναι ο καθορισμός μιας στρατηγικής για επίτευξη του ελάχιστου μέσου ρίσκου Επειδή απαιτείται η λήψη μιας απόφασης κάθε διάνυσμα παρατηρήσεων x πρέπει να αντιστοιχιστεί στο συνολικό χώρο παρατηρήσεων είτε στο 1 είτε στο 2 Άρα (124)Κατά συνέπεια μπορούμε να ξαναγράψουμε την Εξ (123) στην ισοδύναμη μορφή

(125)

όπου c11 lt c21 και c22 lt c12 Παρατηρούμε δηλαδή ότι

(126)

Άρα η Εξ (125) ελαχιστοποιείται στην

(127)

Οι πρώτο δύο όροι στη δεξιά πλευρά της Εξ (127) αντιπροσωπεύουν ένα σταθερό κόστος Εφόσον η απαίτηση υπαγορεύει την ελαχιστοποίηση του μέσου ρίσκου 5 μπο-ρούμε από την Εξ(127) να εξάγουμε την ακόλουθη στρατηγική για τη βέλτιστη ταξι-νόμηση

1 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα (δηλ η έκφραση μέσα στις αγκύλες) είναι αρνητικό θα πρέπει να αντιστοιχιστούν στον υποχώρο 1 (δηλ στην κλάση 1) διότι έτσι το ολοκλήρωμα θα έχει αρνητική συνεισφορά στο ρίσκο 5

2 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα είναι θετικό θα πρέπει να εξαιρεθούν από τον υποχώρο 1 (δηλ να ανατεθούν στην κλάση 2) διότι έτσι το ολοκλήρωμα θα έχει θετική συνεισφορά στο ρίσκο 5

3 Οι τιμές του x για τις οποίες το ολοκλήρωμα είναι μηδέν δεν επηρεάζουν το μέσο ρίσκο 5 και μπορούν να αντιστοιχίζονται αυθαίρετα Θα υποθέσουμε ότι αυτά τα σημεία αντιστοιχίζονται στον υποχώρο 2 (δηλ στην κλάση 2)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 7: 9789607182647_CHAPTER 1

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 53

Ωστόσο wT(k)x(k) le 0 Συμπεραίνουμε λοιπόν από την Εξ (114) ότι

ή ισοδύναμα (115)

Προσθέτοντας αυτές τις ανισότητες για k = 1 n και καλώντας την υποτιθέμενη αρχική συνθήκη w(0) = 0 παίρνουμε την ανισότητα

όπου β είναι ένας θετικός αριθμός που ορίζεται από την

(117)

Η Εξίσωση (116) δηλώνει ότι το τετράγωνο της Ευκλείδειας νόρμας του διανύσματος βαρών w(n + 1) αυξάνεται κατά βάση γραμμικά με τον αριθμό επαναλήψεων n

Το δεύτερο αποτέλεσμα της Εξ (116) έρχεται σε σύγκρουση με αυτό της Εξ (112) για επαρκώς μεγάλες τιμές του n Μάλιστα μπορούμε να πούμε ότι το n δεν μπορεί να είναι μεγαλύτερο από κάποια τιμή nmax για την οποία ικανοποιούνται αμφότερες οι Εξ (112) και (116) με το σύμβολο ισότητας Δηλαδή nmax είναι η λύση της εξίσωσης

Λύνοντας την εξίσωση για nmax δοθέντος ενός διανύσματος λύσεων wo βρίσκουμε ότι

(118)

Άρα έχουμε αποδείξει ότι για η(n) = 1 για όλα τα n και w(0) = 0 και δεδομένου ότι υπάρχει ένα διάνυσμα λύσεων wo ο κανόνας για την προσαρμογή των συναπτικών βαρών του perceptron πρέπει να τερματίζει μετά από nmax το μέγιστο επαναλήψεις Παρατηρή-στε επίσης από τις Εξ (19) (117) και (118) ότι δεν υπάρχει μοναδική λύση για τα wo ή nmax

Μπορούμε τώρα να διατυπώσουμε το θεώρημα σύγκλισης με σταθερή αύξηση για το perceptron (Rosenblatt 1962)

Έστω ότι τα υποσύνολα των διανυσμάτων εκπαίδευσης 1 και 2 είναι γραμμικά διαχω-ρίσιμα Έστω ότι οι είσοδοι που παρουσιάζονται στο perceptron προέρχονται από αυτά τα δύο υποσύνολα Το perceptron συγκλίνει μετά από κάποιο αριθμό no επαναλήψεων υπό την έννοια ότι το

But wT(k)x(k) 0 We therefore deduce from Eq (114) that

or equivalently

(115)

Adding these inequalities for k = 1 n and invoking the assumed initial conditionw(0) = 0 we get the inequality

(116)

where is a positive number defined by

(117)

Equation (116) states that the squared Euclidean norm of the weight vector w(n 1)grows at most linearly with the number of iterations n

The second result of Eq (116) is clearly in conflict with the earlier result ofEq (112) for sufficiently large values of n Indeed we can state that n cannot be largerthan some value nmax for which Eqs (112) and (116) are both satisfied with the equalitysign That is nmax is the solution of the equation

Solving for nmax given a solution vector wo we find that

(118)

We have thus proved that for η(n) = 1 for all n and w(0) = 0 and given that a solutionvector wo exists the rule for adapting the synaptic weights of the perceptron must ter-minate after at most nmax interations Note also from Eqs (19) (117) and (118) thatthere is no unique solution for wo or nmax

We may now state the fixed-increment covergence theorem for the perceptron asfollows (Rosenblatt 1962)

Let the subsets of training vectors h1 and h2 be linearly separable Let the inputs presentedto the perceptron originate from these two subsets The perceptron converges after someno iterations in the sense that

is a solution vector for n0 nmax

Consider next the absolute error-correction procedure for the adaptation of a single-layer perceptron for which (n) is variable In particular let (n) be the smallest integerfor which the condition

(n)xT(n)x(n) 7 wT(n)x(n)

w(no) = w(no + 1) = w(no + 2) = p

nmax = wo 2

2

n2max

2

wo 2 = nmax

= maxx(k)h1

x(k) 2 n

w(n + 1) 2 an

k=1 x(k) 2

w(k + 1) 2 - w(k) 2 x(k) 2 k = 1 n

w(k + 1) 2 w(k) 2 + x(k) 2

Section 13 The Perceptron Convergence Theorem 53

M01_HAYK1399_SE_03_C01QXD 91008 924 PM Page 53

είναι ένα διάνυσμα λύσεων για n0 le nmax

Στη συνέχεια ας εξετάσουμε τη διαδικασία απόλυτης διόρθωσης σφάλματος για την προσαρμογή ενός perceptron ενός επιπέδου για το οποίο το η(n) είναι μεταβλητό Συγκε-κριμένα έστω ότι η(n) είναι ο μικρότερος ακέραιος για τον οποίο ισχύει η συνθήκη

Νευρωνικά Δίκτυα και Μηχανική Μάθηση54

Μrsquo αυτή τη διαδικασία βρίσκουμε ότι εάν το εσωτερικό γινόμενο wT(n)x(n) στην επανάληψη n έχει λάθος πρόσημο τότε το wT(n + 1)x(n) στην επανάληψη n + 1 θα έχει σωστό πρόσημο Αυτό υποδηλώνει ότι εάν το wT(n)x(n) έχει λάθος πρόσημο στην επα-νάληψη n μπορούμε να laquoειδοποιήσουμεraquo τη διαδικασία εκπαίδευσης στην επανάληψη n + 1 θέτοντας x(n + 1) = x(n) Με άλλα λόγια κάθε πρότυπο παρουσιάζεται κατrsquo επα-νάληψη στο perceptron μέχρι να ταξινομηθεί σωστά

Σημειώστε επίσης ότι η χρήση μιας αρχικής τιμής w(0) διαφορετικής από την μηδε-νική (null) συνθήκη οδηγεί απλώς σε μείωση ή αύξηση του αριθμού των επαναλήψεων που απαιτούνται για σύγκλιση ανάλογα με το πώς σχετίζεται το w(0) με τη λύση wo Ανεξάρτητα από την τιμή που ανατίθεται στο w(0) το perceptron είναι εγγυημένο ότι θα συγκλίνει

Στον Πίνακα 11 παρουσιάζουμε μια σύνοψη του αλγόριθμου σύγκλισης του perceptron (Lippmann 1987) Το σύμβολο sgn(sdot) που χρησιμοποιείται στο βήμα 3 του πίνακα για τον υπολογισμό της πραγματικής απόκρισης του perceptron αντιπροσωπεύει τη συνάρτηση προσήμου

εάνεάν

(119)

Μπορούμε λοιπόν να εκφράσουμε την κβαντισμένη απόκριση y(n) του perceptron στην ακόλουθη συμπαγή μορφή (120)Παρατηρήστε ότι το διάνυσμα εισόδων x(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο είναι σταθερό σε +1 καθrsquo όλη τη διάρκεια του υπολογισμού

ΠΙΝΑΚΑΣ 11 Σύνοψη του Αλγόριθμου Σύγκλισης του Perceptron

Μεταβλητές και Παράμετροι x(n) = διάνυσμα εισόδων (m + 1)-επί-1 = [+1 x1(n) x2(n) xm(n)]T

w(n) = διάνυσμα βαρών (m + 1)-επί-1 = [b w1(n) w2(n) wm(n)]T

b = πόλωση y(n) = πραγματική απόκριση (κβαντισμένη) d(n) = επιθυμητή απόκριση η = παράμετρος ρυθμού μάθησης μια θετική σταθερά μικρότερη από μονάδα1 Αρχικοποίηση Θέσε w(0) = 0 Στη συνέχεια εκτέλεσε τους ακόλουθους υπολογισμούς για

χρονικό βήμα n = 1 2 2 Ενεργοποίηση Στο χρονικό βήμα n ενεργοποίησε το perceptron εφαρμόζοντας το (συνεχών

τιμών) διάνυσμα εισόδων x(n) και την επιθυμητή απόκριση d(n)3 Υπολογισμός της Πραγματικής Απόκρισης Υπολόγισε την πραγματική απόκριση του perceptron ως όπου sgn(sdot) είναι η συνάρτηση προσήμου4 Προσαρμογή του Διανύσματος Βαρών Ενημέρωσε το διάνυσμα βαρών του perceptron ώστε να

καταλήξεις στο όπου

x(n) ανήκει στην κλάση 1ndashx(n) ανήκει στην κλάση 2

εάνεάν

5 Συνέχιση Αύξησε το χρονικό βήμα n κατά ένα και επέστρεψε στο βήμα 2

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 55

Αντίστοιχα το διάνυσμα βαρών w(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο ισούται με την πόλωση b Ένα άλλο σημαντικό σημείο που πρέπει να επισημάνουμε στον Πίνακα 11 είναι ότι έχουμε εισάγει μια κβαντισμένη επιθυμητή απόκριση d(n) η οποία ορίζεται ως

εάν x(n) ανήκει στην κλάση 1

εάν ndashx(n) ανήκει στην κλάση 2 (121)

Έτσι η προσαρμογή του διανύσματος βαρών w(n) συνοψίζεται στη μορφή του κανόνα μάθησης με διόρθωση σφάλματος (122)όπου η είναι η παράμετρος ρυθμού μάθησης και η διαφορά d(n) minus y(n) παίζει το ρόλο ενός σήματος σφάλματος Η παράμετρος ρυθμού μάθησης είναι μια θετική σταθερά που περιορίζεται στο πεδίο τιμών 0 lt η le 1 Όταν της αναθέτουμε μια τιμή από αυτό το πεδίο θα πρέπει να έχουμε υπόψη δύο αντικρουόμενες απαιτήσεις (Lippmann 1987)bull υπολογισμό του μέσου όρου των παρελθουσών εισόδων για την παροχή σταθερών

εκτιμήσεων για τα βάρη ο οποίος απαιτεί μικρή ηbull γρήγορη προσαρμογή αναφορικά με τις πραγματικές μεταβολές στις υποκείμενες

κατανομές της διαδικασίας που είναι υπεύθυνη για την παραγωγή του διανύσματος εισόδων x η οποία απαιτεί μεγάλη η

14 ΣχΕΣΗ μΕΤΑξΥ PeRcePtRon ΚΑΙ ΤΑξΙΝΟμΗΤΗ Bayes ΓΙΑ ΕΝΑ ΓΚΑΟΥΣΙΑΝΟ ΠΕΡΙβΑΛΛΟΝ

Το perceptron έχει συγκεκριμένη σχέση με έναν κλασικό ταξινομητή προτύπων γνωστό ως ταξινομητή Bayes Όταν το περιβάλλον είναι Γκαουσιανό ο ταξινομητής Bayes ελα-χιστοποιείται σε έναν γραμμικό ταξινομητή Αυτή είναι η ίδια μορφή που λαμβάνει και το perceptron Ωστόσο η γραμμική φύση του perceptron δεν εξαρτάται ούτε βασίζεται στην υπόθεση ύπαρξης Γκαουσιανού περιβάλλοντος Σrsquo αυτή την ενότητα θα μελετή-σουμε αυτή τη σχέση και μέσω αυτής θα μπορέσουμε να κατανοήσουμε καλύτερα τη λειτουργία του perceptron Θα ξεκινήσουμε την συζήτησή μας με μια σύντομη αναφορά στον ταξινομητή Bayes

Ταξινομητής BayesΣτον ταξινομητή Bayes ελαχιστοποιούμε το μέσο ρίσκο που συμβολίζεται ως 5 Για ένα πρόβλημα δύο κλάσεων που συμβολίζονται ως 1 και 2 το μέσο ρίσκο ορίζεται από τον Van Trees (1968) ως

(123)

όπου οι διάφοροι όροι ορίζονται ως εξήςpi = εκ των προτέρων πιθανότητα ότι το διάνυσμα παρατηρήσεων x (που αντιπροσω-

πεύει μια υλοποίηση του τυχαίου διανύσματος X) αντλείται από τον υποχώρο i με i = 1 2 και p1 + p2 =1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση56

cij= κόστος απόφασης ευνοϊκής για την κλάση i που αντιπροσωπεύεται από τον υποχώρο i όταν η κλάση j είναι αληθής (δηλ το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο j) με i j = 1 2

= συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του τυχαίου διανύσματος X δεδομένου ότι το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο i με i = 1 2

Οι πρώτοι δύο όροι στη δεξιά πλευρά της Εξ (123) αντιπροσωπεύουν σωστές απο-φάσεις (δηλ σωστές ταξινομήσεις) ενώ οι δύο τελευταίοι όροι αντιπροσωπεύουν λαν-θασμένες αποφάσεις(δηλ λανθασμένες ταξινομήσεις) Κάθε απόφαση σταθμίζεται μέσω του γινομένου δύο παραγόντων το κόστος που εμπλέκεται στη λήψη της απόφασης και τη σχετική συχνότητα (δηλ την εκ των προτέρων πιθανότητα) με την οποία συμβαίνει

Στόχος είναι ο καθορισμός μιας στρατηγικής για επίτευξη του ελάχιστου μέσου ρίσκου Επειδή απαιτείται η λήψη μιας απόφασης κάθε διάνυσμα παρατηρήσεων x πρέπει να αντιστοιχιστεί στο συνολικό χώρο παρατηρήσεων είτε στο 1 είτε στο 2 Άρα (124)Κατά συνέπεια μπορούμε να ξαναγράψουμε την Εξ (123) στην ισοδύναμη μορφή

(125)

όπου c11 lt c21 και c22 lt c12 Παρατηρούμε δηλαδή ότι

(126)

Άρα η Εξ (125) ελαχιστοποιείται στην

(127)

Οι πρώτο δύο όροι στη δεξιά πλευρά της Εξ (127) αντιπροσωπεύουν ένα σταθερό κόστος Εφόσον η απαίτηση υπαγορεύει την ελαχιστοποίηση του μέσου ρίσκου 5 μπο-ρούμε από την Εξ(127) να εξάγουμε την ακόλουθη στρατηγική για τη βέλτιστη ταξι-νόμηση

1 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα (δηλ η έκφραση μέσα στις αγκύλες) είναι αρνητικό θα πρέπει να αντιστοιχιστούν στον υποχώρο 1 (δηλ στην κλάση 1) διότι έτσι το ολοκλήρωμα θα έχει αρνητική συνεισφορά στο ρίσκο 5

2 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα είναι θετικό θα πρέπει να εξαιρεθούν από τον υποχώρο 1 (δηλ να ανατεθούν στην κλάση 2) διότι έτσι το ολοκλήρωμα θα έχει θετική συνεισφορά στο ρίσκο 5

3 Οι τιμές του x για τις οποίες το ολοκλήρωμα είναι μηδέν δεν επηρεάζουν το μέσο ρίσκο 5 και μπορούν να αντιστοιχίζονται αυθαίρετα Θα υποθέσουμε ότι αυτά τα σημεία αντιστοιχίζονται στον υποχώρο 2 (δηλ στην κλάση 2)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 8: 9789607182647_CHAPTER 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση54

Μrsquo αυτή τη διαδικασία βρίσκουμε ότι εάν το εσωτερικό γινόμενο wT(n)x(n) στην επανάληψη n έχει λάθος πρόσημο τότε το wT(n + 1)x(n) στην επανάληψη n + 1 θα έχει σωστό πρόσημο Αυτό υποδηλώνει ότι εάν το wT(n)x(n) έχει λάθος πρόσημο στην επα-νάληψη n μπορούμε να laquoειδοποιήσουμεraquo τη διαδικασία εκπαίδευσης στην επανάληψη n + 1 θέτοντας x(n + 1) = x(n) Με άλλα λόγια κάθε πρότυπο παρουσιάζεται κατrsquo επα-νάληψη στο perceptron μέχρι να ταξινομηθεί σωστά

Σημειώστε επίσης ότι η χρήση μιας αρχικής τιμής w(0) διαφορετικής από την μηδε-νική (null) συνθήκη οδηγεί απλώς σε μείωση ή αύξηση του αριθμού των επαναλήψεων που απαιτούνται για σύγκλιση ανάλογα με το πώς σχετίζεται το w(0) με τη λύση wo Ανεξάρτητα από την τιμή που ανατίθεται στο w(0) το perceptron είναι εγγυημένο ότι θα συγκλίνει

Στον Πίνακα 11 παρουσιάζουμε μια σύνοψη του αλγόριθμου σύγκλισης του perceptron (Lippmann 1987) Το σύμβολο sgn(sdot) που χρησιμοποιείται στο βήμα 3 του πίνακα για τον υπολογισμό της πραγματικής απόκρισης του perceptron αντιπροσωπεύει τη συνάρτηση προσήμου

εάνεάν

(119)

Μπορούμε λοιπόν να εκφράσουμε την κβαντισμένη απόκριση y(n) του perceptron στην ακόλουθη συμπαγή μορφή (120)Παρατηρήστε ότι το διάνυσμα εισόδων x(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο είναι σταθερό σε +1 καθrsquo όλη τη διάρκεια του υπολογισμού

ΠΙΝΑΚΑΣ 11 Σύνοψη του Αλγόριθμου Σύγκλισης του Perceptron

Μεταβλητές και Παράμετροι x(n) = διάνυσμα εισόδων (m + 1)-επί-1 = [+1 x1(n) x2(n) xm(n)]T

w(n) = διάνυσμα βαρών (m + 1)-επί-1 = [b w1(n) w2(n) wm(n)]T

b = πόλωση y(n) = πραγματική απόκριση (κβαντισμένη) d(n) = επιθυμητή απόκριση η = παράμετρος ρυθμού μάθησης μια θετική σταθερά μικρότερη από μονάδα1 Αρχικοποίηση Θέσε w(0) = 0 Στη συνέχεια εκτέλεσε τους ακόλουθους υπολογισμούς για

χρονικό βήμα n = 1 2 2 Ενεργοποίηση Στο χρονικό βήμα n ενεργοποίησε το perceptron εφαρμόζοντας το (συνεχών

τιμών) διάνυσμα εισόδων x(n) και την επιθυμητή απόκριση d(n)3 Υπολογισμός της Πραγματικής Απόκρισης Υπολόγισε την πραγματική απόκριση του perceptron ως όπου sgn(sdot) είναι η συνάρτηση προσήμου4 Προσαρμογή του Διανύσματος Βαρών Ενημέρωσε το διάνυσμα βαρών του perceptron ώστε να

καταλήξεις στο όπου

x(n) ανήκει στην κλάση 1ndashx(n) ανήκει στην κλάση 2

εάνεάν

5 Συνέχιση Αύξησε το χρονικό βήμα n κατά ένα και επέστρεψε στο βήμα 2

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 55

Αντίστοιχα το διάνυσμα βαρών w(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο ισούται με την πόλωση b Ένα άλλο σημαντικό σημείο που πρέπει να επισημάνουμε στον Πίνακα 11 είναι ότι έχουμε εισάγει μια κβαντισμένη επιθυμητή απόκριση d(n) η οποία ορίζεται ως

εάν x(n) ανήκει στην κλάση 1

εάν ndashx(n) ανήκει στην κλάση 2 (121)

Έτσι η προσαρμογή του διανύσματος βαρών w(n) συνοψίζεται στη μορφή του κανόνα μάθησης με διόρθωση σφάλματος (122)όπου η είναι η παράμετρος ρυθμού μάθησης και η διαφορά d(n) minus y(n) παίζει το ρόλο ενός σήματος σφάλματος Η παράμετρος ρυθμού μάθησης είναι μια θετική σταθερά που περιορίζεται στο πεδίο τιμών 0 lt η le 1 Όταν της αναθέτουμε μια τιμή από αυτό το πεδίο θα πρέπει να έχουμε υπόψη δύο αντικρουόμενες απαιτήσεις (Lippmann 1987)bull υπολογισμό του μέσου όρου των παρελθουσών εισόδων για την παροχή σταθερών

εκτιμήσεων για τα βάρη ο οποίος απαιτεί μικρή ηbull γρήγορη προσαρμογή αναφορικά με τις πραγματικές μεταβολές στις υποκείμενες

κατανομές της διαδικασίας που είναι υπεύθυνη για την παραγωγή του διανύσματος εισόδων x η οποία απαιτεί μεγάλη η

14 ΣχΕΣΗ μΕΤΑξΥ PeRcePtRon ΚΑΙ ΤΑξΙΝΟμΗΤΗ Bayes ΓΙΑ ΕΝΑ ΓΚΑΟΥΣΙΑΝΟ ΠΕΡΙβΑΛΛΟΝ

Το perceptron έχει συγκεκριμένη σχέση με έναν κλασικό ταξινομητή προτύπων γνωστό ως ταξινομητή Bayes Όταν το περιβάλλον είναι Γκαουσιανό ο ταξινομητής Bayes ελα-χιστοποιείται σε έναν γραμμικό ταξινομητή Αυτή είναι η ίδια μορφή που λαμβάνει και το perceptron Ωστόσο η γραμμική φύση του perceptron δεν εξαρτάται ούτε βασίζεται στην υπόθεση ύπαρξης Γκαουσιανού περιβάλλοντος Σrsquo αυτή την ενότητα θα μελετή-σουμε αυτή τη σχέση και μέσω αυτής θα μπορέσουμε να κατανοήσουμε καλύτερα τη λειτουργία του perceptron Θα ξεκινήσουμε την συζήτησή μας με μια σύντομη αναφορά στον ταξινομητή Bayes

Ταξινομητής BayesΣτον ταξινομητή Bayes ελαχιστοποιούμε το μέσο ρίσκο που συμβολίζεται ως 5 Για ένα πρόβλημα δύο κλάσεων που συμβολίζονται ως 1 και 2 το μέσο ρίσκο ορίζεται από τον Van Trees (1968) ως

(123)

όπου οι διάφοροι όροι ορίζονται ως εξήςpi = εκ των προτέρων πιθανότητα ότι το διάνυσμα παρατηρήσεων x (που αντιπροσω-

πεύει μια υλοποίηση του τυχαίου διανύσματος X) αντλείται από τον υποχώρο i με i = 1 2 και p1 + p2 =1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση56

cij= κόστος απόφασης ευνοϊκής για την κλάση i που αντιπροσωπεύεται από τον υποχώρο i όταν η κλάση j είναι αληθής (δηλ το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο j) με i j = 1 2

= συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του τυχαίου διανύσματος X δεδομένου ότι το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο i με i = 1 2

Οι πρώτοι δύο όροι στη δεξιά πλευρά της Εξ (123) αντιπροσωπεύουν σωστές απο-φάσεις (δηλ σωστές ταξινομήσεις) ενώ οι δύο τελευταίοι όροι αντιπροσωπεύουν λαν-θασμένες αποφάσεις(δηλ λανθασμένες ταξινομήσεις) Κάθε απόφαση σταθμίζεται μέσω του γινομένου δύο παραγόντων το κόστος που εμπλέκεται στη λήψη της απόφασης και τη σχετική συχνότητα (δηλ την εκ των προτέρων πιθανότητα) με την οποία συμβαίνει

Στόχος είναι ο καθορισμός μιας στρατηγικής για επίτευξη του ελάχιστου μέσου ρίσκου Επειδή απαιτείται η λήψη μιας απόφασης κάθε διάνυσμα παρατηρήσεων x πρέπει να αντιστοιχιστεί στο συνολικό χώρο παρατηρήσεων είτε στο 1 είτε στο 2 Άρα (124)Κατά συνέπεια μπορούμε να ξαναγράψουμε την Εξ (123) στην ισοδύναμη μορφή

(125)

όπου c11 lt c21 και c22 lt c12 Παρατηρούμε δηλαδή ότι

(126)

Άρα η Εξ (125) ελαχιστοποιείται στην

(127)

Οι πρώτο δύο όροι στη δεξιά πλευρά της Εξ (127) αντιπροσωπεύουν ένα σταθερό κόστος Εφόσον η απαίτηση υπαγορεύει την ελαχιστοποίηση του μέσου ρίσκου 5 μπο-ρούμε από την Εξ(127) να εξάγουμε την ακόλουθη στρατηγική για τη βέλτιστη ταξι-νόμηση

1 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα (δηλ η έκφραση μέσα στις αγκύλες) είναι αρνητικό θα πρέπει να αντιστοιχιστούν στον υποχώρο 1 (δηλ στην κλάση 1) διότι έτσι το ολοκλήρωμα θα έχει αρνητική συνεισφορά στο ρίσκο 5

2 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα είναι θετικό θα πρέπει να εξαιρεθούν από τον υποχώρο 1 (δηλ να ανατεθούν στην κλάση 2) διότι έτσι το ολοκλήρωμα θα έχει θετική συνεισφορά στο ρίσκο 5

3 Οι τιμές του x για τις οποίες το ολοκλήρωμα είναι μηδέν δεν επηρεάζουν το μέσο ρίσκο 5 και μπορούν να αντιστοιχίζονται αυθαίρετα Θα υποθέσουμε ότι αυτά τα σημεία αντιστοιχίζονται στον υποχώρο 2 (δηλ στην κλάση 2)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 9: 9789607182647_CHAPTER 1

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 55

Αντίστοιχα το διάνυσμα βαρών w(n) είναι ένα διάνυσμα (m + 1)-επί-1 του οποίου το πρώτο στοιχείο ισούται με την πόλωση b Ένα άλλο σημαντικό σημείο που πρέπει να επισημάνουμε στον Πίνακα 11 είναι ότι έχουμε εισάγει μια κβαντισμένη επιθυμητή απόκριση d(n) η οποία ορίζεται ως

εάν x(n) ανήκει στην κλάση 1

εάν ndashx(n) ανήκει στην κλάση 2 (121)

Έτσι η προσαρμογή του διανύσματος βαρών w(n) συνοψίζεται στη μορφή του κανόνα μάθησης με διόρθωση σφάλματος (122)όπου η είναι η παράμετρος ρυθμού μάθησης και η διαφορά d(n) minus y(n) παίζει το ρόλο ενός σήματος σφάλματος Η παράμετρος ρυθμού μάθησης είναι μια θετική σταθερά που περιορίζεται στο πεδίο τιμών 0 lt η le 1 Όταν της αναθέτουμε μια τιμή από αυτό το πεδίο θα πρέπει να έχουμε υπόψη δύο αντικρουόμενες απαιτήσεις (Lippmann 1987)bull υπολογισμό του μέσου όρου των παρελθουσών εισόδων για την παροχή σταθερών

εκτιμήσεων για τα βάρη ο οποίος απαιτεί μικρή ηbull γρήγορη προσαρμογή αναφορικά με τις πραγματικές μεταβολές στις υποκείμενες

κατανομές της διαδικασίας που είναι υπεύθυνη για την παραγωγή του διανύσματος εισόδων x η οποία απαιτεί μεγάλη η

14 ΣχΕΣΗ μΕΤΑξΥ PeRcePtRon ΚΑΙ ΤΑξΙΝΟμΗΤΗ Bayes ΓΙΑ ΕΝΑ ΓΚΑΟΥΣΙΑΝΟ ΠΕΡΙβΑΛΛΟΝ

Το perceptron έχει συγκεκριμένη σχέση με έναν κλασικό ταξινομητή προτύπων γνωστό ως ταξινομητή Bayes Όταν το περιβάλλον είναι Γκαουσιανό ο ταξινομητής Bayes ελα-χιστοποιείται σε έναν γραμμικό ταξινομητή Αυτή είναι η ίδια μορφή που λαμβάνει και το perceptron Ωστόσο η γραμμική φύση του perceptron δεν εξαρτάται ούτε βασίζεται στην υπόθεση ύπαρξης Γκαουσιανού περιβάλλοντος Σrsquo αυτή την ενότητα θα μελετή-σουμε αυτή τη σχέση και μέσω αυτής θα μπορέσουμε να κατανοήσουμε καλύτερα τη λειτουργία του perceptron Θα ξεκινήσουμε την συζήτησή μας με μια σύντομη αναφορά στον ταξινομητή Bayes

Ταξινομητής BayesΣτον ταξινομητή Bayes ελαχιστοποιούμε το μέσο ρίσκο που συμβολίζεται ως 5 Για ένα πρόβλημα δύο κλάσεων που συμβολίζονται ως 1 και 2 το μέσο ρίσκο ορίζεται από τον Van Trees (1968) ως

(123)

όπου οι διάφοροι όροι ορίζονται ως εξήςpi = εκ των προτέρων πιθανότητα ότι το διάνυσμα παρατηρήσεων x (που αντιπροσω-

πεύει μια υλοποίηση του τυχαίου διανύσματος X) αντλείται από τον υποχώρο i με i = 1 2 και p1 + p2 =1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση56

cij= κόστος απόφασης ευνοϊκής για την κλάση i που αντιπροσωπεύεται από τον υποχώρο i όταν η κλάση j είναι αληθής (δηλ το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο j) με i j = 1 2

= συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του τυχαίου διανύσματος X δεδομένου ότι το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο i με i = 1 2

Οι πρώτοι δύο όροι στη δεξιά πλευρά της Εξ (123) αντιπροσωπεύουν σωστές απο-φάσεις (δηλ σωστές ταξινομήσεις) ενώ οι δύο τελευταίοι όροι αντιπροσωπεύουν λαν-θασμένες αποφάσεις(δηλ λανθασμένες ταξινομήσεις) Κάθε απόφαση σταθμίζεται μέσω του γινομένου δύο παραγόντων το κόστος που εμπλέκεται στη λήψη της απόφασης και τη σχετική συχνότητα (δηλ την εκ των προτέρων πιθανότητα) με την οποία συμβαίνει

Στόχος είναι ο καθορισμός μιας στρατηγικής για επίτευξη του ελάχιστου μέσου ρίσκου Επειδή απαιτείται η λήψη μιας απόφασης κάθε διάνυσμα παρατηρήσεων x πρέπει να αντιστοιχιστεί στο συνολικό χώρο παρατηρήσεων είτε στο 1 είτε στο 2 Άρα (124)Κατά συνέπεια μπορούμε να ξαναγράψουμε την Εξ (123) στην ισοδύναμη μορφή

(125)

όπου c11 lt c21 και c22 lt c12 Παρατηρούμε δηλαδή ότι

(126)

Άρα η Εξ (125) ελαχιστοποιείται στην

(127)

Οι πρώτο δύο όροι στη δεξιά πλευρά της Εξ (127) αντιπροσωπεύουν ένα σταθερό κόστος Εφόσον η απαίτηση υπαγορεύει την ελαχιστοποίηση του μέσου ρίσκου 5 μπο-ρούμε από την Εξ(127) να εξάγουμε την ακόλουθη στρατηγική για τη βέλτιστη ταξι-νόμηση

1 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα (δηλ η έκφραση μέσα στις αγκύλες) είναι αρνητικό θα πρέπει να αντιστοιχιστούν στον υποχώρο 1 (δηλ στην κλάση 1) διότι έτσι το ολοκλήρωμα θα έχει αρνητική συνεισφορά στο ρίσκο 5

2 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα είναι θετικό θα πρέπει να εξαιρεθούν από τον υποχώρο 1 (δηλ να ανατεθούν στην κλάση 2) διότι έτσι το ολοκλήρωμα θα έχει θετική συνεισφορά στο ρίσκο 5

3 Οι τιμές του x για τις οποίες το ολοκλήρωμα είναι μηδέν δεν επηρεάζουν το μέσο ρίσκο 5 και μπορούν να αντιστοιχίζονται αυθαίρετα Θα υποθέσουμε ότι αυτά τα σημεία αντιστοιχίζονται στον υποχώρο 2 (δηλ στην κλάση 2)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 10: 9789607182647_CHAPTER 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση56

cij= κόστος απόφασης ευνοϊκής για την κλάση i που αντιπροσωπεύεται από τον υποχώρο i όταν η κλάση j είναι αληθής (δηλ το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο j) με i j = 1 2

= συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του τυχαίου διανύσματος X δεδομένου ότι το διάνυσμα παρατηρήσεων x αντλείται από τον υποχώρο i με i = 1 2

Οι πρώτοι δύο όροι στη δεξιά πλευρά της Εξ (123) αντιπροσωπεύουν σωστές απο-φάσεις (δηλ σωστές ταξινομήσεις) ενώ οι δύο τελευταίοι όροι αντιπροσωπεύουν λαν-θασμένες αποφάσεις(δηλ λανθασμένες ταξινομήσεις) Κάθε απόφαση σταθμίζεται μέσω του γινομένου δύο παραγόντων το κόστος που εμπλέκεται στη λήψη της απόφασης και τη σχετική συχνότητα (δηλ την εκ των προτέρων πιθανότητα) με την οποία συμβαίνει

Στόχος είναι ο καθορισμός μιας στρατηγικής για επίτευξη του ελάχιστου μέσου ρίσκου Επειδή απαιτείται η λήψη μιας απόφασης κάθε διάνυσμα παρατηρήσεων x πρέπει να αντιστοιχιστεί στο συνολικό χώρο παρατηρήσεων είτε στο 1 είτε στο 2 Άρα (124)Κατά συνέπεια μπορούμε να ξαναγράψουμε την Εξ (123) στην ισοδύναμη μορφή

(125)

όπου c11 lt c21 και c22 lt c12 Παρατηρούμε δηλαδή ότι

(126)

Άρα η Εξ (125) ελαχιστοποιείται στην

(127)

Οι πρώτο δύο όροι στη δεξιά πλευρά της Εξ (127) αντιπροσωπεύουν ένα σταθερό κόστος Εφόσον η απαίτηση υπαγορεύει την ελαχιστοποίηση του μέσου ρίσκου 5 μπο-ρούμε από την Εξ(127) να εξάγουμε την ακόλουθη στρατηγική για τη βέλτιστη ταξι-νόμηση

1 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα (δηλ η έκφραση μέσα στις αγκύλες) είναι αρνητικό θα πρέπει να αντιστοιχιστούν στον υποχώρο 1 (δηλ στην κλάση 1) διότι έτσι το ολοκλήρωμα θα έχει αρνητική συνεισφορά στο ρίσκο 5

2 Όλες οι τιμές του διανύσματος παρατηρήσεων x για τις οποίες το ολοκλήρωμα είναι θετικό θα πρέπει να εξαιρεθούν από τον υποχώρο 1 (δηλ να ανατεθούν στην κλάση 2) διότι έτσι το ολοκλήρωμα θα έχει θετική συνεισφορά στο ρίσκο 5

3 Οι τιμές του x για τις οποίες το ολοκλήρωμα είναι μηδέν δεν επηρεάζουν το μέσο ρίσκο 5 και μπορούν να αντιστοιχίζονται αυθαίρετα Θα υποθέσουμε ότι αυτά τα σημεία αντιστοιχίζονται στον υποχώρο 2 (δηλ στην κλάση 2)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 11: 9789607182647_CHAPTER 1

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 57

Επrsquo αυτής της βάσεως μπορούμε τώρα να διατυπώσουμε τον αλγόριθμο για τον ταξινομητή Bayes ως εξής

Εάν η συνθήκη

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

ισχύει αντιστοίχισε το διάνυσμα παρατηρήσεων x στον υποχώρο -1 (δηλ στην κλάση 1) Διαφορετικά αντιστοίχισε το x στον υποχώρο -2 (δηλ στην κλάση 2)

Για να απλοποιήσουμε τα πράγματα ορίζουμε τις

(128)και

(129)

Το μέγεθος Λ(x) ο λόγος των δύο συναρτήσεων πυκνότητας υπό συνθήκη πιθανότητας αποκαλείται λόγος πιθανοφάνειας (likelihood ratio) Το μέγεθος

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

αποκαλείται κατώφλι (threshold) του ελέγχου Σημειώστε ότι αμφότερα τα Λ(x) και

On this basis we may now formulate the Bayes classifier as follows

If the condition

holds assign the observation vector x to subspace (ie class ) Otherwise assign x to (ie class )

To simplify matters define

(128)

and

(129)

The quantity the ratio of two conditional probability density functions is called thelikelihood ratio The quantity is called the threshold of the test Note that both and are always positive In terms of these two quantities we may now reformulate theBayes classifier by stating the following

If for an observation vector x the likelihood ratio is greater than the threshold assignx to class Otherwise assign it to class

Figure 15a depicts a block-diagram representation of the Bayes classifier Theimportant points in this block diagram are twofold

1 The data processing involved in designing the Bayes classifier is confined entirelyto the computation of the likelihood ratio para(x)

c2c1

para(x)

para(x)

para(x)

=p2(c12 - c22)

p1(c21 - c11)

para(x) =pX(xc1)

pX(xc2)

c2

x2c1x1

p1(c21 - c11) pX(xc1) 7 p2(c12 - c22) pX(xc2)

Section 14 Relation Between the Perceptron and Bayes Classifier 57

FIGURE 15 Two equivalent implementations of the Bayes classifier (a) Likelihood ratiotest (b) Log-likelihood ratio test

Assign x to class 1if Λ(x) OcircOtherwise assignit to class 2

ComparatorLikelihood

ratiocomputer

Λ(x)

(a)

(b)

x

Input vector

Input vector

Assign x to class 1if logΛ(x) logOcircOtherwise assignit to class 2

ComparatorLog-likelihood

ratiocomputer

logΛ(x)x

logOcirc

M01_HAYK1399_SE_03_C01QXD 10108 703 PM Page 57

είναι πάντα θετικά Βάσει αυτών των δύο μεγεθών μπορούμε τώρα να αναδιατυπώσουμε τη στρατηγική του ταξινομητή Bayes δηλώνοντας τα ακόλουθα

Εάν για ένα διάνυσμα παρατηρήσεων x ο λόγος πιθανοφάνειας Λ(x) είναι μεγαλύτερος από το κατώφλι ξ αντιστοίχισε το x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Το Σχ 15α παρουσιάζει μια σχηματική αναπαράσταση του ταξινομητή Bayes Τα σημαντικά σημεία σrsquo αυτό το σχηματικό διάγραμμα είναι δύο

1 Η επεξεργασία δεδομένων που εμπλέκεται στη σχεδίαση του ταξινομητή Bayes περιορίζεται αποκλειστικά στον υπολογισμό του λόγου πιθανοφάνειας Λ(x)

ΣΧΗΜΑ 15 Δύο ισοδύναμες υλοποιήσεις του ταξινομητή Bayes (α) έλεγχος λόγου πιθανοφάνειας (β) έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ανάθεση του x στην κλάση 1εάνΛ(x) ξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΥπολογιστής

λόγου πιθανοφάνειας

Λ(x)

(α)

(β)

x

Διάνυσμα εισόδου

Διάνυσμα εισόδου

ξ

Ανάθεση του x στην κλάση 1εάν logΛ(x) logξΔιαφορετικά ανάθεσή του στην κλάση 2

ΣυγκριτήςΛογαριθμικός

υπολογιστής λόγου πιθανοφάνειας

logΛ(x)x

logξ

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 12: 9789607182647_CHAPTER 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση58

2 Αυτός ο υπολογισμός είναι απολύτως αναλλοίωτος έναντι των τιμών που ανατίθενται στις εκ των προτέρων πιθανότητες και στα κόστη που εμπλέκονται στη διαδικασία λήψης αποφάσεων Αυτά τα μεγέθη επηρεάζουν απλώς την τιμή του κατωφλίου ξ Από υπολογιστικής σκοπιάς το βρίσκουμε πιο βολικό να δουλεύουμε με το λογά-

ριθμο του λόγου πιθανοφάνειας και όχι με τον ίδιο το λόγο πιθανοφάνειας Αυτό μπο-ρούμε να το κάνουμε για δύο λόγους Πρώτον ο λογάριθμος είναι μια μονοτονική συνάρ-τηση Δεύτερον ο λόγος πιθανοφάνειας Λ(x) και το κατώφλι ξ είναι αμφότερα θετικά Συνεπώς ο ταξινομητής Bayes μπορεί να υλοποιηθεί στην ισοδύναμη μορφή του Σχ 15β Για προφανείς λόγους ο έλεγχος που εκτελείται στο σύστημα αυτού του δεύτερου σχήματος αποκαλείται έλεγχος λογαριθμικού λόγου πιθανοφάνειας

Ταξινομητής Bayes για Γκαουσιανή Κατανομή Ας εξετάσουμε τώρα την ειδική περίπτωση ενός προβλήματος δύο κλάσεων για τις οποίες η υποκείμενη κατανομή είναι τύπου Gauss (Γκαουσιανή) Το τυχαίο διάνυσμα X έχει μέση τιμή η οποία εξαρτάται από το εάν ανήκει στην κλάση 1 ή στην κλάση 2 αλλά ο πίνακας συνδιακύμανσης του X είναι ίδιος για αμφότερες τις κλάσεις Δηλαδή

Κλάση

Κλάση

Ο πίνακας συνδιακύμανσης C είναι μη διαγώνιος πράγμα το οποίο σημαίνει ότι τα δείγματα που αντλούνται από τις κλάσεις 1 και 2 είναι συσχετισμένα Υποτίθεται ότι ο πίνακας C είναι μη ιδιόμορφος οπότε υπάρχει ο αντίστροφός του Cndash1

Βάσει των παραπάνω μπορούμε να εκφράσουμε την συνάρτηση πυκνότητας υπό συνθήκη πιθανότητας του X ως την ακόλουθη Γκαουσιανή κατανομή

(130)

όπου m είναι η διαστατικότητα του διανύσματος παρατηρήσεων xΕπιπλέον θα υποθέσουμε τα ακόλουθα

1 Οι δύο κλάσεις 1 και 2 είναι ισοπίθανες

(131)

2 Οι λανθασμένες ταξινομήσεις επιβαρύνονται με το ίδιο κόστος ενώ δεν υπάρχει κόστος για τις σωστές ταξινομήσεις

και (132)Έχουμε τώρα την πληροφορία που χρειαζόμαστε για να σχεδιάσουμε τον ταξινο-

μητή Bayes για την επίλυση ενός προβλήματος δύο κλάσεων Συγκεκριμένα αντικαθι-στώντας την Εξ (130) στην (128) και λαμβάνοντας το φυσικό λογάριθμο παίρνουμε (μετά από ορισμένες απλοποιήσεις)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 13: 9789607182647_CHAPTER 1

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 59

(133)

Αντικαθιστώντας τις Εξ (131) και (132) στην Εξ (129) και λαμβάνοντας το φυσικό λογάριθμο καταλήγουμε στην (134)Οι Εξισώσεις (133) και (134) δηλώνουν ότι ο ταξινομητής Bayes για το δεδομένο πρό-βλημα είναι ένας γραμμικός ταξινομητής όπως περιγράφεται από τη σχέση

(135)

όπου

(136)

(137)

(138)

Πιο συγκεκριμένα ο ταξινομητής αποτελείται από ένα γραμμικό συνδυαστή με διάνυ-σμα βαρών w και πόλωση b όπως παρουσιάζεται στο Σχ 16

Βάσει της Εξ (135) μπορούμε τώρα να περιγράψουμε τον αλγόριθμο για τον έλεγχο λογαριθμικού λόγου πιθανοφάνειας για το πρόβλημα των δύο κλάσεων ως εξής

Εάν η έξοδος y του γραμμικού συνδυαστή (συμπεριλαμβανομένης της πόλωσης b) είναι θετική αντιστοίχισε το διάνυσμα παρατηρήσεων x στην κλάση 1 Διαφορετικά αντιστοίχισέ το στην κλάση 2

Η λειτουργία του ταξινομητή Bayes για ένα Γκαουσιανό περιβάλλον όπως περι-γράφεται εδώ είναι ανάλογη με αυτή του perceptron υπό την έννοια ότι αμφότερα είναι γραμμικοί ταξινομητές δείτε τις Εξ (11) και (135) Υπάρχουν ωστόσο ορισμένες λεπτές αλλά σημαντικές διαφορές μεταξύ τους οι οποίες πρέπει να τύχουν ιδιαίτερης προσοχής (Lippmann 1987)bull Το perceptron λειτουργεί στη βάση ότι τα προς ταξινόμηση πρότυπα είναι γραμμικά

διαχωρίσιμα Στις Γκαουσιανές κατανομές των δύο προτύπων που υποθέσαμε κατά τη διατύπωση του ταξινομητή Bayes σίγουρα δεν υπάρχει επικάλυψη μεταξύ τους και ως εκ τούτου δεν είναι διαχωρίσιμες Η έκταση της επικάλυψης καθορίζεται από τα διανύσματα μέσων micro1 και micro2 και τον πίνακα συνδιακύμανσης C

ΣΧΗΜΑ 16 Γράφημα ροής σήματος Γκαουσιανού ταξινομητή

x

Πόλωση bx1

x2

xm

wm

w2

w1

Έξοδοςybull

bullbull

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 14: 9789607182647_CHAPTER 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση60

Η φύση αυτής της επικάλυψης παρουσιάζεται στο Σχ 17 για την ειδική περίπτωση μιας τυχαίας βαθμωτής μεταβλητής (δηλ με διαστατικότητα m = 1) Όταν οι είσο-δοι είναι μη διαχωρίσιμες και οι κατανομές τους επικαλύπτονται όπως παρουσιάζε-ται στο σχήμα ο αλγόριθμος σύγκλισης του perceptron παρουσιάζει ένα πρόβλημα επειδή τα όρια απόφασης μεταξύ των διαφορετικών κλάσεων μπορεί να ταλαντώ-νουν συνεχώς

bull Ο ταξινομητής Bayes ελαχιστοποιεί την πιθανότητα σφάλματος ταξινόμησης Αυτή η ελαχιστοποίηση είναι ανεξάρτητη από την επικάλυψη μεταξύ των υποκείμενων Γκαουσιανών κατανομών των δύο κλάσεων Για παράδειγμα στην ειδική περί-πτωση που απεικονίζεται στο Σχ 17 ο ταξινομητής Bayes τοποθετεί πάντα το όριο απόφασης στο σημείο όπου οι Γκαουσιανές κατανομές για τις δύο κλάσεις 1 και 2 διασταυρώνονται η μία με την άλλη

bull Ο αλγόριθμος σύγκλισης του perceptron είναι μη παραμετρικός υπό την έννοια ότι δεν κάνει καμία υπόθεση αναφορικά με τη μορφή των υποκείμενων κατανομών Λειτουργεί εστιάζοντας στα σφάλματα που συμβαίνουν εκεί όπου υπάρχει επικά-λυψη των κατανομών Για το λόγο αυτό μπορεί να δουλεύει καλά όταν οι είσοδοι παράγονται από μη γραμμικούς φυσικούς μηχανισμούς και μάλιστα όταν οι κατα-νομές τους επιδεικνύουν έντονη στρέβλωση και διαφοροποίηση από τις κατανομές Gauss Εν αντιθέσει ο ταξινομητής Bayes είναι παραμετρικός η διατύπωσή του βασίζεται στην υπόθεση ότι οι υποκείμενες κατανομές είναι Γκαουσιανές πράγμα το οποίο περιορίζει το πεδίο εφαρμογής του

bull Ο αλγόριθμος σύγκλισης του perceptron είναι και προσαρμοστικός και απλός στην υλοποίηση οι απαιτήσεις του σε αποθήκευση περιορίζονται στο σύνολο των συνα-πτικών βαρών και της πόλωσης Από την άλλη η σχεδίαση του ταξινομητή Bayes είναι σταθερή μπορεί να γίνει προσαρμοστικός αλλά με αντίτιμο τις αυξημένες απαιτήσεις αποθήκευσης και τους πολυπλοκότερους υπολογισμούς

15 ΠΕΙΡΑμΑ μΕ ΥΠΟΛΟΓΙΣΤΗ ΤΑξΙΝΟμΗΣΗ μΟΤΙβΩΝΟ στόχος αυτού του πειράματος είναι διπλός

(i) να καθορίσει τις προδιαγραφές για ένα πρόβλημα ταξινόμησης δύο περιοχών το οποίο θα αποτελέσει τη βάση ενός πρωτοτύπου που θα χρησιμοποιηθεί σε όλο το μέρος του βιβλίου που ασχολείται με πειράματα ταξινόμησης προτύπων

ΣΧΗΜΑ 17 Δύο μονοδιάστατες Γκαουσιανές κατανομές με επικάλυψη

0 micro2micro1Κλάση

2

Κλάση1

fX(x|1) fX(x|2)

Όριο απόφασης

x

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 15: 9789607182647_CHAPTER 1

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 61

(ii) να επιδείξει τη δυνατότητα που έχει ο αλγόριθμος του perceptron να ταξινομεί σωστά τα γραμμικά διαχωρίσιμα μοτίβα και να παρουσιάσει την κατάρρευσή του όταν παραβιάζεται η συνθήκη της γραμμικής διαχωρισιμότητας

Προδιαγραφές του Προβλήματος Ταξινόμησης Το Σχ 18 παρουσιάζει ένα ζεύγος ημικυκλικών περιοχών διατεταγμένων με μη συμμε-τρικό τρόπο Η ldquoΠεριοχή Ardquo είναι συμμετρικά τοποθετημένη ως προς τον y άξονα ενώ η ldquoΠεριοχή Brdquo είναι μετατοπισμένη προς τα δεξιά ως προς τον y άξονα κατά μια από-σταση ίση με την ακτίνα r και προς τα κάτω ως προς τον x άξονα κατά την απόσταση d Οι δύο περιοχές τις οποίες θα αποκαλούμε laquoημισελήνουςraquo έχουν πανομοιότυπες παραμέτρους

r = 10 πλάτος w = 10

Η κάθετη απόσταση d που διαχωρίζει τις δύο ημισελήνους είναι προσαρμόσιμη μετριέ-ται σε αναφορά με τον x άξονα όπως παρουσιάζεται στο Σχ 18bull αυξανόμενα θετικές τιμές της d σημαίνουν αυξημένο διαχωρισμό μεταξύ των δύο

ημισελήνωνbull αυξανόμενα αρνητικές τιμές της d σημαίνουν ότι οι δύο ημισέληνοι πλησιάζουν η

μία την άλληΤο δείγμα εκπαίδευσης 7 αποτελείται από 1000 ζεύγη σημείων δεδομένων με κάθε ζεύ-γος να περιλαμβάνει ένα σημείο επιλεγμένο από την περιοχή A κι ένα σημείο επιλεγμένο από την περιοχή B αμφότερα τυχαία Το δείγμα ελέγχου αποτελείται από 2000 ζεύγη σημείων δεδομένων κι αυτά επιλεγμένα με τυχαίο τρόπο

ΣΧΗΜΑ 18 Το πρόβλημα ταξινόμησης των δύο ημισελήνων

x

y

Περιοχή B

Περιοχή A

wd

r

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 16: 9789607182647_CHAPTER 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση62

Το ΠείραμαΟι παράμετροι του perceptron που επιλέξαμε για το πείραμα έχουν ως εξής

μέγεθος του επιπέδου εισόδου = 2 μέγεθος του διανύσματος βαρών m = 20

β = 50 δείτε την Εξ (117)Η παράμετρος ρυθμού μάθησης η μεταβάλλεται γραμμικά από 10minus1 έως 10minus5Τα βάρη ορίζονται αρχικά σε μηδέν

Το Σχ 19 παρουσιάζει τα αποτελέσματα του πειράματος για d = 1 η οποία αντιστοι-χεί σε τέλεια γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος παρουσιάζει την καμπύλη μάθησης όπου το μέσο τετραγωνικό σφάλμα (mean-square error MSE) απει-κονίζεται έναντι του πλήθους εποχών το σχήμα υποδεικνύει σύγκλιση του αλγόριθμου σε τρεις επαναλήψεις Το μέρος (β) του σχήματος παρουσιάζει το όριο απόφασης που υπολογίστηκε μέσω της εκπαίδευσης του αλγόριθμου του perceptron επιδεικνύοντας τέλεια διαχωρισιμότητα για το σύνολο των 2000 σημείων ελέγχου

Στο Σχ 110 ο διαχωρισμός μεταξύ των δύο ημισελήνων τέθηκε σε d = minus4 μια συνθήκη η οποία παραβιάζει τη γραμμική διαχωρισιμότητα Το μέρος (α) του σχήματος εμφανίζει την καμπύλη μάθησης όπου διαπιστώνουμε ότι ο αλγόριθμος του perceptron παρουσιάζει συνεχείς διακυμάνσεις γεγονός που υποδεικνύει την laquoκατάρρευσηraquo του αλγόριθμου Αυτό το αποτέλεσμα επιβεβαιώνεται στο μέρος (β) του σχήματος όπου το όριο απόφασης (όπως υπολογίζεται μέσω της εκπαίδευσης) τέμνει αμφότερες τις ημισε-λήνους με ρυθμό σφάλματος ταξινόμησης ίσο με (1862000) times 100 = 93

16 μΑζΙΚΟΣ ΑΛΓΟΡΙΘμΟΣ ΓΙΑ ΤΟ PeRcePtRon Η διατύπωση του αλγόριθμου σύγκλισης του perceptron όπως συνοψίζεται στον Πίνακα 11 παρουσιάστηκε χωρίς αναφορά σε κάποια συνάρτηση κόστους Επιπλέον εστιαζόταν σε διόρθωση μέσω ενός δείγματος Σrsquo αυτή την ενότητα θα κάνουμε δύο πράγματα

1 θα εισάγουμε τη γενικευμένη μορφή της συνάρτησης κόστους για ένα perceptron2 θα χρησιμοποιήσουμε τη συνάρτηση κόστους για να διατυπώσουμε μια μαζική

(batch) έκδοση του αλγόριθμου σύγκλισης του perceptronΗ συνάρτηση κόστους που έχουμε υπόψη είναι μια συνάρτηση η οποία επιτρέπει

την εφαρμογή αναζήτησης με βάση ένα διάνυσμα κλίσεων Συγκεκριμένα ορίζουμε τη συνάρτηση κόστους του perceptron ως (139)

όπου - είναι το σύνολο των δειγμάτων x που ταξινομούνται εσφαλμένα από ένα perceptron το οποίο χρησιμοποιεί το w ως διάνυσμα βαρών του (Duda κα 2001) Εάν όλα τα δείγματα ταξινομούνται σωστά τότε το σύνολο - είναι κενό περίπτωση στην οποία η συνάρτηση κόστους είναι μηδέν Σε κάθε περίπτωση όμως το αξιοσημείωτο χαρα-κτηριστικό της συνάρτησης κόστους είναι ότι αυτή είναι διαφορίσιμη σε σχέση με το διάνυσμα βαρών w Συνεπώς διαφορίζοντας τη συνάρτηση σε σχέση με το w παίρνουμε το διάνυσμα κλίσεων (140)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 17: 9789607182647_CHAPTER 1

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 63

0 10 30 4020 500

001

002

003

004

005

006

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

210

210 25 0 5 10 15 20

25

10

5

0y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = 1 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 19 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 18: 9789607182647_CHAPTER 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση64

0 10 30 4020 50

048

046

05

052

056

054

058

06

MSE

Αριθμός εποχών (α) Καμπύλη εκμάθησης

28

26

24

210 25 0 5 10 15 20

22

10

12

6

8

0

2

4

y

x(β) Αποτέλεσμα

Ταξινόμηση μέσω perceptron με απόσταση = -4 ακτίνα = 10 και πλάτος = 6

ΣΧΗΜΑ 110 Η λύση του perceptron με την παράμετρο απόστασης d ορισμένη σε ndash4

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 19: 9789607182647_CHAPTER 1

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 65

όπου ο τελεστής κλίσης

(141)

Στη μέθοδο της πιο απότομης κατάβασης (steepest descent) η προσαρμογή που γίνεται στο διάνυσμα βαρών w σε κάθε χρονικό βήμα του αλγόριθμου εφαρμόζεται σε κατεύ-θυνση αντίθετη ως προς το διάνυσμα κλίσεων Κατά συνέπεια ο αλγόριθμος παίρνει τη μορφή

(142)

η οποία περιλαμβάνει την έκδοση του αλγόριθμου σύγκλισης για διόρθωση βάσει ενός δείγματος ως ειδική περίπτωση Επιπλέον η Εξ (142) ενσωματώνει το μαζικό αλγό-ριθμο του perceptron για τον υπολογισμό του διανύσματος βαρών δοθέντος του συνόλου δειγμάτων x(1) x(2) Συγκεκριμένα η προσαρμογή που εφαρμόζεται στο διάνυσμα βαρών κατά το χρονικό βήμα n + 1 ορίζεται από το άθροισμα όλων των δειγμάτων που έχουν ταξινομηθεί εσφαλμένα από το διάνυσμα βαρών w(n) με το άθροισμα αυτό να κλιμακώνεται από την παράμετρο ρυθμού μάθησης η(n) Ο αλγόριθμος χαρακτηρίζεται laquoμαζικόςraquo (batch) επειδή σε κάθε χρονικό βήμα του χρησιμοποιείται μια ομάδα εσφαλ-μένα ταξινομημένων δειγμάτων για τον υπολογισμό της προσαρμογής

17 ΣΥΝΟψΗ Το perceptron είναι ένα νευρωνικό δίκτυο ενός επιπέδου η λειτουργία του οποίου βασί-ζεται στη μέθοδο μάθησης με συσχετισμό σφάλματος Ο όρος laquoενός επιπέδουraquo χρησι-μοποιείται εδώ για να υποδείξει το γεγονός ότι το επίπεδο υπολογισμού του δικτύου αποτελείται από ένα μεμονωμένο νευρώνα για την περίπτωση δυαδικής ταξινόμησης Η διαδικασία μάθησης για την ταξινόμηση προτύπων αποτελείται από πεπερασμένο αριθμό επαναλήψεων και κατόπιν σταματά Ωστόσο για να είναι επιτυχής η ταξινόμηση τα μοτίβα πρέπει να είναι γραμμικά διαχωρίσιμα

Το perceptron χρησιμοποιεί το μοντέλο ενός νευρώνα των McCullochndashPitts Σrsquo αυτό το πλαίσιο εγείρεται το εξής ερώτημα Μήπως η απόδοση του perceptron θα ήταν καλύ-τερη εάν χρησιμοποιούσε σιγμοειδή μη γραμμικότητα αντί του απότομου περιοριστή Όπως προκύπτει τα χαρακτηριστικά σταθερότητας και λήψης αποφάσεων του perceptron είναι ουσιαστικά ίδια ανεξάρτητα από το εάν θα χρησιμοποιηθεί απότομος ή βαθμιαίος περιορισμός ως πηγή μη γραμμικότητας στο νευρωνικό μοντέλο (Shynk 1990 Shynk και Bershad 1991) Μπορούμε λοιπόν να δηλώσουμε ότι εφόσον περιοριζόμαστε στο μοντέλο ενός νευρώνα που απαρτίζεται από ένα γραμμικό συνδυαστή ακολουθούμενο από ένα μη γραμμικό στοιχείο τότε ανεξάρτητα από τη μορφή που μπορεί να έχει η μη γραμμικότητα ένα perceptron ενός επιπέδου μπορεί να εκτελεί ταξινόμηση προτύπων μόνο για γραμμικά διαχωρίσιμα πρότυπα

Η πρώτη εμπεριστατωμένη κριτική του perceptron του Rosenblatt παρουσιάστηκε από τους Minsky και Selfridge (1961) Οι Minsky και Selfridge επεσήμαναν ότι το perceptron όπως ορίζεται από τον Rosenblatt δεν θα μπορούσε να υποστηρίξει γενί-κευση προς την έννοια της δυαδικής ισοτιμίας για να μην αναφέρουμε καν πιο αφαιρε-τικές γενικεύσεις Οι υπολογιστικοί περιορισμοί του perceptron του Rosenblatt τέθηκαν σε στέρεες μαθηματικές βάσεις στο περίφημο βιβλίο Perceptrons των Minsky και Papert

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 20: 9789607182647_CHAPTER 1

Νευρωνικά Δίκτυα και Μηχανική Μάθηση66

(1969 1988) Μετά από την παρουσίαση ορισμένων εξαιρετικά ευφυών και λεπτομε-ρών μαθηματικών αναλύσεων του perceptron οι Minsky και Papert απέδειξαν ότι το perceptron όπως ορίζεται από τον Rosenblatt στερείται εκ φύσεως της δυνατότητας να κάνει καθολικές γενικεύσεις βάσει τοπικών παραδειγμάτων Στο τελευταίο κεφάλαιο του βιβλίου τους οι Minsky και Papert διατυπώνουν την εικασία ότι οι περιορισμοί που ανακάλυψαν για το perceptron του Rosenblatt θα ίσχυαν επίσης για τις παραλλαγές του mdash πιο συγκεκριμένα για τα νευρωνικά δίκτυα πολλαπλών επιπέδων Στην Ενότητα 132 του βιβλίου τους (1969) αναφέρουν τα ακόλουθα

Το perceptron αποδείχτηκε άξιο μελέτης παρά τους σοβαρούς περιορισμούς του (ή ακόμα και λόγω αυτών) Έχει πολλά χαρακτηριστικά που αξίζουν προσοχής η γραμμικότητά του το ενδιαφέρον θεώρημα για τη μέθοδο μάθησης που χρησιμοποιεί η σαφής υποδειγματική του απλότητα ως ένα είδος παράλληλου υπολογισμού Δεν συντρέχει κανένας λόγος για να υποθέσουμε ότι οποιαδήποτε από αυτές τις αρετές μεταφέρεται και στην πολλαπλών επιπέδων έκδοσή του Σε κάθε περίπτωση όμως θεωρούμε σημαντικό πρόβλημα για τους ερευνητές την αποσαφήνιση (ή απόρριψη) της βασιζόμενης σε διαισθητικά κριτήρια άποψής μας ότι η επέκταση σε συστήματα πολλαπλών επιπέδων είναι άκαρπη

Αυτό το συμπέρασμα ήταν σε μεγάλο βαθμό υπεύθυνο για τις σοβαρές αμφιβολίες που υπήρξαν περί των υπολογιστικών δυνατοτήτων όχι μόνο του perceptron αλλά των νευ-ρωνικών δικτύων γενικότερα έως τα μέσα της δεκαετίας του rsquo80

Ωστόσο η ιστορία απέδειξε ότι η εικασία των Minsky και Papert δείχνει να μην αιτι-ολογείται Σήμερα έχουμε αρκετές προηγμένες μορφές νευρωνικών δικτύων και μηχα-νών μάθησης που είναι από υπολογιστικής απόψεως πολύ πιο ισχυρές από το perceptron του Rosenblatt Για παράδειγμα τα perceptron πολλαπλών επιπέδων που εκπαιδεύονται με τον αλγόριθμο ΒΚ (Κεφάλαιο 4) τα βασιζόμενα σε συναρτήσεις ακτινικής βάσης δίκτυα (Κεφάλαιο 5) και οι μηχανές διανυσμάτων υποστήριξης (Κεφάλαιο 6) ξεπερνούν τους υπολογιστικούς περιορισμούς του perceptron ενός επιπέδου το καθένα με το δικό του μοναδικό τρόπο

Ολοκληρώνοντας αυτό το κεφάλαιο μπορούμε να πούμε ότι το perceptron είναι ένα laquoκομψόraquo νευρωνικό δίκτυο σχεδιασμένο για την ταξινόμηση γραμμικά διαχωρίσιμων προτύπων Η σπουδαιότητά του δεν είναι μόνο ιστορική συνεχίζει να έχει πρακτική χρησιμότητα στην ταξινόμηση γραμμικά διαχωρίσιμων προτύπων

ΣΗμΕΙΩΣΕΙΣ ΚΑΙ ΠΑΡΑΠΟμΠΕΣ 1 Η οργάνωση της αρχικής έκδοσης του perceptron σαν ένα δίκτυο όπως το οραματίστηκε

ο Rosenblatt (1962) έχει τρία είδη μονάδων αισθητήριες μονάδες μονάδες συσχετισμού και μονάδες αντίδρασης (απόκρισης) Οι συνδέσεις από τις αισθητήριες μονάδες προς τις μονάδες συσχετισμού έχουν σταθερά βάρη ενώ οι συνδέσεις από τις μονάδες συσχετι-σμού προς τις μονάδες απόκρισης έχουν μεταβλητά βάρη Οι μονάδες συσχετισμού δρουν ως προεπεξεργαστές σχεδιασμένοι ώστε να εξάγουν ένα πρότυπο από την είσοδο που δέχονται από το περιβάλλον Καθόσον ενδιαφέρονται τα μεταβλητά βάρη η λειτουργία του αρχικού perceptron του Rosenblatt είναι ουσιαστικά ίδια με αυτή της περίπτωσης μιας μονάδας απόκρισης (δηλ ένα μεμονωμένο νευρώνα)

2 Η απόδειξη του αλγόριθμου σύγκλισης του perceptron που παρουσιάστηκε στην Ενότητα 13 ακολουθεί την κλασική μορφή του Nilsson (1965)

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων

Page 21: 9789607182647_CHAPTER 1

ΚΕΦΑΛΑΙΟ 1 Το Perceptron του Rosenblatt 67

ΠΡΟβΛΗμΑΤΑ11 Επαληθεύστε ότι οι Εξ (119)ndash(122) που συνοψίζουν τον αλγόριθμο σύγκλισης του

perceptron είναι συνεπείς με τις Εξ (15) και (16)12 Υποθέστε ότι στο γράφημα ροής σήματος του perceptron όπως παρουσιάζεται στο Σχ

11 ο απότομος περιοριστής αντικαθίσταται από ένα υποσύστημα που εισάγει σιγμοειδή μη γραμμικότητα

generalizations on the basis of locally learned examples In the last chapter of their bookMinsky and Papert make the conjecture that the limitations they had discovered forRosenblattrsquos perceptron would also hold true for its variantsmdashmore specifically multi-layer neural networks Section 132 of their book (1969) says the following

The perceptron has shown itself worthy of study despite (and even because of) its severelimitations It has many features to attract attention its linearity its intriguing learningtheorem its clear paradigmatic simplicity as a kind of parallel computation There is noreason to suppose that any of these virtues carry over to the many-layered version Never-theless we consider it to be an important research problem to elucidate (or reject) our in-tuitive judgement that the extension to multilayer systems is sterile

This conclusion was largely responsible for casting serious doubt on the computational ca-pabilities of not only the perceptronbut also neural networks in general up to the mid-1980s

History has shown however that the conjecture made by Minsky and Papert seemsto be unjustified in that we now have several advanced forms of neural networks andlearning machines that are computationally more powerful than Rosenblattrsquos perceptronFor example multilayer perceptrons trained with the back-propagation algorithm dis-cussed in Chapter 4 the radial basis-function networks discussed in Chapter 5 and thesupport vector machines discussed in Chapter 6 overcome the computational limita-tions of the single-layer perceptron in their own individual ways

In closing the discussion we may say that the perceptron is an elegant neural net-work designed for the classification of linearly separable patterns Its importance is notonly historical but also of practical value in the classification of linearly separable patters

NOTES AND REFERENCES

1 The network organization of the original version of the perceptron as envisioned byRosenblatt (1962) has three types of units sensory units association units and responseunits The connections from the sensory units to the association units have fixed weightsand the connections from the association units to the response units have variableweights The association units act as preprocessors designed to extract a pattern fromthe environmental input Insofar as the variable weights are concerned the operation ofRosenblattrsquos original perceptron is essentially the same as that for the case of a singleresponse unit (ie single neuron)

2 Proof of the perceptron convergence algorithm presented in Section 13 follows theclassic look of Nilsson (1965)

PROBLEMS

11 Verify that Eqs (119)ndash(122) summarizing the perceptron convergence algorithm are con-sistent with Eqs (15) and (16)

12 Suppose that in the signal-flow graph of the perceptron shown in Fig 11 the hard limiteris replaced by the sigmoidal nonlinearity

(v) = tanh a v2b

66 Chapter 1 Rosenblattrsquos Perceptron

M01_HAYK1399_SE_03_C01QXD 91008 925 PM Page 66

όπου v είναι το τοπικό πεδίο Οι αποφάσεις ταξινόμησης που λαμβάνονται από το perceptron ορίζονται ως εξής

Το διάνυσμα παρατηρήσεων x ανήκει στην κλάση 1 εάν η έξοδος y gt ξ όπου είναι ένα κατώφλι διαφορετικά το x ανήκει στην κλάση 1

Δείξτε ότι το όριο απόφασης που κατασκευάζεται μrsquo αυτό τον τρόπο είναι ένα υπερεπίπε-δο

13 α) Το perceptron μπορεί να χρησιμοποιηθεί για την εκτέλεση πολλών λογικών λειτουρ-γιών Δείξτε την υλοποίηση των δυαδικών λογικών πράξεων AND OR και συμπληρώ-ματος

(β) Ένας βασικός περιορισμός του perceptron είναι ότι δεν μπορεί να χρησιμοποιηθεί για την υλοποίηση της λογικής πράξης αποκλειστικής διάζευξης (EXCLUSIVE OR) Εξηγήστε πού οφείλεται αυτός ο περιορισμός

14 Δίνονται δύο μονοδιάστατες Γκαουσιανής κατανομής κλάσεις και οι οποίες έχουν κοινή διακύμανση ίση με 1 Οι μέσες τιμές τους είναι

Ουσιαστικά αυτές οι δύο κλάσεις είναι γραμμικά διαχωρίσιμες Σχεδιάστε έναν ταξινο-μητή ικανό να διαχωρίζει αυτές τις δύο κλάσεις

15 Οι Εξισώσεις (137) και (138) ορίζουν το διάνυσμα βαρών και την πόλωση του ταξινομη-τή Bayes για ένα Γκαουσιανό περιβάλλον Καθορίστε τη σύνθεση αυτού του ταξινομητή για την περίπτωση όπου ο πίνακας συνδιακύμανσης C ορίζεται ως

όπου σ2 είναι μια σταθερά και I είναι ο μοναδιαίος πίνακας

Πείραμα με Υπολογιστή 16 Επαναλάβετε το πείραμα της Ενότητας 15 αλλά αυτή τη φορά τοποθετώντας τις δύο

ημισελήνους του Σχ 18 στο όριο της διαχωρισιμότητας ndash δηλαδή d = 0 Καθορίστε το ρυθμό σφάλματος ταξινόμησης που παράγεται από τον αλγόριθμο για ένα σύνολο ελέγ-χου αποτελούμενο από 2000 σημεία δεδομένων