sisteme de recunoastere a formelor

Upload: mi6an4ik

Post on 02-Mar-2016

81 views

Category:

Documents


0 download

TRANSCRIPT

Sisteme de Recunoastere a Formelor

1. Concepte fundamentale ale SRF

1.1. Ce este recunoaterea formelor?

Prin recunoaterea formelor se nelege n mod obinuit acel ansamblu de metode i tehnici cu ajutorul cruia se poate realiza o clasificare n cadrul unei mulimi de obiecte, procese sau fenomene. Setul de obiecte, procese sau fenomene care urmeaz a fi clasificate pot fi obiecte (fenomene) fizice sau structuri intelectuale, prin acestea nelegnd ansamblul concretizat de procese legate de o activitate intelectual coerent (scris, vorbit, etc)

Scopul recunoaterii formelor const n determinarea clasei din care face parte o colecie de observabile. Metoda este deosebit de util atunci cnd abordarile directe sunt imposibile sau cnd inferenele teoretice lipsesc.

Stabilirea numrului de clase n care se mpart formele este o problem particular care depinde exclusiv de aplicaiile concrete ale metodei.

1.2. Spaiul formelorConceptul fundamental al teoriei recunoaterii formelor este urmtorul:

Un obiect sau un fenomen variabil, Xj, este descris (caracterizat) printr-un set de n caracteristici xij (i=1,,n). Toate aceste n caracteristici ale unui obiect formeaz o form.

Mulimea x={Xj}j=1,m poart denumirea de spaiul formelor. Deci un obiect (form) X poate fi reprezentat printr-un punct X(x1,,xn) n spaiul formelor.

O problem este aceea a raportului dintre numrul de forme luate n considerare, m, i numrul de dimensiuni al spaiului formelor, n, adic raportul m/n dintre numrul maxim de obiecte din setul respectiv, m, i numrul de caracteristici, n, aferent fiecruia dintre obiecte. Dac numrul de forme, m, este mai mic, egal sau numai puin mai mare dect numrul de caracteristici atunci discriminarea dintre forme i atribuirea lor la diferitele clase posibile este un proces pur aleator.

n general, se consider c acest raport m/n, pentru orice aplicaie de recunoaterea formelor, trebuie s ndeplineasc urmtoarele condiii:

(i)

(ii) ,

(1.1)

unde m reprezint numrul de forme, iar n este numrul de caracteristici independente (numr de dimensiuni).

Condiia (i) reprezint minimum necesar pentru o clasificare binar, n timp ce condiia (ii) este de dorit n aplicaiile concrete ale tehnicilor de recunoaterea formelor.

2. Caracteristicile unui SRF

Translatorul

Selectorul de caracteristici

Clasificatorul

Un sistem de recunoatere a formelor trebuie s asigure, corect i eficient observarea, transformarea, prelucrarea preliminar (selectarea) i clasificarea eantionului de date.

Elementele eseniale ale unui sistem general de recunoaterea formelor sunt urmtoarele: translatorul, selectorul de caracteristici (care realizeaz o prelucrare preliminar) numit i preprocesor, sau extractor de caracteristici i clasificatorul (Fig. 1.4-1). Dei aceste 3 subuniti sunt interdependente, n cele ce urmeaz le vom prezenta separat.

Fig. 1.41 Sistem general de recunoatere a formelor1.2.1. TranslatorulTranslatorul transform i transfer informaiile din lumea real n spaiul formelor ntr-o form compatibil cu modul de reprezentare din calculatoarele electronice. n consecin datele primare, rezultat al observaiei sunt transformate ntr-un ir de mrimi scalare care formeaz vectorul de form n-dimensional. Fiecare component xi a vectorului de form X reprezint o cantitate fizic msurabil; este foarte important ca ea s surprind esena datelor primare.

Modul de implementare al translatorului depinde exclusiv de natura datelor primare. Dac acestea sunt constituite dintr-o succesiune de valori msurate la intervale de timp, cum sunt traseele EEG, atunci sunt necesare procedee de eantionare n timp, pe cnd dac ele sunt funcie de frecven, cum sunt de exemplu spectrele n infrarou ale compuilor chimici, atunci trebuie dezvoltate procedeele de eantionare a frecvenei (respectiv numerelor de und). n cazul imaginilor sunt luate n considerare suprafeele mai luminoase sau mai ntunecate, muchiile sau formele geometrice. Aceasta este o problem ceva mai complicat i, de aceea , au fost propuse o serie de metode pentru reducerea complexitii imaginilor la un ir de msurtori.

O situaie fericit, n care translatorul nu mai este necesar, apare atunci cnd informaiile din lumea real sunt exprimate numeric (de exemplu, n cazul spectrelor de mas).

Vectorii de form dezvoltai de translator constituie mrimile de intrare pentru selectorul de caracteristici.1.2.2. Selectorul de caracteristiciScopul selectorului de caracteristici const n prelucrarea vectorilor de form n aa fel nct procedeul de clasificare s fie optimizat.

Selectorul de caracteristici (denumit i extractor de caracteristici sau preprocesor) accept ca mrimi de intrare vectorii de form produi de translator i opereaz asupra lor transformndu-i pentru a elimina sau, cel puin, pentru a reduce cantitatea de informaie irelevant sau ambigu meninnd n vectori suficient informaie pentru a putea discerne ntre diferitele clase de forme i descoperi invarianele dintre formele aceleiai clase.

Pentru realizarea acestor deziderate au fost propuse i utilizate o mare varietate de metode.

Una dintre cele mai simple metode pentru prelucrarea vectorilor de form const n normarea acestora. O astfel de normare implic egalarea sumei componentelor fiecrui vector de form (respectiv suma ptratelor componentelor lor) cu o constat arbitrar convenabil aleas. Un alt procedeu, mult mai sofisticat, care utilizeaz matricea de covarian duce, n final, la o ecuaie matricial din care se obin vectorii proprii i valorile proprii ( procedeul numit analiza componentelor principale sau analiza Karhuneu-Loeve).

Pentru prelucrarea vectorilor de form i selectarea celor mai reprezentative caracteristici au fost utilizate i o serie de transformri mult mai complexe, cum ar fi transformata Fourier.

Pentru identificarea caracteristicilor mai importante au fost utilizate forme model sau prototip, s-au dezvoltat i implementat tehnici interactiv, implicnd repreyentri grafice i rutine speciale de comparare, s-au calculat parametrii statistici, cum sunt momentele sau histogramele direct din forme.

Aceast etap este esenial, de ea depinde succesul sau insuccesul oricrui studiu de recunoatere a formelor.1.2.3. ClasificatorulSarcina oricrui clasificator este, n general, urmtoarea: avnd dat o mulime de vectori de form prelucrai corespunztor, numit set de formare, se pune problema determinrii unei funcii de decizie f(X) astfel nct dac:

f(X) > 0 atunci X aparine clasei 1f(X) >= 0 atunci X aparine clasei 2

(1.2)

Aceast etap n care este determinat funcia de decizie f(X) este cunoscut sub numele de faz de formare (formarea), de adaptare sau uneori de nvare. Scopul urmrit este minimalizarea probabilitii de eroare n procesul de clasificare.

Conceptul de clasificare a formelor poate fi neles ca o partiionare a spaiului formelor, x ={X} prin atribuirea fiecrui vector X sau punct X (x1, ,xn) la o clas de forme corespunztoare n regiuni reciproc exclusive, fiecare regiune corespunznd unei clase de forme particular. Din punct de vedere matematic problema clasificrii poate fi formulat sub forma funciilor de decizie discriminate.

Fie 1, 1,.p cele p clase distincte posibile care urmeaz a fi recunoscute cu X = 1 U 2 U .Up,1 2 p = Fd

(1.3.)

i fie X=|xi |i=1,n vectorul de form, xi reprezentnd a i-a caracteristic reprezentativ. Atunci funcia de decizie discriminant f(X)=Dj (X) asociat clasei de forme j, j=1,,p, astfel nct dac forma de intrare reprezentat prin vectorul X, respectiv punctul X, este n clasa i, fapt pe care-l vom nota prin Xi , valoarea lui Di(X) trebuie s fie cea mai mare, adic pentru toi Xi vom avea satisfcut relaia:

Di(X) > Dj(X),

i, j =1,,p.

(1.4)

n felul acesta, n spaiul formelor x frontiera partiiei, denumit limita de decizie, dintre regiunile corespunznd claselor i i respectiv, j, poate fi definit prin urmtoarea relaie:

Fd= Di(X)-Dj(X) = 0

(1.5)

n figura 2.8. este reprezentat modelul unui clasificator care utilizeaz funciile discriminant. Forma de intrare este analizat conform relaiei (1.4), clasificatorul furniznd drept ieire indicele k aparine {1,2,,p} corespunztor clasei k din care face parte forma respectiv X.

Fig. 1.42 Modelul clasificatorului ce utilizeaz funcia discriminant

Pentru determinarea funciilor discriminant neparametrice setul de formare trebuie s fie mare i, de asemenea, reprezentativ pentru a permite estimarea acestora din funciile de probabilitate.

3. Metode teoretice decisionale ale tehnicilor de recunoastere

Sunt cunoscute dou moduri de abordare a procesului de recunoatere a formelor. Primul mod cunoscut sub numele de recunoatere controlat presupune existena unui set de forme a cror apartenen la clas este cunoscut. Acest set este mprit n dou pri: setul de formare utilizat pentru a dezvolta un clasificator (ce utilizeaz, de exemplu, matricea distanelor dintre forme) care s recunoasc ct mai bine apartenena formelor din set la clasele corespunztoare i setul de predicie pe care clasificatorul format este evaluat (testat). Clasificatorul astfel dezvoltat este utilizat n continuare pentru stabilirea apartenenei unei forme necunoscute la o clas.

Cel de-al doilea mod cunoscut sub numele de recunoatere necontrolat nu face apel la o cunoatere prealabil a apartenenei formelor la o clas. Metoda dezvolt algoritmi care permit n cursul execuiei acestora construirea claselor pe msur ce formele analizate sunt luate n considerare.

Un caz particular al metodelor teoretice decizionale l constituie tehnicile de nvare. Acestea utilizeaz un set de forme a cror apartenen la clase este cunoscut. Setul este utilizat n mod iterativ de un algoritm care construiete coeficienii clasificatorului, corespunztor tipului de problem (fr a utiliza matricea distanelor dintre forme).

1.2.4. Vectori de form i spaiul formelorFiecare caracteristic poate fi considerat ca fiind o variabil ntr-un spaiu n-dimensional unde fiecare caracteristic este atribuit unei dimensiuni. Fiecare form apare ca un punct n spaiul formelor. Cnd o form este descris de mai multe caracteristici ea poate fi privit ca un vector X, denumit vectorul de form. Acest vector este dat de relaia:

(2.1)

unde xi, i= 1,, n reprezint cele n caracteristici.

Spaiul formelor notat cu X poate fi descris cu ajutorul relaiei

(2.2)

unde Xi desemneaz vectorul transpus a lui X, iar m numrul de forme.

4. Tehnici de deciziesi clasificare

Conceptul de clasificare al formelor poate fi neles ca o partiionare a spaiului caracteristicilor acestuia. Clasificarea formelor, adic atribuirea fiecrui vector posibil sau punct din spaiul caracteristicilor clasei din care face parte, poate fi interpretat ca o partiionare a acestuia n regiuni (domenii) reciproc exclusive, fiecare domeniu aparinnd unei clase de forme particulare. Din punct de vedere matematic acest gen de problem de clasificare poate fi definit sub forma unei funcii discriminant. Astfel fie 1, 2,m cele m clase de forme posibile cu proprietile:

1 2 m= X,

(2.3)

i1 2 m = F.

Unde cu F s-a notat mulimea care constituie frontierele dintre clase, iar cu X s-a notat vectorul de form. n acest caz funcia discriminant Dj(X) asociat clasei de forme j, j =1,, m are proprietatea c dac forma reprezentat prin vectorul X face parte din i, fapt pe care-l vom simboliza Xi, cu i specificat, atunci valoarea lui Di(X) trebuie s fie cea mai mare, adic pentru toi Xi va fi ndeplinit condiia

Di(X) > Dj(X); i,j = 1, , m, ij.

(2.4)

n felul acesta limitele de partiionare ale spaiului caracteristicilor (desemnate anterior cu F), denumite i limite de decizie, pot fi exprimate cu ajutorul relaiei

F = Di(X) Dj(X) = 0; i, j=1,,m, ij

(2.5)

Au fost propuse foarte multe forme pentru funcii discriminant Di(X), forme ce satisfac condiia (2.4). dintre acestea vom meniona n continuare doar pe cele mai importante.

1.2.4.1. Funcii discriminant liniarentr-un spaiu bidimensional aceste funcii sunt liniare i pot fi scrise sub forma:

x1-mx2-b=0,

sau

W1x1+W2x2+W3x3=0

(2.6)

unde:

m - este coeficientul unghiular,b - termenul liber,

iar W1= 1, W2= -m i W3= -b.

ntr-un spaiu n- dimensional funciile sunt hiperplane de forma:

W1x1+W2x2+.+Wnxn+Wn+1= 0

(2.7)

n acest caz funcia discriminant Di(X) asociat clasei de forme i reprezint o combinaie liniar a caracteristicilor xi, i =1,,m, dat n relaia:

Di(X)= Wi,kxk+ Wi,n+1 , I =1,,m

(2.8)Ecuaiile hiperplanelor date de relaia (1.8), pentru m clase de forme, pot fi scrise matriceal astfel:D(X)=

Unde:

i

(2.9)

n vectorul X s-a introdus suplimentar termenul 1 pentru a da posibilitatea efecturii operaiei de nmulire.

Limita de decizie dintre regiunile x corespunztoare claselor i i j este de forma:

Di(X) Dj(X) = Wkxk+Wn+1 ; k = 1...n;(2.10)

unde:

Wk=Wi,k Wj,k

i

Wn+1=Wi,n+1-Wj,n+1.Ecuaia (2.10) reprezint ecuaia unui hiperplan din spaiul caracteristicilor x, numit i plan de decizie. Pentru a ilustra modul de utilizare a funciilor discriminant liniare prezentm un exemplu n care avem dou forme ntr-un spaiu bi-dimensional. Fie formele X1 i X2 date de:

i

i funcia de decizie D(X) = 0 dat de relaia:

Relaia de mai sus poate fi scris sub forma:

Dac nlocuim pe X1 i X2 n D(X), obinem:

i respectiv

Pentru orice punct aflat deasupra lui D(X) = 0, D(X) este pozitiv i negativ pentru punctele de sub dreapt. Astfel, pentru cazul a dou clase, polaritatea n evaluarea lui D(X) determin la care clas aparine forma dat (Fig. 1.2-1).

Fig. 2.23Funcia de decizie liniar n dou dimensiuni.n cazul n care este necesar discriminarea pentru mai mult de dou forme sunt necesare dou sau mai multe funcii de decizie. Pentru aceast situaie exist trei tipuri de clasificatori.i) Tipul 1 utilizeaz o funcie de decizie care mparte spaiul formelor n dou clase. Prima clas notat cu i conine o singur form, iar cea de a doua clas conine restul formelor. Pentru a asigura apartenena unei forme la clasa i este suficient s fie ndeplinit condiia Di(X)>0 i Dj(X) 0.

iii) Tipul 3 reprezint un caz special al tipului 2 de clasificare. Din analiza figurilor 2.2-2a i 2.2-2b se observ prezena unui spaiu nedeterminat care apare n interiorul triunghiului format din cele trei drepte corespunztoare funciei de decizie. Punctele din interiorul acestui triunghi nu pot fi atribuite la nici una din cele trei clase. Pentru a elimina aceast nedeterminare, funcia de decizie de tipul 2, Dij(X) = 0 este nlocuit cu Di(X)-Dj(X) = 0, unde Di(X) i Dj(X) sunt funcii de decizie de tipul 1. Pentru ca o form s fie atribuit clasei i este necesar, n acest caz, ndeplinirea condiiei Di(X)>Dj(X) pentru toi ji (vezi fig. 2.2-2c).

Fig. 2.24 Funcii de decizie multi-categorie: a-tipul 1; b-tipul 2; c-tipul 3.

Dac clasele pot fi separate utiliznd tipul 1 de clasificare, regiunile n care este prezent clasele vor fi mai compacte, fapt care conduce la o mai bun identificare a claselor dect n cazul utilizrii tipului 2 sau 3 de clasificare. In schimb, ns, regiunea de nedeterminare este mare. Dac n aplicaia practic apar forme n regiunea de nedeterminare rezultate n urma aplicrii tipului 1 de clasificare, poate fi ncercat utilizarea tipului 2 de clasificare, n care regiunea de nedeterminare este mai mic sau a tipului 3 (tipul 3 de clasificare are dezavantajul c timpul de calcul este mare)

5. Clasificatorul de distanta minimaO important clas de clasificatori se bazeaz pe valoarea distanelor dintre forma de intrare i un set de vectori de referin sau puncte prototip din spaiul caracteristicilor (prototipurile sunt forme a cror apartenen la clase este cunoscut). Dac vom presupune c sunt cunoscui m vectori de referin, notai cu R1, R2,Rm, cu Rj asociat clasei j , atunci clasificatorul de distan minim va atribui forma de intrare X clasei i dac distana dintre aceasta i vectorii de referin este minim,

adic X i dac d = X-Ri = minim.

(2.11)

Considerm dou grupe de puncte distincte n spaiul formelor i ne propunem s determinm funcia de decizie care va putea separa spaiul formelor n dou regiuni care vor corespunde celor dou clase. Iniial vom determina vectorii de referin pe care i vom considera reprezentnd centrele celor dou grupri de puncte. Valoarea punctelor prototip poate fi calculat cu o relaie de forma:

(2.12)

unde N reprezint numrul de forme dintr-o grupare. Distana dintre o form X i centrul gruprii R (R este de forma R = (r1, r2,,rm)) este dat de relaia d = X-R. Dac considerm c cele dou grupri se afl ntr-un spaiu bi-dimensional, atunci d va avea urmtoarea form: d2 = (x1 - r1)2+(x2 - r2)2 = x12 - 2x1r1 + r12 + x22 - 2x2r2 + r22.In cazul cnd avem mai mult de dou clase, distana dintre o form X i Ri al gruprii i este dat de:

(2.13)

Deoarece este aceeai pentru toate clasele, el poate fi eliminat. Dac nmulim relaia (1.13) cu 0.5, vom obine:

(2.14)

Deoarece di2 a fost nmulit cu un numr negativ rezult c cea mai mare funcie de decizie (max Di(X)) identific distana minim i deci clasa lui X.

Pentru determinarea termenilor W, din funcia de decizie se utilizeaz relaia (2.14) i rezult , pentru i = 1,.., n i .

Din cele spuse anterior rezult c un clasificator de distan minim este un clasificator liniar. Performana unui astfel de clasificator depinde evident de modul cum sunt alei vectorii de referin dar i de felul cum sunt evaluate distanele. Cele mai frecvente distane utilizate sunt cele derivate de distana general Minkovski.

(2.15)

Astfel, pentru k = 2 se obine binecunoscuta distan Euclidian.

(2.16)

Pentru k = 1 se obine distana Manhattan.

(2.17)

Dac toate caracteristicile xi i ri, i =1,,n sunt codificate binar (au doar valorile 0 sau 1), atunci distana Manhattan poart numele de distana Hamming. Distana Hamming este echivalent cu numrul de caracteristici care sunt diferite n X i R. Aplicarea lui SAU EXCLUSIV, simbolizat aici prin XOR, permite calcului foarte rapid al distanei Hamming conform relaiei:

(1.18)6. Clasificatorul vecinului cel mai apropiat

i) Clasificatorul vecinului cel mai apropiat. Acesta dezvolt un clasificator de distan minim n raport cu mai multe seturi de vectori de referin. Astfel, fie R1, ,Rm cele m seturi de vectori prototip asociate, respectiv, claselor 1,,m i Rj(k) setul de vectori de referin din setul Rj, care aparin clasei j. n acest caz distana dintre forma de intrare reprezentat prin vectorul X i setul de vectori de referin Rj se definete astfel:

, j = 1,,m

(2.19) Uj fiind numrul de vectori de referin din setul Rj. Clasificatorul ce utilizeaz acest tip de distan va fi de forma

i =1, , m

(2.20)

Aceti clasificatori sunt adesea denumii clasificatori liniari pe poriuni sau clasificatori bazai pe cei mai apropiai U vecini.

7. Tehnici de grupareTehnicile de grupare const dintr-un set de algoritmi care asigur mprirea spaiului formelor n clase, grupe de forme, fr a face apel la existena prealabil a unui set de predicie cunoscut. Conceptul de grupare poate fi neles cel mai bine prin prezentarea celui mai simplu algoritm de grupare (denumit algoritm de tip prag). Algoritmul presupune existena n spaiul formelor a unui set de forme i stabilirea iniial a unei distane minime (numit distana de prag) dintre dou forme. Dac distana dintre dou forme este mai mic dect distana de prag, cele dou forme fac parte din aceeai clas. Notm cu T distana prag. Iniial se stabilete aleatoriu un prim centru de grup pe care-l notm cu Z1(Z1 corespunde cu una din cele N forme). Se calculeaz distana dintre acest centru i toate celelalte forme. Dac distanele calculate sunt mai mici dect T, formele respective sunt atribuite clasei 1 , a crei centru este Z1. Prima form situat la o distan mai mare dect T conduce la crearea unei noi grupri (clase) i cu centrul definit de forma respectiv. Se reia calculul distanelor pentru formele rmase, lund n considerare noua grupare creat.

Procesul de obinere de noi grupri i de atribuire a formelor la aceste grupri continu pn n momentul n care sunt clasificate toate formele. Algoritmul este prezentat n figura Fig. 2.3-1.

Fig. 2.35Algoritm de tip prag.Studiind acest algoritm pot fi determinate o serie de caracteristici ale tehnicilor de grupare.1. Alegerea centrelor claselor (gruprilor).

Modul de alegere afecteaz viteza de clasificare ca i numrul de grupe (clase) care rezult n urma executrii procedurii de clasificare. Din acest motiv se recurge, de obicei, la calculul continuu a unui centru al clasei pe msur ce la acesta se atribuie noi forme. n acest caz, centrul gruprii poate s nu corespund cu o forma existent.2. Alegerea criteriului de clasificare. n cazul exemplului dat, criteriul de clasificare este o distan. Se observ c valoarea lui T afecteaz rezoluia procesului de clasificare. Dac T este prea mare, dou sau mai multe clase distincte pot fi grupate n una singur. n cazul n care T este prea mic, o grupare poate fi mprit n mod artificial n cteva grupe. Pentru determinarea valori lui T se ine cont de efectul pe care-l va avea aceast valoare asupra numrului de grupri. n cazul general se utilizeaz criteriile de similaritate i nesimilaritate prin care se asigur apartenena unei forme la o clas. Acestea pot fi distane sau ali parametri.8. Masuri de disimilaritate1.2.5. Msuri de disimilaritate.

Fie X o mulime de obiecte de clasificat. Cea mai general msur de disimilaritate pe care o putem defini peste X este o funcie D: X*XR care satisface axiomele:(1) D(x,y)0

x,yX

(2) D(x,x)=0

xX

(3) D(x,y)=D(y,x)x,yX

Se admite c X este mulime de instruire (cunoatem pentru fiecare obiect din X clasa cruia el aparine) iar D este o msur de disimilaritate adecvat. n aceste condiii este de ateptat ca disimilaritatea dintre obiectele aceleiai clase s fie sensibil mai mic dect disimilaritatea dintre puncte aflate n clase diferite. n cazul cnd datele sunt obiecte dintr-un spaiu euclidian vom considera metrica spaiului ca o msur a disimilaritii.

Dac X i Y sunt puncte dintr-un spaiu euclidian d-dimensional

X = (x1, x2,...,xd),

Y =(y1, y2,...,yd),atunci pentru orice numr real p1 se poate defini metrica:d(X, Y)

(1)

De fapt (1) reprezint o familie infinit de matrici. Pentru p = 1 din (1) se obine:d(X, Y)

(2)

numit metrica absolut sau distana City Black.

Dac p = 2 se obine distana euclidian :d(X, Y)

(3)

iar pentru p se obine metrica valorii maxime :d(X, Y)

(4)

S considerm c valorile posibile ale caracteristicilor formelor de clasificat sunt n numr finit i fie d acest numr. n acest caz ca msur de disimilaritate se pot utiliza distanele Hamming i Lee.Distana Hamming dintre vectorii X i Y este dat de numrul componentelor (poziiilor) n care cei doi vectori difer. Ponderea Hamming a vectorului X, notat cu WH(X), se definete ca fiind numrul de componente nenule ale lui X. Rezult c distana Hamming dintre X i Y este egal cu ponderea Hamming a diferenei lor : dH (X, Y)= WH(X, Y)

(5)

Distana Lee

Fie q un numr ntreg, pozitiv, q2 i X = (x1, x2,...,xd), cu xi{0,1, . . . ,q-1}.Ponderea Lee a vectorului X, notat cu WL(X), se definete ca fiind: WL(X)

unde:

Distana Lee a vectorilor X i Y se definete ca fiind ponderea Lee a diferenei lor: dL (X, Y)= WL(X- Y)

(6)

Pentru q = 2 i q = 3 distanele Hamming i Lee coincid. Pentru q>3 avem:

dL (X, Y) dH (X, Y), X, YDe asemenea pentru q = 2 avemdH (X, Y)

9. Masuri de similaritateO alternativ la folosirea unei msuri de disimilaritate este considerarea unei msuri a gradului n care obiectele de clasificat sunt asemntoare.

O msur (coeficient) de similaritate peste X este o funcie S:X*XR , care satisface axiomele:1) S(x, y)0, S(x, y)= S(y, x), x , y X

2) S(x, x)= S(y, y)> S(x, y) , x , y XDac X este o submulime a spaiului Rd, atunci ca o msur a similaritii vectorilor (formelor) x i y din X putem considera cosinusul unghiului dintre cei doi vectori. Avem deci msura de similaritate:S1(x,y)=

(1)

unde :

(x .y) - este produsul sacalar a doi vectori, pentru cazul dat avem x1y1+x2y2+...+xdyd

[x]T- transpusa matricii componentelor formei x

||x||- normala lui x :

Aceast msur de similaritate este util atunci cnd mulimea X a datelor este format din clusteri liniari. O distan poate induce o msur de similaritate. Dac d este o distan peste X, atunci putem defini distana normalizat d/dmax, unde:

Msura de similaritate indus de distana d se definete prin

1.2.6. Msuri de similaritate pentru vectori binariAdmitem c toate caracteristicile sunt binare. Fiecare obiect (form) este reprezentat printr-un vector cu d componente care nu pot fi dect 0 sau 1. Vom pune xi=1 dac obiectul x posed atributul i i xi=0 n caz contrar. Dac atributul i este prezent simultan la obiectele x i y, atunci avem xi yi =1.

Msura de similaritate (1) poate fi reinterpretat pentru cazul caracteristicilor binare. n acest scop se observ c numrul de atribute prezente simultan la x i y este

S=

Rezult c d numrul de atribute pe care le posed x. Atunci este media geometric a numrului de atribute din i din i deci S dat de

este o msur relativ a numrului de atribute comune. Modificnd relaia (1) se pot obine diverse msuri de similaritate. Se pot obine astfel:

nlocuind numitorul cu numrul de atribute a unui obiect avem:

(2)

coeficientul lui Tanimoto

(3)

Aceast msur este mult utilizat n probleme ridicate de regsirea informaiei, biologie etc.

Se observ c dac atributul i lipsete simultan din i atunci (1-xi)(1-yI)=1 i deci

T=

(4)

este numrul atributelor ce lipsesc simultan din i .

Analogu=

(5)v=

(6)

reprezint numrul atributelor prezente n dar care lipsesc din i respectiv numrul atributelor care sunt prezente n dar lipsesc din .10.Functia criteriuFie mulimea obiectelor de clasificat. Ne propunem s gsim o tehnic de explorare a datelor, care s ne permit s descoperim structura natural de clasificare, sau structura de clusteri a mulimii datelor. Vom admite c structura de clasificare a mulimii X este dat de o partiie

a lui X.Fiecare element a partiiei va corespunde unei clase (nor, cluster) de obiecte, astfel nct punctele unei clase s fie mai asemntoare dect punctele din clase diferite. Asemnarea obiectelor este dat de o msura de similaritate sau de o msur de disimilaritate. Pe baza unei astfel de msuri putem construi o funcie criteriu. Problema de clasificare se reduce astfel la problema determinrii partiiei ce realizeaz optimul funciei criteriu (obiectiv). Pentru a construi o funcie obiectiv al crei extrem s fie partiia cutat, avem nevoie s fixm o anumit reprezentare a partiiei. Aceste reprezentri depind de scopul clasificrii ca i de structura datelor. Structura se poate postula, bazndu-se pe anumite informaii apriorii, sau poate fi determinat prin aplicarea unor metode de analiz preliminar a datelor (analiza componentelor principale, analiza factorial etc.)

S admitem faptul c fiecare clas se poate reprezenta printr-un prototip dintr-un spaiu de reprezentare L.

=,,constituie reprezentarea partiiei.

Fie D o msur de disimilaritate peste X. Admitem c pornim de la D se poate construi o disimilaritate ntre un obiect din X i un prototip. Acest lucru este ntotdeauna posibil cnd D este o distan sau ptratul unei distane. Vom nota cu Di aceast msur de disimilaritate indus de ctre D.Di este aadar o funcieDi: XRi

Di(x, Li)msoar gradul n care obiectul x difer de prototipul LiNotm cu

I : P(X) qRo funcie care masoar gradul de inadecvare al repezentrii unei clase printr-un prototip. Admitem c msura I(Ai, Li) a inadecvrii clasei Ai prin prototipul Li este dat de I(Ai, Li) = Di(x,Li)

(1)

dup care vom considera c inadecvarea reprezentrii partiiei P prin L este de forma:J(P, L) = I(Ai, Li)

(2)

sau innd cont de (1):J(P, L) =

(3)

unde J reprezint funia criterie.

Problema de clasificare se reduce la determinarea partiiei P i a reprezentrii L care minimizeaz aceast funcie criteriu. Deoarece mulimea partiiilor cu n clase ale lui X este finit, problema poate fi, teoretic, rezolvat prin considerarea tuturor partiiilor. n realitate acest lucru nu este realizabil dect n situaii foarte particulare. ntr-adevr numrul partiiilor cu n clase ce pot fi construite cu p obiecte este

(4)

Acest numr este foarte mare pentru cele mai multe cazuri practice. De exemplu, pentru 5 clase i 100 obiecte avem circa partiii distincte.

Cele mai utilizate metode pentru rezolvarea problemei de minimizare a funciei criteriu sunt metodele iterative. Ideea de baz este de a porni de la o partiie iniial, care poate fi aleas arbritar sau determinat printr-un alt algoritm. Obiectele de clasificat sunt transferate dintr-o clas n alta, dac o astfel de mutare amelioreaz valoarea funciei criteriu. Procedura se oprete cnd nici o schimbare nu mai mbuntete valoarea funciei criteriu. Procedurile iterative de acest tip asigur atingerea unui optim local. Alegeri diferite ale partiiei iniiale vor conduce n final dup un interval mai mare sau mai mic de timp n general la soluii identice ale problemei de clasificare.11.Algoritmii de clasificare iterativa (doar ca idee)

N-medii

ISODATA

1.2.7. Algoritmul n-mediiFie X ={x1, x2, xp} mulimea obiectelor de clasificat. Admitem c aceste obiecte reprezint vectori din spaiul euclidian d-dimensional. Vom considera ca msur de disimilaritate ptratul distanei induse de norma, adicD(x ,y)=

(1)

Presupunem c mulimea X este alctuit din nori (clusteri) de puncte relativ compaci i bine separai, de form aproximativ sferic. n aceste condiii un nor se poate reprezenta pritr-un punct, care constituie prototipul clasei respective. Aadar prototipul Li al clasei Ai este un punct din Rd.

Disimilaritatea dintre un punct x din X i prototipul Li se poate interpreta ca fiind eroarea comis atunci cnd punctul x se aproximeaz prin prototipul clasei Ai. Aceast disimilaritate se poate scrieD(x ,Li)=

(2)

Funcia criteriu considerat va fi:J(P, L) =

(3a)

de undeJ(P, L) =

(3b)

Pentru a determina minimul funciei criteriu, aceasta se va exprima ntr-o form uor modificat. Fie IAi funcia caracteristic a mulimii Ai. Folosind notaia:

Aij = IAi(xj) =

(4)

S presupunem de exemplu c avem un numr de 6 obiecte i c partiionarea acestora iniial este 3. Atunci Aij se va putea construi astfel:

Partiia

Obiect123

1100

2100

3100

4010

5010

6001

n aceste condiii funcia criteriu este:

(5)

innd cont de faptul c ntr-un spaiu euclidian produsul scalar a doi vectori este

funcia criteriu apare sub forma

(6)

Pentru ca s fie un minim pentru funcia este necesar s avem:

(7)

de unde rezult c:

(8)

respectiv:

(9)

de unde obinem:

(10)

Se observ c numitorul reprezint numrul de elemente din clasa . Notnd cu

numrul de elemente din clasa Ai

(11)

expresia prototipului Li se va mai scrie

(12)

Observm c prototipul L i este media sau centrul de greutate al clasei A i.

Reprezentarea L i={ L 1, L 2, . . . , L n}

unde L i este dat de (10), induce o nou partiie. Aceast partiie se obine folosind regula celui mai apropiat vecin. Un obiect (punct) xj este ataat clasei de centrul creia este cel mai apropiat. Avem deci urmtoarea regul de decizie

(13)

Din punctul de vedere al programrii algoritmului, este mai util regula (13) s se exprime sub forma

EMBED Microsoft Equation 3.0

(14)

Algoritmul n-medii const n aplicarea iterativ a formulelor (10), (14) sau (12), (13), plecnd de la o partiie iniial a lui X. Aceast partiie iniial se poate alege arbitrar, se poate stabili folosind anumite informaii asupra datelor sau poate constitui rezultatul aplicrii unui alt algoritm de clasificare.

Algoritmul n-medii const n executarea urmtorilor pai:

P1. Se alege o partiie iniial p0={A1, A2, . . . , An} a lui X.

P2. Se calculeaz prototipurile acestei partiii cu formula :

P3. Se calculeaz noua partiie dup regula x A i dac

P4. Da EMBED Microsoft Word Picture

_2147483647.unknown

_2147483646.unknown

_2147483645.doc

IEIRE

Clasificator

Selector de caracteristici

TRANSLATOR

INTRARE

_2147483644.doc

MAX

Dp

D2

D1

X

X

_2147483643.unknown

_2147483642.unknown

_2147483641.unknown

_2147483640.unknown

_2147483639.unknown

_2147483638.unknown

_2147483637.unknown

_2147483636.unknown

_2147483635.unknown

_2147483634.unknown

_2147483633.unknown

_2147483632.unknown

_2147483631.unknown

_2147483630.unknown

_2147483629.unknown

_2147483628.unknown

_2147483627.unknown

_2147483626.unknown

_2147483625.unknown

_2147483624.doc

1

2

3

4

1

2

3

4

5

D(X)=0

X2

X1

_2147483623.doc

(1

(3

(2

+

-

+

-

Fig. STYLEREF 2 \s Error! No text of specified style in document. SEQ Fig. \* ARABIC \s 2 2

+

-

Fig. STYLEREF 2 \s Error! No text of specified style in document. SEQ Fig. \* ARABIC \s 2 1

D2=0

D1=0

D3=0

X2

X1

X1

X2

D23=0

D13=0

D12=0

(2

(3

(1

X2

D23=0

D13=0

D12=0

a

b

c

(2

(3

(1

_2147483622.unknown

_2147483621.unknown

_2147483620.unknown

_2147483619.unknown

_2147483618.unknown

_2147483617.unknown

_2147483616.unknown

_2147483615.unknown

_2147483614.unknown

_2147483613.unknown

_2147483612.unknown

_2147483611.unknown

_2147483610.unknown

_2147483609.doc

Citete noul Z

STOP

Au fost clasificati toi X

Creeaz un nou centru al gruprii

Asigneaz Xj((j

Dj < T

Calculeaz Dj

Iniializeaz X (centrul gruprii)

start

_2147483608.unknown

_2147483607.unknown

_2147483606.unknown

_2147483605.unknown

_2147483604.unknown

_2147483603.unknown

_2147483602.unknown

_2147483601.unknown

_2147483600.unknown

_2147483599.unknown

_2147483598.unknown

_2147483597.unknown

_2147483596.unknown

_2147483595.unknown

_2147483594.unknown

_2147483593.unknown

_2147483592.unknown

_2147483591.unknown

_2147483590.unknown

_2147483589.unknown

_2147483588.unknown

_2147483587.unknown

_2147483586.unknown

_2147483585.unknown

_2147483584.unknown

_2147483583.unknown

_2147483582.unknown

_2147483581.unknown

_2147483580.unknown

_2147483579.unknown

_2147483578.unknown

_2147483577.unknown

_2147483576.unknown

_2147483575.unknown

_2147483574.unknown

_2147483573.unknown

_2147483572.unknown

_2147483571.unknown

_2147483570.unknown

_2147483569.unknown

_2147483568.unknown

_2147483567.unknown

_2147483566.unknown

_2147483565.unknown

_2147483564.unknown

_2147483563.unknown

_2147483562.unknown

_2147483561.unknown

_2147483560.unknown

_2147483559.unknown

_2147483558.unknown

_2147483557.unknown

_2147483556.unknown

_2147483555.unknown

_2147483554.unknown

_2147483553.unknown

_2147483552.unknown

_2147483551.unknown

_2147483550.unknown

_2147483549.unknown

_2147483548.unknown

_2147483547.unknown

_2147483546.unknown

_2147483545.unknown

_2147483544.unknown

_2147483543.unknown

_2147483542.unknown

_2147483541.unknown

_2147483540.unknown

_2147483539.unknown

_2147483538.unknown

_2147483537.unknown

_2147483536.unknown

_2147483535.doc

1

2

3

5

4

6