analiza de cluster

Marian Popa Statistic pentru Psihologia I/O: Analiza de cluster

1 Actualizat la: 09.01.2008 19:50

Analiza de cluster

Conf. dr. M. Popa

1. Introducere 2. Pregtirea i organizarea datelor 3. Alegerea metodei de calcul a similaritii 4. Alegerea metodei de grupare 5. Validarea structurii de cluster 6. Exemple de analiz de cluster cu SPSS 7. Concluzii

1. Introducere

Psihologii au fost dintotdeauna interesai de realizarea unor tipologii, care nu sunt altceva dect modaliti de grupare a persoanelor n categorii, pe baza anumitor similariti de ordin psihic sau comportamental. De exemplu, pornind de la scorurile obinute la un chestionar de personalitate, subiecii pot fi clasificai n anumite categorii (tipuri) care prezint modele similare de rspuns. Dar nu numai persoanele pot fi astfel grupate, ci orice fel de entiti care sunt descrise prin anumite variabile. De exemplu, organizaiile pot fi grupate n categorii n funcie de numrul angajailor, nivelul profitului, cifra de afaceri etc. n acelai spirit se poate realiza clasificarea aeronavelor sub aspectul gradului de siguran, pe baza frecvenei defeciunilor, a numrului de accidente, de incidente sau a pasagerilor care au suferit traumatisme n urma acestora.

n fiecare din situaiile de mai sus avem o serie de cazuri (persoane, organizaii, aeronave etc.), pe care dorim s le grupm n categorii pe baza similaritii valorilor unui numr oarecare de variabile care le caracterizeaz. Acest obiectiv este realizat statistic cu un set de proceduri care fac parte din analiza de cluster. Culic (2004, p. 130) descrie analiza de cluster ca fiind identificarea structurii unui set de date alctuit dintr-o mulime de obiecte i caracteristicile lor, prin definirea unor grupuri ct mai omogene

intern i eterogene extern, n funcie de similaritatea lor n raport cu anumite

caracteristici. Aa cum sugereaz i numele, analiza de cluster nu este un model sau o metod care conduce la o soluie unic, ci este o colecie de tehnici prin care se analizeaz posibilitatea de grupare a cazurilor, cercettorul urmnd s aleag nu doar metoda de analiz, ci i soluia de grupare pe care o consider potrivit. Exist numeroase metode de sortare a cazurilor n categorii. Alegerea uneia sau alteia dintre acestea depinde de o serie de criterii, pe care le vom evoca pe parcurs, printre acestea fiind volumul datelor. Unele metode sunt utilizabile pentru seturi reduse de date, pe cnd altele sunt recomandate pentru date care cuprind sute sau mii de cazuri. Dei analiza de cluster poate viza i gruparea variabilelor, ne vom ocupa aici numai de situaia n care aceasta este utilizat pentru gruparea cazurilor. Analiza de cluster a fost dezvoltat n anii `30 n psihologie de ctre Zubin i Tryon (apud Mezei, 1999), fiind apoi preluat n toate tiinele sociale i naturale fundamentate pe raionamente clasificatorii: biologie, antropologie, sociologie, medicin etc. Interesul pentru acest domeniu al statisticii a crescut odat cu apariia calculatoarelor


2 Actualizat la: 09.01.2008 19:50

moderne i a programelor specializate de calcul. n SUA exist chiar o societate care reunete pe cei interesai de problema clasificrilor (The Classification Society of orth America), cu o vechime de peste 30 de ani. Ultimul anuar bibliografic al acestei asociaii cuprinde 1000 de articole tiinifice dedicate dezvoltrii analizei de cluster. n ciuda acestui efort, nu exist nc o teorie unificatoare, unanim acceptat, cu privire la metodele de grupare n categorii, aa cum nu exist metode utilizabile n orice situaie (Milligan&Hirtle, 2003). Din acest motiv, abordarea analizei de cluster presupune mai degrab nsuirea unei colecii de concepte i principii cu privire la problematica clasificrii, dect aplicarea oarb un algoritm de calcul.

Aa cum am precizat deja, analiza de cluster produce gruparea cazurilor n categorii, dar la ce ne poate ajuta acest lucru n practica i cercetarea psihologic? nainte de orice, ne putem ntreba dac analiza de cluster este utilizabil mai degrab pentru descoperirea structurii datelor, atunci cnd nu tim dac aceasta exist sau nu (scop explorator) sau pentru a pune n eviden o anumit structur anticipat (scop confirmator). n principiu, ambele scopuri sunt posibile pentru analiza de cluster, dar abordrile de tip explorator sunt considerate mai potrivite dect cele de confirmare (Milligan&Hirtle, op. cit.), dat fiind inexistena unui suport teoretic unitar, fapt care face ca rezultatul analizei de cluster s fie determinat n mare msur de deciziile analistului.

Utilitatea analizei de cluster pentru psihologi poate fi vzut din mai multe perspective:

- Clasificarea (gruparea) datelor privind un anumit numr de subieci (sau cazuri de alt natur) care s permit elaborarea de tipologii utile n interpretarea acestora. ncadrarea tipologic poate fi relevant din punct de vedere diagnostic, dar i pentru fundamentarea demersului terapeutic i evaluarea predictiv a evoluiei unui anumit caz.

- Generarea de ipoteze sau validarea unor ipoteze privind existena unor tipologii care au fost generate prin alte proceduri.

2. Pregtirea i organizarea datelor

Pentru a fi supuse analizei de cluster, datele trebuie organizate sub forma unei

matrice care n care cazurile se afl pe linie, iar variabilele pe coloane. Vom utiliza pentru exemplificare datele sintetizate de Wuensch1 cu privire la activitatea didactic i tiinific a profesorilor de la Departamentul de Psihologie al Universitii Est-Carolina n anul 2005.

Tabelul 2. Extras adaptat al bazei de date Wuensch

ume Salariu orma Poziia Articole Vechime

Rosalyn 123600,00 1,00 5 21 32 Lawrence 96799,92 1,00 5 71 27 Sunila 83358,00 1,00 5 19 24 Randolph 83235,84 1,00 5 17 38 Dea 6962,94 ,50 1 0 0

1 http://core.ecu.edu/psyc/wuenschk/SPSS/SPSS-Data.htm


3 Actualizat la: 09.01.2008 19:50

Claude 6812,82 ,50 1 0 0 Amanda 5999,14 ,50 1 0 0 Boris 4919,85 ,25 1 4 15 Garrett 4738,86 ,25 1 0 0

ume=numele profesorilor Salariu=salariul anual, n dolari orma=cifra reprezint proporia fa de o norm ntreag (1=norm

ntreag, 0.50 o jumtate de norm, 0.25, un sfert de norm). Poziia=poziia didactic (5=profesor titular, 4=profesor asociat,

3=asistent, 2=visiting professor, 1=adjunct) Articole=numr de articole publicate Vechime=vechimea n facultate (n ani)

Baza de date de mai sus este compus din cazuri, iar fiecare dintre ele este descris

prin variabile. Pe linii avem datele referitoare la fiecare profesor n parte. Valorile variabilei nume identific persoanele din baza de date i servesc la identificarea cazurilor n procesul de grupare n clusteri. n literatura de specialitate cazurile mai pot fi ntlnite i sub denumirea de itemi, modele, indivizi, subieci, obiecte, uniti operaional-taxonomice sau profile. n SPSS variabila care definete cazurile trebuie s fie de tip ir de caractere (string). n ceea ce ne privete, vom ntrebuina aici termenul de cazuri. Pe coloane, sunt definite variabilele n funcie de care va avea loc procesul de grupare. Acestea pot fi exprimate pe oricare din nivelurile de msurare (cantitativ, ordinal sau nominal), cu condiia ca tipul variabilei creat n SPSS s fie numeric. n literatura de specialitate variabilele mai pot fi ntlnite i sub denumirea de descriptori, atribute, caractere, itemi sau profile (Milligan&Hirtle, op. cit.). Inconsistena terminologic face adesea dificil lectura materialelor cu privire la analiza de clusteri, mai ales c, uneori, aceeai terminologie este folosit i pentru linii i pentru coloane. Att selectarea cazurilor ct i selectarea variabilelor ridic o serie de probleme specifice n analiza de cluster (Milligan & Hirtle, op. cit.).

Selectarea cazurilor

n ultim instan, cazurile sunt cele care fac obiectul clasificrii, ca urmare, modul de selectare i de tratare a lor are un impact direct asupra rezultatelor analizei de cluster. Cele mai importante aspecte care trebuie avute n vedere la selectarea cazurilor sunt urmtoarele:

- Spre deosebire de statisticile orientate pe testarea ipotezelor, eantionarea aleatoare nu este o condiie necesar n acest context, cu excepia situaiilor n care se urmrete generalizarea rezultatelor. Chiar dac eantionul trebuie s reprezinte categoriile vizate, proporia cazurilor din cadrul eantionului nu trebuie s respecte n mod necesar proporia de la nivelul populaiei. Evident, n aceste condiii categorii mai puin reprezentate la nivelul populaiei vor avea anse mai reduse de a fi surprinse de analiza de cluster. Pentru a evita acest neajuns, cazurile care aparin unor categorii minoritare vor fi supra-


4 Actualizat la: 09.01.2008 19:50

reprezentate n eantion. Evident, acest lucru se poate face numai dac cercettorul are o anumit reprezentare cu privire la modul de grupare a cazurilor.

- Dac mrimea eantionului o permite, este recomandabil c baza de date s fie mprit n dou, pe o baz aleatorie, a doua jumtate urmnd a servi la validarea soluiei de clusterizare rezultate pe prima jumtate.

- Atunci cnd cercettorul are o reprezentare cu privire la componena clusterelor, poate introduce n baza de date aa numite cazuri-tip ideale, care s reprezint cazuri tipice pentru unul sau mai muli clusteri. Regsirea acestora n componena clusterelor rezultai prin analiz reprezint o form de validare i ajut la conceptualizarea acestora. Pe de alt parte, atunci cnd un caz-tip ideal va fi regsit n alt cluster dect cel prevzut, se poate concluziona c presupunerile care stau la baza gruprii cazurilor sunt vulnerabile. Desigur, acest demers se justific atunci cnd analiza de cluster este utilizat cu scop confirmator.

- Se va acorda atenie prezenei valorilor excesive (outliers), deoarece valorile excesive n contextul analizei de cluster pot avea ca efect neincluderea cazurilor respective n nici un cluster i, implicit, crearea unuia sau mai multor clustere artificiale pentru acestea. Ce-i drept, unele metode de grupare n clusteri sunt mai puin afectate de valorile excesive: metoda Ward, de exemplu, metodele k-means (la care vom face referire mai trziu). Cazurile care prezint valori excesive pot fi eliminate, eventual dup ce efectul lor a fost evaluat ntr-o prim soluie de clusterizare.

Culic (op. cit.) recomand tratarea cu atenie a valorilor lips (missing values).

Cazurile care prezint valori lips sunt eliminate de SPSS, fapt care reduce volumul datelor utile. De asemenea, recomand utilizarea unei scheme de codificare a valorilor similar pentru toate variabilele. De exemplu, dac la unele variabile valorile mari vor nsemna niveluri ridicate ale caracteristicii iar valorile mici, niveluri sczute ale caracteristicii, aceeai codificare este bine s existe la toate variabilele, altfel interpretarea rezultatelor va fi dificil.

Selectarea variabilelor

Spre deosebire de statisticile obinuite, analiza de cluster nu impune condiia distribuiei normale a variabilelor, deoarece metodele de grupare se bazeaz pe euristici care nu iau n considerare distribuia variabilelor. n mod uzual, selectarea variabilelor n analiza de cluster trebuie s fac fa urmtoarelor probleme:

umrul variabilelor. n exemplul de mai sus, preluat dup Wuensch, fiecare caz este descris prin 5 variabile. Sunt ele suficiente, sunt prea puine sau sunt prea multe? Nu exist un rspuns corect la aceast ntrebare. Cercettorul este acela care alege variabilele incluse n modelul de analiz. n varianta original, baza de date de mai sus conine i o alt evaluare a numrului de articole publicate, pe care ns autorul a considerat mai potrivit s o exclud, dat fiind faptul c era afectat de erori. De asemenea, a existat i variabila sex, pe care nu a utilizat-o n procedura de analiz de cluster. Aceast variabil ar putea fi ns utilizat la splitarea bazei de date i efectuarea analizei de cluster pentru fiecare categorie de gen, separat.


5 Actualizat la: 09.01.2008 19:50

Alegerea variabilelor. Variabilele incluse n analiz vor fi alese cu atenie. Att omiterea unor variabile importante, ct i includerea unor variabile neimportante, afecteaz compoziia clusterelor. De exemplu, dac se urmrete stabilirea unei tipologii a organizaiilor utilizndu-se variabile ca cifra de afaceri, profitul realizat, nivelul de calificare a angajailor, dar fr a se include o variabil cu numrul de angajai, atunci mrimea organizaiei nu va fi luat n considerare la stabilirea clusterelor. n egal msur, dac se vor include variabile nerelevante, cum ar fi, s zicem, cheltuielile cu sponsorizarea activitilor sportive, care se regsesc doar la unele dintre organizaiile analizate, atunci s-ar putea c gruparea n clusteri s fie deformat de aceast variabil. Milligan (1980) a demonstrat c fie i doar una sau dou variabile irelevante, pe care le-a adugat n mod aleatoriu, pot afecta n mod important soluia de grupare oferit de analiza de cluster.

Variabilitatea. Operaiunea de grupare (clusterizare) este favorizat de utilizarea unor variabile cu o variaie ct mai mare, deoarece produc o discriminare mai bun ntre cazuri. n acelai timp, se va evita utilizarea unor variabile a cror valori sunt de ordine foarte diferite de mrime. Dac, de exemplu, una din variabile este de ordinul zecilor de mii (salariul), iar alt variabil este de ordinul zecilor (vechimea n ani), atunci prima variabil va avea pondere mai mare n operaiunea de grupare. Acest neajuns este eliminat prin opiunea de transformare a variabilelor n scoruri standard, prezent n programul SPSS. n acest mod fiecare variabil este exprimat prin valori de acelai ordin de mrime. Standardizarea este unul din aspectele controversate printre specialitii analizei de cluster. n mod uzual, se utilizeaz standardizarea n scoruri z, dar exist i alte soluii (vezi Milligan&Hirtle, op. cit., p. 177), n care raportarea nu se face la abaterea standard, tocmai pentru c unele variabile nu ntrunesc condiiile pentru calculul mediei, care este inclus n abaterea standard.

Asocierea variabilelor n dimensiuni. Nu doar natura variabilelor, ci i asocierea lor n anumite dimensiuni trebuie luat n considerare. De exemplu, n cazul clasificrii cadrelor didactice pot fi luate n considerare diverse variabile care descriu aprecierea i performana academic. Dac performana academic ar fi reprezentat prin mai multe variabile dect aprecierea, atunci acest aspect ar avea o pondere mai mare n alctuirea clusterelor. Acest lucru nu este negativ n sine dac cercettorul consider c performana academic este mai relevant pentru scopul de clasificare pe care i-l propune, dar trebuie s fie contient de consecinele alegerii sale.

Corelaia variabilelor. Dei exist autori care recomand eliminarea variabilelor care coreleaz ntre ele, Millgram i Hirtle (op. cit.) consider c existena unor corelaii nu este un aspect negativ pentru analiza de cluster. Acest fapt ar putea fi tocmai rezultatul unei grupri naturale a acelor variabile, iar eliminarea corelaiei nu ar face dect s distorsioneze gruparea datelor. Uneori analiza de cluster este precedat de analize factoriale, care urmresc gruparea variabilelor, dar acest lucru este justificat numai dac se presupune c gruparea n clusteri are loc n spaiul factorilor i nu al variabilelor individuale. n orice caz, prin astfel de proceduri de comprimare a variabilelor se ajunge la soluii de grupare n clusteri care pot diferi substanial de gruparea pe baza variabilelor individuale.

n concluzie, trebuie s reinem c rezultatele analizei de cluster depind decisiv de

modul de alegere a variabilelor. Indiferent ct de nepotrivite vor fi acestea, programul va


6 Actualizat la: 09.01.2008 19:50

oferi o soluie de grupare, dar nu va semnala prin nimic faptul c anumite variabile au fost greit introduse n modelul de analiz.

3. Alegerea metodei de calcul a similaritii Analiza de cluster este, n esen, o procedur prin cazurile similare sunt grupate

n categorii cu un anumit nivel de omogenitate fiind, n acelai timp, ct mai diferite de categoriile formate din celelalte cazuri. Rezult de aici necesitatea de a evalua gradul de similaritate sau de disimilaritate dintre cazuri, n condiiile n care fiecare dintre ele este descris prin mai multe variabile. n principiu, acest lucru poate fi fcut pe mai multe ci i, n acelai timp, prin mai multe metode pentru fiecare cale (Landau & Everitt, 2004, Culic, 2004, Garson, n.d.):

a) Evaluarea corelaiei dintre cazuri. Reprezint o aplicaie a cunoscutului coeficient de corelaie Pearson, dar de data aceasta aplicat pe valorile a dou cazuri distincte. i nu pe valorile aceluiai caz. Cu ct corelaia dintre valorile a dou cazuri este mai mare, cu att cele dou cazuri sunt mai apropiate. La limit, dou cazuri care prezint aceleai valori pentru toate variabilele, sunt identice i au o corelaie maxim +1. Desigur, n cazul asocierii inverse perfecte, vom obine o corelaie negativ maxim ntre cazuri (-1), ceea ce exprim o disimilaritate maxim ntre acestea. Valorile intermediare descriu intensitatea asocierii (similaritii) dintre cazuri. Corelaia ca msur a similaritii prezint dezavantajul de a se raporta la media valorilor, ceea ce n cazul variabilelor msurate pe scale ordinale i, mai ales, nominale, devine lipsit de sens.

b) Evaluarea distanei dintre cazuri. n cele mai frecvente situaii, similaritatea dintre cazuri este evaluat prin calcularea aa numitei distane dintre ele. Exist mai multe formule de calcul pentru distan

1) Distana euclidian, cea mai utilizat n practic, se calculeaz ca rdcina ptrat a sumei ptratelor diferenelor dintre valorile itemilor celor dou cazuri;

2) Distana euclidian ptratic, se obine prin ridicarea la ptrat a distanei euclidiene;

3) Distana Manhattan (sau city-block), este suma diferenelor absolute dintre valorile itemilor;

4) Distana Cebev, derivat din metoda Manhattan, este diferena maxim absolut dintre valorile itemilor;

5) Distana Minkovski este rdcina de ordin r (r fiind un numr ntreg pozitiv) din suma puterilor de ordin r ale diferenelor dintre valorile cazurilor.

6) Distana Mahalanobis este o modalitate de calcul care ine cont de standardizarea variabilelor i ajusteaz intercorelaiile dintre acestea, ceea ce este util n cazul variabilelor msurate pe scale diferite sau atunci cnd exist un set de variabile corelate ntre ele, care pot avea o pondere excesiv n procesul de grupare.

c) Evaluarea asocierii dintre cazuri. Coeficienii de asociere sunt indicatori ai similaritii de acelai ordin ca i cei coeficientul de corelaie, dar aplicai n


7 Actualizat la: 09.01.2008 19:50

cazul variabilelor msurate pe scale ordinale sau nominale. Exist cteva zeci de astfel de indicatori, dar cei mai utilizai sunt:

1) Coeficientul de asociere simpl, calculat pe baza raportului dintre numrul de corespondene (prezena sau absena nsuirii) la numrul total de nsuiri. Valoarea 0 nseamn disimilaritate perfect iar valoarea 1 semnific similaritate perfect.

2) Coeficientul lui Jaccard calculeaz distana pe baza nsuirilor prezente la ambele cazuri, fr a le lua n considerare pe cele care lipsesc la amndou.

3) Coeficientul lui Gower este o generalizare a coeficientului lui Jaccard, elimin din calcul situaiile de concordan negativ (lipsa nsuirii la ambele cazuri) i situaiile n care cazurile nu se compar.

Existena unei varieti att de mari de metode de calcul a similaritii ridic n

faa cercettorului o nou problem de decizie, deoarece fiecare metod poate oferi soluii diferite de grupare a cazurilor. n practic, metoda distanei euclidiene este cea mai frecvent utilizat, dar analiza atent a datelor i familiarizarea cu specificul altor metode de calcul poate conduce la alegerea celei mai adecvate msuri pentru similaritatea cazurilor.

4. Alegerea metodei de grupare

Odat evaluat distana dintre cazuri, trebuie pus n aciune o metod prin cazurile s fie grupate n funcie de distana dintre acestea. Aa cum exist mai multe metode de evaluare a distanei dintre cazuri, exist mai multe modaliti de realizare a gruprii. Fiecare metod de grupare va produce o configuraie diferit a clusterelor. nainte de a alege metoda de grupare trebuie s fim contieni de faptul c aceasta trebuie s fie adecvat i eficient n raport cu tipul de grupare estimat pentru datele existente.

Alegerea metodei de grupare n clusteri este una din cele mai importante decizii pe care o are de luat cercettorul n efectuarea analizei de cluster. Aldendorfer & Blashfield (1984, apud Culic, op. cit.) identific nu mai puin de apte categorii de metode de grupare, fiecare la rndul ei cuprinznd un numr mai mare sau mai mic de metode. Dintre acestea, vom trata aici metodele bazate pe aglomerarea ierarhic i metodele bazate pe partiionarea interactiv, mai frecvent utilizate n psihologie i pentru care exist opiuni de calcul n SPSS.

4.1 Tehnici de grupare ierarhic aglomerativ

Aceast clas de tehnici de grupare const ntr-o serie de pai n care se formeaz progresiv grupuri care cuprind din ce mai multe cazuri, prin reunirea grupurilor formate n paii anteriori. Dac vedem fiecare caz individual drept un obiect, algoritmul de grupare ierarhic aglomerativ asociaz la primul pas obiectele care au cel mai mare grad de similaritate (sunt mai apropiate sub aspectul valorilor care i descriu). La urmtorul pas avem pe de o parte obiecte (cazuri) individuale i, pe de alt parte, obiecte rezultate prin gruparea unor cazuri individuale la pasul anterior. Algoritmul calculeaz distana dintre aceste obiecte i le grupeaz pe baza aceluiai criteriu de distan. n continuare,


8 Actualizat la: 09.01.2008 19:50

prin pai succesivi, obiectele sunt grupate progresiv pn cnd, la penultimul pas, toate cazurile iniiale sunt grupate n doi clusteri. Evident, la ultimul pas toate cazurile se vor regsi grupate ntr-un singur cluster.

Dinamica tehnicilor aglomerative implic o situaie iniial, n care fiecare caz reprezint un grup i continu prin grupri succesive, pn cnd, la ultimul pas, toate cazurile formeaz un grup unic. Evident, nici pasul 0 i nici ultimul pas nu poate reprezenta o soluie viabil. n acest context, cercettorul trebuie s decid cu privire la metoda de grupare i numrul de clusteri la care oprete analiza.

- Metoda de grupare. Aa cum ne-am obinuit deja, metodele de grupare sunt la rndul destul de numeroase, dar cele mai utilizate (cf. Landau&Everitt, op.cit.) sunt cele denumite complete linkage (legtur complet) i average linkage between groups (legtura medie ntre grupuri)2.

- umrul de clusteri. Aa cum am vzut, algoritmul de grupare ofer soluii progresive, de la un numr de clusteri egal cu numrul cazurilor pn la soluia final, n care toate cazurile sunt grupate ntr-un singur cluster. Evident, soluia optim se localizeaz ntre aceste dou situaii, iar cercettorul trebuie s decid unde. n ciuda numeroaselor metode de fixarea numrului de clusteri, nu exist n prezent o metod ce stabilire general acceptat. Aceasta depinde de obiectivele cercettorului n legtur cu utilizarea acestora. Pentru a gsi o soluie potrivit de grupare este recomandabil s fie analizate caracteristicile clusterelor rezultai n etape succesive, urmnd s se decid cnd s-a ajuns la o soluie interpretabil, sau la o soluie cu un numr rezonabil de clusteri, ori suficient de omogeni. n cazul metodelor aglomerative, atunci cnd distana dintre clusteri nvecinai crete brusc, putem presupune c la pasul respectiv sunt unite dou grupuri sensibil diferite. Ca urmare, se poate ncheia combinarea grupurilor la pasul respectiv, consemnnd numrul de clusteri existeni n acel moment. Evident, este posibil ca cercettorul s consemneze c aceast regul, sau oricare alta, nu conduce la identificarea unei soluii de grupare viabile. Aa cum recomand Culic (op. cit.) este recomandabil s se produc mai multe soluii de grupare, care produc diverse structuri de clusteri, urmnd ca acestea s fie analizate comparativ pentru a se adopta soluia final. Operaia este susinut i de anumite reprezentri grafice specifice: dendograma i graficul icicle (urure). Date fiind problemele pe care le ridic gruparea, dar i crearea i citirea dendogramelor pentru volume mari de date, tehnicile de tip aglomerativ sunt recomandate pentru baze de date relativ mici, de ordinul zecilor de cazuri. Uneori, numrul de grupuri poate fi stabilit apriori, pe baza unor cunotine sau teorii cu privire la structura datelor cercetrii. n fine, gruprile care par a fi naturale, n sensul c susin interpretri viabile n raport cu natura datelor, vor fi acceptate ca soluie final a numrului de clusteri.

2 O descriere mai detaliat a metodelor de grupare poate fi gsit n Culic, 2004, p.147


9 Actualizat la: 09.01.2008 19:50

4.2 Tehnici de grupare iterativ (k-means clustering) Spre deosebire de metodele aglomerative care constituie progresiv grupuri din ce

n ce mai largi, pn epuizeaz toate cazurile, abordarea iterativ pornete de la un numr fix de clusteri declarat de cercettor. Construcia clusterelor poate fi declarat fie prin metoda actualizrii iterative a centrilor clusterelor, fie prin utilizarea unor centri de cluster declarai, care sunt pstrai pe toat durata analizei. Procedura poate salva apartenena de cluster a fiecrui caz, distana fiecrui caz fa de centrul clusterului din care face parte i centrul clusterelor n stadiul final.

Algoritmii de calcul pentru procedura k-Means sunt adecvai pentru analiza bazelor de date cu un numr mare de cazuri. Evident, ca i n cazul metodelor aglomerative, trebuie s facem fa problemei alegerii numrului de cazuri, cu att mai mult cu ct decizia trebuie luat nainte de a vedea cum evolueaz modul de grupare. Programul SPSS caut implicit un numr de 2 clusteri, specificndu-se c numrul declarat al acestora nu poate fi mai mare dect numrul cazurilor.

5. Validarea structurii de cluster

Validarea rezultatelor analizei de cluster presupunea confirmarea soluiei de grupare adoptat. Nu exist o soluie unic pentru rezolvarea acestei probleme, fiind descrie mai multe strategii care pot oferi informaii cu privire la validitatea unei structuri de cluster: metode interpretative, reprezentri grafice, testarea ipotezelor i studiile de replicare (Milligan&Hirtle, 2003).

a) Interpretarea clusterelor. Clusterele pot fi considerate valide dac suport o interpretare consistent cu coninutul lor. La fel ca i n cazul analizei factoriale, cnd factorii rezultai trebuiau integrai ntr-un model explicativ, iar factorii identificai corespunztor semnificaiei lor, i n cazul clusterelor trebuie s facem fa aceleiai probleme. Clusterele sunt colecii de cazuri de acelai tip, drept urmare, acest fiecare tip trebuie surprins, descris i etichetat corespunztor. Pentru a rezolva aceast sarcin cercettorul trebuie, n primul rnd, s fie foarte bine familiarizat cu datele analizate. n al doilea rnd, vor fi analizate caracteristicile cazurilor grupate n fiecare cluster. n acest scop, vor fi utilizate procedurile statistice disponibile n SPSS (Frequency, Descriptives, Explore) cu ajutorul crora vor putea fi puse n eviden caracteristicile specifice fiecrui cluster n raport cu celelalte. Statisticile descriptive diferenele i similaritile dintre clusteri, sub aspectul variabilelor care i compun, ceea ce poate ajuta la nelegerea i definirea lor. Dac au fost utilizate cazuri tip-ideale, prezena acestora n anumite clustere susine interpretarea lor. O informaie util o reprezint valorile centrale (media sau centroizii) clusterelor, care descriu cazul tipic al fiecrui cluster.

b) Reprezentrile grafice sunt utilizate ca modaliti de ilustrare a modului n care se grupeaz cazurile n funcie de variabilele de grupare. Astfel de reprezentri pot scoate n eviden att tendina de grupare a cazurilor ct i gradul de similaritate sau de disimilaritate a acestora n interiorul fiecrui cluster. Proceduri grafice de tipul arbore sau castel sunt considerate cele mai potrivite. Din pcate, ele nu se regsesc ntotdeauna i n programele care efectueaz analiz de cluster (nici


10 Actualizat la: 09.01.2008 19:50

SPSS nu le ofer). n schimb, pot fi utilizate i grafice uzuale, cum ar fi scatter-plot, n care sunt analizate pe perechi variabilele criteriu, etichetate dup valorile variabilei de identificare a cazurilor. Analiza modului de grupare a punctelor poate valida structura de clusteri.

c) Testarea ipotezelor. Gruparea n clustere aduce n aceleai categorii seturi de cazuri care asemntoare ntre ele, dar diferite de la un cluster la altul. Aceast situaie face tentant i posibil analiza semnificaiei diferenelor (utiliznd proceduri ca ANOVA, MANOVA .a.) dintre variabilele care au servit la grupare n raport cu valorile de cluster. Acest lucru este ns este invalid, deoarece modul de realizare a clusterelor implic tocmai maximizarea diferenelor dintre acetia, fapt care conduce n mod firesc la obinerea unor diferene statistic semnificative (Dubes & Jain, 1979). Exist ns posibilitatea de a efectua testarea ipotezelor de variaie n raport cu apartenena de cluster ale altor variabile dect cele folosite n procedura de grupare (aa numita abordare extern). n acest scop sunt utilizate proceduri statistice standard (ANOVA, MANOVA, chi-ptrat). O alt abordare, numit intern (Milligan, 1981) se care utilizeaz informaiile obinute n timpul procesului de grupare. Aceste analize evalueaz gradul de potrivire (goodness of fit) ntre datele de intrare i structura de clustere rezultat. Din pcate, programele care pun la dispoziie astfel de proceduri sunt destul de puine.

d) Studiile de replicare. Acestea se bazeaz pe ideea c dac a fost evideniat o anumit structura de clustere pe un set de date, aceeai structur ar trebui s poat fi descoperit i pe alt set de date de acelai fel. Din acest motiv se recomand, ori de ct ori este posibil, ca datele disponibile s fie mprite n dou, pe o baz aleatoare, desigur, iar al doilea set de date s fie utilizat pentru validarea structurii descoperite pe primul set. Procedura cuprinde mai multe etape: calcularea centroizilor clusterelor descoperite pe primul set de date; datele celui de-al doilea set sunt grupate n clustere pe baza distanei fa de centroizii clusterelor primului set; al doilea set de date, la rndul lui, este supus procedurii de analiz de cluster; n final, cele dou serii de clustere obinute pe al doilea set (pe baza distanei fa de centroizii primului set, i pe baza analizei directe a celui de-al doilea set), sunt supuse unei analize care vizeaz nivelul de concordan dintre ele. n acest scop se utilizeaz statistici speciale (de exemplu, Kappa, din SPSS, procedura Crosstab).


11 Actualizat la: 09.01.2008 19:50

6. Exemple de analiz de cluster cu SPSS

n cele ce urmeaz vom exemplifica cele dou metode de analiz prezentate, pe doua seturi de date distincte cu programul SPSS 15.

6.1 Analiza ierarhic aglomerativ (Hierachical Cluster Analysis)

Vom exemplifica aceast metod de grupare utiliznd baza de date

ClusterAnonFaculty.sav3. Structura bazei de date a fost descris anterior (vezi pagina 3)

Obiectivul analizei este acela de a realiza o clasificare a cadrelor didactice (N=44) din facultate pe baza unui set de date privind activitatea profesional a acestora. Imaginea de mai jos ilustreaz structura datelor n programul SPSS:

Lansarea procedurii se face din meniul Analyze-Classify-Hierarchical Cluster:

3 Wuensch: http://core.ecu.edu/psyc/wuenschk/SPSS/SPSS-Data.htm


12 Actualizat la: 09.01.2008 19:50

n caseta principal Hierarchical Cluster Analysis trecem variabilele alese drept criterii de grupare n zona Variable(s) (salariu, norma, pozitia, articole, experienta) i variabila nume n zona Label cases by:

Am pstrat opiunile Cluster Cases i Display Satistics i Plots, care sunt implicite.

Acionm butonul Statistics i marcm opiunile care se observ n imaginea urmtoare:

Acionm butonul Continue pentru a reveni n caseta principal, unde acionm butonul Plots. n caseta Hierarchical Cluster Analyze: Plots marcm opiunea Dendogram, pentru a obine graficul gruprii n clusteri. Pentru Specified range of cluster declarm un domeniul clusterelor pentru care se va construi graficul Icicle (urure): ncepnd cu clusterul 2, pn la clusterul 4 (valorile Start i By trebuie s fie mai mici sau egale cu valoarea Stop). Orientarea implicit pentru graficul Icicle este vertical, dar am ales opiunea Horizontal, deoarece numrul cazurilor este prea mare pentru a fi cuprins pe limea unei pagini.


13 Actualizat la: 09.01.2008 19:50

Revenim la caseta principal (cu Continue) i acionm butonul Method. n caseta Hierarchical Cluster Analyze:Method alegem urmtoarele opiuni:

- Cluster Method: Between-groups linkage - Measure. Interval: Squared Euclidean distance - Transform values. Standardize: Z score; By variable

Revenim n caseta principal (cu Continue) i acionm butonul Save, iar n caseta respectiv bifm Range of solutions i indicm un domeniu al soluiilor de grupare cu 2 i 4 clusteri.

Acionm Continue, revenim n caseta principal i apsm butonul Run pentru a realiza procedura. Rezultatele sunt prezentate n fereastra Output, dup cum urmeaz: Tabelul Case Processing Summary indic numrul de cazuri analizate i eventuala existen a cazurilor lips. Se menioneaz c a fost utilizat metoda de grupare pe baza distanei euclidiene.

Case Processing Summarya

44 100,0% 0 ,0% 44 100,0%

N Percent N Percent N Percent

Valid Missing Total

Cases

Squared Euclidean Distance useda.


14 Actualizat la: 09.01.2008 19:50

Tabelul Agglomeration Schedule (vezi anexa 1) prezint evoluia gruprii la fiecare pas. Pe prima linie, la pasul 1, este grupat cazul 32 cu cazul 33, distana euclidian ntre aceste cazuri fiind 0.000 (sunt cazuri identice). n paii 2-4 sunt creai ali trei clusteri, fiecare cu cte dou cazuri. La pasul 5 este adugat cazul 39 la un cluster anterior, care coninea cazurile 37 i 38. Din aproape n aproape toate cazurile sunt grupate n clusteri din ce n ce mai mari pn ce, la pasul 43, avem un singur cluster, care cuprinde toate cazurile din baza de date. Semnificaia coloanelor din tabel este urmtoarea:

- Stage: numrul pasului de grupare - Cluster Combined: Indic numrul clusterelor care sunt combinai la fiecare

pas: o Cluster 1: Numrul clusterului care se unete pentru a forma un nou

cluster. Eticheta acestui cluster este atribuit clusterului nou format. n prim faz, clusterele pot fi formate i din cazuri individuale.

o Cluster Combined. Cluster 2: Un cluster care se unete cu un cluster anterior pentru a forma un nou cluster.

- Coefficients: Indicele distanei dintre doi clusteri grupai la pasul respectiv. - Stage Cluster First Appears: Indic pasul la care a fost format clusterul. 0

indic faptul c clusterul a fost compus dintr-un singur caz naintea acestui pas:

o Cluster 1: Clusterul care implicat n gruparea cu un alt cluster. Eticheta lui este atribuit clusterului nou format.

o Cluster 2: Un cluster care se unete cu un cluster anterior pentru a forma un nou cluster

- ext stage: pasul la care clusterul format la acest pas este unit cu un alt cluster.

Dac analizm evoluia valorilor de pe coloana Coefficients observm c dup pasul 39 ncep s apar salturi mai mari, cel mai mare salt fiind consemnat la pasul p=42. Numrul de grupuri la un anumit pas p este egal cu N-p+1, ceea pentru pasul 42 n cazul nostru ar nsemna o soluie de grupare a cazurilor n 3 clusteri. Reprezentrile grafice indicate, dendograma i reprezentarea Icicle sunt destul de dificil de citit i interpretat pentru baze de date cu relativ multe cazuri (44 n exemplu nostru). Am inclus n anexa 1 dendograma, cu marcarea cazurilor care are putea reprezenta o soluie de grupare adecvat n trei clustere.

Privind la baza de date, n Data Editor, vom observa c au fost create trei variabile noi: CLU4_1, CLU3_1, CLU2_1, care conine apartenena de cluster a cazurilor pentru soluiile cu 4, 3 i respectiv 2 clusteri. Urmnd raionamentul autorului bazei de date, vom ignora soluia cu patru clusteri pentru a analiza semnificaiile gruprilor n 3 i 2 clusteri.

Dac analizm compoziia gruprii n dou categorii (Descriptives-Crosstab) n funcie de variabila poziia , vom observa c baza de date este mprit n adjunci i restul cadrelor didactice. Procednd n acelai mod n cazul compoziiei cu trei clusteri, descoperim c cele trei grupuri sunt compuse din seniorii facultii, adjunci i restul.


15 Actualizat la: 09.01.2008 19:50

n fiecare dintre cele dou soluii de grupare vom obine diferene semnificative ntre grupuri sub aspectul variabilelor care descriu cazurile: salariu, articole, experien. Iat numai variaia mediei articolelor publicate n funcie de gruparea n cei trei clusteri:

CLU3_1

adjunctirestulseniori

Mean of articole

40

30

20

10

0

6.2 Analiza iterativ (K-Means Cluster)

Pentru exemplificarea analizei de

clusteri prin metoda iterativ K-Means, vom utiliza baza de date care cuprinde rezultatele scalei de evaluare a atitudinii fa de statistic (Popa, 2007). Volumul relativ mare al datelor o face mai potrivit pentru analizarea cu aceast metod dect cu o tehnic aglomerativ.

Variabilele luate n considerare variabilele nume, scor_global (atitudinea fa de statistic), bac (media la bacalaureat) i liceu (tip de liceu absolvit). Declararea numelui a fost opional, aa c exist cazuri anonime. De asemenea, unii subiecii nu au menionat toate informaiile cerute, existnd valori lips, care ns nu s-au dovedit sistematice.

Extras din baza de date msps_romania.sav (Popa, 2007)


16 Actualizat la: 09.01.2008 19:50

Procedura se lanseaz din meniul Analyze-Clasify/K-Means. n caseta principal K-Means Cluster Analysis trecem variabilele alese drept criterii de grupare n zona Variables iar variabila nume, n zona Label Cases by. n csua umber of clusters declarm, arbitrar n aceast faz, o soluie de grupare n 4 clusteri. Bifm Method Iterative and classify.

Acionm butonul Iterate iar n caseta K-Means Analysis: Iterate fixm numrul

maxim de iteraii pentru actualizarea centrului clusterelor. La fiecare iteraie, cazurile sunt alocate celui mai apropiat cluster, iar media clusterului este actualizat.

Apsm Continue i apoi, pe caseta principal, butonul Save. Aici bifm salvarea n variabile distincte a apartenenei de cluster a fiecrui caz i distana fa der centru clusterului.

Apsm Continue, revenim n caseta principal unde acionm butonul care deschide caseta Options


17 Actualizat la: 09.01.2008 19:50

unde

- Initial cluster centers d media iniial a variabilei pentru fiecare cluster: - A OVA table calculeaz testul F pentru fiecare variabil - "Cluster information for each case" creeaz variabile distincte cu apartenena

de cluster a fiecrui caz i distana euclidian fa de centrul clusterului.

Dup acionarea butonului Continue i apoi a butonului Run de pe caseta principal, procedura este efectuat iar rezultatele sunt afiate n Output. Pentru a vedea compoziia clusterelor, procedm la analiza de varian a variabilei scor_global, care msoar atitudinea fa de statistic, n raport cu variabila nou creat QCL_1. Testul este indic o variaie semnificativ, dar graficul asociat sugereaz o anumit inconsisten la nivelul clusterelor 2 i 3, care nu evolueaz n sensul ateptat (media clusterului 3 crete fa de clusterul 2).

Variaia mediilor atitudinii fa de statistic, n funcie de apartenena la gruparea n patru clusteri.

Aceast situaie ne sugereaz refacerea analizei pentru o grupare n trei clusteri. Revenim n caseta principal, unde facem opiunea pentru 3 clusteri i rulm din nou procedura. Refacem analiza de varian a variabilei scor_global, de data aceasta n raport

Cluster Number of Case

4321

Mean of SUM (it_01 to it_22)

110

100

90

80

70

60

50


18 Actualizat la: 09.01.2008 19:50

cu variabila n raport cu variabila nou creat QCL_3, care indic apartenena de cluster a cazurilor dup a doua rulare.

Analiznd tabelul Final Cluster Centers, care ne d valorile centrale ale fiecrui cluster, observm c variabila cu impactul cel mai mare asupra clasificrii este scorul global la atitudinii fa de statistic, deoarece aceasta a avut variaia cea mai mare. Media la BAC i tipul de liceu absolvit nu difereniaz sensibil ntre cei trei clusteri.

Final Cluster Centers

105 81 57

9,27 9,32 9,23

2 2 2

Scor global

Media BAC

Tip de liceu absolvit

1 2 3

Cluster

Distana dintre centrii clusterelor este prezentat n tabelul urmtor. Aa cum se observ, n mod firesc, distana cea mai mare se ntlnete ntre clusterele 1 i 3, cei mai ndeprtai, distana dintre clusterele apropiate fiind aproximativ egal (23-24).

Distances between Final Cluster Centers

23,460 47,956

23,460 24,497

47,956 24,497

Cluster

1

2

3

1 2 3

n fine, tabelul ANOVA prezint semnificaia variaiei variabilelor de-a lungul celor trei clusteri. Din cele trei variabile alese drept criterii de grupare, doar scorul global i tipul de liceu absolvit prezint variaii semnificative (sig


19 Actualizat la: 09.01.2008 19:50

Tabelul de mai jos prezint numrul de cazuri repartizate n fiecare caz.

Number of Cases in each Cluster

67,000

83,000

49,000

199,000

138,000

1

2

3

Cluster

Valid

Missing

n faza final, clasificarea n cei trei clusteri, poate fi utilizat pentru orice scopuri

de cercetare (de ex., predicia performanei la statistic) sau pedagogice (de ex., abordarea difereniat a studenilor).

7. Concluzii Analiza de cluster poate fi o soluie util pentru investigarea structurii cazurilor i

obinerea de tipologii. Utilizarea ei va fi abordat cu pruden, avnd mereu n vedere problemele ridicate de acest tip de analiz statistic i impactul subiectivitii cercettorului, prin diferitele decizii pe care trebuie s le adopte. Universul teoretic i aplicativ al analizei de cluster este unul n continu dezvoltare, motiv pentru care apreciem c prezentarea fcut aici are rolul unei introduceri n tem. Abordarea analizei de cluster necesit o permanent consultare a literaturii de specialitate i o practic individual bazat pe ncercarea unor soluii variate i analiza efectelor acestora.

n fine, dorim s subliniem c structurarea tipologic a datelor, orict de tentant ar fi, nu reprezint n mod necesar o soluie pentru orice problem de cercetare n psihologie. Nu trebuie s uitm c analiza de cluster nu este, n sensul propriu al termenului, o procedura de testare a ipotezelor de cercetare, iar soluiile sale sunt ntr-o msur destul de ridicat afectat de opiunile subiective ale cercettorului.


20 Actualizat la: 09.01.2008 19:50

Anexa 1. Tabelul Aglommeration schedule

Agglomeration Schedule

32 33 ,000 0 0 9

41 42 ,000 0 0 6

43 44 ,000 0 0 6

37 38 ,000 0 0 5

37 39 ,001 4 0 7

41 43 ,002 2 3 27

36 37 ,003 0 5 27

20 22 ,007 0 0 11

30 32 ,012 0 1 13

21 26 ,012 0 0 14

20 25 ,031 8 0 12

16 20 ,055 0 11 14

29 30 ,065 0 9 26

16 21 ,085 12 10 20

11 18 ,093 0 0 22

8 9 ,143 0 0 25

17 24 ,144 0 0 20

13 23 ,167 0 0 22

14 15 ,232 0 0 32

16 17 ,239 14 17 23

7 12 ,279 0 0 28

11 13 ,441 15 18 29

16 27 ,451 20 0 26

3 10 ,572 0 0 28

6 8 ,702 0 16 36

16 29 ,768 23 13 35

36 41 ,858 7 6 33

3 7 ,904 24 21 31

11 28 ,993 22 0 30

5 11 1,414 0 29 34

3 4 1,725 28 0 36

14 31 1,928 19 0 34

36 40 2,168 27 0 40

5 14 2,621 30 32 35

5 16 2,886 34 26 37

3 6 3,089 31 25 38

5 19 4,350 35 0 39

1 3 4,763 0 36 41

5 34 5,593 37 0 42

35 36 8,389 0 33 43

1 2 8,961 38 0 42

1 5 11,055 41 39 43

1 35 17,237 42 40 0

Stage

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

Cluster 1 Cluster 2

Cluster Combined

Coefficients Cluster 1 Cluster 2

Stage Cluster First

Appears

Next Stage

Paii la care coeficienii marcheaz salturi brute


21 Actualizat la: 09.01.2008 19:50

Anexa 2. Dendograma (liniile punctate sunt adugate ulterior, pentru a marca compoziia clusterelor)

Cluster 1 Seniori

Cluster 2 Restul

Cluster 3 Adjunci

analiza de cluster

Documents