numer 2-3(14) 2010

175

Upload: vodieu

Post on 11-Jan-2017

229 views

Category:

Documents


3 download

TRANSCRIPT

  • Na stronie www.scholar.com.pl mona take kupi (oprcz zeszytw archiwalnych) cae numery lub poszczeglne artykuy Psychologii Spoecznej za lata 20062010 w formacie PDF

    Z przyjemnoci informujemy, e czasopismo Psychologia Spoeczna znajduje si na licie czasopism wyrnionych przez Ministerstwo Nauki i Szkolnictwa Wyszego. Publikacje w kwartalniku punktowane s dziewicioma punktami. Zapraszamy do publikowania prac w naszym czasopimie.

    Redakcja

  • REDAKCJA CZASOPISMA

    Redaktor naczelny: MARIA LEWICKA Wydzia Psychologii, Uniwersytet Warszawski,

    e-mail: [email protected]

    Zastpcy redaktora: WOJCIECH CWALINA Szkoa Wysza Psychologii Spoecznej, Warszawa,

    e-mail: [email protected]

    JOANNA CZARNOTA-BOJARSKA Wydzia Psychologii, Uniwersytet Warszawski, e-mail: [email protected]

    DARIUSZ DOLISKI Szkoa Wysza Psychologii Spoecznej, Wydzia Zamiejscowy we Wrocawiu, e-mail: [email protected]

    ANNA KWIATKOWSKA Wysza Szkoa Zarzdzania i Prawa im. Heleny Chodkowskiej w Warszawie,e-mail: [email protected]

    SAWOMIR PIEWAK Instytut Psychologii, Uniwersytet Jagielloski, e-mail: slawek@ apple.phils.uj.edu.pl

    English language editor: JANINA PIETRZAK Wydzia Psychologii, Uniwersytet Warszawski,

    e-mail: [email protected]

    Copyright by Polskie Stowarzyszenie Psychologii Spoecznej

    Adres Redakcji:Redakcja Psychologii Spoecznej

    ul. Stawki 5/700-183 Warszawa

    e-mail: [email protected]: 022 635 79 91

    www.spoleczna.psychologia.pl

    ISSN 1896-1800

    Redakcja: Anna RopieckaKorekta: Joanna Barska

    Wydawnictwo Naukowe Scholar, ul. Krakowskie Przedmiecie 62, 00-322 Warszawatel./fax 022 828 95 63, 022 828 93 91, 022 826 59 21

    e-mail: [email protected], [email protected], www.scholar.com.plDruk i oprawa: Wojskowa Drukarnia w odzi

    nakad: 450 egz.

  • Spis treci

    113 Zaawansowane metody statystyczne. WprowadzenieTytus Sosnowski

    117 Wielowymiarowa analiza wariancji MANOVAElbieta Aranowska, Jolanta Rytel

    142 Analiza dyskryminacyjna. Podstawowe zaoenia i zastosowania w badaniach spoecznych Piotr Radkiewicz

    162 Analiza interakcji zmiennych kategorialnych i cigychTytus Sosnowski

    191 Co si kryje w nieistotnych efektach statystycznych? Moliwoci zastosowania analizy supresji w psychologii spoecznejAleksandra Cichocka, Micha Bilewicz

    199 Zastosowanie regresji logistycznej w badaniach eksperymentalnychBarnaba Danieluk

    217 Hierarchiczne modele liniowe. Co nam daj i kiedy warto je stosowaPiotr Radkiewicz, Marcin W. Zieliski

    234 Schemat powtarzanych pomiarw w ujciu analizy wielopoziomowej hierarchiczny model liniowy jako alternatywa dla analizy wariancji z powtarzanym pomiaremPiotr Zieliski

    260 Analiza przyczynowa poza metod eksperymentaln. Dwa przykady modeli przyczynowych wykraczajcych poza schemat eksperymentalny (wraz z rozwizaniami statystycznymi)Mariusz Trejtowicz, Katarzyna Jako

    273 O czasopimie

    273 Wskazwki dla autorw

    275 Wskazwki dla recenzentw

    277 Polskie Stowarzyszenie Psychologii Spoecznej

    277 Wadze

    278 Procedura przyjmowania nowych czonkw

    279 Aktywnoci

    279 Aktualnoci

    280 System edytorski (Editorial Manager) Psychologii Spoecznej

    281 Nagroda im. Solomona Ascha

    Numer specjalny: Zaawansowane metody statystyczneredaktor numeru: Tytus Sosnowski

  • Contents

    113 Advanced statistical methods. An introductionTytus Sosnowski

    117 Multivariate Analysis of Variance MANOVAElbieta Aranowska, Jolanta Rytel

    142 Discriminant analysis. Basic assumptions and applications in social research Piotr Radkiewicz

    162 Interaction among categorical and continuous variablesTytus Sosnowski

    191 What is hidden in nonsignificant effects? Application of suppression analysis in social psychologyAleksandra Cichocka, Micha Bilewicz

    199 Application of logistic regression in experimental researchBarnaba Danieluk

    217 Hierarchical linear models. On their advantages and reasons for applicationPiotr Radkiewicz, Marcin W. Zieliski

    234 Multilevel analysis for repeated measures hierarchical linear model as an alternative to the analysis of variancePiotr Zieliski

    260 Causal Analysis beyond the experimental method. Two examples of the nonexperimental causal models (with statistical solutions)Mariusz Trejtowicz, Katarzyna Jako

    273 About the Journal

    273 Information for the authors

    275 Information for the reviewers

    277 Polish Society of Social Psychology

    277 Authorities

    278 How to become a member

    279 Activities

    279 News

    280 Editorial Manager for Psychologia Spoeczna

    281 Solomon Asch award

    Special issue: Advanced statistical methodsIssue editor: Tytus Sosnowski

  • 113 Copyright 2010 Psychologia Spoeczna

    ISSN 1896-1800

    Zaawansowane metody statystyczne. Wprowadzenie

    Tytus SosnowskiWydzia Psychologii, Uniwersytet Warszawski

    Artyku stanowi wprowadzenie do zawartych w numerze prac, prezentujcych zaawansowane metody sta-tystyczne, tj. wielowymiarow analiz wariancji, analiz dyskryminacyjn, zastosowanie regresji wielo-krotnej do analizy interakcji, regresj logistyczn, hierarchiczne modele liniowe w zastosowaniu do analizy rnic miedzy osobami i midzy pomiarami oraz dwa problemy bardziej szczegowe: efekt supresji i ana-liz zalenoci przyczynowych w badaniach nieeksperymentalnych.

    Sowa kluczowe: zaawansowane metody statystyczne

    Szeroka dostpno komputerowych programw staty-stycznych oraz przyjaznych dla uytkownika podrczni-kw statystyki stosowanej sprawiy, e repertuar metod statystycznych, dostpny przecitnemu psychologowi, jest dzi nieporwnywalnie bogatszy ni jeszcze kilka dekad temu. Jednoczenie jednak bardzo wzrosy wyma-gania dotyczce metod analizy danych.

    Pewien wgld we wspczesne wymagania pod adre-sem kompetencji statystycznej psychologw daje raport opublikowany przez grup amerykaskich naukowcw (Aiken, West i Millsap, 2008), zawierajcy przegld pro-gramw nauczania statystyki, metod pomiaru i metodolo-gii na studiach doktoranckich prowadzonych w 201 uni-wersytetach amerykaskich. Przedstawione niej dane, zaczerpnite z tego raportu, pokazuj, jaki procent anali-zowanych uczelni uwzgldnia w programach nauczania doktorantw poszczeglne metody statystyczne na pozio-mie pogbionym, tzn. umoliwiajcym samodzielne ich stosowanie przez suchaczy we wasnych badaniach1.

    Najpowszechniej nauczan rodzin metod bya analiza wariancji (ANOVA) i metody jej pokrewne. W wikszoci programw doktoranckich uwzgldniona bya wieloczyn-nikowa analiza wariancji (80% uczelni), analiza kontra-stw a priori i kontrastw post hoc (79%), tradycyjna analiza wariancji z powtarzanymi pomiarami (72%) oraz

    analiza kowariancji (52%). W niewielu uczelniach (13%) nauczano natomiast analizy planw niekompletnych.

    Druga grupa metod to rne odmiany analizy regresji. W wikszoci programw znalazy si wielokrotna anali-za regresji liniowej (78%), hierarchiczna analiza regresji (57%) oraz analiza wariancji traktowana jako szczeglny przypadek analizy regresji (52%). Do czsto nauczane byy te analiza interakcji przy uyciu analizy regresji (42%) i testowanie zaoe analizy regresji (31%), rela-tywnie rzadko natomiast regresja logistyczna (9%).

    Trzecia grupa metod statystycznych okrelona zosta-a jako metody zaawansowane. Znalazy si tu metody wielozmiennowe, tj. wielowymiarowa analiza wariancji (MANOVA), korelacja kanoniczna i analiza dyskrymina-cyjna (26%), analiza powtarzanych pomiarw przy uy-ciu metody MANOVA (29%) oraz modele rwna struk-turalnych (12%).

    W skad czwartej grupy metod weszy: analiza mocy te-stw statystycznych (36%), szacowanie istotnoci (32%) oraz metody intensywne komputerowo (computer inten-sive statistics), takie jak np. bootstrapping (4%).

    W 44% uczelni uczono w sposb pogbiony tradycyj-nych statystyk opisowych, a w 10% uczelni nowocze-snych graficznych metod prezentacji wynikw.

    Jak wida, repertuar metod statystycznych, uwzgld-nionych w analizowanych programach zaj dla dokto-rantw, jest bardzo obszerny, cho wystpuj due r-nice midzy poszczeglnymi uczelniami. Warto jednak pamita, e przytoczone statystyki obejmuj tylko na-uczanie na poziomie pogbionym. Gdyby uwzgldni

    Tytus Sosnowski, Wydzia Psychologii, Uniwersytet War-szawski, ul. Stawki 5/7, 00183 Warszawa, e-mail: [email protected]

    Psychologia Spoeczna2010 tom 5 23 (14) 113116

  • 114 TYTUS SOSNOWSKI

    nauczanie na poziomie mniej pogbionym, procenty te byyby wysze. W raporcie pominito te najbardziej podstawowe metody statystyczne, nauczane na niszych szczeblach edukacji uniwersyteckiej.

    Celem tego podwjnego numeru Psychologii Spoecznej jest przyblienie czytelnikom niektrych bardziej zaawan-sowanych metod statystycznych. W numerze znalazy si: wielowymiarowa analiza wariancji (multivariate analy-sis of variance MANOVA), analiza dyskryminacyjna (discriminant analysis), analiza wielokrotnej regresji li-niowej (multiple regression MR), regresja logistyczna (logistic regression) oraz hierarchiczne modele liniowe (hierarchical linear modeling HLM), zwane te mode-lami wielopoziomowymi (multilevel modeling MLM) w zastosowaniu do analizy rnic midzy osobami oraz analizy powtarzanych pomiarw. Oprcz tego, numer zawiera dwa artykuy, ktrych tematem s zagadnienia bardziej szczegowe: (1) analiza efektu supresji, czyli efektu pozornego braku wpywu zmiennej niezalenej na zmienn zalen, spowodowanego oddziaywaniem innej lub innych zmiennych, oraz (2) analiza zalenoci przy-czynowych w zoonych planach badawczych uwzgld-niajcych zmienne manipulowane i zmienne mierzone. Jak wskazuje cytowany wyej raport Aiken i wsppra-cownikw (2008), wikszo metod omawianych w ni-niejszym numerze zaliczana jest do podstawowego reper-tuaru metod statystycznych stosowanych w psychologii. Znalazy si w nim jednak i takie metody, jak hierarchicz-ne modele liniowe, ktre pojawiy si zaledwie trzy deka-dy temu, a do praktyki badawczej w naukach spoecznych weszy w latach dziewidziesitych XX wieku. Poniej zamieszczam krtkie wprowadzenie do problematyki ar-tykuw zamieszczonych w numerze.

    Zdarza si, e badacza interesuje porwnanie dwu lub wicej grup na wymiarach wielu zmiennych zalenych jednoczenie. Jeli zmienne zalene s ortogonalne (nie-skorelowane ze sob), rozwizaniem problemu moe by przeprowadzenie oddzielnej, jednowymiarowej analizy wariancji (ANOVA) dla kadej zmiennej zalenej. Jeli jednak, jak to si czsto zdarza, zmienne te s skorelo-wane, ANOVA nie jest waciw metod analizy danych. Rnice na wymiarach kilku rnych zmiennych zale-nych mog by bowiem faktycznie, w wikszym lub mniejszym stopniu, miar tego samego efektu. Metod suc do rozwizywania tego typu problemw jest wie-lowymiarowa analiza wariancji (MANOVA), ktra po-zwala oszacowa wpyw zmiennej grupowej na cay zbir zmiennych zalenych z uwzgldnieniem ich wzajemnego skorelowania, a wic oszacowa wielowymiarowy efekt zmiennej grupowej.

    Analiza dyskryminacyjna traktowana jest jako uzupe-nienie metody MANOVA. Zamy, e porwnujemy kilka grup pod wzgldem wielu skorelowanych ze sob zmiennych zalenych. Analiza dyskryminacyjna pozwa-la przedstawi rnice midzy k grupami przy uyciu k 1 ortogonalnych wzgldem siebie wymiarw (funk-cji dyskryminacyjnych), bdcych liniow kombinacj oryginalnych zmiennych zalenych (funkcja deskryp-tywna analizy dyskryminacyjnej). Wymiarom tym mona nada interpretacj merytoryczn (np. psychologiczn). Drug funkcj analizy dyskryminacyjnej jest moliwo przewidywania przynalenoci osb badanych do jednej z kilku grup w oparciu o liniow kombinacj mierzonych zmiennych. Przykadowo, znajc rne czynniki ryzyka zachorowania na chorob wiecow (np. wiek, liczba wy-palanych papierosw, poziom cholesterolu itp.) moemy znale tak liniow kombinacj tych zmiennych, ktra pozwoli najlepiej przewidzie, czy dana osoba znajdzie si za okrelony czas w grupie osb zdrowych, czy te w grupie osb chorych na serce.

    Analiza wariancji moe by traktowana jako szczegl-ny przypadek wielowymiarowej analizy regresji (MR). Za pomoc MR moemy analizowa efekty zmiennych cigych, efekty zmiennych kategorialnych, jak te efekty obu rodzajw zmiennych jednoczenie. W szczeglnoci MR umoliwia analiz interakcji midzy wszystkimi wyej wymienionymi rodzajami zmiennych. Wczenie zmiennych kategorialnych do MR wymaga jednak uprzedniego ich zakodowania w postaci dwukategorial-nych wektorw, a interpretacja wynikw takiej anali-zy wymaga przestawienia si z mylenia w terminach zmiennych wielokategorialnych na mylenie w terminach kontrastw. W wypadku interakcji, analiza taka pozwala w jednolity sposb interpretowa efekty gwne, proste i interakcyjne, niezalenie od rodzaju zmiennych nieza-lenych.

    Analiza regresji uwzgldnia skorelowanie zmiennych niezalenych, ale skorelowanie to stwarza czsto proble-my interpretacyjne. Efekty jednych zmiennych niezale-nych mog bowiem modyfikowa w rny sposb efekty innych zmiennych niezalenych. W szczeglnoci moe si zdarzy, e jaka zmienna niezalena (suppressor) powoduje pozorny brak efektu innej zmiennej niezale-nej i dopiero uwzgldnienie supresora w analizie danych pozwala uchwyci rzeczywiste zalenoci przyczyno-we. Przy okazji analizy supresji autorzy pracy pokazuj te zalety wykorzystania bootstrappingu do szacowania istotnoci efektw statystycznych obserwowanych w ba-daniach maych prb.

    Analiza wielokrotnej regresji liniowej pozwala prze-widywa warto zmiennej zalenej cigej na podstawie

  • ZAAWANSOWANE METODY STATYSTYCZNE. WPROWADZENIE 115

    znajomoci wartoci wielu zmiennych niezalenych ci-gych bd kategorialnych. Bywa jednak, e interesujca nas zmienna zalena jest dwukategorialna, czyli przybiera tylko dwie wartoci (np. przyjcie vs. nieprzyjcie na stu-dia wysze). Regresja logistyczna jest metod pozwalaj-c na przewidywanie wartoci takiej zmiennej w oparciu o predyktory mierzone zarwno na skali nominalnej, jak i interwaowej. Mwic cilej, pozwala ona oszacowa prawdopodobiestwo, z jakim dwukategorialna zmienna zalena przyjmie jedn z dwu wartoci. W niektrych wypadkach regresja logistyczna moe stanowi alterna-tyw dla analizy dyskryminacyjnej w jej funkcji predyk-tywnej.

    Wiele metod statystycznych zakada, e analizowane obserwacje s niezalene. Nie zawsze jednak zaoenie to jest spenione. Wyobramy sobie, e badamy absolwen-tw rnych uczelni i analizujemy wpyw ich osigni na studiach na wysoko zarobkw po ukoczeniu nauki. Jest zrozumiae, e zarobki absolwentw tej samej uczel-ni mog by bardziej podobne do siebie ni zarobki absol-wentw rnych uczelni, a zalenoci midzy zmiennymi mog si rni zalenie od tego, czy jednostk analizy bdzie absolwent, czy te uczelnia. Potraktowanie ab-solwentw rnych uczelni jako jednej grupy moe te prowadzi do niepodanego wzrostu wariancji bdu. Hierarchiczny model liniowy (Hierarchical Linear Model HLM) pozwala analizowa dane o wielopoziomowej strukturze, tj. dane, w ktrych jednostki niszego rzdu s zagniedone w jednostkach wyszego rzdu.

    Hierarchiczny model liniowy znajduje te zastosowanie w badaniach opartych na planie powtarzanych pomiarw i stanowi alternatyw dla tradycyjnych metod statystycz-nych, np. analizy wariancji z powtarzanymi pomiarami. ANOVA z powtarzanymi pomiarami ma mocne zaoenia (w szczeglnoci zaoenie sferycznoci) i stawia wiele innych wymaga, ktre nie zawsze mog by spenione. Na przykad dane musz by kompletne (kady badany musi by poddany pomiarowi tyle samo razy i w takich samych warunkach), a odstpy midzy pomiarami powin-

    ny by jednakowe dla wszystkich badanych. HLM jest pod tym wzgldem znacznie bardziej liberalny i umoli-wia elastyczniejsze podejcie do analizy danych. Oprcz tego HLM pozwala analizowa indywidualne zrnico-wanie efektw zwizanych z powtarzanymi pomiarami, ktre w analizie wariancji traktowane jest jako wariancja bdu.

    Najmocniejsz stron metod eksperymentalnych jest moliwo testowania hipotez o zalenociach przyczy-nowych. Nie wszystkie hipotezy przyczynowe jestemy jednak w stanie testowa metodami eksperymentalnymi. Czsto nieuniknione jest siganie po plany badawcze, w ktrych cz zmiennych nie jest lub nie moe by manipulowana. Dla analizy relacji przyczynowych w da-nych pochodzcych z takich planw badawczych natural-nym rodowiskiem jest oprogramowanie do modelowania rwna strukturalnych (np. Amos). W oprogramowaniu tym sformuowany wczeniej model zalenoci przy-czynowych midzy zmiennymi jest punktem wyjcia dla analizy statystycznej. Dla wielu problemw analizy przyczynowej rozwiza szuka musimy jednak w innym oprogramowaniu. Jednym z nich moe by oprogramo-wanie R.

    Mam nadziej, e przedstawione w numerze prace przyczyni si do wzrostu zainteresowania czytelnikw Psychologii Spoecznej zaprezentowanymi metodami analizy danych oraz oka si pomocne w stosowaniu tych metod.

    LITERATURA CYTOWANA:Aiken, L. S., West, S. G., Millsap, R. E. (2008). Doctoral training

    in statistics, measurement, and methodology in psychology. Replication and extension of Aiken, West, Sechrest, and Renos (1990) survey of PhD programs in North America. American Psychologist, 63, 1, 3250.

    PRZYPISY1. Dane dotyczce nauczania metod pomiaru i metodologii

    pominem jako niemajce bezporedniego zwizku z treci numeru.

  • 116 TYTUS SOSNOWSKI

    Advanced statistical methods. An introduction

    Tytus SosnowskiFaculty of Psychology, University of Warsaw

    AbstractThe article introduces the special issue of Social Psychology devoted to advanced statistical methods, i.e.: multivariate analysis of variance, discriminant analysis, application of multiple regression to the analysis of interaction, logistic regression, hierarchical linear models for between-subject and within-subject design, and two more specific topics: suppression effect and causal inference in a non-experimental design.

    Key words: advanced statistical methods

  • 117 Copyright 2010 Psychologia Spoeczna

    ISSN 1896-1800

    Wielowymiarowa analiza wariancji MANOVAElbieta Aranowska1, Jolanta Rytel21 Wydzia Psychologii, Uniwersytet Warszawski

    2 Instytut Psychologii, Uniwersytet Kardynaa Stefana Wyszyskiego

    Artyku dotyczy modelu wielowymiarowej analizy wariancji (MANOVA). W ramach wprowadzenia przed stawiono rnice midzy t metod i jednowymiarow analiz wariancji (ANOVA), rwnoczenie w ramach opisu podstawowych planw badawczych z powtarzanymi pomiarami na tej samej populacji pokazano te schematy badawcze, ktre dostarczaj takich danych, ktre z kolei mog by analizowane wycznie metodami MANOVA. Opisujc struktur formaln modelu, zaprezentowano podstawowe defi-nicje z nim zwizane, odwoujc si do odpowiadajcych im poj ANOVA i do naturalnego, intuicyjnego ich rozszerzenia w MANOVA, wykorzystujc wczeniejsz dyskusj o niezalenoci wartoci oczekiwa-nych zmiennych i wartoci miar zwizku dla par zmiennych (a dokadniej niezalenoci rednich arytme-tycznych i wartoci wspczynnika korelacji r-Pearsona). Zaprezentowano, na czym polega rozszerzenie zaoe MANOVA, postaci hipotez zerowych oraz statystyk testu. Zwrcono uwag na niejednoznaczno rozwizania formalnego (brak jednego ustalonego sprawdzianu testu) i przedstawiono te statystyki, ktre najczciej pojawiay si w pakietach statystycznych ostatnich dwu dziesicioleci. Ilustracj dla przedsta-wionych rozwiza formalnych by fikcyjny przykad dobrany dla najprostszego planu jednoczynnikowej, dwuwymiarowej analizy wariancji, dla ktrego wyznaczono zarwno rcznie, jak i za pomoc pakietu SPSS wartoci wszystkich wprowadzanych statystyk. Przedstawiono take przykad aplikacji wielowy-miarowej analizy wariancji w badaniach psychologicznych dotyczcych oceny efektywnoci pracy mene-derw, rwnoczenie podkrelajc niezbdno komplementarnego stosowania dwu statystycznych metod analizy danych: wielowymiarowej analizy wariancji i analizy dyskryminacyjnej.

    Sowa kluczowe: wielowymiarowa analiza wariancji MANOVA, analiza dyskryminacyjna, metody wielo-wymiarowe, statystyczne modele analizy danych

    Psychologia Spoeczna2010 tom 5 23 (14) 117141

    Plany badawcze dla metod analizy wariancjiMetodologia statystyki, zalena od rozumowania in-

    dukcyjnego, nie jest w peni skodyfikowana ani te wolna od kontrowersji. Rni uytkownicy, analizujc ten sam zbir danych, mog dochodzi do odmiennych wnioskw. Zazwyczaj dane zawieraj wicej informacji ni mona ujawni za pomoc dostpnych narzdzi sta-tystycznych. To, w jakim stopniu uytkownikowi uda si

    wydoby te informacje, zaley nie tylko od jego wiedzy, ale rwnie od wprawy i dowiadczenia. Czyni to staty-styk sztuk polegajc na dokonywaniu trafnych wybo-rw (Rao, 1994). Nieatwo dokonywa takich wyborw bez rzetelnej wiedzy na temat podstaw wybranych metod statystycznych oraz kryteriw wyboru odpowiedniej me-tody analizy. Nieatwo take wykorzystywa te metody w kompetentny sposb bez znajomoci ich ogranicze oraz uprawnionych (bd nie) interpretacji uzyskanych rezultatw analizy. Dynamicznie narastajca transmi-sja osigni wspczesnych nauk spoecznych, a take innych dyscyplin empirycznych stawia przed osobami je uprawiajcymi (zarwno w sposb czynny, jak i bier-ny) coraz trudniejsze do spenienia wymogi (Brzeziski, 2006).

    Podejmowane problemy badawcze rzadko maj prost struktur jednozmiennow (obejmujc jedn bd kilka zmiennych objaniajcych o niezalenych poziomach

    Elbieta Aranowska, Wydzia Psychologii, Uniwersytet War-szawski, ul. Stawki 5/7, 00183 Warszawa.Jolanta Rytel, Instytut Psychologii, Uniwersytet Kardynaa Ste-fana Wyszyskiego, ul. Wycickiego 1/3, budynek 14, 01938 Warszawa, e-mail: [email protected] skadaj serdeczne podzikowania Panu Profesorowi Andrzejowi Strzaeckiemu za yczliwo oraz wyraenie zgody na wykorzystanie wynikw bada i udostpnienie czci rezul-tatw przeprowadzonych analiz.

  • 118 ELBIETA ARANOWSKA, JOLANTA RYTEL

    wartoci oraz jedn tylko mierzaln zmienn analizowa-n, czyli objanian). W takiej sytuacji badacz powinien rozway zastosowanie modelu jednowymiarowej, jed-no- bd wieloczynnikowej analizy wariancji (ANOVA), jako e populacje wyrnione przez niezalene poziomy zmiennych objaniajcych to rozczne grupy obiektw stanowice populacje niezalene. W przebiegu procesu badawczego w naukach empirycznych o wyborze modeli statystycznej analizy danych naley myle ju na etapie operacjonalizowania analizowanych konstruktw, a brak rzetelnej wiedzy na temat bardziej zaawansowanych, wie-lowymiarowych modeli analizy moe nie tylko utrudni, ale wrcz uniemoliwi badaczowi waciwe na pozio-mie treciowym sformuowanie problemu.

    W podstawowych podrcznikach do nauczania staty-styki jej przydatno uzasadnia si koniecznoci ustale-nia optymalnego schematu badawczego do istniejcych ju hipotez. Trudno si z tym zgodzi! Gdyby przyj taki punkt widzenia, nowe metody analizy danych nie mo-gyby ani powstawa, ani si rozwija. Co gorsza, brak znajomoci metod wielowymiarowych moe ogranicza moliwo dostrzeenia przez badacza wielowymiaro-wej struktury podejmowanego problemu i jej specyfiki. Innymi sowy, statystyka determinuje twrcze stawianie hipotez badawczych. Taki wielowymiarowy sposb my-lenia ju ponad wier wieku temu postulowali Huberty i Smith (1982, s. 429).

    Model wielowymiarowej, jedno- lub wieloczynnikowej analizy wariancji (MANOVA) stosuje si zwykle, analizu-jc co najmniej dwie lub wicej mierzalnych zmiennych objanianych, przy czym analizowane populacje, iden-tyfikowane przez poziomy zmiennych objaniajcych, to wycznie populacje niezalene. W takiej sytuacji po-wstaje pytanie o wybr optymalnego modelu statystycz-nej analizy danych: MANOVA czy wielokrotne analizy jednowymiarowe (ANOVA)? Cho wybr wielowymia-rowej analizy wariancji wydaje si oczywisty badacz analizuje wicej ni jedn zmienn objanian to w spe-cyficznych przypadkach lepszym wyborem byoby prze-prowadzenie wielu analiz jednowymiarowych. Dzieje si tak na przykad wtedy (Huberty i Morris, 1989):

    gdy zmienne objaniane nie s ze sob powizane merytorycznie, tote mona traktowa je jako pojciowo niezalene (na przykad: wyobrania przestrzenna, za-dowolenie z ycia i perseweratywno). Oznacza to, e bardziej oglna struktura latentna wobec kadej z tych zmiennych nie jest (ale moe by) przedmiotem zaintere-sowania badacza;

    gdy badanie ma charakter eksploracyjny, a celem badacza jest sprawdzenie statusu metodologicznego no-wej, wprowadzonej zmiennej objanianej; chodzi zatem

    o efekty oddziaywa czynnika/czynnikw na t wanie zmienn;

    gdy wszystkie zmienne objaniane lub ich czci byy uprzednio analizowane w kontekcie jednowymiarowym oczywiste jest, e badacz w badaniach porwnawczych uwzgldni ten sam kontekst;

    gdy celem badacza jest wyselekcjonowanie grup o podobnej charakterystyce ze wzgldu na zmienne ob-janiane, co stanowi wymg konieczny do zaplanowania dalszych bada o charakterze eksperymentalnym.

    Model MANOVA staje si optymalnym wyborem, gdy badacz traktuje mierzalne zmienne objaniane jako powi-zane ze sob, a tym samym tworzce struktur relacyjn cech, ktr sensownie w caoci lub w czci da si interpretowa merytorycznie. Implikuje to potrzeb wy-onienia (ewentualnie) ich podzbioru moliwie najsilniej rnicujcego analizowane populacje niezalene (wska-zane przez poziomy zmiennych objaniajcych) oraz okrelenia wkadu kadej ze zmiennych w dyskryminacj midzy populacjami. Wspomniane aspekty okreli mo-na, odpowiednio, jako problem selekcji zmiennych i pro-blem ich uporzdkowania (Huberty i Morris, 1989).

    Rwnoczenie warto zauway, e dla decyzji o wy-borze modelu analizy nie bez znaczenia jest to, jaki sys-tem reprezentuj powizane ze sob zmienne. Badacz moe traktowa zmienne obserwowalne jako (powizane ze sob) przyczynowe wskaniki pewnej zmiennej (lub zmiennych) latentnej, ktr stara si ujawni czy odkry. Ale moe take przyj, e s one skutkiem empirycznym, czyli sposobem, w jaki manifestuje si owa zmienna la-tentna. W tym ostatnim przypadku badacz winien rozwa-y wykorzystanie modelu rwna strukturalnych, ktre stanowi lepsze rozwizanie ni model MANOVA (Bollen i Lennox, 1991; Cole, Maxwell, Arvey i Salas, 1993a).

    We wstpie do pierwszego wydania Wielowymiarowej analizy statystycznej Donald F. Morrison (1990, s. 11) zauwaa, e w wielowymiarowej analizie statystycznej stykamy si z obserwacjami wielu zmiennych dokonywa-nymi na tym samym obiekcie. Takie wanie obserwacje spotykamy czsto w socjologii, naukach spoecznych, behawioralnych oraz w medycynie: ceny towarw, czasy reakcji zdrowego organizmu czy te wyniki badania krwi u pacjenta s przykadami danych wielowymiarowych. Tak jak w statystyce jednowymiarowej, zakadamy, e prba skada si z wektorw obserwacji dokonywanych na rnych osobach czy te innych niezalenych od siebie obiektach. Niemniej jednak wsplne pochodzenie zmien-nych w jednym wektorze obserwacji powoduje, i zmien-ne te s zalene. Jest to wanie ta cecha, ktra odrnia analiz wielowymiarow od jej jednowymiarowego pier-wowzoru.

  • WIELOWYMIAROWA ANALIZA WARIANCJI MANOVA 119

    Rwnoczenie nie bez znaczenia jest, jaki status meto-dologiczny maj zmienne obserwowane na tym samym obiekcie, w konsekwencji na tej samej populacji: mog by to czciowo lub cakowicie treciowo rne zmien-ne, jedna zmienna badana wielokrotnie w zmieniajcych si warunkach lub jedna zmienna badana wielokrotnie w tych samych warunkach. W przypadku dwu ostatnich sytuacji mwi si o powtarzalnoci pomiaru, ale w dwu rnych aspektach:

    powtarzalno dowiadcze w tych samych warun-kach (badanie tego samego w identyczny sposb), ktra na poziomie pomiarowym, czyli wyniku mierzenia, na-zwana jest replikacj (replication) oraz

    powtarzalno dowiadcze w rnych warunkach (badanie tego samego przy zaoeniu dziaania rnych poziomw zmiennych niezalenych), ktr na poziomie pomiarowym wobec braku polskiego okrelenia mo-na by nazwa repetycj (repeated measures) (Aranowska, 2005, s. 12). Ilustracj wspomnianych wyej trzech sytu-acji stanowi Rysunek 1.

    Ze wzgldu na posta hipotez zerowych waciwych dla caej klasy metod analizy wariancji, mianowicie rw-no wartoci oczekiwanych (rednich) pewnych popu-lacji, wycznie w sytuacji (b) moliwe jest traktowanie planu badawczego jako najprostszego schematu analizy wariancji z cakowicie powtarzanymi pomiarami dla k--zalenych populacji (inaczej jednoczynnikowej analizy wariancji z cakowicie powtarzanymi pomiarami).

    W sytuacji (a) z powodu rnic merytorycznych mi-dzy analizowanymi zmiennymi lub te prawdopodobnej rnicy dugoci skal zmiennych porwnywanie war-toci oczekiwanych jest bezzasadne; badacz powinien zainteresowa si raczej metodami korelacyjnymi (na przykad takimi, jak modele regresji, eksploracyjne lub

    konfirmacyjne analizy czynnikowe, analizy kanoniczne czy modele rwna strukturalnych).

    W sytuacji (c), mimo e dugo skali przy kadym mierzeniu jest identyczna, porwnywanie wartoci ocze-kiwanych nie jest konieczne, poniewa z subiektywne-go zaoenia badacza nie zmieniy si warunki pomiaru, czyli kilka wartoci pomiarowych replikacji uzyskuje si w obrbie tego samego poziomu czynnika. Ewentualne zmiany wartoci pomiarowych u konkretnej osoby nie mog by zatem tumaczone przez dziaanie rnych po-ziomw czynnika kontrolowanego w badaniu, ale przez bliej nieznane fluktuacje bodcw losowych, wprowa-dzajce dyspersj wartoci pomiarowych, ktr mona oceni, obliczajc na przykad ich wariancj, i traktowa jako bd losowy, czy nazywajc krcej bd, co nie tylko czyni si we wszystkich modelach analizy wariancji z powtarzanymi pomiarami, ale co wicej dodatkowo zaleca uwzgldnianie w schematach bada replikacji po-miarw, aby mc ten bd szacowa.

    Po wprowadzeniu co najmniej jednego jeszcze poziomu czynnika kontrolowanego w badaniu, poziomu zmiennej objaniajcej, plan badawczy w sytuacji (a) i (c) zmieni si na tyle, e moliwe bdzie zastosowanie do analizy danych metod analizy wariancji. Jednak jaka to bdzie metoda, zaley od tego, czy nowy poziom ukonstytuuje populacje zalene wzgldem poprzednich, czy niezale-ne, jak pokazano na Rysunku 2.

    Na Rysunku 2 w dwu kolumnach sytuacja (a) i (c) przedstawiono cztery schematy badawcze.

    1) Tylko dolny rysunek sytuacji (a) stanowi podstawo-wy schemat dla MANOVA. Analiza danych z takich ba-da odbywaaby si poprzez zastosowanie k-wymiarowej (gdy rnych zmiennych mierzalnych: X, Y, , Z jest rwna k) i jednoczynnikowej (czynnik B o dwu niezale-nych poziomach wartoci) analizy wariancji. Aby prze-prowadzi obliczenia t metod, naley sprawdzi praw-dziwo wszystkich jej zaoe (opisanych niej).

    2) Na rysunku grnym w sytuacji (a) zaznaczono sche-matycznie dwukrotne badanie tej samej grupy osb wie-loma rnymi zmiennymi mierzalnymi. Z jednej strony wiadomo, e porwnywanie ich wartoci przecitnych jest albo bezzasadne (gdy dugo skal jest inna), albo mao informacyjne (gdy skale s tej samej dugoci, ale treci konstruktw do rne). Z drugiej za strony istniej dwa powtarzane pomiary stanowice populacje zalene dla kadej zmiennej oddzielnie. Analiza takich danych moe przebiega na wiele sposobw, w zaleno-ci od pytania badawczego. Podobnie jak w sytuacji (a) na Rysunku 1, stosowane tu metody statystyczne bd gwnie naleay do klasy metod stanowicych tzw. ogl-

    A1 A2 Ak

    a) X, Y, Z

    b) X1 X2 Xk

    c) X1, X2,, Xk

    Rysunek 1. Trzy podstawowe aspekty powtarzalnoci pomiaru: (a) sko-czona liczba rnych zmiennych objanianych mierzonych w tych samych ustalonych warunkach; (b) jedna konkretna zmienna objaniana mierzona w rnych warunkach (repety-cje po poziomach czynnika A); (c) jedna konkretna zmienna objaniana mierzona skoczon liczb razy w tych samych warunkach (replikacje).

  • 120 ELBIETA ARANOWSKA, JOLANTA RYTEL

    ny model liniowy (GLM por. np. Cohen, 1968; Graham, 2008). Tak wic np.:

    mona analizowa stabilno pomiaru poprzez okre-lenie wartoci i istotnoci korelacji r-Pearsona dla dwu pomiarw kadej zmiennej oddzielnie;

    mona zbudowa prosty model regresji objaniajcy drugi pomiar kadej zmiennej oddzielnie przez pomiar pierwszy;

    mona znale rnic, D, obydwu pomiarw dla kadej zmiennej oddzielnie i sprawdza testem t-Studen-ta, czy rednia zmiennej D rwna jest zeru (czy nie prze-suny si wartoci oczekiwane rodki cikoci skal w drugim badaniu);

    mona sprawdza, czy wektor rednich zmiennych D dla wszystkich zmiennych analizowanych cznie jest wektorem zerowym. Jest to sprawdzenie braku oddziay-wania nowych warunkw badania na wartoci przecitne caej struktury analizowanych zmiennych cznie. Warto pamita, e dziki cigle niepoprawionemu bdowi w oprogramowaniu pakietu SPSS hipotez tak weryfiku-je si przez uruchomienie w oglnym modelu liniowym opcji z powtarzanymi pomiarami po jednym czynniku dla najprostszego modelu mieszanego analizy wariancji i uycie testu efektw midzy obiektami (tests of betwe-en-subjects effects) (Aranowska, 2005);

    mona sprawdza wymiarowo (merytoryczn i for-maln) wszystkich zmiennych X, Y, , Z metodami eks-ploracyjnej lub konfirmacyjnej analizy czynnikowej, czy stosujc analiz kanoniczn (canonical analysis) (por. np. Harris, 1975);

    mona sprawdza sieci, relacje powiza midzy zmiennymi X, Y, , Z metodami analizy ciekowej

    (path analysis), wplatajc w cieki powtrzone pomiary, lub tworzc cieki ze zmiennych rnic pomiarw, D. Warto zauway, e pojcie korelacji kanonicznej i anali-zy cieek uzna mona za podstawy, na ktrych wyrosa nowoczesna klasa metod statystycznych wspomnianych niej, SEM;

    mona sprawdza istnienie cech ukrytych determi-nujcych nasilenie cech obserwowalnych X, Y, , Z, tworzc model ich wzajemnych relacji, wykorzystujc modelowanie rwna strukturalnych (structural equ-ation modeling SEM) (Graham, 2008) lub szczeglnie intensywnie ostatnio rozwijan podklas tych modeli, czyli modelowanie latentnych krzywych rozwojowych (latent growth curve modeling LGM) (Konarski, 2004; Preacher, Wichman, MacCallum i Briggs, 2008).

    Nie wyczerpano zapewne wszystkich moliwoci ana-lizy danych uzyskanych po uyciu omawianego wyej schematu bada dla sytuacji (a), bowiem mnstwo spe-cyficznych pyta badawczych moe uruchomi taki plan gromadzenia danych. Podobnie rzecz si ma z planem omwionym wczenie, gdzie podstawow metod anali-zy wydaje si MANOVA. To zawsze od decyzji badacza zaley posta hipotez i najlepszy sposb ich weryfikacji.

    Niej omwione zostan dwa schematy umieszczone w drugiej kolumnie Rysunku 2 nazwanej sytuacj (c).

    3) Na rysunku grnym zmienna replikowana k-krotnie mierzona jest dwa razy.

    Zgodnie z rozumieniem replikacji uzyskane wyniki sta-nowi ponowne, zwielokrotnione pomiary nasilenia ce-chy w tych samych warunkach dla uwiarygodnienia rze-telnoci operacji mierzenia. Wystarczy w tym przypadku jak miar syntetyczn z pierwszej grupy replikacji po-

    Sytuacja (a) Sytuacja (c)

    A1 A2 A1 A2

    B1 X, Y,, Z X, Y,, Z B1 X1, X2, Xk X1, X2, XkPopulacje zalene Populacje zalene

    A1 A1

    B1 X, Y,, Z B1 X1, X2, Xk

    B2 X, Y,, Z B2 X1, X2, XkPopulacje niezalene Populacje niezalene

    Rysunek 2. Rozwinicie podstawowych planw badawczych dla powtarzanych pomiarw przedstawionych na Rysunku 1 w sytuacji (a) i (c) poprzez wprowadzenie dodatkowego poziomu czynnika odpowiadajcego nowym warunkom badawczym.

  • WIELOWYMIAROWA ANALIZA WARIANCJI MANOVA 121

    rwna z t miar dla drugiej ich grupy, np. dwie wartoci oczekiwane (testem t-Studenta dla populacji zalenych) czy dwie wariancje (testem Fergusona). Oczywicie, je-li mimo operowania takim schematem badacz nie b-dzie chcia traktowa swoich wynikw jako grup repli-kacji odwzorowujcych dokadno pomiarw (w dwu rnych warunkach) i bdzie optowa przy traktowaniu ich jako powtarzanych pomiarw, moe zastosowa do porwnywania wartoci oczekiwanych ze szkod dla uytego rozwizania formalnego, a wic i dla interpreta-cji treciowej dwuczynnikow analiz wariancji z ca-kowicie powtarzanymi pomiarami (po dwu poziomach czynnika A oraz po k poziomach rozoonego w nim innego, nowego czynnika). Brak uwzgldnienia replika-cji w planach bada, ktrych wyniki mona analizowa metodami powtarzanych pomiarw, uniemoliwia we-ryfikowanie niektrych spord dopuszczalnych hipotez zerowych oraz powoduje, e statystyki F, stosowane do sprawdzenia czci pozostaych, moliwych do zweryfi-kowania hipotez, charakteryzuj si nieadekwatn wo-bec licznikw postaci mianownika (por. np. Brzeziski i Stachowski, 1984).

    4) Na dolnym schemacie w sytuacji (c) na Rysunku 2 wprowadzone niezalene dwa poziomy czynnika B im-plikuj zbieranie replikowanych k-krotnie wynikw jed-nej zmiennej w tych samych warunkach (jeden poziom czynnika A) w dwch prbach niezalenych. Podobnie jak w punkcie wyej, nieuwzgldnianie zmiennoci mi-dzy replikacjami moe prowadzi po wycigniciu z nich rednich do analizy danych testem t-Studenta dla dwu populacji niezalenych. Natomiast ignorowanie narzuconego przez samego badacza schematu z replika-cjami i uznawanie ich za powtarzane pomiary prowadzi go w tym przypadku do stosowania przy analizie danych np. dwuczynnikowej analizy wariancji z czciowo po-wtarzanymi pomiarami (po jakim czynniku nowym, dziaajcym na k poziomach zalenych, gdy czynnik B natomiast dziaa na dwch poziomach niezalenych).

    Dokadanie nowych poziomw zaznaczonych na Rysunku 2 czynnikw A i B zasadniczo nie zmieni klas proponowanych analiz, natomiast dokadanie nowych poziomw i nowych czynnikw (C, D, ) zwikszy wymiarowo przestrzenn planw MANOVA czy po-wtarzanych pomiarw (a zatem liczb dopuszczalnych hipotez, liczb niezbdnych zaoe, czn liczb prb i czasami liczb osb badanych w pojedynczej pod-prbie).

    MANOVA stosuje si najczciej wtedy, gdy prbuje si sprawdza pooenie wartoci oczekiwanych (rednich) grupy zmiennych mierzalnych cznie w rnych popula-cjach niezalenych (np. w rnych grupach osb). Jeeli

    te pooenia nie rni si, nie ma podstaw do uznania, e przyczyna podziau populacji na podpopulacje (efek-ty oddziaywania jakiego czynnika) realnie determinuje przesunicia rednich.

    Analiz wariancji z powtarzanymi pomiarami (cako-wicie bd czciowo) stosuje si najczciej wtedy, gdy prbuje si sprawdza pooenie wartoci oczekiwanej (redniej) jednej zmiennej mierzalnej w zmieniajcych si warunkach badania, a wic gwnie w rnych popu-lacjach zalenych (np. w tej samej grupie osb). Dodanie w schematach badawczych do przynajmniej jednego czynnika o poziomach zalenych nowego czynnika o poziomach niezalenych zmienia charakter planw z pomiarw cakowicie powtarzanych na powtarzane czciowo.

    Wymienione wyej dwie due klasy metod maj rne zaoenia formalne. Zaoenia metod dla powtarzanych pomiarw s mocniejsze. Gwne rnice wynikaj z r-nego traktowania wynikw pojedynczego elementu prby (osoby). W planie MANOVA i-ta osoba w konkretnych warunkach badania (przy konkretnym poziomie czynni-ka) charakteryzuje si wartociami: xi, yi, , z. Liczby te okrelaj nasilenia rnych zmiennych poprzez swoje pooenie w pewnych miejscach na skalach tych zmien-nych, skalach by moe o rnej dugoci. Zatem warto 8 na skali X wcale nie musi by wiksza od wartoci 6 na skali Y, jeli tylko skala Y jest dostatecznie krtsza (nasi-lenie cechy odpowiadajce pomiarowi rwnemu 8 przy skali 40-punktowej jest znacznie mniejsze, ni nasilenie cechy odpowiadajce pomiarowi rwnemu 6 przy skali 20-punktowej; wystarczy w tym celu porwna uamek 8/40 = 0,2 z uamkiem 6/20 = 0,3). Dlatego nie ma moli-woci operowania pojciem zmiennoci dla cigu warto-ci x1, y1,, z1. Konsekwentnie bezsensowne jest liczenie wartoci jakiejkolwiek miary rozproszenia, np. wariancji tych pomiarw.

    Odwrotnie w sytuacji pomiarw powtarzanych: obo-wizkowo musimy ocenia zmienno wartoci i-tej oso-by: x1i, x2i,, xki, by testowa hipotez o dynamice redniej zmiennej X w rnych, k, warunkach badania. Wariancja wynikw pojedynczego elementu prby estymuje warian-cj populacji tych wszystkich elementw, ktre reaguj na zmieniajce si warunki, tak jak ten element.

    Uwzgldnianie bd nieuwzgldnianie pewnych zmien-noci pomiarw w rnych metodach statystycznych odrnia je od siebie midzy innymi na poziomie treci zaoe i w konsekwencji przyjmowanych rozwiza formalnych. Podsumowujc, nie ma moliwoci zastpo-wania jednej metody statystycznej inn bez straty jakich informacji czy zysku innych. Naturalnie wpywa to na in-terpretacj merytoryczn wynikw tych metod.

  • 122 ELBIETA ARANOWSKA, JOLANTA RYTEL

    Niezaleno analizy wartoci oczekiwanych i analizy zalenoci midzy zmiennymi mierzalnymi

    Analiza struktury powiza midzy zmiennymi obja-nianymi jest absolutn powinnoci kadego badacza przynajmniej z dwch wanych powodw. Pierwszy z nich jest natury merytorycznej, drugi za formalnej. W empirii rzadko ma si do czynienia ze zmiennymi, ktre s ze sob parami nieskorelowane, dlatego badacz bezwzgldnie musi okreli si i kierunki powiza tych zmiennych, poniewa to wanie zakres skorelowania midzy zmiennymi warunkuje moliwo analizowania i interpretowania rnic midzy wartociami oczekiwa-nymi tych zmiennych w rnych populacjach. Poniszy prosty przykad ilustrujcy podstawowy schemat dla metody MANOVA (dwie zmienne objaniane o rnym stopniu skorelowania oraz jedna zmienna objaniajca o dwch niezalenych poziomach wartoci), dobrze do-kumentuje t tez.

    Przykad 1. W dwch 5-osobowych, losowych, nieza-lenych prbach dokonano pomiaru dwch zmiennych objanianych Y1 i Y2, mierzonych na skalach o rnej dugoci. Rozpatrzmy teoretycznie moliwe trzy sy-tuacje. W kadej z nich inny jest stopie skorelowania zmiennych objanianych (wspczynnik korelacji pomi-dzy zmiennymi Y1 i Y2 dla kadej z trzech sytuacji ozna-czony jest symbolem r z indeksem i = 1, 2, oznaczajcym odpowiednio obie grupy, za symbolem r oznaczono urednion korelacj dla obu grup), natomiast takie same pozostaj rednie zmiennych objanianych Y1 i Y2 (ozna-czone jako y) oraz ich wariancje (oznaczone jako s2) i od-chylenia standardowe (oznaczone jako s).

    Wprowadzenie do eksperymentu dwu zmiennych obja-niajcych oznacza, e z pewnego punktu widzenia wa-nie one obydwie opisuj to zjawisko, ktre badacz chce szczegowo analizowa. W jakim aspekcie zatem ba-dacz bdzie myla o wpywie (w sensie funkcjonalnym, a nie przyczynowym) zmiennej objaniajcej na badane zjawisko? Logika nasuwa odpowied: bdzie on myla o wpywie czynnika na ca struktur zmiennych obja-nianych, czyli o cznym wpywie na obydwie zmienne, a nie na kad z nich oddzielnie. Jeeli przy przechodze-niu z jednego poziomu czynnika na drugi, rednie zmien-nych objanianych nie tylko nie pozostaj w tych samych miejscach na skali zmiennej, ale zmieniaj si w tych sa-mych kierunkach we wszystkich zmiennych, gdy zmien-ne s nieskorelowane, to wpyw czynnika jest znacznie wikszy na t struktur ni wtedy, gdy tylko cz zmien-nych zachowuje si wedug tej zasady lub wtedy, gdy s one skorelowane. Jeli nie ma wsplnej dla caej grupy reguy przyporzdkowa midzy wartociami zmiennych

    objanianych i przyporzdkowania te s przypadkowe (czyli warto wspczynnika korelacji = 0) tak w caej populacji, jak i w podpopulacjach wyznaczonych przez poziomy zmiennej objaniajcej, to wpyw czynnika jest znaczny, jeli jego efektem jest przesunicie wartoci wszystkich zmiennych w tym samym kierunku z pozio-mu na poziom. Tote warto testu weryfikujcego hipo-tez zerow o braku wpywu zmiennej objaniajcej na grup zmiennych objanianych, przy tej samej rnicy rednich w prbach, powinna by wysza przy braku korelacji midzy zmiennymi ni przy jej istnieniu (por. Tabachnik i Fidell, 2001).

    Z tego powodu rnice midzy rednimi grupowymi we wszystkich trzech przedstawionych powyej sytuacjach, mimo i s identyczne dla zmiennej Y1 i identyczne dla zmiennej Y2, powinny by traktowane jako coraz sab-sze przy coraz wikszym skorelowaniu tych zmiennych. Zatem warto testu weryfikujcego hipotez o braku wpywu czynnika na struktur zmiennych powinna by najwysza w sytuacji I oraz odpowiednio nisza w pozo-staych sytuacjach.

    Rozwamy sytuacj, w ktrej korelacje midzy zmien-nymi w populacji i wszystkich podpopulacjach s maksy-malne. To, e zmienne s od siebie liniowo zalene, nie ma wpywu na stopie ani kierunek zmian rednich przy zmianie poziomw czynnika: (a) rnica moe by nie-istotna statystycznie, (b) moe by istotna, a rednie dla obydwu zmiennych zgodnie malej bd rosn, (c) moe by istotna, jednake rednie dla jednej zmiennej wzro-sy, a dla drugiej zmalay. Jednorodny wpyw czynnika wystpi tylko w sytuacji (b) i j wanie chcielibymy premiowa, wyraajc to wikszymi wartociami testu weryfikujcego hipotez o braku wpywu czynnika. Tote warto testu weryfikujcego hipotez zerow o braku wpywu czynnika na grup zmiennych, przy tej samej i w tych samych kierunkach rnicy rednich w prbach, powinna by wysza przy bardzo silnej korelacji midzy zmiennymi ni wtedy, gdy tylko jedna zmienna czcio-wo wyjania drug.

    Z powyszych rozwaa wynika niezwykle wany wniosek. Ot nasze przewidywania o zmianach tendencji centralnych zmiennych maj sens wycznie wtedy, gdy zaoymy sta struktur powiza midzy tymi zmien-nymi w populacji i podpopulacjach wyznaczonych przez poziomy czynnikw. Gdyby zupenie dowolnie zmieniay si powizania zmiennych przy przechodzeniu z poziomu na poziom czynnikw, nasze spekulacje dotyczce red-nich nie miayby adnego sensu oraz praktycznie niemo-liwe staoby si skonstruowanie testu ujawniajcego te wszystkie zmiany.

  • WIELOWYMIAROWA ANALIZA WARIANCJI MANOVA 123

    Tabela 1. Niezaleno wspczynnika siy zwizku dwu zmiennych od miar tendencji centralnej

    Grupy Lp. Sytuacja 1 Sytuacja 2 Sytuacja 3

    Y1 Y2 Y1 Y2 Y1 Y2

    Grupa I

    1 6 100 06 100 06 100

    2 5 070 05 090 05 090

    3 6 040 06 100 06 100

    4 4 090 04 070 04 070

    5 4 100 04 040 04 040

    25 400 25 400 25 400y1 5 080 5 080 05 080

    s12 4

    42600

    444

    26004

    44

    26004

    s1 1 25,5 01 25,5 01 25,5

    r1 0,4903 cov =

    504 0,8825

    cov = 904

    0,8825 cov = 904

    Grupa II

    6 8 110 08 80 08 110

    7 7 100 07 110 07 100

    8 8 080 08 110 08 110

    9 6 100 06 100 06 080

    10 6 110 06 100 06 100

    35 500 35 500 35 500y2 7 100 07 100 07 100

    s22 4

    4600

    444

    6004

    44

    6004

    s2 1 12,25 01 12,25 01 12,25

    r2 0,4083 cov = 20

    4 0,2041cov = 10

    4 0,8165cov = 40

    4

    Estymatory nieobcione (z dwu prb n1 i n2)

    y 6 090 06 090 06 090

    s 1 020 01 020 01 020

    r 0,4375 0,5000 0,8125

    Tote oprcz rwnoci wariancji kadej zmiennej ob-janianej we wszystkich podpopulacjach to zaoenie znamy z analizy wariancji jednowymiarowej (ANOVA) podstawowym, drugim i rwnie wanym zaoeniem wielowymiarowej analizy wariancji jest identyczno ko-relacji albo co jest warunkiem rwnowanym iden-tyczno kowariancji kadej pary zmiennych objania-nych we wszystkich podpopulacjach wyznaczonych przez poziomy czynnikw kontrolowanych w badaniu.

    Jak warto (jeszcze nieznanej) statystyki weryfikuj-cej brak efektw oddziaywania czynnika na zmienne ob-janiane spodziewamy si uzyska w kadej z trzech roz-waanych powyej sytuacji (por. Tabela 1)? Na samym dole Tabeli 1 s podane odchylenia standardowe zmiennej Y1 i Y2. Ot rednie zmiennej Y1 rni si o dwa od-chylenia standardowe populacji (1 1 1 =s ), przy czym rednia w drugiej grupie jest wysza. Podobnie, rednie zmiennej Y2 rni si dokadnie o jedno odchylenie

  • 124 ELBIETA ARANOWSKA, JOLANTA RYTEL

    standardowe populacji ( 2 2 20 =s ), rednia w grupie drugiej jest rwnie wysza. Reasumujc, rednie obu zmiennych Y1 i Y2 rni si w grupie pierwszej i drugiej zwaywszy na identyczn liczb badanych w kadej prbie prawie tak samo w sensie liczby bdw standar-dowych oraz x x2 1> dla obu zmiennych. Uwzgldniajc zatem zwizek tych zmiennych, spodziewamy si wy-szych wartoci statystyki weryfikujcej hipotez o braku wpywu czynnika w sytuacji I i III oraz niszej wartoci tej statystyki w sytuacji II (rozwizanie tego przykadu przedstawione zostanie dalej).

    Zaoenia analizy wielowymiarowejKadej osobie badanej przyporzdkowanych jest

    p wartoci pomiarowych, ktre odpowiadaj okrelonym zmiennym objanianym: Y1, Y2,, Yp (w przykadzie 1 p = 2). Dla kadego badanego otrzymalimy zatem p-wy-miarowy wektor obserwacji1. Gdybymy potrafili wy-obrazi sobie ukad wsprzdnych skadajcy si z p osi, to ten zbir p liczb dla jednej osoby okrelaby dokadnie jeden punkt p-wymiarowej przestrzeni, rwnoznaczny z kocem wektora obserwacji (pocztkiem wektora jest pocztek ukadu).

    W przykadzie 1 jest to przestrze dwuwymiarowa i a-two wszystkie te punkty koce wektorw odtworzy dla dziesiciu osb. Zrbmy to dla sytuacji III z przyka-du 1. Na Rysunku 3 wida, e dla kadej osoby nie s to punkty rne, np. punkt (6, 100) wystpi a trzy razy, co zostao zaznaczone liczbami znajdujcymi si obok kadego z nich. Zamiast tych liczb, mona byoby wy-prowadzi trzeci o, o frekwencji i punktowi (6, 100) przyporzdkowa trzy jednostki z tej osi. Powstaaby zatem ju nie dwu-, ale trjwymiarowa przestrze (przy p zmiennych p + 1-wymiarowa), w ktrej ostatni wymiar zarezerwowany zostaby dla zliczania, ile razy dany punkt (a tym samym wektor) wystpi w badaniu.

    Nie wiemy, jak wygldaby taki rozkad frekwencji w populacji, nie wiemy te, ktre wartoci wystpuj naj-czciej, a ktre najrzadziej. Tote zamiast o frekwencjach przyporzdkowanych dyskretnym parom liczb natural-nych odpowiadajcym wartociom skal obydwu zmien-nych mylc o populacji mwimy (po niezbdnej idealizacji w postaci uciglenia tych zmiennych) o praw-dopodobiestwach, a precyzyjniej o funkcji gstoci prawdopodobiestwa dla dwu zmiennych cznie, czyli o dwuzmiennowej funkcji gstoci prawdopodobiestwa.

    Wielowymiarow analiz wariancji (MANOVA) mo-na posugiwa si wtedy, gdy te p-wymiarowe wektory obserwacji pochodz z populacji o p-wymiarowym roz-kadzie normalnym prawdopodobiestwa. Zaoenie to jest zgodne z podobnym zaoeniem dla jednowymiaro-

    wej analizy wariancji (ANOVA) dotyczcym normalno-ci rozkadu prawdopodobiestwa zmiennej objanianej w populacji. Kady taki p-wymiarowy wektor w prze-strzeni cech ma wic okrelon przez rozkad normalny szans pojawienia si w naszej prbie, jeli pochodzi ona z populacji o tym rozkadzie.

    Zastanwmy si, co charakteryzuje ten rozkad. Rozkad jednej zmiennej jest scharakteryzowany przez redni populacji oraz wariancj. Podobnie dla rozkadu zmiennej zoonej z wielu zmiennych z p zmiennych, jak krtko powiemy dla (wektorowej) zmiennej p-wymia-rowej okrelone s dwa parametry charakteryzujce ten rozkad. Zamiast jednej redniej mamy teraz p rednich w populacji, jedn dla kadej zmiennej. Zatem pierw-szym parametrem jego rozkadu jest wektor , rwny:

    ( )1

    1

    2

    =

    M

    p

    Rysunek 3. Geometryczny obraz wartoci uzyskanych dla dwu zmien-nych w prbie dziesicioosobowej (przykad 1, sytuacja III).

  • WIELOWYMIAROWA ANALIZA WARIANCJI MANOVA 125

    Drugi parametr rozkadu zaley nie tylko od wariancji wszystkich p zmiennych, ale take od stopnia powiza midzy nimi. Jest nim macierz kowariancji , postaci:

    ( )2

    11 12 1

    21 22 2

    1 2

    =

    K

    K

    K K K K

    K

    p

    p

    p p pp

    gdzie ii oznacza wariancj w populacji kadej i-tej zmiennej Yi, dla i = 1, 2,, p, natomiast ij oznacza kowa-riancj zmiennych Yi z Yj w populacji dla i = 1, 2, , p, j = 1, 2, , p oraz i j.

    Przez analogi do rozkadu jednej zmiennej, drugi para-metr rozkadu powinien by zaleny od wariancji wszyst-kich badanych p zmiennych. Istotnie, takie wariancje znajduj si na gwnej przektnej macierzy (2)2. W jaki sposb estymuje si posta macierzow tego parametru? Odpowied jest prosta: rozproszenie wynikw w takiej p-wymiarowej przestrzeni zaley od stopnia powiza zmiennych objanianych, czyli osi ukadu wsprzd-nych, na ktrych rozpina si przestrze naszych wek-torw obserwacji. Wystarczy przeanalizowa ten fakt, odwoujc si do sytuacji III omawianego przykadu 1. rednia korelacja pomidzy Y1 i Y2 (oznaczona jako r ) rwna jest tam 0,8125 i jest istotna statystycznie. Mona przypuszcza, e w populacji istnieje silny zwizek do-datni midzy Y1 i Y2, co oznacza, e duym wartociom zmiennej Y1 odpowiadaj z reguy due wartoci zmiennej Y2, maym wartociom Y1 mae wartoci Y2. Szansa, e takie wanie pary pojawi si w prbie, jest znacznie wysza ni szansa, e pojawi si inne mieszane pary wartoci, tzn. mae z duymi. Zatem w rozwaanej przestrzeni trjwymiarowej, w ktrej dwie osie stanowi odpowiednio zmienne objaniane Y1 i Y2, a trzeci prawdopodobiestwo realizacji wartoci obydwu zmien-nych cznie, ksztat funkcji gstoci dwuwymiarowego rozkadu normalnego zostanie wyduony wzdu linii re-gresji midzy Y1 i Y2 (por. Koronacki i Mielniczuk, 2001, rys. 2.9, s. 133). Na tej linii bowiem s najwysze praw-dopodobiestwa dla par wartoci Y1 i Y2 w najbliszym pooeniu punktu (1, 2). Im dalej od tego punktu na linii regresji, tym bardziej malej prawdopodobiestwa zre-alizowania par wartoci obydwu zmiennych, ale i tak s one znacznie wysze ni prawdopodobiestwa realizacji punktw nielecych na tej prostej.

    Gdyby ci czubek takiego wyduonego (przy bardzo silnej korelacji midzy zmiennymi) dwuwymiarowego normalnego rozkadu prawdopodobiestwa wzdu pasz-czyzny rwnolegej do paszczyzny Y1, Y2, wtedy brze-

    gi wyznaczonej warstwicy byyby bardzo wsk elips. Elipsa ta to linia tych samych wartoci funkcji gstoci dwuwymiarowego rozkadu prawdopodobiestwa. Im bardziej maleje zaleno midzy zmiennymi w popula-cji, tym bardziej te wskie elipsy odpowiadajce tym samym wartociom funkcji gstoci prawdopodobiestwa rozszerzaj si, przyjmujc posta okrgu w skrajnym przypadku, gdy korelacja rwna jest dokadnie zeru.

    Wida wic, e o rozrzutach wartoci obu zmiennych nie decyduj wycznie wariancje tych zmiennych, ale take sia powiza midzy ich wartociami. Std dla p zmiennych drugi parametr rozkadu prawdopodobie-stwa jest zaleny i od wariancji, i od kowariancji par zmiennych.

    Oczywicie nie znamy ani , ani . Jednake na podsta-wie prby moemy ustali nieobcione oceny obydwu parametrw populacji. Estymatorem nieobcionym wek-tora jest wektor rednich w prbie (dla zmiennych Y1,

    , Yp). W naszym przykadzie jest to wektor y =

    690

    .

    Natomiast estymatorem nieobcionym macierzy jest macierz urednionych kowariancji S, postaci:

    ( )3

    11 12 1

    21 22 2

    1 2

    S

    s s ss s s

    s s s

    p

    p

    p p pp

    =

    K

    K

    K K K K

    K

    gdzie na przektnej znajduj si urednione wariancje zmiennych Y1, , Yp z dwu badanych grup, natomiast symetrycznie powyej i poniej gwnej przektnej s urednione kowariancje par zmiennych, np. s1p oznacza kowariancj zmiennej Y1 i Yp itd.3 W sytuacji III oma-wianego przykadu macierz S ma posta (por. wartoci w Tabeli 1):

    ( )4

    4 48

    90 408

    90 408

    2600 6008

    S =

    + +

    + +

    =

    =

    =

    88

    1308

    1308

    32008

    1 16 2516 25 400

    ,,

    Konkluzj jest gwne zaoenie wielowymiarowej analizy wariancji: p-wymiarowe wektory obserwacji pochodz z populacji, w ktrej p-wymiarowa (wektoro-wa) zmienna losowa ma rozkad normalny z parametra-

  • 126 ELBIETA ARANOWSKA, JOLANTA RYTEL

    mi , , co oznaczamy krtko jako N(, ). Zmienna ta ma ponadto rozkad normalny w kadej z podpopulacji, wyznaczonej przez poziomy czynnikw i ich przecicia, z parametrami np. dla i-tej podpopulacji rwnymi i, , czyli N(i, ).

    Zaoenie to zawiera wszystkie zaoenia jednowy-miarowej analizy wariancji oraz jedno dodatkowe: za-oenie o identycznoci kowariancji dla ustalonej pary zmiennych we wszystkich rozwaanych podpopulacjach. Identyczno wariancji i kowariancji wyraa si tu w tej samej macierzy .

    Podsumujmy w punktach podane wyej zaoenia MANOVA:

    1. Wszystkie zmienne objaniane cznie musz mie wielowymiarowy rozkad normalny w populacji i wszyst-kich niezalenych podpopulacjach wyznaczonych przez poziomy czynnikw i ich przecicia.

    2. Kada zmienna objaniana ma homogeniczne wa-riancje we wszystkich niezalenych podpopulacjach wy-znaczonych przez poziomy czynnikw i ich przecicia.

    3. Konkretne pary zmiennych objanianych maj ko-wariancje identyczne we wszystkich niezalenych pod-populacjach wyznaczonych przez poziomy czynnikw i ich przecicia. Rne pary mog oczywicie mie rne kowariancje w danej podpopulacji. Zaoenie rnoci kowariancji dla rnych par zmiennych nie jest dopusz-czalne np. w metodach z powtarzanymi pomiarami; jest to jedna z waniejszych rnic midzy metodami.

    4. Losowych, niezalenych (zewntrznie i wewntrznie) podrb jest tyle, ile wynosi iloczyn poziomw czynnikw kontrolowanych w badaniu (zmiennych objaniajcych).

    5. Wszystkie te podprby s koniecznie tej samej li-czebnoci (w przeciwnym razie statystyka, ktr intu-icyjnie konstruujemy przez analogi do przypadku jed-nowymiarowego nie bdzie miaa adnego ze znanych rozkadw prawdopodobiestwa, w szczeglnoci tego, na ktrym nam zaley, czyli rozkadu prawdopodobie-stwa F Fishera Snedecora).

    Sprawdzenie zaoe przedstawionych wyej jest ko-nieczne. Prawdziwo zaoenia pierwszego nie do koca moe by wykazana z powodu braku adekwatnego opro-gramowania komputerowego. Dlatego badacze czsto w tej sytuacji odwouj si do teorii odpornoci testw statystycznych na pogwacenie tego zaoenia (robust theory), ktra w przypadku jednowymiarowym orzeka, e wystarczy rozkad w miar symetryczny i jednomodal-ny, niekoniecznie normalny, przy czym wielko kurtozy, czyli stopnia spaszczenia/smukoci rozkadu, nie moe by znaczna.

    W przypadku wielu zmiennych objanianych w prak-tyce badawczej prbuje si omin problem, analizujc

    choby dwuzmiennowe rozkady frekwencji prbkowych (Stevens, 2002, s. 263), naturalnie po wczeniejszym za-dbaniu o znaczne rozmiary prb. Rwnoczenie rekomen-dowane jako praktyczne bo atwe do przeprowadzenia rozwizanie, polegajce na sprawdzaniu normalnoci roz-kadu kadej ze zmiennych objanianych z osobna (Field, 2009, s. 593), wydaje si mniej zasadne ni sprawdzanie normalnoci dwuwymiarowej dla kadej pary zmiennych. Normalno rozkadw dwuwymiarowych dostarcza in-formacji o najprostszym przypadku zoenia zmiennych partycypujcych w caej wielowymiarowej strukturze, umoliwiajc pierwszy wgld w zachowanie zmiennych (czego nie da si orzec na podstawie stwierdzenia normal-noci rozkadw jednowymiarowych).

    Gdy p-wymiarowy rozkad prawdopodobiestwa jest normalny, normalne s take rozkady w przestrzeni o mniejszej liczbie wymiarw, ale nie odwrotnie. Jeeli dwie zmienne, kada oddzielnie, maj normalny rozkad prawdopodobiestwa, to ich zoenie dwuzmiennowe nie tylko nie musi mie rozkadu normalnego, ale gsto dwuwymiarowa moe nawet nie istnie; innymi sowy z faktu, e istniej rozkady jednowymiarowe kadej z dwu zmiennych oddzielnie nie wynika, e bdzie istnia ich rozkad czny. Czciowo zaley to take od tego, czy zmienne s niezalene, czy zalene (Feller, 1978). W praktyce, gdy rozkady brzegowe zmiennych obja-nianych mona uzna za normalne, wielowymiarowy rozkad tych zmiennych czsto rwnie jest rozkadem normalnym (Gnanadesikan, 1977, s. 168), a patologicz-ne przypadki danych, ktrych reprezentacje dla mniejszej liczby wymiarw zachowuj normalno, tracc j dla wikszej liczby wymiarw, w praktyce zdarzaj si rzad-ko (Johnson i Wichern, 2002, s. 153). Pewne rozwizanie stanowi testy dla skonoci i kurtozy rozkadu wielowy-miarowego (Mardia, 1980) bd te proponowane w lite-raturze nowe metody, takie jak test sektorowy (sector test of multinormality), ktry stanowi uoglnienie na przypa-dek wielowymiarowy testu zgodnoci 2 (von Eye i Bo-gat, 2004, por. te Doornik i Hansen, 2008).

    Zaoenia drugie i trzecie cznie sprawdza si testem Boxa (por. np. Aranowska, 1996; Brzeziski i Stachow-ski, 1984) przeznaczonym do badania rwnoci macierzy kowariancji w skoczonej liczbie populacji niezalenych. Statystyka M tego testu stanowi uoglnienie testu Bartletta rwnoci wariancji (Morrison, 1990). Ju w 1953 roku Box wykaza, e test Bartletta jest bardzo wraliwy na od-stpstwa od normalnoci rozkadu. Naley zatem oczeki-wa, e rozkad statystyki M take bdzie bardzo czuy na pogwacenie zaoenia o wielowymiarowej normalnoci zmiennych objanianych w analizowanych populacjach, na przykad prawdopodobiestwo przekroczenia przez

  • WIELOWYMIAROWA ANALIZA WARIANCJI MANOVA 127

    statystyk testu nominalnej picioprocentowej wartoci krytycznej dla dwuwymiarowych rozkadw o maej kur-tozie jest bardzo due. Jak konkluduje Morrison (1990, s. 373): omawiany test nie powinien by stosowany jako rozstrzygajcy dla danych, dla ktrych wielowymiarowy rozkad normalny wydaje si nierealistyczny. Zaoenie o rwnoci macierzy kowariancji moe zosta odrzucone za pomoc testu Boxa nie z powodu jego niespenienia, ale z powodu odstpstw od normalnoci rozkadu wie-lowymiarowego zmiennych objanianych. Jako alterna-tyw badacz moe wykorzysta techniki modelowania strukturalnego, umoliwiajce sprawdzenie tego zoenia za pomoc odpornych metod (Raykov, 2001). Moe take zdecydowa si przyj bardziej konserwatywny poziom istotnoci, np. = 0,01 (Raykov i Marcoulides, 2008), a spotyka si w literaturze rekomendacje, eby przyjmo-wa nawet = 0,001.

    Prawdziwo zaoenia czwartego i pitego zaley wycznie od decyzji badacza. Jeli nie zadba w fazie planowania i prowadzenia bada o rwnoliczne prby, nie ma adnych podstaw do analizy danych metodami MANOVA. Naley podkreli, e zaoenie o niezale-noci obserwacji jest niezwykle wanym, a czsto po-mijanym w literaturze zaoeniem, na co zwraca uwag Stevens (2002, s. 258). Nawet niewielka zaleno pomi-dzy obserwacjami powoduje dramatyczny, kilkakrotny wzrost rzeczywistego poziomu istotnoci w porwnaniu z nominalnym, subiektywnie przyjtym przez badacza. W celu sprawdzenia tego zaoenia dla kadej zmiennej objanianej mona wykorzysta wspczynnik korelacji wewntrzklasowej.

    Posta hipotezyPrzez analogi do hipotezy jednowymiarowej, hipoteza

    wielowymiarowa dla omawianego przykadu bdzie za-kadaa rwno rednich, tutaj: dwch zmiennych obja-nianych w dwch podpopulacjach (wyrnionych przez dwa niezalene poziomy czynnika) i w caej populacji, nadto bdzie zapisana w postaci wektorowej:

    (5) H0 : 1 = 2 =

    albo inaczej

    (6) Ho : 1 = 9 dla kadego i (i = 1, 2)

    gdzie i (w postaci wektorowej) standardowo oznacza efekt gwny dziaania i-tego poziomu czynnika A na zmienn pierwsz i odpowiednio drug.

    Hipoteza zerowa dotyczy rwnoci trzech wektorw w postaci:

    ( ) ,

    ,

    ,

    ,

    7 1

    2

    1

    2

    1

    1

    2

    2

    1

    2

    y

    y

    y

    y

    =

    =

    a wic rwnoci odpowiadajcych sobie wsprzdnych tych wektorw, czyli y1,1 = y1,2 = 1 i rwnoczenie y2,1 = y2,2 = 2. Zatem hipoteza zerowa dotyczy rwnoci rednich zmiennej Y1 we wszystkich podpopulacjach i caej populacji oraz jednoczenie rwnoci rednich zmiennej Y2 we wszystkich podpopulacjach i caej popu-lacji. Uwzgldniajc definicj efektu gwnego: y1,1 1 = y1,1 oraz y1,2 1 = y1,2 dla zmiennej Y1 i podobnie dla Y2, hipotez zerow mona przedstawi jako:

    ( ) ,

    ,

    ,

    ,

    800

    1

    2

    1

    2

    1

    1

    2

    2

    y

    y

    y

    y

    =

    =

    lub te: y1,1 = y1,2 = 0 i rwnoczenie y2,1 = y2,2 = 0.Wida, jak dalece zapis wektorowy uoglnia to, co chce

    si powiedzie o wszystkich zmiennych badanych razem. Gdyby badacz obj analiz p (p > 2) zmiennych obja-nianych, przedstawione wyej wektory skadayby si nie z dwu, lecz z p wsprzdnych (wierszy).

    Przy dwu czynnikach kontrolowanych w badaniu po-dobnie jak w przypadku analizy jednowymiarowej na-ley podda sprawdzeniu trzy hipotezy z wektorami i, j oraz ()ij rwnymi zeru. Dla wielu, c czynnikw, liczba weryfikowanych hipotez wynosi 2c.

    Posta statystykiZarwno w zaoeniach, jak i w postaciach hipotez ze-

    rowych wystpuj analogie z analiz jednowymiarow. Fakt ten musi znale odbicie w podobiestwie postaci statystyki. W przypadku wielowymiarowym mianownik statystyk stanowi urednione wariancje z podprb, two-rzone rwnoczenie dla p zmiennych wedug zasady obo-wizujcej dla przypadku jednowymiarowego. Wiadomo, e w ANOVA mianownik statystyki F stanowi estymator czny wariancji (zmiennej objanianej) w caej popula-cji utworzony przez urednienie wariancji prbkowych. Pojedyncza prba pobrana zostaa losowo z podpopulacji wyznaczonej przez jeden poziom czynnika kontrolowane-go w badaniu bd gdy jest ich wicej przez przecicie poziomw czynnikw. Przy wielu zmiennych objania-nych rozrzut wynikw w kadej najdrobniejszej podpr-bie (wybranej z podpopulacji utworzonej przez przecicia poziomw czynnikw) jest, jak wiadomo, zaleny nie tyl-ko od wariancji kadej ze zmiennych Y1, , Yp oddziel-nie, ale take od kowariancji midzy tymi zmiennymi. Tak wic dla kadej podprby mamy jedn macierz, skadajc si z wariancji i kowariancji midzy zmiennymi Y1, , Yp

  • 128 ELBIETA ARANOWSKA, JOLANTA RYTEL

    (wyliczonymi z pomiarw zawartych w tej podprbie). Macierz wariancji-kowariancji czn z wielu podprb tworzy si przez urednienie tych wszystkich macierzy (co pokazano wyej). Na przykad przy kontrolowaniu dwu czynnikw A i B powstanie macierz na wzr przypadku jednowymiarowego z z [k . w .(m 1)] stopniami swo-body, gdzie k to liczba poziomw czynnika A, w liczba poziomw czynnika B, m liczba osb badanych w ka-dej podprbce, identyczna dla kadej z nich.

    W przypadku jednowymiarowym bya to rednia wa-riancja, teraz jest to rednia macierz. Macierz ta nosi oznaczenie S i jest interpretowana jako wielowymiaro-wy wynik waenia wariancji p zmiennych niewyjanio-nych dziaaniem wprowadzonych do badania czynnikw. Macierz S jeszcze niepodzielona przez stopnie swobody jest oznaczana przez G. Dla przykadu 1 macierz

    ( )98 130

    130 3200 G n k S= ( ) =

    gdzie n = n1 + n2 = 5 + 5 = 10 jest liczb wszystkich bada-nych we wszystkich podprbach cznie, natomiast k = 2 i jest liczb poziomw czynnika kontrolowanego w bada-niu.

    Podobnie jest z licznikiem poszukiwanej statystyki wielowymiarowej. Jego posta w analizie jednowymia-rowej zaley od tego, ktra hipoteza zerowa jest wery-fikowana. Licznik jest take wariancj i ma interpretacj wariancji wyjanionej ewentualnym dziaaniem czynnika lub dziaaniem interakcji czynnikw. Na przykad w wy-padku analizy dwuczynnikowej wariancja ta jest wyja-niona albo przez wpyw czynnika A na Y, wtedy warian-cja wyznaczona jest przez rozrzut rednich z poziomw tego czynnika wok redniej globalnej (z caej prby), albo przez wpyw czynnika B na Y wtedy wariancja wyznaczona jest przez rozrzut rednich z poziomw tego czynnika wok redniej globalnej, albo przez wpyw in-terakcji czynnikw A i B na Y i wtedy wariancja w liczni-ku wyznaczona jest przez rozrzut interakcji.

    Konstruujc identyczne rozrzuty rednich z poziomw czynnikw czy ich interakcji przy problemie p zmien-nych, zamiast jednej liczby (wariancji wyjanionej) otrzy-muje si macierz, ktrej elementy zale wycznie od tych rozrzutw. Macierze te jeszcze niepodzielone przez stopnie swobody oznaczone s liter H z odpowiednimi indeksami, a wic: HA, HB, HAB. Wypiszmy macierz HA dla sytuacji III przykadu 1. Przez analogi z przypad-kiem jednowymiarowym

    ( )101

    H n x x x xA i i ii

    k

    = ( ) ( )=

    gdzie xi oraz x s wektorami zawierajcymi rednie a p cech, w naszym przykadzie dwch cech.

    Wybierajc odpowiednie rednie z Tabeli 1, otrzymu-jemy

    ( )11 55

    806

    905

    806

    90 H A =

    +

    )11) +

    5

    7100

    690

    7100

    690

    =

    (11) =

    [ ] +

    [ ] =5

    110

    1 10 51

    101 10

    (11) =

    +

    =

    5

    1 1010 100

    51 10

    10 10010 100100 1000

    Poszukiwan statystyk wielowymiarow weryfikujc hipotez zerow o braku wpywu konkretnego czynnika (lub wspdziaania czynnikw) na zbir p zmiennych objanianych cznie, najbardziej zblion do naszych intuicji, jest statystyka podobna do statystyki F. Niej zaprezentowano szczegow posta statystyk dla p-wy-miarowej i dwuczynnikowej analizy wariancji, czyli dla najprostszego przypadku umoliwiajcego testowanie efektw interakcyjnych:

    hipoteza H0: i = 0 dla i = 1, 2, , k

    ( )121 1 %F f p

    f ptr H GR

    AA=

    + ( )

    ze stopniami swobody gi i g2 (rnymi od liczb fA i fR, bdcymi stopniami swobody odpowiednio macierzy HA i G)4;

    hipoteza H0: j = 0 dla j = 1, 2, , w

    ( )131 1 %F f p

    f ptr H GR

    BB=

    + ( )

    ze stopniami swobody g1 i g2, przy czym jeli g2 stop-nie swobody mianownika s identyczne dla wszystkich trzech testw %F , to g1 jest z reguy inn liczb ni wy-ej wprowadzone g1 (ktre zaley od liczby poziomw czynnika A, podczas gdy teraz wprowadzone g1 zaley od liczby poziomw czynnika B);

    hipoteza H0: ()ij = 0 dla i = 1, 2, , k oraz j = 1, 2, , w

    ( )141 1 %F f p

    f ptr H GR

    A BA B=

    + ( )

    ze stopniami swobody g1 (zalenymi od liczby poziomw przeci czynnikw) i g2.

  • WIELOWYMIAROWA ANALIZA WARIANCJI MANOVA 129

    Kryterium ladowym albo statystyk T2-Hotellinga jest statystyka postaci:

    (15) T 2 = tr(HG1 )

    Rozkad z prby tej statystyki mona aproksymowa za pomoc rozkadu prawdopodobiestwa F Fishera Snedecora po wyznaczeniu stopni swobody f1 i f2 (we wzorach (12), (13) i (14) stopniom tym odpowiadaj odpowiednio fA, fB i fAB dla f1 oraz fR dla f2). Dla ca-ej statystyki testowej %F przy prawdziwoci hipotezy zerowej wyznacza si stopnie swobody g1 i g2, przy kt -rych %F ma w przyblieniu rozkad F Fishera Snedecora. (dla zaznaczenia tego przyblienia nad liter F znajduje si wyk).

    Zweryfikujmy prawdziwo hipotezy zerowej dla ana-lizowanego przykadu. Z (12) wynika, e poza macierz HA musimy obliczy G1 (odwrotno macierzy G):

    ( )168 130

    130 3200 G =

    (wyznacznik macierzy G jest rny od zera, istnieje za-tem macierz odwrotna)

    ( ),

    17

    32008700

    1308700

    1308700

    88700

    0 31 G =

    =66782 0 01494

    0 01494 0 00092

    ,, ,

    Podobnie jak G, macierz G-1 jest macierz symetrycz-n:

    tr HG tr( ) =

    1 10 100100 1000

    0 36782 0 014940 01494 0 0009, ,, , 22

    =

    =

    =tr

    2 1839080 574713

    1 609195,

    ,,

    Macierz HG1 jest macierz symetryczn, wic w miej-scu kropek powinna by taka sama liczba. Poniewa po-trzebne s wycznie elementy gwnej przektnej tej ma-cierzy, liczba ta nie zostaa wyznaczona.

    W konsekwencji

    ( )181 1 %F f p

    f ptr HGR

    H

    = + ( ) =

    (18) , ,8 2 1

    1 21 609195 5 632184= +

    =

    Poniewa dla analizy jednoczynnikowej stopnie swo-body g1 i g2 wynosz odpowiednio (por. Ahrens i Luter, 1979):

    ( ),

    ,19

    11 21

    gk p n k pn k p

    gdy

    =( ) ( ) ( )

    gdy

    n k pn k p

    g n k

    ( ) > ( )

    =

    1 2 01 2 0

    2

    ,,

    +p 1

    skd g1 = 2, a g2 = 7 (gdy k odpowiada liczbie poziomw czynnika, czyli 2, n = 10, a p = 2). Warto krytyczna dla poziomu istotnoci = 0,05 wynosi 4,74. Zatem hipotez zerow o braku efektw dziaania czynnika A na struktur zmiennych Y1 i Y2 naley odrzuci.

    Dla sytuacji III naszego przykadu, w ktrej skorelowa-nie zmiennych objaniajcych jest silne i relatywnie naj-wysze, otrzymana warto statystyki %F III = 5,6322. Dla zaspokojenia ciekawoci odnotujmy w tym miejscu, e dla sytuacji I oraz II naszego przykadu wartoci statysty-ki testu wynosz odpowiednio %F I = 9,1304, przy identycz-nych jak wyej g1 i g2 jest to warto z obszaru krytycz-nego, natomiast %F II = 4,3750 i jest to warto mniejsza od wartoci krytycznej (przy stopniach swobody jak wyej). Wynik ten jest zgodny z nasz wczeniejsz intuicj, jako e oczekiwano wyszych wartoci statystyki weryfikuj-cej hipotez o braku wpywu czynnika w sytuacji I i III oraz niszej wartoci tej statystyki w sytuacji II.

    Z formalnego punktu widzenia przedstawione powyej rozwizanie nie jest jedynym moliwym. Teoretycznie dla okrelonych zaoe metody istnieje nieskoczenie wiele dopuszczalnych rozwiza, czyli moliwych postaci sta-tystyk weryfikujcych hipotezy zerowe takie jak wyej. Zanim zaprezentujemy waniejsze z tych funkcji, majce podane wasnoci formalne, niezbdna jest pewna dy-gresja.

    Kada macierz kwadratowa A, majca tyle samo ko-lumn co wierszy, np. p, moe by interpretowana jako pe-wien sposb przeksztacenia p-wymiarowych wektorw. Kademu wektorowi z takiej p-wymiarowej przestrzeni, np. v, mona przyporzdkowa wektor x, rwny A v, czyli uzyskany z pomnoenia wektora pierwotnego przez macierz A. Taka operacja powoduje na og zmian du-goci wektora (ktry moe si skrci lub wyduy), ale co waniejsze wektor z reguy zmieni swj kierunek w przestrzeni. Jednake s takie wektory w przestrzeni (np. w naszej przestrzeni obserwacji), ktre zmieniaj swoj dugo, ale nie zmieniaj orientacji przestrzennej, tzn. wskazuj ten sam kierunek, o czym w jzyku mate-matycznym mwimy, e wektor x jest rwnolegy do v. Takie wyjtki nazywane s wektorami wasnymi macie-rzy A. Innymi sowy, istnieje taka liczba , ktrej pomno-

  • 130 ELBIETA ARANOWSKA, JOLANTA RYTEL

    enie przez wektor przyniesie ten sam efekt, co pomnoe-nie macierzy A przez ten wektor, czyli A v = v. Jeli liczba ta jest rna od jednoci, zmieni si tylko dugo tego wektora. Jeli jest ona rwna jednoci, nawet du-go wektora si nie zmieni. Takie liczby nazwane s wartociami wasnymi macierzy A. A zatem wynik dzia-ania macierzy na wektor wasny sprowadza si do po-mnoenia go przez liczb . Jeli macierz A jest nie tylko kwadratowa, ale take symetryczna, to wektory wasne odpowiadajce rnym wartociom wasnym s or-togonalne.

    Macierz charakteryzujc uzyskane z badania dane, kwadratow i symetryczn, jest macierz G1 H. Gdyby udao si wyznaczy wartoci i wektory wasne tej ma-cierzy (o p kolumnach i p wierszach), w przestrzeni wek-torw obserwacji mona byoby wyznaczy nowy ukad wsprzdnych z osiami prostopadymi. Oznacza to opi-sanie badanego zjawiska nowymi zmiennymi w liczbie mniejszej albo co najmniej rwnej p.

    Jest to atrakcyjna perspektywa, poniewa dziki roz-wizaniu zagadnienia wasnego macierzy G1 H pro-wadzi do redukcji zbioru zmiennych pocztkowych. Wielowymiarowa analiza wariancji umoliwia nie tyl-ko odpowied na pytanie, jak czynniki czy ich interak-cje zmieniaj wartoci zmiennych objanianych, ale te wskazuje, ktre z tych zmiennych mona wyeliminowa jako redundantne, gdy ich obecno w strukturze nie do-starcza nowych informacji o naturze wpywu czynnikw.

    Zagadnienie wyznaczania nowych cech i eliminowania redundantnych jest rozwizywane przez analiz dyskry-minacji. Analiza ta ze zrozumiaych wzgldw powinna by dokonywana rwnolegle z wielowymiarow analiz wariancji. A podstawowym argumentem matematycz-nym jest to, e kryterium ladowe T2 [por. (15)] jest sum wszystkich niezerowych wartoci wasnych macierzy H G1:

    ( )20 2 11

    T tr HG hh

    t

    = ( ) ==

    gdzie t p oznacza liczb niezerowych wartoci was-nych (a tym samym liczb wektorw wasnych),

    (21) t = min(p, s)

    s liczba liniowo niezalenych kolumn (wierszy) macie-rzy H.

    Liczb t mona wyznaczy bardzo atwo. Pamitajc, e macierz H zawsze dotyczy licznika utworzonego z wa-riancji rednich z poziomw czynnikw albo licznika utworzonego z wariancji interakcji, s rwne jest liczbie poziomw odpowiedniego czynnika 1 lub dla interak-

    cji iloczynowi liczby poziomw obydwu czynnikw pomniejszonych o 1. Liczba s odpowiada liczbie stopni swobody dla wariancji jednowymiarowej.

    Z postulatw formalnych dotyczcych postaci testu weryfikujcego H0 wynika, e posta statystyki testu wie-lowymiarowego musi by funkcj wartoci wasnych ma-cierzy H G1. Jedn z dopuszczalnych statystyk (funk-cji) jest %F , bdca jak wynika z (20) funkcj sumy wartoci wasnych macierzy H G1. Innymi dopuszczal-nymi statystykami oprcz kryterium ladowego Lawleya--Hotellinga (por. Ahrens i Luter, 1979; Tatsuoka, 1971; Timm, 1975) s:

    kryterium Wilksa

    ( )22 111

    =+

    =+=

    G

    H G hh

    t

    kryterium Pillaia

    ( )23 1 111

    Vhh

    t

    = +

    =

    kryterium Roya maksymalnej wartoci wasnej, 1, lub w nieco innej postaci:

    ( )241

    1

    1

    +

    Warto zauway, e dla przypadku dwch analizowa-nych grup, kryterium ladowe T2 Lawleya-Hotellinga moe by traktowane jako wielowymiarowy analog sta-tystyki t testu t-Studenta dla dwch niezalenych popu-lacji.

    Inn wzgldem %F postaci statystyki dla analizy jedno-czynnikowej, opierajc si na kryterium -Wilksa, jest:

    ( )25 12 1 2

    2

    1

    1 Fk f f p pf

    pf

    k

    k

    R H H

    H

    = + ( ) +

    gdzie

    ( ) /26 4 52 2 2 2 k p f p fH H= ( ) + ( )przy stopniach swobody g1 i g2:

    ( )27 12

    2 1 21 2 g pf g k f f p pfH R H H= = + ( ) +( )

    (gdy stopnie swobody macierzy H wynosz fH = 1, wtedy przyjmuje si take k = 1 przy p = 2).

    Kryterium Wilksa mona rozwaa jako wielowy-miarowe uoglnienie statystyki F w jednowymiarowej analizie wariancji ANOVA, a dla przypadku jednowy-miarowego warto jest odwrotnie proporcjonalna do wartoci statystyki F:

  • WIELOWYMIAROWA ANALIZA WARIANCJI MANOVA 131

    ( )/

    28 11 11

    p k n k F==

    + ( ) ( ) Jako e prawa strona rwnania stanowi monotoniczn

    funkcj statystyki F, oznacza to, e testowanie wielo-wymiarowej hipotezy zerowej dla przypadku jednowy-miarowego sprowadza si do zastosowania statystyki F (Tatsuoka, 1971).

    W przypadku dwch analizowanych grup dla dowol-nej liczby zmiennych objanianych zalenoci pomidzy wartociami kryterium ladowym T2 Lawleya-Hotellinga i kryterium Wilksa mona przedstawi w nastpujcy sposb (Johnson i Wichern, 2002):

    ( )29 12

    12

    =

    Tn

    Im wiksza warto wspczynnika T2, tym mniejsza warto wspczynnika .

    Dla sytuacji III analizowanego przykadu warto sta-tystyki F pokrywa si z wartoci statystyki %F :

    ( ),

    ,30 11 1 609195

    0 38326 =+

    =

    (gdy dysponujemy zaledwie jedn wartoci wasn na podstawie (21))

    (31) fH = 1, fR = 8, p = 2

    std k = 1, zatem

    ( ) ,,

    ,32 1 0 383260 38326

    144

    5 6322 F = =

    przy g1 = 2 i g2 = 7

    W Tabeli 2 przedstawiono wyniki testu Boxa oraz wie-lowymiarowego testu F dla wszystkich sytuacji, uzyska-ne w pakiecie SPSS.

    Rwnowano wartoci statystyki F i %F , jak wspo-mniano wyej, nie jest niestety zasad ogln. W bardziej skomplikowanych planach badawczych war-

    toci obydwu statystyk mog si rni. Moe si wic zdarzy, e w przypadku F wynik jest istotny statystycz-nie, za dla %F nieistotny lub odwrotnie. Odpowied na pytanie, dlaczego tak jest nie naley do atwych i wie si z dwoma aspektami sprawy.

    Pierwszym jest pytanie o moc kadego z wymienionych testw (a wic intuicyjnie o atwo odrzucania hipotezy zerowej). Odpowied w tej sprawie nie jest optymistycz-na. Badanie Gnanadesikana i innych w latach 60. XX w. mocy tych testw dla przypadku dwu cech objanianych przez model (por. Ahrens i Luter, 1979, s. 63) ujawniy w zasadzie przewag F nad %F . W zasadzie, gdy nie zawsze tak si zdarzao.

    Drugim jest pytanie o odporno testw na pogwace-nie zaoe metody. W 1981 roku Kariya (por. Zieliski, 1985) opublikowa wyniki duych bada symulacyjnych nad moc testw parametrycznych w sytuacji normalno-ci i nienormalnoci rozkadw zmiennych. Okazao si, i w obu przypadkach jednostajnie najmocniejszym testem jest T2 Lawleya-Hotellinga.

    W literaturze brak zgody odnonie do tego, ktra ze statystyk i w jakiej sytuacji stanowi najlepszy wybr. W wikszoci przypadkw odchylenia od wielowymia-rowej normalnoci maj niewielki wpyw na rzeczy-wisty poziom prawdopodobiestwa popenienia bdu pierwszego rodzaju (Everitt, 1979), jednake moc testw znacznie spada w przypadku platykurtycznoci rozkadu zmiennych objanianych (Olson, 1974). Zwykle, zarw-no w przypadku maych, jak i duych efektw zmiennych objaniajcych, wartoci wszystkich czterech statystyk prowadz do podobnych decyzji. Jeli rnice midzy grupami dotycz tylko jednego wymiaru, najmocniejszym z rozwiza jest statystyka oparta na kryterium Roya. Dla maych prb kryterium Pillaia gwarantuje stosunkowo odporn statystyk na naruszenie zaoenia o rwnoci macierzy kowariancji (Olson, 1976), a take w przypad-ku wystpowania wspliniowoci zmiennych objania-nych. Jednake, gdy zaoenie to nie jest spenione, ba-dacz nadal musi si liczy z moliwoci podjcia bdnej decyzji, jako e w takiej sytuacji rzeczywiste w stosunku do nominalnego prawdopodobiestwo popenienia bdu pierwszego rodzaju wzrasta, nawet gdy analizowane pr-by s rwnoliczne (Tang i Algina, 1999).

    We wszystkich powyszych sytuacjach kryterium Wilksa nie ustpuje pod wzgldem wasnoci pozosta-ym, co oprcz faktu, e zostao wywiedzione w ramach metody najwikszej wiarygodnoci (maximum likeli hood, ML), jest najprawdopodobniej powodem jego najwikszej popularnoci (Raykov i Marcoulides, 2008). Jednake Wilksa jest bardzo wraliwa na wystpowanie przy-padkw odstajcych (outliers). Niedawno w literaturze

    Tabela 2. Wartoci statystyki Boxa i F-wielowymiarowego

    Sytuacja Test Boxa MANOVA

    F p F p

    I 0,513 0,673 9,130 0,011

    II 1,430 0,232 4,375 0,059

    III 0,918 0,431 5,632 0,035

  • 132 ELBIETA ARANOWSKA, JOLANTA RYTEL

    zaproponowano jej odporn posta opierajc si na esty-matorze MCD (minimum covariance determinant estima-tor) dla przypadku jednoczynnikowej, wielowymiarowej analizy wariancji (Todorov i Filzmoser, 2010).

    Spraw dodatkowo komplikuj sia i kierunek skore-lowania zmiennych objaniajcych, ktre wpywaj na moc parametrycznych testw wielowymiarowych (Cole, Maxwell, Arvey i Salas, 1993b), dlatego coraz czciej w przypadku pogwacenia zaoe proponowane s roz-wizania nieparametryczne (Bathke, Harrar, Laurence i Madden, 2008; Finch, 2005; Finch i Davenport, 2009). Bez wtpienia zaoenia, jakich spenienia wymaga wie-lowymiarowa analiza wariancji, ograniczaj zakres jej aplikacji w badaniach spoecznych. W obecnie rozwija-nych alternatywnych podejciach statystyki testowe opie-raj si na odlegociach pomidzy obserwacjami i s po-rwnywane z rozkadami permutacyjnymi. W metodach permutacyjnych (Multiresponse permutation procedures MRPP) jako statystka testowa wykorzystywana jest rednia (waona) odlego wewntrzgrupowa (Mielke i Berry, 2007). W wywodzcym si z ekologii podejciu, zaproponowanym przez McArdle i Anderson (2001), okrelanym jako permutacyjna (nieparametryczna) MANOVA, proponowana statystyka pseudo-F zostaa skonstruowana na podstawie metody podziau wariancji macierzy niepodobiestwa (odlegoci).

    Warto zauway, e w specyficznych przypadkach, gdy badacz zmienne mierzalne silnie skategoryzuje, two-rzc zaledwie kilka klas pomiaru, oczywicie nie moe posugiwa si MANOVA. Powinien zastosowa analiz korespondencji, w ktrej kategorie wartoci wszystkich czynnikw stanowiyby jeden zbir zmiennych (tzw. ze-ro-jedynkowych) natomiast kategorie zmiennych obja-nianych drugi zbir (por. Aranowska i Ciok, 1992).

    Poszukuje si take lepszych rozwiza parametrycz-nych, czego przykadem moe by uoglniony test F (generalized F-test), szczeglnie uyteczny w przypad-ku wielu zmiennych objanianych i maych prb (Liang i Tang, 2009). W literaturze nie rekomenduje si analizo-wania zbyt duej liczby zmiennych objanianych. Moc te-stw wielowymiarowych maleje wraz ze wzrostem licz-by zmiennych objanianych (DasGupta i Perlman, 1973). Sensownym rozwizaniem ograniczajcym liczb zmien-nych moe by na przykad wczeniejsze wykorzystanie w tym celu analizy skadowych gwnych.

    Wikszo programw statystycznej analizy danych po-daje wartoci wszystkich czterech statystyk i zwykle pro-wadz one do tych samych decyzji odnonie do hipotezy zerowej. Ze wzgldu na swoje zalety, a take na tradycj (zostao wyprowadzone jako pierwsze) najpowszechniej wykorzystywane jest kryterium Wilksa. W wypadku roz-

    bienoci decyzji podejmowanych co do hipotezy zero-wej badacz musi podda analizie macierze kowariancji i wartoci wasne oraz w wietle dyskutowanych wyej ogranicze kadej ze statystyk oceni sprzeczne kon-kluzje.

    Wspomniano wyej, e wyznaczanie wartoci was nych macierzy H G-1 niezbdne jest nie tylko ze wzgldu na potrzeb wyznaczania wartoci wielowymiarowego testu F czy %F , lecz take dlatego, i wie si to z moliwo-ci redukcji zbioru zmiennych objanianych do zbioru mniejszego, dla ktrego warto testu w dalszym cigu jest istotna. Innymi sowy, chodzi o wyznaczenie takiej minimalnej w sensie liczby zmiennych struktury cech, na ktr czynniki wpywaj najsilniej. Metod wskazujc najsilniejsz dyskryminacj wpyww poziomw czynni-kw na badane zmiennej jest analiza dyskryminacji.

    Zastosowanie metody MANOVA do analizy efektywnoci pracy menederw

    Celem przywoanych niej bada (Strzaecki i Toma-szewicz, 2004), bya prba wyjanienia psychologicz-nych mechanizmw efektywnoci pracy menederw i osigania przez nich sukcesu, rozumianego jako wynik twrczego zarzdzania przez nich ludmi i zasobami, w tym rwnie informacyjnymi (s. 127). Zakadano, e zarzdzajcy efektywnie wykazuj wobec ludzi nie-dziaajcych w biznesie specyficzn konfiguracj cech ludzi twrczych opisan przez model Stylu Twrczego Zachowania (STZ) Strzaeckiego (2003), czciowo operacjonalizowan za pomoc kwestionariusza Style Zachowania Si. Ze wzgldu na temperamentalne uwa-runkowania efektywnoci dziaa menederskich, do bada wczono kwestionariusz temperamentu FCZ-KT. Badanie dziedziny intelektualnej ograniczono do odtwo-rzenia adaptacyjnej gitkoci mylenia (wedug modelu SIM) mierzonej na skali Usuwania Zapaek Guilforda, natomiast aspekty aksjologiczne zawono, uwzgldnia-jc konstrukt koherencji Antonovskyego operacjonalizo-wany Kwestionariuszem Poczucia Koherencji (SOC).

    W przeprowadzonym badaniu podstawowym proble-mem badawczym byo zatem okrelenie rnic doty-czcych temperamentalnych, osobowociowych oraz poznawczych aspektw funkcjonowania menederw wysokiego szczebla (dyrektorzy i prezesi firm) oraz pra-cownikw sfery budetowej. Badano grupy o tej samej liczebnoci (n1 = n2 = 43). Analiz wynikw przeprowa-dzono za pomoc jednoczynnikowej, 15-wymiarowej analizy wariancji (MANOVA). Do analizy wczono wy-niki uzyskane przez osoby badane z obu grup we wszyst-kich narzdziach (6 skal kwestionariusza temperamentu FCZ-KT + 5 skal Kwestionariusza Style Zachowania

  • WIELOWYMIAROWA ANALIZA WARIANCJI MANOVA 133

    Si + 3 skale Kwestionariusza Poczucia Koherencji Antonovskyego + 1 skala Testu Usuwania Zapaek Guilforda = 15). Wynik oglny kwestionariusza Poczucia Koherencji Antonovskyego (SOC), jako e stanowi on sum wynikw trzech skal tego kwestionariusza, zosta wyczony z analizy.

    Podstawowym zaoeniem dla stosowania modelu MANOVA jest zaoenie o rwnoci macierzy kowa-riancji w porwnywanych prbach weryfikowane za pomoc testu Boxa. W przypadku uzyskanych wynikw zaoenie to zostao spenione (warto statystyki F opie-rajcej si na statystyce M testu Boxa bya rwna 1,179; p = 0,088 > 0,05), co pozwolio na zastosowanie modelu do analizowanych danych.

    Warto wielowymiarowego testu F opierajcego si na statystyce lambda Wilksa, podobnie jak wszystkich pozostaych statystyk, wyniosa 4,607; p = 0,0005 i oka-zaa si istotna statystycznie na przyjtym poziomie istot-noci = 0,05. Okazao si zatem, e osoby aktywnie zarzdzajce na co dzie wobec osb niepodejmujcych

    dziaalnoci w biznesie rni si nasileniem analizowa-nej struktury zmiennych. Profesjonalizm menederski wyjania okoo 50,0% zmiennoci analizowanej struktury cech (2wielowymiarowe = 0,497).

    Wartoci statystyki t testu t-Studenta dla poszczegl-nych skal wykorzystanych w badaniu narzdzi, przed-stawione zostay w Tabeli 3. W tabeli zamieszczono te dodatkowo warto statystyki t otrzyman dla porw-nania wyczonych z analizy wielowymiarowej wy-nikw oglnych kwestionariusza Poczucia Koherencji Antonovskyego (SOC). Tabela zawiera ponadto oszaco-wania wielkoci efektw dziaania czynnika dla poszcze-glnych zmiennych przeprowadzone za pomoc wsp-czynnika d-Cohena (Cohen, 1977; 1992).

    Wartoci jednowymiarowych statystyk F, ktre z re-guy podaje si po wielowymiarowej analizie wariancji, w przypadku dwch populacji niezalenych rwne s t2. Co zatem bra pod uwag, rozwaajc wyniki bada: t czy F? Za wyborem statystyki t przemawiaj nastpu-jce argumenty. Po pierwsze, test t umoliwia weryfi-

    Tabela 3. Wartoci statystyki t

    Nazwa skali Grupa kryterialna Grupa kontrolna t p d

    M SD M SD

    FCZ-KT

    wawo 017,28 02,66 015,44 03,79 2,61 0,0050 0,57

    Perseweratywno 010,19 04,81 011,86 04,14 1,73 0,0400 0,38

    Wraliwo sensoryczna 014,74 04,20 015,12 03,52 0,44 nist. 0,10

    Reaktywno emocjonalna 007,00 04,40 011,16 05,64 3,82 0,0003 0,83

    Wytrzymao 011,42 05,11 009,56 04,24 1,84 0,0350 0,40

    Aktywno 012,16 04,92 007,60 04,05 4,69 0,0003 1,02

    Style Zachowania Si

    Aprobata ycia 022,88 04,14 020,53 03,89 2,71 0,0040 0,59

    Silne ego 037,93 09,19 031,28 11,00 3,04 0,0015 0,66

    Samorealizacja 034,70 08,54 028,91 07,01 3,44 0,0005 0,75

    Gitko procesw poznawczych 045,84 09,26 040,93 09,66 2,40 0,0090 0,53

    Wewntrzna sterowno 037,95 07,09 032,93 08,81 2,91 0,0025 0,64

    SOC

    Poczucie zrozumiaoci 051,16 07,15 044,47 09,02 3,82 0,0003 0,83

    Poczucie zaradnoci 057,23 05,45 049,09 08,37 5,34 0,0003 1,17

    Poczucie sensownoci 048,14 05,04 041,81 06,13 5,22 0,0003 1,14

    Wynik oglny SOC 156,53 14,63 135,37 20,42 5,53 0,0003 1,21

    Test Usuwania Zapaek

    Adaptacyjna gitko mylenia 037,65 10,52 23,37 9,68 6,56 0,0003 1,43

    p dla testu jednostronnego

  • 134 ELBIETA ARANOWSKA, JOLANTA RYTEL

    kowanie hipotezy kierunkowej, zatem przy tym samym poziomie istotnoci minimalizuje prawdopodobiestwo popenienia bdu II rodzaju (), tym samym jest testem mocniejszym. Po drugie, na poziomi