analiza univariata a datelor - orzanm.ase.roorzanm.ase.ro/spss/pdf/1.pdf · analiza datelor •...
TRANSCRIPT
Analiza univariata a datelor
Chestiuni organizatorice • Nota:
– Examen final (marti, 13 mai): 70% – Proiect seminar: 30%
• Suport curs: – Cătoiu I. (coord.), Bălan C., Dăneţiu T., Orzan Gh., Popescu I., Vegheş C., Vrânceanu D. "Cercetări de marketing", Ed. Uranus, 2002
• Suport semiar: – Howitt, D. si Cramer, D., “Introducere in SPSS pentru psihologie”, Ed. Polirom, 2006.
Analiza datelor • Analiza datelor reprezinta un proces complex si sistematic de aplicare a tehnicilor statistico matematice, in scopul extragerii din colectia de date constituita a informatiilor necesare procesului decizional
Analiza datelor • Surse de date:
– Cercetari cantitative: • Sondaje; • Observari;
– Surse secundare de date: • interne; • externe;
– Cercetari calitative: • focus grupuri; • clientul misterios; • interviuri in profunzime; • teste de utilitate;
Clasificare tipurilor de analiza • Tipul de scala utilizata
Nominala Ordinala Interval Proportionala
Clasificare tipurilor de analiza • Numarul esantioanelor cercetate
Un singur esantion Doua esantioane Mai mult de doua esantioana
Clasificare tipurilor de analiza • Natura relatiei dintre esantioane
Esantioane independente Esantioane dependente
• Numarul variabilelor utilizate O singura variabila (analiza univariata) Doua variabile (analiza bivariata) Mai mult de doua variabile (analiza multivariata)
Obiectivele analizei Determinarea tendintei centrale
Caracterizarea variatiei si dispersiei
Masurarea gradului de asociere
Realizarea de estimari si previziuni
Evaluarea semnificatiei diferentelor dintre variabile si grupuri de variabile
Evidentierea legaturilor cauzale
Obiectivele analizei Analiza primara a datelor
Masurarea tendintei centrale Analiza variatiei Stabilirea normalitatii distributiei
Analiza diferentiala Identificarea existentei unor diferente statistice intre esantioane (grupuri) de respondenti
Analiza asociativa Identificarea existentei unor asemanari (asocieri) semnificative statistic variabile demografice si psiho comportamentale
Obiectivele analizei
Analiza inferentiala Identificarea gradului in care valorile identificate la nivel de esantion sunt reprezentative la nivelul populatiilor investigate
Analiza predictiva Identificarea evolutiei ulterioare a fenomenelor investigate
Analiza complexa a datelor Analiza canonica, analiza discriminantului, analiza structurilor latente Modelare
Masurarea tendintei centrale Grupul modal (modulul)
Grupul care cuprinde cele mai multe componente comparativ cu celelalte grupuri
Mediana Valoarea care imparte numarul de observatii in doua grupuri egale
Media aritmetica
Media geometrica
n
x x
n
i i ∑
= = 1
n n
1 i i G x x ∏
=
=
Masurarea tendintei centrale
X X X X Proportionala
X X X Interval
X X Ordinala
X Nominala
Media geometrica
Media aritmetica
Mediana Modulul
Indicatori ai tendintei centrale Tipuri de scale
Analiza variatiei
Distributia frecventelor (absolute si relative)
Amplitudinea variatiei (X max X min )
Varianta
Abaterea medie patratica (standard)
Coeficientul de variatie (variatia relativa)
∑ = −
− =
n
1 i
2
i 2
1 n
) x (x σ
x
σ CV =
Distributia frecventelor
Perceptia gustului pentru berea Redd’s
100,0 13,8 13,3 4 7 Cel mai placut
0,0 0,0 0,0 0 1 Cel mai neplacut
100 100 30 Total
3,3 1 9 Valori lipsa
86,2 27,6 26,7 8 6 Foarte placut
58,6 10,3 10,0 3 5 Placut 48,3 20,7 20,0 6 4 Nici/Nici
27,6 20,7 20,0 6 3 Neplacut
6,9 6,9 6,7 2 2 Foarte neplacut
Frecvente cumulate
Procent valid Frecventa (%)
Frecventa Codificare Eticheta
Analiza variatiei
X X Abaterea standard
X X Varianta
X X Abatere medie
X X X Amplitudine X X X X Frecvente
Proportionale Interval Ordinale Nominale Tipuri de scale Indicatori ai
dispersiei
Distributia normala
Este constituita dintro familie de distributii care au reprezentari grafice asemanatoare unui clopot)
Distributia normala
Este importanta pentru ca majoritatea instrumentelor statistice utilizate in analiza primara au ca premisa existenta unei distributii normale (ex.: testul Student, MannWhitney, ANOVA, Pearson, regresia, nivelarea exponentiala Brown, etc.).
Ipoteza distributiei normale: Pentru δ ales, 100 δ procente dintre valorile inregistrate ale variabilei se vor afla in intervalul:
) σt x ; σt x ( δ δ + −
Distributia normala
Aplatizarea: reprezinta o masura a inaltimii relative a “clopotului” definit de distributia frecventelor variabilei.
Asimetria: tendinta variatiilor valorilor observate fata de medie de a fi mai mari catre unul dintre capetele intervalului de valori.
2 3 n
1 i
2
i
n
1 i
3
i
) ) x (x (
) x (x n
2 n
1) n(n G
∑
∑
=
=
−
− ×
− −
=
3
) ) x (x (
) x (x n
K 2
n
1 i
2
i
n
1 i
4
i
− −
− =
∑
∑
=
=
Distributia normala
Inaltimea curbei este data de formula:
Testarea normalitatii distributiei: variabile parametrice: testul KolmogorovSmirnov variabile ordinale: testul ShapiroWilk variabile nominale: testul χ 2
2
n
1 i
i
2σ
) x (x (
2 e
2π
1 h
∑
= =
− −
σ
Testul KolmogorovSmirnov
Utilizat pentru estimarea normalitatii distributiei acolo unde se poate (are sens) calcula media si abaterea medie patratica.
De fapt, determina care dintre ipoteze va fi adoptata: H 0 : NU exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala. H 1 : Exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala.
Testul KolmogorovSmirnov
Se calculeaza utilizand:
∑ =
< = n
1 i
) x (x n i I
n
1 (x) F
) F(x n
i;
n
i ) F(x ( K i i
n
1 i S max − − =
=
Testul KolmogorovSmirnov
H 0 este acceptata daca:
unde:
α c n n ≤ + + ) 11 , 0 12 , 0 (
1,628 1,480 1,358 1,224 1,138 c α
0,99 0,975 0,95 0,9 0,85 α
Testul ShapiroWilk
Utilizabil atat pentru variabile nonparametrice, cat si pentru variabile parametrice (aici insa testul KolmogorovSmirnov este mai puternic).
Determina daca va fi adoptata ipoteza nula sau ipoteza alternativa:
H 0 : NU exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala. H 1 : Exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala.
Testul ShapiroWilk
Se calculeaza utilizand:
a i reprezina parametrii dati, obtinuti din tabele statistice pe baza medianei, numarului de valori distincte si dimensiunii esantionului investigat.
p(W)>0,05 => H 0 este acceptata
altfel => H 1 este acceptata
∑
∑
=
=
− =
n
1 i
2 i
2 n
1 i
i i
μ) (x
) x a (
W