![Page 1: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/1.jpg)
Introductie tot de
statistiek
Hogeschool Gent
04/05/2010
![Page 2: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/2.jpg)
Inhoudsopgave
1 Basisbegrippen en beschrijvende statistiek 8
1.1 Onderzoek . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.1.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.1.2 Variabelen . . . . . . . . . . . . . . . . . . . . . . . . 101.1.3 Meetniveau . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Beschrijvende technieken: 1 variabele . . . . . . . . . . . . . 111.2.1 Ordeningstechnieken . . . . . . . . . . . . . . . . . . 111.2.2 Reductietechnieken . . . . . . . . . . . . . . . . . . . 12
1.3 Beschrijvende technieken: associatiematen . . . . . . . . . . 141.4 Visualisatie . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.1 Histogram . . . . . . . . . . . . . . . . . . . . . . . . 161.4.2 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . 17
2/77
![Page 3: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/3.jpg)
2 Toevalsvariabelen en kansverdelingen 21
2.1 Toevalsvariabelen . . . . . . . . . . . . . . . . . . . . . . . . 212.1.1 Toevalsproces en gebeurtenis . . . . . . . . . . . . . 212.1.2 Toevalsvariabele . . . . . . . . . . . . . . . . . . . . 22
2.2 Kansen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3 Kansverdeling . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1 Discrete kansverdeling . . . . . . . . . . . . . . . . . 232.3.2 Continue kansverdeling . . . . . . . . . . . . . . . . 25
2.4 Verwachting . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.5 Variantie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.6 Kansverdelingen . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.1 Binomiaal verdeling . . . . . . . . . . . . . . . . . . 282.6.2 Normaalverdeling . . . . . . . . . . . . . . . . . . . . 302.6.3 Standaardnormaalverdeling . . . . . . . . . . . . . . 302.6.4 t-verdeling . . . . . . . . . . . . . . . . . . . . . . . 312.6.5 χ2-verdeling . . . . . . . . . . . . . . . . . . . . . . . 312.6.6 F-verdeling . . . . . . . . . . . . . . . . . . . . . . . 32
3/77
![Page 4: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/4.jpg)
3 Statistische Inferentie: toetsen en schatten 33
3.1 De steekproevenverdeling . . . . . . . . . . . . . . . . . . . 333.2 De steekproevenverdeling voor X . . . . . . . . . . . . . . . 353.3 De steekproevenverdeling voor X (σ2 ongekend) . . . . . . 373.4 Intervalschatting . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4.1 Puntschatting . . . . . . . . . . . . . . . . . . . . . . 383.4.2 Het betrouwbaarheidsinterval . . . . . . . . . . . . . 383.4.3 Opstellen van betrouwbaarheidsinterval . . . . . . . 39
3.5 Toetsen van hypotheses . . . . . . . . . . . . . . . . . . . . 403.5.1 Nulhypothese . . . . . . . . . . . . . . . . . . . . . . 403.5.2 Toetsingsgrootheid G . . . . . . . . . . . . . . . . . 413.5.3 Kies betrouwbaarheid (1− α) . . . . . . . . . . . . . 413.5.4 H0 aanvaarden of verwerpen . . . . . . . . . . . . . 423.5.5 H0 aanvaarden of verwerpen met p-waarde . . . . . 46
3.6 Toetsen van hypotheses . . . . . . . . . . . . . . . . . . . . 473.6.1 One-sample t-test . . . . . . . . . . . . . . . . . . . 473.6.2 two-sample t-test . . . . . . . . . . . . . . . . . . . . 49
4/77
![Page 5: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/5.jpg)
3.6.3 One-way analysis of variance (Anova) . . . . . . . . 51
4 Categorische data-analyse 55
4.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2 1 Categorische variabele . . . . . . . . . . . . . . . . . . . . 56
4.2.1 1 Categorische variabele met 2 niveaus . . . . . . . . 564.2.2 1 Categorische variabele met J ≥ 2 niveaus . . . . . 59
4.3 2 Categorische variabelen . . . . . . . . . . . . . . . . . . . 604.3.1 2-Wegs kruistabel: geobserveerde frequenties . . . . 604.3.2 Test voor onafhankelijke variabelen . . . . . . . . . . 61
4.4 Veralgemeend lineaire modellen . . . . . . . . . . . . . . . . 644.4.1 Logistische regressie . . . . . . . . . . . . . . . . . . 644.4.2 Poisson regressie . . . . . . . . . . . . . . . . . . . . 654.4.3 Loglineaire analyse . . . . . . . . . . . . . . . . . . . 65
5/77
![Page 6: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/6.jpg)
5 Enkelvoudige Lineaire Regressie 66
5.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665.1.1 doel . . . . . . . . . . . . . . . . . . . . . . . . . . . 665.1.2 Vergelijking van een rechte . . . . . . . . . . . . . . 67
5.2 Het regressiemodel . . . . . . . . . . . . . . . . . . . . . . . 695.2.1 Structuur . . . . . . . . . . . . . . . . . . . . . . . . 695.2.2 assumpties . . . . . . . . . . . . . . . . . . . . . . . 695.2.3 Onderzoeksvragen . . . . . . . . . . . . . . . . . . . 70
5.3 Parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . 715.4 Toetsen van hypotheses . . . . . . . . . . . . . . . . . . . . 725.5 De determinatiecoefficient R2 . . . . . . . . . . . . . . . . . 73
6 Meervoudige Lineaire Regressie 74
6.1 Structuur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746.2 Onderzoeksvragen . . . . . . . . . . . . . . . . . . . . . . . 746.3 Parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . 756.4 Toetsen van hypotheses . . . . . . . . . . . . . . . . . . . . 75
6/77
![Page 7: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/7.jpg)
6.5 De determinatiecoefficient R2 . . . . . . . . . . . . . . . . . 77
7/77
![Page 8: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/8.jpg)
1 Basisbegrippen en beschrijvende statistiek
1.1 Onderzoek
Data verzamelen in een specifieke steekproef, representatief voor de popu-latie.
1.1.1 Data
• Data: p variabelen bij n observaties.
• Voorbeeld:
8/77
![Page 9: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/9.jpg)
score iq motivatie geslacht werken16 140 5 M Neen10 120 2 V Ja11 125 3 M Ja14 135 7 V Neen8 115 2 M Neen18 145 5 V Neen13 140 6 M Ja9 125 4 V Neen11 130 3 V Neen10 125 1 V Neen
9/77
![Page 10: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/10.jpg)
1.1.2 Variabelen
• Eigenschap die varieert: X
• scores zijn geobserveerde waarden van een variabele: x, vb. x2 = 10
1.1.3 Meetniveau
• Categorische variabelen: nominaal of ordinaal (vb geslacht)
• Continue variabelen: minstens interval niveau (vb iq)
• Opm. Likert-schaal: ordinaal, maar als continue beschouwd.
10/77
![Page 11: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/11.jpg)
1.2 Beschrijvende technieken: 1 variabele
1.2.1 Ordeningstechnieken
• frequentietabel
geslacht freq.M 4V 6
• relatieve frequentieverdeling
geslacht rel. freq.M 0.4V 0.6
11/77
![Page 12: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/12.jpg)
• gegroepeerde frequentieverdeling
score freq.0-9 2
10-11 412-20 4
1.2.2 Reductietechnieken
• Maten van centrale tendentie
1. modus (mox): waarde met grootste frequentie (vb iq: 125)
2. mediaan: percentiel 50 (mdx = P50) (vb iq: 127.5)
3. rekenkundig gemiddelde: x = 1n
n∑i=1
xi
vb x = 16+10+11+...+1010 = 12
12/77
![Page 13: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/13.jpg)
• Maten van spreiding
1. variatie of Sum of Squares: SS =n∑i=1
(xi − x)2
2. variantie: s2x = 1
n
n∑i=1
(xi − x)2
vb s2x = (16−12)2+(10−12)2+(11−12)2+...+(10−12)2
10 = 9.2
3. standaarddeviatie: sx =√s2x vb sx =
√9.2 = 3.03
13/77
![Page 14: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/14.jpg)
1.3 Beschrijvende technieken: associatiematen
1. covariantie: lineaire samenhang
Covx,y = 1n
n∑i=1
(xi − x)(yi − y)
vb score en iq: Cov(x, y) = 110260 = 26
2. correlatie: normaliseren van covariantieCorx,y = rxy = Cov(x,y)√
sxsyvb score en iq: rxy = 0.93
14/77
![Page 15: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/15.jpg)
15/77
![Page 16: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/16.jpg)
1.4 Visualisatie
1.4.1 Histogram
• X = [1, 10]
16/77
![Page 17: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/17.jpg)
1.4.2 Boxplot
• min−Q1−Q2−Q3−max
• min−Q1: 25% van de observaties
• box: 50% van de observaties
• Q3−max: 25% van de observaties
17/77
![Page 18: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/18.jpg)
• Voorbeeld: X ∼ N(10, 1)
18/77
![Page 19: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/19.jpg)
• Voorbeeld: X ∼ F (1, 15)
19/77
![Page 20: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/20.jpg)
• Voorbeeld: X1 ∼ N(10, 1),X2 ∼ U(min(X1),max(X2))
20/77
![Page 21: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/21.jpg)
2 Toevalsvariabelen en kansverdelingen
2.1 Toevalsvariabelen
2.1.1 Toevalsproces en gebeurtenis
• toevalsproces: uitkomst is onvoorspelbaar
– Kop of munt gooien
– IQ meten bij een random gekozen persoon
• Gebeurtenis: deelverzameling van mogelijke uitkomsten voor eentoevalsproces.
– Kop of munt gooien: {munt}
– IQ meten: ‘meer dan 125’
21/77
![Page 22: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/22.jpg)
2.1.2 Toevalsvariabele
Een toevalsvariabele of kansvariabele is een variabele waarvan de waardein een toevalsproces onvoorspelbaar is.
• De kansvariabele ‘score’
2.2 Kansen
• De kans van een gebeurtenis A bij een toevalsproces wordt gede-finieerd als de relatieve frequentie van deze gebeurtenis als we hettoevalsproces oneindig veel keer zouden herhalen.
• P (A) = limn→∞fAn
22/77
![Page 23: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/23.jpg)
2.3 Kansverdeling
2.3.1 Discrete kansverdeling
• Een toevalsvariabele is discreet indien de mogelijke waarden die devariabele kan aannemen een eindig (of telbaar) aantal vormen. vbogen dobbelsteen, geslacht.
• De kansverdeling van een discrete kansvariabele geeft voor elke mo-gelijke waarde xi de kans aan dat deze waarde voorkomt:
• fX(xi) = f(xi) = P [X = xi]
23/77
![Page 24: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/24.jpg)
• Voorbeeld: ogen dobbelsteen
Ogen f(xi) F (xi)1 1/6 1/62 1/6 2/63 1/6 3/64 1/6 4/65 1/6 5/66 1/6 6/6
• De cumulatieve verdelingsfunctie FX(xi) drukt de kans uit dat dewaarde van de toevalsvariabele X in een toevalsproces kleiner is ofgelijk aan x:
• FX(xi) = P (X ≤ xi) =∑x≤xi
f(xi)
24/77
![Page 25: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/25.jpg)
2.3.2 Continue kansverdeling
• De kansverdeling bestaat niet: P [X = x] = 0.
• Daarom Kansdichheidsfunctie:
1. P [a ≤ x ≤ b] =∫ baf(x)dx
2. f(x) ≥ 0 voor alle x
3.∫∞−∞ f(x)dx = 1
• De cumulatieve verdelingsfunctie:FX(x) = P (X ≤ x) =
∫ x−∞ f(t)dt
• Voorbeeld: De kans dat iemand kleiner of gelijk aan 80kg weegt:P (X ≤ 80) = 0.70
25/77
![Page 26: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/26.jpg)
2.4 Verwachting
• Het ‘gemiddelde’ van een toevalsvariabele X wordt de verwachtinggenoemd, E(X) of µX .
– Discreet: E(X) =∑xif(xi)
voorbeeld dobbelsteen:E(X) = 1/6(1) + 1/6(2) + . . . 1/6(6) = 3.5
– Continue: E(X) =∫ +∞−∞ xf(x)dx
– Eigenschappen:
1. E(a) = a
2. E(aX) = aE(X)
3. E(a+X) = a+ E(X)
4. E(X ± Y ± Z) = E(X)± E(Y )± E(Z)
5. X en Y onafhankelijk: E(XY ) = E(X)E(Y )
26/77
![Page 27: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/27.jpg)
2.5 Variantie
• De ‘mate van spreiding’ van de verdeling van een kansvariabele Xnoemt men de variantie van X, Var(X) of σ2
X .
• V ar(X) = E[X − E(X)]2
• Eigenschappen:
1. V ar(a+X) = V ar(X)
2. V ar(aX) = a2V ar(X)
3. V ar(a) = 0
4. X en Y onafhankelijk: V ar(X ± Y ) = V ar(X) + V ar(Y )
5. X en Y afhankelijk: V ar(X ± Y ) = V ar(X) + V ar(Y ) ±2Cov(X,Y )
27/77
![Page 28: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/28.jpg)
2.6 Kansverdelingen
2.6.1 Binomiaal verdeling
• X ∼ Binom(n, π)
• Kansverdeling: f(x) =
(n
x
)πx(1− π)n−x
met
(n
x
)= n!
x!(n−x)!
• E(X) = nπ
• V ar(X) = nπ(1− π)
28/77
![Page 29: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/29.jpg)
29/77
![Page 30: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/30.jpg)
2.6.2 Normaalverdeling
• X ∼ N(µ, σ2)
• f(x) = 1(2π)1/2σ
exp{− 12
(x−µ)2
σ2 }
• E(X) = µ
• V ar(X) = σ2
2.6.3 Standaardnormaalverdeling
• φ(x) ∼ N(0, 1)
• z = X−µσ
30/77
![Page 31: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/31.jpg)
2.6.4 t-verdeling
• X ∼ t(ν)
• ν = aantal vrijheidsgraden
2.6.5 χ2-verdeling
• X ∼ χ2(ν)
• ν = aantal vrijheidsgraden
• som van ν onafhankelijke gekwadrateerde z-scores
31/77
![Page 32: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/32.jpg)
2.6.6 F-verdeling
• X ∼ F (ν1, ν2)
• ν1 en ν2 = vrijheidsgraden
• gebaseerd op ratio van twee χ2-verdelingen
32/77
![Page 33: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/33.jpg)
3 Statistische Inferentie: toetsen en schatten
3.1 De steekproevenverdeling
• Hypotheses: betrekking op onbekende parameters van de populatie
• Statistiek of steekproefgrootheid: maat gebaseerd op de gegevensvan de steekproef: S = f(X1, X2, X3, . . . , Xn)
• Puntschatting: Gegeven S, schatten van parameter in de populatie?
• Intervalschatting: betrouwbaarheidsinterval
• Toetsen: geldigheid hypothese in de populatie?
• Steekproevenverdeling: verdeling van S1, S2, . . . , Sn
• Standaardfout: op basis van steekproevenverdeling
33/77
![Page 34: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/34.jpg)
• Voorbeeld: n = 40, µ = 12, sd = 3
X = 12.38 µ = 12.00, σ = 0.48
34/77
![Page 35: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/35.jpg)
3.2 De steekproevenverdeling voor X
• Om de steekproevenverdeling voor X af te leiden doen we beroep opde centrale limietstelling.
• Gegeven n kansvariabelen X1, X2, . . . , Xn allen onafhankelijk enafkomstig van dezelfde (willekeurige) verdeling met gemiddelde µ
en variantie 0 < σ2 <∞ Stel:
Sn = X1 +X2 +X3 + . . .+Xn
Indien n→∞ dan is Sn normaal verdeeld met
E(Sn) = nµ en V ar(Sn) = nσ2
35/77
![Page 36: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/36.jpg)
• Gevolg 1:Stel X = Sn
n = X1+X2+X3+...+Xnn
Indien n→∞ dan is X normaal verdeeld met
E(X) = µ en V ar(X) = σ2/n
• Opmerkingen:Normaalverdeling goede benadering:
– Vanaf n > 30
– Indien n ≤ 30 en oorspronkelijke scores zijn normaal verdeeld
• Voorbeeld:
– Geobserveerde steekproefgemiddelde X = 12.38
– standaardafwijking of standaardfout:√
σ2
n =√
940 = 0.474
36/77
![Page 37: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/37.jpg)
• Gevolg 2:Stel ZX = X−µq
σ2n
Indien n→∞ dan is ZX standaardnormaal verdeeld met
E(ZX) = 0 en V ar(ZX) = 1
3.3 De steekproevenverdeling voor X (σ2 ongekend)
• Vervangen van σ2 door steekproefschatter s2 in ZX = X−µqσ2n
dan:
• t = X−µqs2n
• t ∼ t(ν) met ν = n− 1
37/77
![Page 38: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/38.jpg)
3.4 Intervalschatting
3.4.1 Puntschatting
• De geschatte waarde θ weerspiegelt:
1. de waarde θ in de populatie
2. de steekproeffout ε: θ = θ + ε
3.4.2 Het betrouwbaarheidsinterval
• Hoe smaller, hoe nauwkeurig de schatting
• Confidentie niveau: 100(1− α)%, met α = 0.05, α = 0.01 of . . .
38/77
![Page 39: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/39.jpg)
3.4.3 Opstellen van betrouwbaarheidsinterval
1. Trek random steekproef
2. Puntschatting θ: θ
3. Berekenen onder- en bovengrens:
• ondergrens = θ − (|gα/21 | × s)
• bovengrens = θ + (|gα/21 | × s)
4. ... 95% van de intervallen zal θ bevatten
39/77
![Page 40: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/40.jpg)
3.5 Toetsen van hypotheses
3.5.1 Nulhypothese
• Is populatieparameter θ gelijk aan vooropgestelde waarde θ0?
• H0 is de hypothese die effectief getoets wordt: H0 : µ = 110
• Ha is de alternatieve hypothese:
1. tweezijdig: Ha : µ 6= 110
2. linkszijdig: Ha : µ < 110
3. rechtszijdig: Ha : µ > 110
40/77
![Page 41: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/41.jpg)
3.5.2 Toetsingsgrootheid G
1. Verdeling G ∼ theoretische verdeling vb t, F , . . .
2. Verdeling van G onder de assumptie dat H0 waar is.
3.5.3 Kies betrouwbaarheid (1− α)
• 1 − α: conditionele kans om H0 te aanvaarden op voorwaarde datH0 juist is
• α: significantieniveau is de conditionele kans om de nulhypothese teverwerpen op voorwaarde dat de nulhypothese juist is.
41/77
![Page 42: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/42.jpg)
3.5.4 H0 aanvaarden of verwerpen
• Tweezijdig toetsen:Bepaal kritische waarden g
α/21 en g
α/22 :
P (G ≤ gα/21 ) = α/2 en P (G ≥ gα/22 ) = α/2aanvaardingsgebied: gα/21 ≤ G ≤ gα/22
kritisch gebied: gebied buiten deze twee waarden
42/77
![Page 43: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/43.jpg)
43/77
![Page 44: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/44.jpg)
• Eenzijdig toetsen:Bepaal kritische waarde gα:P (G ≤ gα) = α OF P (G ≥ gα) = α
44/77
![Page 45: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/45.jpg)
45/77
![Page 46: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/46.jpg)
3.5.5 H0 aanvaarden of verwerpen met p-waarde
• Bereken kans dat onder de verdeling van G onder H0 dat g of eenwaarde groter dan g zich voordoet.
– Eenzijdig: p = P (G ≥ g) of p = P (G ≤ g)
– Tweezijdig: p2zijdig = 2× p1zijdig
46/77
![Page 47: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/47.jpg)
3.6 Toetsen van hypotheses
3.6.1 One-sample t-test
• Gebruik: Nagaan of het gemiddelde van een continue variabele af-wijkt van een gegeven waarde µ0.
• assumpties:
1. Onafhankelijke observaties.
2. Normaalverdeelde observaties of een ’grote’ steekproef.
• H0 : µ = µ0
• toetsingsgrootheid: t = X−µqs2n
• betrouwbaarheidsinterval:
– ondergrens = X − (|tα/2n−1| × s/√n)
47/77
![Page 48: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/48.jpg)
– bovengrens = X + (|tα/2n−1| × s/√n)
Voorbeeld:
• n = 100, x = 116 en s2 = 400
• H0 : µ = 110, Ha : µ 6= 110
• t = X−µqs2n
= 116−11020/√
100= 3
• α = 0.05, t0.02599 = +2 en −2, p = 0.0034
• ondergrens = 116− (2× 20√
100), bovengrens = 116 + (2× 20√
100)
• 95% betrouwbaarheidsinterval is [112, 120], µ0 ligt niet in dit inter-val.
48/77
![Page 49: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/49.jpg)
3.6.2 two-sample t-test
• Gebruik: Nagaan of het gemiddelde van een continue variabele gelijkis in twee onafhankelijke populaties.
• assumpties:
1. Onafhankelijke observaties.
2. Normaalverdeelde observaties of een ’grote’ steekproef in elkegroep.
• H0 : µ1 = µ2 en varianties homogeen (σ21 = σ2
2 = σ)
• toetsingsgrootheid: t = (X1−X2)−(µ1−µ2)qs2pooled( 1
n1+ 1n2
)
• s2pooled = (n1−1)s21+(n2−1)s22
n1+n2−2
• betrouwbaarheidsinterval:
– ondergrens = (X1 − X2)− (|tα/2n1+n2−2| × s(X1−X2))
49/77
![Page 50: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/50.jpg)
– bovengrens = (X1 − X2) + (|tα/2n1+n2−2| × s(X1−X2))
Voorbeeld:
• n1 = 4,n2 = 6,x1 = 14.75,x2 = 10.33 en s2pooled = 5.26
• H0 : µA = µB
• t = (X1−X2)−(µ1−µ2)qs2pooled( 1
n1+ 1n2
)= 4.417−0√
5.26( 14 + 1
6 )= 2.983
• α = 0.05, t0.0258 = 2.306, p = 0.0175
• ondergrens = 4.417− (2.306× 1.48) = 1.003
• bovengrens = 4.417 + (2.306× 1.48) = 7.831
• 95% betrouwbaarheidsinterval is [1.003, 7.831], (µA − µB) ligt nietin dit interval.
50/77
![Page 51: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/51.jpg)
3.6.3 One-way analysis of variance (Anova)
• Gebruik: Nagaan of het gemiddelde van een continue variabele gelijkis in twee of meer (k) onafhankelijke populaties.
• Uitbreiding van de two-sample t-test
• assumpties:
1. Onafhankelijke observaties.
2. Normaalverdeelde observaties of een ’grote’ steekproef in elkegroep.
3. Gelijke variantie in elke groep.
• principe: is de variate tussen (between) groepen groot indien verge-leken met de variatie binnen (within) groepen?
• within MSE = withinSSn−k =
kPi=1
njPj=1
(Yij−Yi)2
n−k
51/77
![Page 52: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/52.jpg)
• between MSE = betweenSSk−1 =
kPi=1
njPj=1
(Yi−Y )2
k−1
• H0 : µ1 = µ2 = . . . , µk
• toetsingsgrootheid: F = betweenMSEwithinMSE , met onder H0 ∼ F (k − 1, n−
k).
52/77
![Page 53: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/53.jpg)
• Voorbeeld:Data:
Groep1 Groep2 Groep31 2 42 2 32 3 52 4 43 4 42 4 51 3 42 2 53 3 63 3 5
y1 = 2.1 y2 = 3 y3 = 4.5y = 3.2
53/77
![Page 54: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/54.jpg)
Output:
Sum of Squares df Mean Square F Sig.Between Groups 29.400 2 14.700 22.810 .000Within Groups 17.400 27 .644
Total 46.800 29
54/77
![Page 55: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/55.jpg)
4 Categorische data-analyse
4.1 Inleiding
• Afhankelijke variabele: categorisch (nominaal of ordinaal)
• vb geslacht, opleidingsniveau
• aantallen, frequenties, proporties, percentages
55/77
![Page 56: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/56.jpg)
4.2 1 Categorische variabele
4.2.1 1 Categorische variabele met 2 niveaus
• Voorbeeld:
Vrouwen Mannen Totaal Vrouwen Mannen Totaal11 19 30 0.3666 0.6333 1.0000
• De binomiaaltoets:H0 : π = π0 en stel π0 = 0.56
Ha : π < 0.56
56/77
![Page 57: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/57.jpg)
P (X = x) =
(n
x
)πx(1− π)n−x
De kans dat er exact 10 vrouwen zijn:
P (X = 10) =
(3010
)0.56x(1− 0.56)30−10 = 0.0067
De kans dat er 11 vrouwen of minder zijn:P (X ≤ 11) = P (X = 0) + P (X = 1) + . . .+ P (X = 11) = 0.0256ptweezijdig = 0.0256× 2 = 0.052
57/77
![Page 58: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/58.jpg)
Indien minnπ0, n(1− π0) > 5: benaderen via normaalverdeling
z = |x−nπ|√nπ0(1−π0)
z = |11−30×0.56|√30×0.56(1−0.56)
= 2.133
P (Z > 2.133) = 0.016
Soms continuiteits-correctie: z = |11−30×0.56|−0.5√30×0.56(1−0.56)
= 1.95
P (Z > 1.95) = 0.0256
58/77
![Page 59: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/59.jpg)
4.2.2 1 Categorische variabele met J ≥ 2 niveaus
• Voorbeeld:
Klinische Bedrijfs Experimentele Totaalnj 258 69 19 346pj 0.75 0.20 0.05 1.00πj 0.70 0.28 0.02 1.00
µj(= n× πj) 242.20 97.88 6.92 3.46
• De Pearson chi-kwadraat toets: H0 : pj = πj of nj = µj , voor alle j.
• χ2 =J∑j=1
(nj−µj)2µj
, met df = J − 1.
• χ22 = (258−242.20)2
242.20 + (69−96.88)2
96.88 + (19−6.92)2
6.92 = 30.1416, p < 0.0001
59/77
![Page 60: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/60.jpg)
4.3 2 Categorische variabelen
4.3.1 2-Wegs kruistabel: geobserveerde frequenties
• Voorbeeld:
Klinische Bedrijfs Experimentele Totaalgeslaagd = 0 120 34 5 159geslaagd = 1 138 35 14 187
totaal 258 69 19 346
• Notatie:
Klinische Bedrijfs Experimentele Totaalgeslaagd = 0 n11 n12 n13 n1+
geslaagd = 1 n21 n22 n23 n2+
totaal n+1 n+2 n+3 n
60/77
![Page 61: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/61.jpg)
4.3.2 Test voor onafhankelijke variabelen
• Is er een verband tussen X en Y? Zo niet: statistisch onafhankelijk
• H0 : πij = πi+× π+j, voor alle i, j.
• ∼ H0 : πi|j = π+j, voor alle i, j.
• Onder H0 : µij = nπij = n× πi+× π+j.
• πi+ en π+j onbekend:µij = npi+p+j = nni+n
n+jn = ni+n+j
n .
• µij : geschatte verwachte frequenties.
61/77
![Page 62: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/62.jpg)
µ11 = 159×258346 = 118.56
µ12 = 159×69346 = 31.71
µ13 = 159×19346 = 8.73
µ21 = 187×258346 = 139.44
µ22 = 187×69346 = 37.29
µ23 = 187×19346 = 10.27
Klinische Bedrijfs Experimentele Totaalgeslaagd = 0 118.56 31.71 8.73 159geslaagd = 1 139.44 37.29 10.27 187
totaal 258 69 19 346
62/77
![Page 63: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/63.jpg)
• χ2I∑i=1
J∑j=1
(nij−µij)2µij
• df = (I − 1)(J − 1)
• χ2 = 3.2891, df = 2, p = 0.1931
63/77
![Page 64: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/64.jpg)
4.4 Veralgemeend lineaire modellen
• Afhankelijke variabele is categorisch, maar meerdere predictoren
• Regressie, anova niet meer mogelijk
4.4.1 Logistische regressie
• Afhankelijke variabele is dichotoom, of binair
• Alternatief: probit regressie
• Indien afhankelijke variabele meerdere niveaus: multinomiale regres-sie
64/77
![Page 65: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/65.jpg)
4.4.2 Poisson regressie
• Afhankelijke variabele is een frequentie die een poisson verdelingvolgt
• Aantal ongevallen/uur, Aantal klanten per dag,...
4.4.3 Loglineaire analyse
• Speciaal geval van poisson regressie
• Associatie tussen verschillende nominale variabelen in kaart brengen
65/77
![Page 66: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/66.jpg)
5 Enkelvoudige Lineaire Regressie
5.1 Inleiding
5.1.1 doel
• Modelleren van lineaire relatie tussen een afhankelijke variabele Yen een onafhankelijke variabele X
• X en Y gemeten op minstens interval niveau
• Lineaire regressie laat toe:
1. variatie in Y te verklaren in termen van variatie in X
2. Y te voorspellen op basis van X
3. nagaan of X een significante predictor is
66/77
![Page 67: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/67.jpg)
5.1.2 Vergelijking van een rechte
• y = a+ bx
• a = intercept: indien x = 0, dan y = a
• b = helling of slope: indien de waarde van x stijgt met een eenheid,dan stijgt de waarde van y met b
67/77
![Page 68: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/68.jpg)
68/77
![Page 69: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/69.jpg)
5.2 Het regressiemodel
5.2.1 Structuur
• Yi = β0 + β1Xi + εi, i = 1, 2, . . . , n
• β0 en β1 zijn de regressiecoefficienten
• εi is de foutterm voor observatie i
5.2.2 assumpties
• E(εi) = 0⇒ E(Yi) = β0 + β1X1i + . . .+ β1Xpi
• V ar(εi) = σ2ε voor alle i⇒ V ar(Yi) = σ2
εi
• Cov(εi, εj) = 0 voor alle i 6= j
69/77
![Page 70: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/70.jpg)
5.2.3 Onderzoeksvragen
• Wat is de bijdrage van X in het model? Is dit significant?
H0 : β1 = 0
• Hoeveel variantie in Y wordt verklaard door het model?
H0 = R2 = 0,met R2 =determinatiecoefficient
70/77
![Page 71: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/71.jpg)
5.3 Parameters
• Enkelvoudig regressiemodel telt drie vrije parameters:
1. de regressieconstante β0
2. de regressiecoefficient β1
3. de variantie van de fouttermen σ2ε
• Schatten van parameters? Methode van kleinste kwadraten, maxi-mum likelihood
• Minimaliseren vann∑i=1
(yi − yi)2, met yi = b0 + b1xi
71/77
![Page 72: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/72.jpg)
5.4 Toetsen van hypotheses
• H0 : β0 = 0: t = b0−β0sb0
met n− 2 vrijheidsgraden
• H0 : β1 = 0: t = b1−β1sb1
met n− 2 vrijheidsgraden
• Voorbeeld score en iq:
B Std.Error t Sigconstant -27.765 5.58 -4.975 0.001
iq 0.306 0.043 7.143 0.000
• ondergrens: bi − (|tα/2n−2| × sbi)
• bovengrens: bi + (|tα/2n−2| × sbi)
72/77
![Page 73: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/73.jpg)
5.5 De determinatiecoefficient R2
• Nulmodel: Yi = β0 + εi ⇒ b0 = y
• Total sum of squares (SST): E0 =n∑i=1
(yi − yi)2
• Residual sum of squares (SSE): Ep =n∑i=1
(yi − yi)2
• Regression sum of squares (SSR) = SST-SSE
• R2 = E0−EpE0
⇒ 0 < r2 < 1
• H0 : R2 = 0: F = (E0−Ep)/(df0−dfp)Ep/dfp
• Voorbeeld score en iq: R2 = 0.864
Model Sum of Squares df Mean Square F Sig.Regression 79.529 1 79.529 51.019 .000Residual 12.471 8 1.559
Total 92.000 9
73/77
![Page 74: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/74.jpg)
6 Meervoudige Lineaire Regressie
6.1 Structuur
• Yi = β0 + β1X1i + β2X2i + . . .+ βpXpi + εi, i = 1, 2, . . . , n
• β0, . . . , β1 zijn de regressiecoefficienten
• εi is de foutterm voor observatie i
6.2 Onderzoeksvragen
• Wat is de bijdrage van Xp in het model? Is dit significant? H0 :βp = 0
• Hoeveel variantie in Y wordt verklaard door het model? H0 = R2 =0, met R2 =determinatiecoefficient
74/77
![Page 75: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/75.jpg)
6.3 Parameters
• Schatten van vrije parameters: Cfr. Enkelvoudige lineaire regressie
6.4 Toetsen van hypotheses
• H0 : βp = 0: t = bp−βpsbp
met n− p− 1 vrijheidsgraden
• Voorbeeld score, iq en leeftijd:
75/77
![Page 76: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/76.jpg)
score iq leeftijd1 16.00 140.00 22.002 10.00 120.00 24.003 11.00 125.00 25.004 14.00 135.00 31.005 8.00 115.00 30.006 18.00 145.00 26.007 13.00 140.00 26.008 9.00 125.00 29.009 11.00 130.00 33.0010 10.00 125.00 27.00
B Std.Error t Sigconstant -22.513 7.243 -3.108 0.017
iq 0.295 0.043 6.784 0.000leeftijd -0.138 0.124 -1.114 0.302
76/77
![Page 77: Introductie tot de statistiek - Logos Foundation · Introductie tot de statistiek Hogeschool Gent 04/05/2010. Inhoudsopgave 1 Basisbegrippen en beschrijvende statistiek8 1.1 Onderzoek](https://reader031.vdocuments.net/reader031/viewer/2022021900/5b6983617f8b9af77c8e23f4/html5/thumbnails/77.jpg)
6.5 De determinatiecoefficient R2
• Nulmodel: Yi = β0 + εi ⇒ b0 = y
• Total sum of squares (SST): E0 =n∑i=1
(yi − yi)2
• Residual sum of squares (SSE): Ep =n∑i=1
(yi − yi)2
• Regression sum of squares (SSR) = SST-SSE
• R2 = E0−EpE0
⇒ 0 < r2 < 1
• H0 : R2 = 0: F = (E0−Ep)/(df0−dfp)Ep/dfp
• Voorbeeld score, iq en leeftijd: R2 = 0.885
Model Sum of Squares df Mean Square F Sig.Regression 79.529 1 79.529 26.900 .000Residual 12.471 8 1.559
Total 92.000 9
77/77