regresja logistyczna algorytm estymacji wspóªczynników i przykªad zastosowania w ... ·...

Uniwersytet Warszawski

Wydziaª Matematyki, Informatyki i Mechaniki

Barbara Rubikowska, Natalia Wªodarczyk

Nr albumu: 292151, 292591

Regresja logistyczna algorytm

estymacji wspóªczynników i przykªad

zastosowania w pakiecie

statystycznym R

Praca licencjacka

na kierunku MATEMATYKA

Praca wykonana pod kierunkiemdra in». Przemysªawa BieckaInstytut Matematyki Stosowanej i Mechaniki UW

Lipiec 2012

O±wiadczenie kieruj¡cego prac¡

Potwierdzam, »e niniejsza praca zostaªa przygotowana pod moim kierunkiem i kwa-likuje si¦ do przedstawienia jej w post¦powaniu o nadanie tytuªu zawodowego.

Data Podpis kieruj¡cego prac¡

O±wiadczenie autora (autorów) pracy

wiadom odpowiedzialno±ci prawnej o±wiadczam, »e niniejsza praca dyplomowazostaªa napisana przeze mnie samodzielnie i nie zawiera tre±ci uzyskanych w sposóbniezgodny z obowi¡zuj¡cymi przepisami.

O±wiadczam równie», »e przedstawiona praca nie byªa wcze±niej przedmiotem pro-cedur zwi¡zanych z uzyskaniem tytuªu zawodowego w wy»szej uczelni.

O±wiadczam ponadto, »e niniejsza wersja pracy jest identyczna z zaª¡czon¡ wersj¡elektroniczn¡.

Data Podpis autora (autorów) pracy

Streszczenie

W niniejszej pracy przedstawione zostaªo wprowadzenie do regresji logistycznej. Rozdziaªpierwszy zawiera wst¦p teoretyczny do zagadnienia ze szczególnym uwzgl¦dnieniem iteracyjnejmetody wa»onych najmniejszych kwadratów sªu»¡cej do wyliczania wspóªczynników regresji.Rozdziaª drugi zawiera opis funkcji pakietu R przydatnych do budowania modelu regresjilogistycznej. Rozdziaª trzeci zawiera przykªad zastosowania pakietu R do tworzenia modeliregresji logistycznej obja±niaj¡cych wpªyw takich czynników jak wiek, pªe¢, wyksztaªceniena zainteresowanie kinem i ksi¡»kami jako no±nikami kultury. Potrzebne dane statystycznezostaªy zaczerpni¦te z badania Obiegi kultury.

Sªowa kluczowe

statystyka, regresja logistyczna, uogólnione modele liniowe, iteracyjna metoda wa»onych naj-mniejszych kwadratów, szansa, pakiet R

Dziedzina pracy (kody wg programu Socrates-Erasmus)

11.2 Statystyka

Klasykacja tematyczna

62J12, 62P25

Tytuª pracy w j¦zyku angielskim

Logistic regression coecients estimation algorithm with an example of application in sta-tistical package R

Spis tre±ci

1. Wst¦p teoretyczny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.1. Regresja logistyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.1.1. Funkcja logistyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.1.2. Szansa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.1.3. Wiarogodno±¢ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.1.4. Poprawno±¢ modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.1.5. Regresja logistyczna dla danych binarnych . . . . . . . . . . . . . . . . 16

1.2. Iteracyjna metoda wa»onych kwadratów . . . . . . . . . . . . . . . . . . . . . 161.2.1. Metoda Newtona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.2. Algorytm Newtona-Raphsona . . . . . . . . . . . . . . . . . . . . . . . 171.2.3. Metoda najmniejszych kwadratów . . . . . . . . . . . . . . . . . . . . 181.2.4. Metoda wa»onych najmniejszych kwadratów . . . . . . . . . . . . . . . 191.2.5. Iteracyjna metoda wa»onych najmniejszych kwadratów . . . . . . . . . 19

2. Opis funkcji w pakiecie R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.1. Funkcja glm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.2. Funkcja step() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.3. Inne funkcje przydatne w analizie danych rzeczywistych . . . . . . . . . . . . 25

2.3.1. Funkcja factor() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3.2. Funkcja plot() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3.3. Obliczanie X2 i R2

N . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3.4. Funkcja read.table() . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3. Analiza danych rzeczywistych . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.1. Opis danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2. Transformacje danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2.1. Pytania z sonda»u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.2.2. Transformacje zmiennych obja±nianych . . . . . . . . . . . . . . . . . . 283.2.3. Transformacje zmiennych obja±niaj¡cych . . . . . . . . . . . . . . . . . 30

3.3. Budowa modeli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.3.1. Model badaj¡cy zainteresowanie kinem . . . . . . . . . . . . . . . . . . 323.3.2. Model badaj¡cy zainteresowanie ksi¡»kami zmienna czy.ksiazki0 . . 373.3.3. Model badaj¡cy zainteresowanie ksi¡»kami zmienna czy.ksiazki10 . 40

3.4. Diagnostyka modeli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.5. Interpretacja modeli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.6. Porównanie modeli i wnioski . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3

A. Kody pakietu R u»yte w pracy . . . . . . . . . . . . . . . . . . . . . . . . . . . 53A.1. Wczytanie i transformacja danych . . . . . . . . . . . . . . . . . . . . . . . . . 53A.2. Budowa modelu zwi¡zanego z kinem . . . . . . . . . . . . . . . . . . . . . . . 54A.3. Budowa modelu zwi¡zanego ze zmienn¡ czy.ksiazki0 . . . . . . . . . . . . . . 54A.4. Budowa modelu zwi¡zanego ze zmienn¡ czy.ksiazki10 . . . . . . . . . . . . . 55A.5. Tworzenie wykresów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55A.6. Diagnostyka modeli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4

Spis rysunków

3.1. Wykresy interaction.plot() ukazuj¡ce interakcje mi¦dzy zmiennymi fac.wieki fac.stan oraz fac.miejscowosc i fac.stan w modelu badaj¡cym zmienn¡czy.kino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2. Wykresy pudeªkowe dla prawdopodobie«stwa zainteresowania kinem (zmiennaobja±niana czy.kino) w zale»no±ci od poszczególnych poziomów zmiennych ob-ja±niaj¡cych fac.wiek, fac.wyksztalcenie i fac.miejscowosc; grubo±¢ ka»degoz pudeªek jest proporcjonalna do pierwiastka z liczebno±ci danej grupy . . . . 48

3.3. Wykresy pudeªkowe dla prawdopodobie«stwa zainteresowania czytelnictwem(zmienna obja±niana czy.ksiazki0) w zale»no±ci od poszczególnych poziomówzmiennych obja±niaj¡cych fac.plec, fac.wiek i fac.wyksztalcenie; grubo±¢ka»dego z pudeªek jest proporcjonalna do pierwiastka z liczebno±ci danej grupy 49

3.4. Wykresy pudeªkowe dla prawdopodobie«stwa zainteresowania czytelnictwem(zmienna obja±niana czy.ksiazki10) w zale»no±ci od poszczególnych poziomówzmiennych obja±niaj¡cych fac.plec, fac.wiek, fac.wyksztalcenie i fac.stan;grubo±¢ ka»dego z pudeªek jest proporcjonalna do pierwiastka z liczebno±cidanej grupy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5

Spis tablic

3.1. Pytania i odpowiedzi z sonda»u dotycz¡ce zmiennych obja±nianych . . . . . . 293.2. Pytania i odpowiedzi z sonda»u dotycz¡ce zmiennych obja±niaj¡cych . . . . . 293.3. Zestawienie ocen wspóªczynników (przeksztaªconych funkcj¡ exp(x)) w mode-

lach zwi¡zanych ze zmiennymi czy.kino, czy.ksiazki0 i czy.ksiazki10 . . . . 46

7

Udziaª w przygotowaniu pracy

Praca zostaªa napisana przez nas obie Barbar¦ Rubikowsk¡ i Natali¦ Wªodarczyk.Wszystkie badania przeprowadzaªy±my wspólnie i razem dyskutowaªy±my ich wyniki; na-wzajem recenzowaªy±my swoje rozdziaªy i poprawiaªy±my bª¦dy. Wkªad w tworzenie pracybyª równomierny. Nieªatwo jest wskaza¢, która z nas byªa pomysªodawczyni¡ poszczególnychinicjatyw i rozwi¡za«, jednak»e mo»liwe jest wskazanie autorstwa ka»dej z sekcji.

Barbara Rubikowska napisaªa rozdziaªy:

• Wprowadzenie,

• 1.2 Iteracyjna metoda wa»onych kwadratów,

• 2.1 Funkcja glm(),

• 3.1 Opis danych,

• 3.2 Transformacje danych,

• 3.3.1 Model badaj¡cy zainteresowanie kinem,

• dodatek A.

Natalia Wªodarczyk napisaªa rozdziaªy:

• 1.1 Regresja logistyczna,

• 2.2 Funkcja step(),

• 2.3 Inne funkcje przydatne w analizie danych rzeczywistych,

• 3.3.2 Model badaj¡cy zainteresowanie ksi¡»kami zmienna czy.ksiazki0,

• 3.3.3 Model badaj¡cy zainteresowanie ksi¡»kami zmienna czy.ksiazki10,

• 3.4 Diagnostyka modeli,

• Podsumowanie.

Nast¦puj¡ce rozdziaªy zostaªy napisane wspólnie:

• 3.5 Interpretacja modeli,

• 3.6 Porównanie modeli i wnioski.

9

Wprowadzenie

Regresja jest to metoda statystyczna sªu»¡ca do badania zwi¡zku pomi¦dzy zmiennymi(dokªadniej: wpªywu wybranych zmiennych obja±niaj¡cych na zmienn¡ obja±nian¡) oraz dopredykcji nieznanych warto±ci zmiennej obja±nianej w zale»no±ci od znanych warto±ci zmien-nych obja±niaj¡cych ([8]).

Regresja logistyczna to model regresji u»ywany w przypadku, gdy zmienna obja±niana jestbinarna, czyli przyjmuje dokªadnie dwie ró»ne warto±ci (zwyczajowo jedna z tych warto±ci na-zywana jest sukcesem, a druga pora»k¡). Jest to szeroko stosowana metoda statystyczna,zwªaszcza w medycynie, naukach przyrodniczych i spoªecznych. W naszej pracy postanowi-ªy±my zaj¡¢ si¦ zagadnieniem spoªeczno-kulturowym i u»y¢ modelu regresji logistycznej dobadania czynników ró»nicuj¡cych zainteresowanie dwoma no±nikami kultury: kinem i ksi¡»-kami. Dane zaczerpn¦ªy±my z sonda»u Obiegi kultury zrealizowanego w 2011 roku w ramachprogramu Obserwatorium Kultury.

Praca skªada si¦ z trzech rozdziaªów. Pierwszy z nich stanowi wst¦p teoretyczny do za-gadnienia regresji logistycznej z naciskiem na poj¦cia takie jak funkcja logistyczna, szansai funkcja wiarogodno±ci, na metody sprawdzania poprawno±ci modelu oraz na iteracyjn¡ me-tod¦ wa»onych najmniejszych kwadratów zaimplementowan¡ przez pakiet statystyczny R doestymacji wspóªczynników regresji. Drugi rozdziaª przedstawia funkcje pakietu R przydatnew budowaniu modelu regresji ze szczególnym uwzgl¦dnieniem funkcji glm() i step(). Trzecirozdziaª zawiera analiz¦ danych rzeczywistych budow¦, diagnostyk¦ i interpretacj¦ modeliopisuj¡cych wpªyw zmiennych takich jak pªe¢, wiek czy stan cywilny na to, czy dana osobachodzi do kina i czy czyta ksi¡»ki. Do pracy doª¡czony jest dodatek A, w którym zostaªyzamieszczone wraz z komentarzami wszystkie kody pakietu R zastosowane przy tworzeniupracy.

11

Rozdziaª 1

Wst¦p teoretyczny

1.1. Regresja logistyczna

Regresja opisuje zale»no±¢ zmiennej obja±nianej (zale»nej) Y od wektora zmiennych obja-±niaj¡cych (niezale»nych) X. Sªu»y do okre±lania zwi¡zków pomi¦dzy poszczególnymi warto-±ciami zmiennych. Zazwyczaj ogólny model przyjmuje posta¢:

Y = ϕ(X,β) + ϵ. (1.1)

Aby taki model stworzy¢, musimy wyestymowa¢ wspóªczynniki β stoj¡ce przy zmiennychz wektora X. Wi¦cej na temat regresji w postaci ogólnej mo»na przeczyta¢ w [5] s. 143-144.

Troch¦ inaczej wygl¡da model dla uogólnionych modeli liniowych (ang. generalized linearmodels, GLM). Dla tego rodzaju regresji deniujemy funkcj¦ wi¡»¡c¡, zale»n¡ od warto±cioczekiwanej zmiennej Y (EY ) i równ¡ iloczynowi Xβ.

Odt¡d b¦dziemy si¦ zajmowa¢ szczególnym modelem regresji regresj¡ logistyczn¡. Dlauªatwienia zapisu przyjmiemy, »e zmienna X jest jednowymiarowa.

1.1.1. Funkcja logistyczna

Regresja logistyczna jest modelem regresji, w którym zmienna obja±niana ma rozkªaddwumianowy:

Y ∼ Bin(m, θ). (1.2)

Ka»da z m prób osi¡ga sukces z prawdopodobie«stwem θ i pora»k¦ z prawdopodobie«-stwem 1−θ, czyli Y jest sum¡ m niezale»nych zmiennych binarnych. Dzi¦ki wyestymowanymwspóªczynnikom β funkcja logistyczna pozwala obliczy¢ prawdopodobie«stwo sukcesu w za-le»no±ci od warto±ci zmiennej obja±niaj¡cej X. Okre±la si¦ j¡ wzorem:

θ(x) =exp(β0 + β1x)

1 + exp(β0 + β1x). (1.3)

1.1.2. Szansa

Szansa (ang. odds) jest funkcj¡ prawdopodobie«stwa dan¡ wzorem:

Odds(θ(x)) =θ(x)

1− θ(x). (1.4)

Jest to iloraz prawdopodobie«stwa sukcesu i prawdopodobie«stwa pora»ki. Szansa przyjmujewarto±ci ze zbioru (0,∞). atwo mo»na ten zbiór poszerzy¢ do (−∞,∞) bior¡c logarytm

13

szansy, zwany logitem. Logit jest funkcj¡ wi¡»¡c¡ dla regresji logistycznej i przyjmuje onposta¢:

Logit = ln

(θ(x)

1− θ(x)

)= β0 + β1x = Xβ. (1.5)

Widzimy wi¦c, »e logit jest liniowo zale»ny od zmiennej X, co pozwala nam na ªatw¡ inter-pretacj¦ wspóªczynnika β1: je±li x ro±nie o k jednostek, to szansa wzrasta exp(k ∗ β1) razy.

1.1.3. Wiarogodno±¢

Dla m niezale»nych obserwacji deniujemy funkcj¦ wiarogodno±ci (ang. likelihood) wzo-rem:

L(x) =

n∏i=1

P (Yi = yi|xi) =n∏

i=1

(mi

yi

)θ(xi)

yi(1− θ(xi))mi−yi , (1.6)

gdzie mi to liczba prób w obr¦bie i-tej obserwacji, a yi jest liczb¡ sukcesów w mi próbach.Poniewa» wykorzystuje si¦ j¡ do znajdowania estymatorów najwi¦kszej wiarogodno±ci poprzezmaksymalizacj¦, to cz¦±ciej korzystamy z jej logarytmu, co zazwyczaj znacznie upraszczaobliczenia:

l(x) = ln(L(x)) =

n∑i=1

[yi(β0 + β1xi)−mi ln(1 + exp(β0 + β1xi)) + ln

(mi

yi

)]. (1.7)

Maksymalizacj¦ log-wiarogodno±ci przeprowadza si¦ przy u»yciu metod iteracyjnych, któreopiszemy w dalszych rozdziaªach np. algorytm Newtona-Raphsona, iteracyjna metoda wa»o-nych najmniejszych kwadratów (patrz 1.2).

1.1.4. Poprawno±¢ modelu

Gdy chcemy u»y¢ jakiego± modelu, to zawsze sprawdzamy jego poprawno±¢, to znaczyczy jest on odpowiednio dobrany do naszych danych. Mo»na to robi¢ na wiele sposobów.Przedstawimy teraz kilka z nich.

Podstawowym poj¦ciem, które zdeniujemy jest dewiancja (ang. deviance). Jest onaodchyleniem przyj¦tego modelu od modelu wysyconego (ang. saturated model), czyli ta-kiego, w którym liczba funkcyjnie niezale»nych parametrów β jest równa liczbie obserwacji.Dewiancja jest podwojon¡ ró»nic¡ log-wiarogodno±ci tych dwóch modeli. Obliczamy j¡ zapomoc¡ statystyki G2 zadanej wzorem:

G2 = 2[ln(LS)− ln(LM )] =

= 2

n∑i=1

[yi ln

(yimi

)+ (mi − yi) ln

(1− yi

mi

)]− 2

n∑i=1

[yi ln

(yimi

)+ (mi − yi) ln

(1− yi

mi

)]=

= 2

n∑i=1

[yi ln

(yiyi

)+ (mi − yi) ln

(mi − yimi − yi

)], (1.8)

gdzie yi = miθ(xi), a LS i LM to log-wiarogodno±ci odpowiednio modelu wysyconego i mo-delu przyj¦tego.H0: βi = βi dla i = 1, ..., n, gdzie n jest liczb¡ wspóªczynników wyestymowanych w przyj¦tymmodelu,przeciwko alternatywie:

14

H1: βi = βi dla i = 1, ..., n, gdzie n jest liczb¡ wspóªczynników wyestymowanych w modeluwysyconym.Dla dostatecznie du»ych mi, przy zaªo»eniu, »e H0 jest prawdziwa, G2 ma rozkªad asymp-totycznie zbie»ny do χ2

d, gdzie liczba stopni swobody d = n − p − 1, gdzie p + 1 jest liczb¡estymowanych wspóªczynników β ([6] s. 274). W pakiecie R taka dewiancja jest nazywanadewiancj¡ resztow¡ (ang. residual deviance).

Mo»emy te» sprawdza¢, czy nasz model odbiega od modelu zerowego, czyli takiego, w któ-rym wspóªczynnik β1 jest równy 0. W pakiecie R takie odchylenie jest wyznaczone przezdewiancj¦ zerow¡ (ang. null deviance).

Jeszcze innym sposobem jest obliczenie statystyki, b¦d¡cej ró»nic¡ dewiancji resztoweji zerowej, która testuje:H0: β1 = 0 (czyli θ(x) = 1

1+exp(−β0)),

przeciwko:H1: β1 = 0 (czyli θ(x) = 1

1+exp(−[β0+β1x])).

Przy zaªo»eniu prawdziwo±ciH0 taka ró»nica ma rozkªad asymptotyczny χ2p, gdzie p jest liczb¡

estymowanych βi dla i = 0.

R2, zwany wspóªczynnikiem determinacji, okre±la stopie« dopasowania modelu do danych(ang. goodness-of-t). Istnieje kilka denicji R2, my u»yjemy dwóch do diagnozy modeliw rozdziale 3.4. Jedn¡ z nich jest wspóªczynnik dla regresji logistycznej, okre±lany wzorem:

R2P = 1−

G2H1

G2H0

. (1.9)

Drug¡ jest R2N Nagerkelkego, który mo»na ªatwo obliczy¢ w pakiecie R, o czym b¦dzie mowa

w rozdziale 2.2. R2 przyjmuje warto±ci od 0 do 1. Im wi¦kszy R2, tym lepsze dopasowaniemodelu do danych.

Statystyka X2 Pearsona równie» mierz¡ca dopasowanie modelu jest zdeniowana nast¦-puj¡co:

X2 =

n∑i=1

(yimi

− θ(xi))2

V ar(

yimi

) . (1.10)

Ta statystyka ma rozkªad asymptotyczny χ2d, gdzie d = n− p− 1 dla dostatecznie du»ych mi

([6] s. 274). Widzimy wi¦c, »e jest to taki sam rozkªad jak dla dewiancji.

Ostatnim sposobem jest obliczenie reszt (ang. residuals). Przedstawimy 3 rodzaje:

• Reszty obja±niane (ang. response residuals):

ri =yimi

− θ(xi),

gdzie θ(xi) jest i-t¡ dopasowan¡ z modelu warto±ci¡.

• Reszty Pearsona:

rPearson,i =yimi

−θ(xi)√V ar

(yimi

) .

15

Warto zauwa»y¢, »e∑n

i=1 r2Pearson,i = X2, gdzie X2 jest statystyk¡ Pearsona (st¡d

nazwa reszt).

• Reszty dewiancyjne:

rDeviance,i = sign(

yimi

− θ(xi))gi,

gdzie∑n

i=1 g2i = G2.

Troch¦ wi¦cej o resztach mo»na przeczyta¢ w [6] s. 274-277.

1.1.5. Regresja logistyczna dla danych binarnych

Jest to specyczna odmiana regresji logistycznej, w której liczba poszczególnych obser-wacji jest równa 1 (mi = 1). Czyli zmienne Yi, s¡ zmiennymi o rozkªadzie dwupunktowym(binarnym). Tak przedstawione dane nazywamy binarnymi. Mo»emy teraz przedeniowa¢wielko±ci dostosowane do tego typu danych.

• Log-wiarogodno±¢ dla danych binarnych:

ln(L) =

n∑i=1

[yi ln(θ(xi)) + (1− yi) ln(1− θ(xi)) + ln

(1

yi

)]. (1.11)

• Dewiancja dla danych binarnych wraz z wyprowadzeniem (LM - model otrzymany przeznas, LS - model wysycony):

G2 = 2[ln(LS)− ln(LM )] =

= 2

n∑i=1

[yi ln(yi) + (1− yi) ln(1− yi)]− 2

n∑i=1

[yi ln(yi) + (1− yi) ln(1− yi)] =

= −2n∑

i=1

[yi ln(yi) + (1− yi) ln(1− yi)] . (1.12)

Jest ona zale»na tylko od logarytmu modelu przyj¦tego (dla modelu wysyconego wynosion 0). Poniewa» wszystkie mi s¡ równe 1, to nie mo»emy mówi¢ o zbie»no±ci asymp-totycznej do rozkªadu χ2, jak to miaªo miejsce dla zwykªej dewiancji. Jednak ju» dlaró»nicy dewiancji, ta asymptotyczno±¢ zachodzi ([6] s. 280-281).

Wi¦cej na temat tego rodzaju danych mo»na przeczyta¢ w [6] s. 277-294.

1.2. Iteracyjna metoda wa»onych kwadratów

W tym rozdziale opiszemy iteracyjn¡ metod¦ wa»onych kwadratów technik¦ stosowan¡do estymowania metod¡ najwi¦kszej wiarogodno±ci wspóªczynników uogólnionych modeli li-niowych, w tym regresji logistycznej.

Wyznaczenie estymatora najwi¦kszej wiarogodno±ci (ang. maximum likelihood estimate MLE) sprowadza si¦ do odnalezienia tych warto±ci parametrów, dla których funkcja wiaro-godno±ci osi¡ga maksimum, czyli miejsc zerowych pierwszej pochodnej funkcji wiarogodno±ci.Prawdopodobnie najszerzej stosowan¡ numeryczn¡ metod¡ sªu»¡c¡ do rozwi¡zania tego pro-blemu jest metoda Newtona-Raphsona, oparta na metodzie Newtona odnajduj¡cej miejscazerowe funkcji.

16

1.2.1. Metoda Newtona

Metoda Newtona jest to iteracyjny algorytm wyznaczania przybli»onej warto±ci pier-wiastka funkcji. Przedstawimy jej teoretyczne zaªo»enia.

Rozwini¦cie Taylora funkcji f wokóª punktu x0 dane jest wzorem:

f(x1) = f(x0) + (x1 − x0)f′(x0) +

1

2!(x1 − x0)

2f ′′(x0) +1

3!(x1 − x0)

3f (3)(x0) + · · · . (1.13)

Zaªó»my, »e szukamy punktu x1 takiego, »e f(x1) = 0. Wówczas speªnione jest równanie:

0 = f(x0) + (x1 − x0)f′(x0) +

1

2!(x1 − x0)

2f ′′(x0) +1

3!(x1 − x0)

3f (3)(x0) + · · · . (1.14)

W wi¦kszo±ci wykorzystywanych w statystyce metod iteracyjnych tylko dwa pierwszeskªadniki powy»szej sumy s¡ brane pod uwag¦. Pomijaj¡c pozostaªe skªadniki sumy otrzymu-jemy przybli»enie szukanego punktu:

0 ≈ f(x0) + (x1 − x0)f′(x0). (1.15)

Rozwikªuj¡c to wyra»enie ze wzgl¦du na x1 otrzymujemy:

x1 ≈ x0 −f(x0)

f ′(x0). (1.16)

Je»eli za x0 wstawimy j-te przybli»enie szukanego punktu, a za x1 wstawimy kolejne(j+1)-sze przybli»enie, to otrzymamy wzór na (j+1)-szy krok iteracyjnej metody Newtona:

x(j+1) = x(j) − f(x(j))

f ′(x(j)). (1.17)

Warunkiem ko«cz¡cym iteracje jest:

|f(x(j))| < ϵ. (1.18)

Metoda Newtona jest zbie»na kwadratowo bª¡d maleje kwadratowo wraz z liczb¡ iteracji([2], s. 41).

1.2.2. Algorytm Newtona-Raphsona

Zdeniujmy funkcj¦ wynikow¡ (ang. score function) jest to pierwsza pochodna log-wiarogodno±ci:

l(θ|Y ) =∂

∂θl(θ|Y ). (1.19)

Algorytm Newtona-Raphsona jest to metoda Newtona zastosowana do funkcji wynikowej.Z powy»szej denicji wynika, »e owy algorytm odnajduje punkty krytyczne log-wiarogodno±ci(punkty, w których zeruje si¦ pierwsza pochodna log-wiarogodno±ci) b¦d¡ce jednocze±niepunktami krytycznymi funkcji wiarogodno±ci. Kolejne oszacowania estymatora s¡ wyzna-czane w nast¦puj¡cych iteracjach:

θ(j+1) = θ(j) − l(θ(j)|y)∂∂θ l(θ

(j)|y)= θ(j) −

∂∂θ l(θ

(j)|y)∂2

∂θ2l(θ(j)|y)

. (1.20)

17

Uogólnijmy powy»szy wzór na przypadek wielowymiarowego parametru θθθ:

θθθ(j+1) = θθθ(j) − ∂

∂θθθl(θθθ(j)|y)

(∂2

∂θθθ2l(θθθ(j)|y)

)−1

. (1.21)

Czasami macierz Hessego, H = ∂2

∂θθθ2l(θθθ(j)|y), zast¦puje si¦ ªatwiejsz¡ do policzenia jej

warto±ci¡ oczekiwan¡: A = Eθ

(∂2

∂θθθ2l(θθθ(j)|y)

). Algorytm po tej modykacji nazywa si¦ algo-

rytmem oceniania Fishera (ang. Fisher scoring algorithm).W ka»dym kroku algorytmu Newtona-Raphsona rozwi¡zywane jest nast¦puj¡ce równanie:

(θθθ(j+1) − θθθ(j))A = − ∂

∂θθθ(j)l(θθθ(j)|y). (1.22)

1.2.3. Metoda najmniejszych kwadratów

Na pocz¡tek przyjrzyjmy si¦ bli»ej modelowi regresji liniowej z r zmiennymi obja±niaj¡-cymi zapisanemu w postaci macierzowej:

Y = Xβ + ε. (1.23)

Wyja±nienie znaczenia poszczególnych zmiennych w równaniu modelu:

• ε jest wektorem bª¦dów losowych ϵi (zmiennych losowych); dla ka»dego i zachodzi Eϵi =0; V arε ∼ σ2Id, czyli dla ka»dego i zachodzi V arϵi = σ,

• Y jest wektorem warto±ci zmiennej obja±nianej odnotowanych w kolejnych obserwacjach;EY = Xβ, V arY ∼ σ2Id,

• macierz X jest nazywana macierz¡ planu, xij jest warto±ci¡ j-tej zmiennej obja±niaj¡cejw i-tej obserwacji; pierwsza kolumna macierzy X jest zªo»ona z jedynek, bo rozpatru-jemy model regresji z wyrazem wolnym,

• β jest wektorem nieznanych parametrów, βT = (β0, β1, · · · , βr); rozwi¡zanie zagadnieniaregresji polega na wyestymowaniu wspóªczynników βj na podstawie warto±ci zmiennychobja±niaj¡cych i zmiennej obja±nianej w kolejnych próbach.

W teoretycznych rozwa»aniach dotycz¡cych wyliczania wektora parametrów zakªada si¦,»e macierz X jest peªnego rz¦du ([5], s. 151). Przy tym zaªo»eniu mo»emy wyliczy¢ w jawnejmacierzowej postaci estymator najmniejszych kwadratów (ang. least squares estimate LSE)parametru β, minimalizuj¡c sum¦ kwadratów bª¦dów (ang. sum of squared errors SSE):

SSE(β) =n∑

i=1

(Yi − xTi β)2 = (Xβ −Y)T (Xβ −Y). (1.24)

Obliczaj¡c gradient wzgl¦dem β, otrzymujemy XT (Xβ − Y ) = 0, czyli XTXβ = XTY.Wcze±niejsze zaªo»enie gwarantuje, »e macierz XTX jest odwracalna i otrzymujemy nast¦pu-j¡cy wzór na estymator najmniejszych kwadratów parametru β:

LSE(β) = (XTX)−1XTY. (1.25)

18

1.2.4. Metoda wa»onych najmniejszych kwadratów

Rozwa»ania w poprzednim rozdziale zakªadaªy homoskedastyczno±¢ bª¦du losowego (tak¡sam¡ warto±¢ wariancji bª¦du dla ka»dej z prób). Rozpatrzmy teraz model, w którym bª¦dyposzczególnych obserwacji nie maj¡ staªej wariancji, czyli s¡ heteroskedastyczne:

Y = Xβ + ε. (1.26)

Ró»ni si¦ on od poprzedniego modelu tym, »e w wektorze ε bª¦dy maj¡ ró»ne wariancje:V arϵi = vi. Aby sprowadzi¢ ten model do poprzedniego, uwzgl¦dnia si¦ w rozwa»aniachdiagonaln¡ macierz wag ΩΩΩ, tak¡ »e: ΩΩΩii =

1vi, gdzie vi to wariancja i-tej obserwacji. Wówczas

obserwacje z wi¦ksz¡ wariancj¡ bª¦du maj¡ mniejsz¡ wag¦, wi¦c s¡ mniej brane pod uwag¦przy estymowaniu wspóªczynników. Skoro ΩΩΩ jest macierz¡ odpowiadaj¡c¡ za wariancj¦, tomacierz¡ odpowiadaj¡c¡ za odchylenie standardowe jest macierzΩΩΩ

12 , równie» diagonalna, taka

»e: ΩΩΩ12ii =

√1vi. Po przemno»eniu równania naszego modelu przez macierz ΩΩΩ

12 , otrzymujemy

nast¦puj¡cy nowy model:ΩΩΩ

12Y = ΩΩΩ

12Xβ +ΩΩΩ

12 ε. (1.27)

atwo zauwa»y¢, »e w tak zdeniowanym modelu skªadnik ΩΩΩ12 ε odpowiadaj¡cy za bª¡d

losowy jest homoskedastyczny, czyli udaªo nam si¦ sprowadzi¢ nowy model do poprzedniego.Suma kwadratów bª¦dów jest nast¦puj¡ca:

SSE(β) = (Xβ −Y)TΩΩΩ−1(Xβ −Y). (1.28)

Obliczaj¡c gradient wzgl¦dem β, otrzymujemy XTΩΩΩ(Xβ − Y ) = 0, czyli XTΩΩΩXβ =XTΩΩΩY.

Rozwi¡zuj¡c takie zagadnienie otrzymujemy nast¦puj¡cy wzór na estymator wa»onychnajmniejszych kwadratów (ang. weighted least squares estimate WLSE) parametru β:

WLSE(β) = (XTΩΩΩX)−1XTΩΩΩY. (1.29)

Zauwa»my, »e je±li bª¦dy s¡ homoskedastyczne, to model z macierz¡ wag ΩΩΩ sprowadza si¦do modelu, w którym mo»na t¦ macierz pomin¡¢.

1.2.5. Iteracyjna metoda wa»onych najmniejszych kwadratów

Przypu±¢my, »e warto±ci wariancji bª¦dów losowych potrzebne do wyznaczenia warto±cina diagonali macierzy ΩΩΩ nie s¡ znane i nie jeste±my w stanie ich ªatwo wyestymowa¢. W itera-cyjnej metodzie wa»onych najmniejszych kwadratów (ang. iteratively weighted least squares IWLS) zakªada si¦, »e poszczególne wariancje s¡ funkcjami warto±ci oczekiwanych zmiennejobja±nianej:

vi = f(EYi) = f(µi). (1.30)

Posta¢ funkcji f mo»na wywnioskowa¢ z postaci modelu zajmujemy si¦ uogólnionymimodelami liniowymi, czyli takimi, w których ustalona jest posta¢ funkcji g (funkcji wi¡»¡cej,ang. link function) takiej »e:

EYi = µi = g−1(Xβ). (1.31)

Je±li znana jest warto±¢ oczekiwana µ zmiennej obja±nianej i posta¢ funkcji f , to istniejebezpo±rednia iteracyjna procedura estymuj¡ca wspóªczynniki. Polega ona na iteracyjnymestymowaniu wag przy u»yciu funkcji warto±ci oczekiwanej zmiennej obja±niaj¡cej µi. Znaj¡cµ(j)i mo»na wyznaczy¢ wagi w kroku (j + 1)-ym, a znaj¡c wagi w kroku (j + 1)-ym mo»na

wyliczy¢ µ(j+1)i .

19

Oto schemat procedury:

1. Ustalenie wag pocz¡tkowych: v(1)i = 1 (model regresji niewa»onej) i konstrukcja macie-rzy diagonalnej ΩΩΩ(1) = Id,

2. Estymacja parametru β(j) przy u»yciu algorytmu wa»onych kwadratów dla macierzywag ΩΩΩ(j): β(j) = (XTΩΩΩ(j)X)−1XTΩΩΩ(j)Y,

3. Aktualizacja wag wg wzoru: 1

v(j+1)i

= V arµ(j)i , aktualizacja macierzy wag: ΩΩΩ(j+1)

ii = 1

v(j+1)i

,

4. Krok 2 i 3 powtarzany jest a» do momentu gdy ∥Xβ(j+1) −Xβ(j)∥ < ϵ.

Iteracyjna metoda wa»onych najmniejszych kwadratów przybli»a MLE dla nieznanegowektora parametrów β ([2], s. 44).

Znaj¡c posta¢ funkcji wi¡»¡cej dla naszego modelu mo»emy rozszerzy¢ zagadnienie 1.22z rozdziaªu o algorytmie Newtona-Raphsona na uogólnione modele liniowe:

(θθθ(j+1) − θθθ(j))A = − ∂l(θθθ(j)|y)∂g−1(θθθ(j))

∂g−1(θθθ(j))

∂θθθ(j). (1.32)

atwo zauwa»y¢, »e w przypadku modelu liniowego, gdy funkcja wi¡»¡ca jest identyczno-±ci¡, powy»sze równanie sprowadza si¦ do równania 1.22.

Procedura IWLS sprowadza si¦ do metody Newtona-Raphsona z ocenianiem Fishera (Fi-sher scoring) zastosowanej iteracyjnie do powy»szego równania ([2], s. 45).

20

Rozdziaª 2

Opis funkcji w pakiecie R

2.1. Funkcja glm()

Funkcja glm() sªu»y do budowy uogólnionych modeli liniowych.Je±li podamy argumenty family="binomial" (rodzina rozkªadów dwumianowych) oraz

link=logit (deklarujemy funkcj¦ logit jako funkcj¦ wi¡»¡c¡ przy zadeklarowaniu rozkªadu"binomial" funkcja wi¡»¡ca logit jest wybierana domy±lnie), to zbudujemy model regresjilogistycznej.

Oto przykªad wywoªania funkcji glm() w celu budowy modelu regresji logistycznej, w któ-rym zmienn¡ obja±nian¡ jest zmienna czy.ksiazki0 opisana w rozdziale 3.2.2, a zmiennymiobja±niaj¡cymi s¡ zmienne fac.plec, fac.wiek i fac.wyksztalcenie opisane w rozdziale 3.2.3:

> regresja <-glm(formula=czy.ksiazki0~fac.plec+fac.wiek+fac.wyksztalcenie ,

family=binomial ())

> summary(regresja)

Funkcja summary() sªu»y do generowania podsumowa« wyników ró»nych funkcji dopasowu-j¡cych model.

W tym przypadku rezultat powy»szych operacji jest nast¦puj¡cy:

Call:

glm(formula = czy.ksiazki0 ~ fac.plec + fac.wiek + fac.wyksztalcenie ,

family = binomial ())

Deviance Residuals:

Min 1Q Median 3Q Max

-2.7514 0.2185 0.3388 0.5262 0.9637

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 2.21314 0.52956 4.179 2.93e-05 ***

fac.plec1 0.93329 0.22595 4.131 3.62e-05 ***

fac.wiek2 -0.51039 0.24064 -2.121 0.0339 *

fac.wiek3 -0.03878 0.31324 -0.124 0.9015

fac.wyksztalcenie2 -1.17676 0.59088 -1.992 0.0464 *

fac.wyksztalcenie3 -0.30578 0.55517 -0.551 0.5818

fac.wyksztalcenie4 0.61582 0.58332 1.056 0.2911

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

21

Null deviance: 841.82 on 1283 degrees of freedom

Residual deviance: 753.86 on 1277 degrees of freedom

AIC: 767.86

Number of Fisher Scoring iterations: 6

Na pocz¡tku przedstawione s¡ reszty dewiancyjne minimum, maksimum oraz kwartyle.Nast¦pnie przytoczone s¡ wszystkie oceny wspóªczynników dla kolejnych zmiennych obja-

±niaj¡cych, oceny odchyle« standardowych tych ocen, warto±ci statystyki testowej dla testu,w którym hipotez¡ zerow¡ jest nieistotno±¢ danej zmiennej wraz z p-warto±ci¡ dla tego testu.Im ni»sza p-warto±¢, tym zmienna istotniejsza, co gracznie przedstawiaj¡ gwiazdki po prawejstronie.

Ponadto przytoczone s¡ warto±ci dewiancji zerowej oraz resztowej i kryterium informacyj-nego Akaike'a (AIC) oraz liczba wykonanych iteracji algorytmu estymuj¡cego wspóªczynniki(iteracyjna metoda wa»onych najmniejszych kwadratów algorytm oceniania Fishera).

W wyniku zastosowania funkcji glm() powstaje obiekt klasy glm. Oto niektóre z wªa±ci-wo±ci tego obiektu wraz z przykªadami ich wywoªania dla zbudowanego wy»ej modelu:

• $coefficients wyestymowane wspóªczynniki:

> regresja$coefficients

(Intercept) fac.plec1 fac.wiek2

2.2131390 0.9332928 -0.5103879

fac.wiek3 fac.wyksztalcenie2 fac.wyksztalcenie3

-0.0387839 -1.1767590 -0.3057840

fac.wyksztalcenie4

0.6158169

• $fitted.values dopasowane przez model prawdopodobie«stwa sukcesu dla ka»dejz prób warto±ci dopasowane przez model przeksztaªcone przez funkcj¦ wi¡»¡c¡:

> regresja$fitted.values

1 2 3 4 5 6

0.8775760 0.9427765 0.8017022 0.6285479 0.8707217 0.6285479

7 8 9 10 11 12

0.6285479 0.6285479 0.9448332 0.9772960 0.9587679 0.9587679

(...)

• $linear.predictors dla ka»dej z prób warto±ci dopasowane przez model przed prze-ksztaªceniem przez funkcj¦ wi¡»¡c¡:

> regresja$linear.predictors

1 2 3 4 5 6

1.9696729 2.8018639 1.3969671 0.5259921 1.9073550 0.5259921

7 8 9 10 11 12

0.5259921 0.5259921 2.8406478 3.7622488 3.1464319 3.1464319

(...)

• $residuals reszty dla ka»dej z prób:

> regresja$residuals

1 2 3 4 5 6

1.139502 1.060697 1.247346 -2.692137 1.148473 1.590969

7 8 9 10 11 12

1.590969 1.590969 1.058388 1.023231 1.043005 1.043005

(...)

22

• $family rodzina rozkªadów zmiennej obja±nianej oraz u»yta funkcja wi¡»¡ca:

> regresja$family

Family: binomial

Link function: logit

• $aic warto±¢ kryterium informacyjnego Akaike'a dla modelu:

> regresja$aic

[1] 767.8587

• $iter liczba wykonanych iteracji algorytmu IWLS:

> regresja$iter

[1] 6

2.2. Funkcja step()

W tym podrozdziale przedstawimy funkcj¦ step(), drug¡ wa»n¡ funkcj¦ przydatn¡ wtworzeniu modelu regresji logistycznej. Tak wygl¡da jej deklaracja:

step(nazwa_modelu , direction=c(,,backward '', ,,forward '', ,,both''),

step =1000 , k=2)

Funkcja step() stosuj¡c metod¦ krokow¡ kolejno usuwa lub dodaje do modelu zmienne ob-ja±niaj¡ce. Na podstawie pewnego kryterium wybiera albo zmienn¡ najmniej istotn¡ i j¡odrzuca albo najbardziej istotn¡ i j¡ do tego modelu dodaje i robi to tak dªugo, a» w mo-delu b¦d¡ same zmienne istotne. Domy±lnym kryterium jest AIC (Akaike'a), ale mo»emy jezmieni¢ dzi¦ki zmiennej k (np. dla k=log(n), gdzie n to liczba obserwacji, stosowane b¦dzieBIC, czyli kryterium Schwarza). Kolejnym argumentem funkcji jest step. Okre±la on liczb¦kroków dopuszczalnych w jednej operacji, domy±lnie ustawiony jest na 1000. Metoda, któr¡b¦dzie stosowa¢ funkcja zale»y od argumentu direction. Mo»e on przyjmowa¢ warto±ci:

• backward - funkcja zaczyna od peªnego modelu i stopniowo odrzuca zmienne, które s¡nieistotne,

• forward - funkcja zaczyna od modelu zªo»onego tylko z wyrazu wolnego i stopniowodokªada do niego zmienne, które mog¡ by¢ istotne,

• both - funkcja zaczyna od modelu zªo»onego tylko z wyrazu wolnego, dodaje do niegozmienn¡ z najmniejsz¡ p-warto±ci¡ (je±li kryterium AIC jest speªnione), a nast¦pnieusuwa zmienn¡ z najwi¦ksz¡ p-warto±ci¡ (je±li kryterium AIC nie jest speªnione).

Wszystkie te czynno±ci s¡ wykonywane dopóki nie b¦dzie ju» czego doda¢, ani czego usun¡¢z modelu. Przykªadowe u»ycie funkcji step():

Start: AIC =778.12

czy.ksiazki0 ~ fac.plec + fac.wiek + fac.wyksztalcenie + fac.miejscowosc +

fac.liczbaosob + fac.stan

Df Deviance AIC

- fac.liczbaosob 2 750.67 774.67

- fac.miejscowosc 2 750.68 774.68

- fac.stan 3 753.01 775.01

<none > 750.12 778.12

- fac.wiek 2 754.14 778.14

- fac.plec 1 768.34 794.34

23

- fac.wyksztalcenie 3 784.21 806.21

Step: AIC =774.67

czy.ksiazki0 ~ fac.plec + fac.wiek + fac.wyksztalcenie + fac.miejscowosc +

fac.stan

Df Deviance AIC

- fac.miejscowosc 2 751.22 771.22

- fac.stan 3 753.25 771.25

<none > 750.67 774.67

- fac.wiek 2 754.93 774.93

- fac.plec 1 769.37 791.37


Step: AIC =771.22

czy.ksiazki0 ~ fac.plec + fac.wiek + fac.wyksztalcenie + fac.stan

Df Deviance AIC

- fac.stan 3 753.86 767.86

<none > 751.22 771.22

- fac.wiek 2 755.73 771.73

- fac.plec 1 771.27 789.27


Step: AIC =767.86

czy.ksiazki0 ~ fac.plec + fac.wiek + fac.wyksztalcenie

Df Deviance AIC

<none > 753.86 767.86

- fac.wiek 2 760.18 770.18

- fac.plec 1 772.43 784.43


Call: glm(formula = czy.ksiazki0 ~ fac.plec + fac.wiek + fac.wyksztalcenie ,


Coefficients:

(Intercept) fac.pleckobieta

2.21314 0.93329

fac.wiek26 -40 fac.wiek41 -50

-0.51039 -0.03878

fac.wyksztalceniezawodowe fac.wyksztalceniesrednie

-1.17676 -0.30578

fac.wyksztalceniepomaturalne

0.61582

Degrees of Freedom: 1283 Total (i.e. Null); 1277 Residual

Null Deviance: 841.8

Residual Deviance: 753.9 AIC: 767.9

24

2.3. Inne funkcje przydatne w analizie danych rzeczywistych

Przedstawimy teraz reszt¦ funkcji, których b¦dziemy u»ywa¢ w rozdziale 3 do analizydanych rzeczywistych.

2.3.1. Funkcja factor()

Jedn¡ z przydatnych funkcji jest factor(). Mo»emy ni¡ faktoryzowa¢ wektory, czyli zezmiennej ilo±ciowej tworzy¢ zmienn¡ jako±ciow¡. Skªadnia tej funkcji wygl¡da tak:

factor(nazwa_zmiennej , labels=levels)

gdzie levels to wektor skªadaj¡cy si¦ z napisów, które maj¡ by¢ nazwami kolejnych pozio-mów np. c(malo, duzo) lub c(1, 1, 2). Zwró¢my uwag¦, »e dzi¦ki tej funkcji mo»emyª¡czy¢ niektóre poziomy, w rezultacie mo»emy ze zmiennej ilo±ciowej stworzy¢ nawet zmienn¡binarn¡.

2.3.2. Funkcja plot()

Funkcj¡ sªu»¡c¡ do rysowania wykresów pudeªkowych jest plot(). Skªadnia tej funkcjiwygl¡da tak:

plot(x, y, xlab="etykieta osi x", ylab="etykieta osi y")

W naszym przypadku wykres b¦dzie obrazowaª zale»no±¢ pomi¦dzy x pojedyncz¡ zmienn¡obja±niaj¡c¡ a y szans¡ modelu regresji logistycznej, wyznaczonego przez funkcj¦ glm().Przykªadowe u»ycie tej funkcji mo»na zobaczy¢ na rysunkach 3.2, 3.3, 3.4.

2.3.3. Obliczanie X2 i R2N

Przy diagnozie modelu b¦dziemy oblicza¢ statystyk¦ Pearsona X2. W R robi si¦ to zapomoc¡ funkcji:

sum(residuals(nazwa_modelu , type="pearson")^2)

wiedz¡c, »e X2 to suma kwadratów reszt Pearsona. B¦dziemy tak»e znajdowa¢ R2N Nagelker-

kego. Do tego skorzystamy z pakietu rms i wbudowanej w niego funkcji lrm():

library(rms)

nazwa <-lrm(nazwa_modelu)

nazwa$stats

Dla zmiennej czy.ksiazki0 dostajemy:

Obs Max Deriv Model L.R. d.f. P C

1.284000e+03 4.632794e-11 8.796338e+01 6.000000e+00 1.110223e-16 7.364051e-01

Dxy Gamma Tau -a R2 Brier g

4.728103e-01 5.160983e-01 8.611413e-02 1.376914e-01 8.389097e-02 1.020065e+00

gr gp

2.773374e+00 8.614185e-02

R2 które widnieje w wyniku to wªa±nie R2 Nagelkerkego.

25

2.3.4. Funkcja read.table()

Ostatnia funkcja sªu»y do wczytywania danych z pliku. Jej skªadnia wygl¡da nast¦puj¡co:

read.table("sciezka_dostepu", sep=";", header=T)

Za pomoc¡ argumentu sep okre±lamy znak separatora kolejnych kolumn w ka»dym wierszu.Argument header sªu»y do wyszczególnienia, czy w tabeli s¡ nagªówki (T), czy ich nie ma (F).

26

Rozdziaª 3

Analiza danych rzeczywistych

3.1. Opis danych

Dane, z których skorzystaªy±my, pochodz¡ z badania Obiegi kultury zrealizowanegow 2011 roku ze ±rodków Narodowego Centrum Kultury w ramach programu ObserwatoriumKultury. Badanie skupiaªo si¦ na zagadnieniu nieformalnego obiegu tre±ci kultury. Autorzyraportu z badania odchodz¡ od standardowego podziaªu na legalne i nielegalne obiegi kulturyi staraj¡ si¦ wykaza¢, »e osoby, które nazywane s¡ internetowymi piratami, s¡ jednocze±nienajbardziej aktywnymi u»ytkownikami tre±ci szeroko poj¦tej kultury: ksi¡»ek, lmów, mu-zyki. Raport Obiegi kultury ukazuje piratów w nowym ±wietle jako tych, którzy zamiastniszczy¢ tworz¡ ±wiat kultury.

W ramach projektu przeprowadzono dwa badania sonda»owe:

• pilota» badanie na reprezentatywnej dla populacji Polski grupie 1004 osób w wiekupowy»ej 15 lat przeprowadzone metod¡ osobistego wywiadu wspomaganego kompute-rowo, które wykazaªo, »e w pozarynkowej wymianie tre±ci kultury udziaª bior¡ niemalwyª¡cznie aktywni internauci,

• sonda» badanie na reprezentatywnej dla populacji polskich internautów grupie 1284osób w wieku 16-50 lat przeprowadzone w caªo±ci za po±rednictwem Internetu.

Dane zebrane za pomoc¡ pilota»u byªy bardzo okrojone i nie nadawaªy si¦ do szerszychanaliz, dlatego postanowiªy±my skorzysta¢ z licznych, szczegóªowych danych zgromadzonychza pomoc¡ sonda»u. Takie podej±cie ma sªab¡ stron¦ wszystkie uzyskane przez nas wynikib¦d¡ prawdziwe dla populacji polskich aktywnych internautów, a nie dla populacji wszystkichPolaków. O tym, jak mogªo to znieksztaªci¢ wyniki naszych analiz, napiszemy w rozdzialez porównaniem modeli.

W naszych analizach postanowiªy±my zbada¢ nie to, co stanowi gªówne zagadnienie ra-portu z bada«, czyli nieformalne obiegi tre±ci kulturowych. Skupiªy±my si¦ na modelowaniupoziomu zainteresowania no±nikami kultury takimi jak ksi¡»ki i kino w zale»no±ci od pewnychczynników.

Zmiennymi obja±nianymi s¡:

• prawdopodobie«stwo, »e dana osoba chodzi do kina,

• prawdopodobie«stwo, »e dana osoba czyta ksi¡»ki.

27

Zaproponowane przez nas zmienne obja±niaj¡ce to:

• pªe¢,

• wiek,

• wyksztaªcenie,

• miejsce zamieszkania (wie±, maªe miasto, du»e miasto),

• liczba osób w gospodarstwie domowym,

• stan cywilny.

Rozwa»aªy±my doª¡czenie do grupy zmiennych obja±niaj¡cych przeci¦tnego dochodu uzy-skiwanego przez dan¡ osob¦. Niestety znaczna grupa badanych odmówiªa odpowiedzi natakie pytanie. Gdyby±my postanowiªy uwzgl¦dni¢ t¦ zmienn¡, byªyby±my zmuszone zaw¦zi¢liczebno±¢ badanej próby z 1284 osób do okoªo 1000.

Postanowiªy±my zbada¢, które z wy»ej wymienionych s¡ zmiennymi istotnie ró»nicuj¡-cymi zainteresowanie wybranymi no±nikami kultury oraz jak na to zainteresowanie wpªywaj¡.Wszystkie dane potrzebne do analiz pobraªy±my ze strony internetowej badania Obiegi kul-tury, z ogólnodost¦pnego pakietu z surowymi danymi uzyskanymi z sonda»u oraz ze wzorukwestionariusza.

3.2. Transformacje danych

3.2.1. Pytania z sonda»u

Ka»da wybrana przez nas zmienna jest odpowiedzi¡ na pytanie z sonda»u. Tablice 3.1i 3.2 przedstawiaj¡ interesuj¡ce nas pytania i mo»liwe odpowiedzi.

3.2.2. Transformacje zmiennych obja±nianych

Z postaci pyta« i mo»liwych odpowiedzi wida¢, »e dane wymagaj¡ pewnych transformacji.W szczególno±ci, na potrzeby budowania modeli regresji logistycznej, nale»y utworzy¢ binarnezmienne obja±niane, odpowiadaj¡ce na pytania: czy dana osoba chodzi do kina oraz czy danaosoba czyta ksi¡»ki.

Zacznijmy od zmiennej opisuj¡cej zainteresowanie kinem. Zmienn¡ kino, zawieraj¡c¡ od-powied¹ na pytanie o cz¦stotliwo±¢ wizyt w kinie, postanowiªy±my zbinaryzowa¢ w nast¦puj¡cysposób:

czy.kino[i] =

0 je»eli kino[i] ≥ 51 je»eli kino[i] < 5.

Tak wi¦c ustaliªy±my, »e je±li kto± chodzi do kina rzadziej ni» raz w roku b¡d¹ nigdy, tonie chodzi do kina, natomiast je±li chodzi raz w roku b¡d¹ cz¦±ciej, to chodzi do kina.

Nazwy zmiennych obja±nianych zaczynaj¡ si¦ od sªówka czy.Odpowiedzi na pytanie o liczb¦ przeczytanych w ci¡gu ostatniego roku ksi¡»ek byªy bardzo

zró»nicowane, wahaªy si¦ od 0 do 300. Pojawiªa si¦ te» jedna warto±¢ odstaj¡ca od pozostaªychwyników: 3000. Gdyby±my w naszych analizach traktowaªy liczb¦ ksi¡»ek jako zmienn¡ilo±ciow¡, z pewno±ci¡ odrzuciªyby±my t¦ obserwacj¦ (nie s¡dzimy, aby naprawd¦ kto± byªw stanie przeczyta¢ 3000 ksi¡»ek w ci¡gu roku), jednak przy binaryzacji zmiennej przestajeona by¢ warto±ci¡ odstaj¡c¡ po prostu stwierdzamy, »e ta osoba czyta ksi¡»ki i nie interesuje

28

Pytanie Mo»liwe odpowiedzi

Jak cz¦sto zdarza si¦ Panu/iogl¡da¢ lmy w kinie?

1. Przynajmniej raz w miesi¡cu.2. Raz na 2-3 miesi¡ce.3. 2-3 razy w roku.4. Mniej wi¦cej raz do roku.5. Rzadziej ni» raz do roku.6. Nigdy.

Prosz¦ wpisa¢, ile ksi¡»ekprzeczytaª/a Pan/i w ci¡guostatniego roku?

dowolna liczba caªkowita nieujemna

Tablica 3.1: Pytania i odpowiedzi z sonda»u dotycz¡ce zmiennych obja±nianych

Pytanie Mo»liwe odpowiedzi

Pªe¢: 1. Kobieta.2. M¦»czyzna.

Rok urodzenia: 1961-1995Jakie ma Pan(i) wyksztaªce-nie?

1. Podstawowe (niepeªne podstawowe, podstawowe).2. Zasadnicze zawodowe.3. rednie (niepeªne ±rednie, ±rednie zawodowe lub ogól-noksztaªc¡ce).4. Wy»sze (pomaturalne, niepeªne wy»sze, licencjackie,wy»sze, doktorat, podyplomowe).

Jaka jest wielko±¢ miej-scowo±ci, w której Pan(i)mieszka?

1. Miejscowo±¢ w gminie wiejskiej.2. Miasto do 10 tys. mieszka«ców.3. Miasto 10.000-19.999 mieszka«ców.4. Miasto 20.000-49.999 mieszka«ców.5. Miasto 50.000-99.999 mieszka«ców.6. Miasto 100.000-199.999 mieszka«ców.7. Miasto 200.000-499.999 mieszka«ców.8. Miasto 500.000-999.999 mieszka«ców.9. Miasto powy»ej 1.000.000 mieszka«ców.

Ile osób, ª¡cznie z Pane-m/Pani¡ liczy Pana/i go-spodarstwo domowe?

1. Mieszkam samodzielnie.2. Dwie osoby.3. Trzy osoby.4. Cztery osoby.5. Pi¦¢ osób.6. Sze±¢ osób.7. Siedem osób.8. Osiem i wi¦cej osób.

Jaki jest Pana/i stan cy-wilny?

1. Stan wolny.2. yj¦ z partnerk¡ / partnerem.3. onaty / m¦»atka.4. Rozwiedziony/a / w separacji / wdowiec / wdowa.

Tablica 3.2: Pytania i odpowiedzi z sonda»u dotycz¡ce zmiennych obja±niaj¡cych

29

nas liczba tych ksi¡»ek. W toku analiz, przeprowadzaj¡c symulacje na ró»nych wariantachbinaryzacji tej zmiennej, postanowiªy±my przedstawi¢ w pracy takie dwa warianty:

czy.ksiazki0[i] =

0 je»eli liczbaksiazek[i] = 01 je»eli liczbaksiazek[i] > 0

czy.ksiazki10[i] =

0 je»eli liczbaksiazek[i] ≤ 101 je»eli liczbaksiazek[i] > 10.

3.2.3. Transformacje zmiennych obja±niaj¡cych

Pªe¢ zdeniowaªy±my nast¦puj¡co:

• 0: m¦»czyzna,

• 1: kobieta.

Oczywi±cie tak utworzonej zmiennej nie traktujemy jako ilo±ciow¡, tylko jako±ciow¡, couzyskaªy±my korzystaj¡c z funkcji factor(), opisanej w rozdziale 2. Zmienna ostatecznienazywa si¦ fac.plec (nazwy zmiennych poddanych faktoryzacji zaczynaj¡ si¦ od sªówka fac).

Kolejn¡ zmienn¡ jest wiek. Oczywi±cie obliczyªy±my go z wzoru: wiek[i] = 2011 −rokurodzenia[i] (badanie byªo przeprowadzone w 2011 roku). Zastanawiaªy±my si¦, czy po-traktowa¢ wiek jako zmienn¡ ilo±ciow¡ czy te» sfaktoryzowa¢ j¡, czyli zdeniowa¢ przedziaªywiekowe i z tych przedziaªów utworzy¢ zmienn¡ jako±ciow¡. Po wst¦pnych analizach zde-cydowaªy±my si¦ na to drugie podej±cie. Ogóª respondentów podzieliªy±my na trzy grupywiekowe:

• 1: 16-25 lat,

• 2: 26-40 lat,

• 3: 41-50 lat.

Tak utworzon¡ zmienn¡ jako±ciow¡ nazwaªy±my fac.wiek. Zasi¦g pierwszej grupy zostaª przeznas ustalony sztywno od samego pocz¡tku chciaªy±my odró»ni¢ od reszty respondentówosoby w wieku 16-25 lat jako grup¦ mªodych, prawdopodobnie jeszcze ucz¡cych si¦ osób. Potakiej operacji zostaª nam ogóª osób w wieku 26-50 lat, których postanowiªy±my podzieli¢ nadwie grupy, »eby dªugo±ci przedziaªów wiekowych byªy zbli»one. Ostateczn¡ granic¦ pomi¦dzydrugim a trzecim przedziaªem uzyskaªy±my rozpatruj¡c ró»ne jej warianty i badaj¡c istotno±¢tak utworzonych zmiennych przy budowaniu naszych modeli. Okazaªo si¦, »e przy badaniuistotno±ci zmiennej fac.wiek w budowanych przez nas modelach, najmniejsze p-warto±ci dlatestu z hipotez¡ zerow¡ mówi¡c¡ o nieistotno±ci tej zmiennej s¡ osi¡gane wtedy, gdy za warto±¢graniczn¡ mi¦dzy poziomami 2 i 3 przyjmiemy 40 lat.

Uwa»amy, »e pytanie o wyksztaªcenie zostaªo zadane w do±¢ niefortunny sposób. Podpo-wiedzi w nawiasach umieszczone przy kolejnych mo»liwych odpowiedziach (patrz tablica 3.2)sprawiaj¡, »e trudno jest jednoznacznie stwierdzi¢, jak autorzy pyta« deniuj¡ wyksztaªcenie±rednie i wy»sze. Wª¡czenie do kategorii wyksztaªcenia wy»szego takich okre±le« jak poma-turalne i niepeªne wy»sze prawdopodobnie sprawiªo, »e osoby z wyksztaªceniem ±rednim,w szczególno±ci studenci, niesªusznie zawy»yªy swoje wyksztaªcenie. Wskazuj¡ na to: zaska-kuj¡co du»y odsetek ludzi z wy»szym wyksztaªceniem oraz wiek osób deklaruj¡cych wy»szewyksztaªcenie (cz¦sto zbyt wczesny na uzyskanie tytuªu licencjata). By¢ mo»e byª to celowyzabieg maj¡cy na celu wª¡czenie do grupy ludzi z wy»szym wyksztaªceniem ogóªu studentów.

30

Zastanawiaªy±my si¦ nad scaleniem grup ludzi ze ±rednim i wy»szym wyksztaªceniem, abypozby¢ si¦ tej niejednoznaczno±ci, ale postanowiªy±my zrezygnowa¢ z tego pomysªu i uzna¢,»e ostatni¡ grup¦ stanowi¡ ludzie z wyksztaªceniem wy»szym oraz studenci.

Tak wi¦c faktoryzacja zmiennej wyksztalcenie wygl¡da tak:

• 1: podstawowe (odpowied¹ nr 1),

• 2: zasadnicze zawodowe (odpowied¹ nr 2),

• 3: ±rednie (odpowied¹ nr 3),

• 4: wy»sze i studenci (odpowied¹ nr 4).

Tak utworzon¡ zmienn¡ jako±ciow¡ nazwaªy±my fac.wyksztalcenie.W sonda»u jest 9 ró»nych odpowiedzi na pytanie o wielko±¢ miejscowo±ci. Postanowiªy±my

scali¢ niektóre odpowiedzi i stworzy¢ dla tej zmiennej trzy poziomy:

• 1: miejscowo±¢ w gminie wiejskiej (odpowied¹ nr 1),

• 2: maªe miasto do 99.999 mieszka«ców (odpowiedzi nr 2-5),

• 3: du»e miasto co najmniej 100.000 mieszka«ców (odpowiedzi nr 6-9).

Tak utworzon¡ zmienn¡ nazwaªy±my fac.miejscowosc.Podobnie post¡piªy±my ze zmienn¡ wskazuj¡c¡ na liczb¦ osób w gospodarstwie domowym

utworzyªy±my 3 poziomy:

• 1: 1 osoba (odpowied¹ nr 1),

• 2: maªa rodzina 2-4 osoby (odpowiedzi nr 2-4),

• 3: du»a rodzina co najmniej 5 osób (odpowiedzi nr 5-8).

Zmienn¡ nazwaªy±my fac.liczbaosob.Dla zmiennej opisuj¡cej stan cywilny utworzyªy±my 4 poziomy to»same z mo»liwymi od-

powiedziami na pytanie w sonda»u:

• 1: stan wolny (odpowied¹ nr 1),

• 2: wolny zwi¡zek (odpowied¹ nr 2),

• 3: maª»e«stwo (odpowied¹ nr 3),

• 4: rozwodnik/wdowiec (odpowied¹ nr 4).

Zmienna nazywa si¦ fac.stan.Przy estymacji wspóªczynników modelu regresji logistycznej program R traktuje sfaktory-

zowan¡ zmienn¡ w nast¦puj¡cy sposób: pierwszy z poziomów ustala jako poziom bazowy, a dlapozostaªych poziomów tworzy zmienne binarne. Na przykªad dla zmiennej fac.liczbaosob po-ziomem bazowym jest poziom 1 (1 osoba), a utworzonymi przez R zmiennymi binarnymis¡:

fac.liczbaosob2[i] =

1 je»eli fac.liczbaosob[i] = 20 je»eli fac.liczbaosob[i] = 2.

fac.liczbaosob3[i] =

1 je»eli fac.liczbaosob[i] = 30 je»eli fac.liczbaosob[i] = 3.

Analogicznie program R ustala poziom bazowy i nowe zmienne binarne dla pozostaªychzmiennych obja±niaj¡cych.

31

3.3. Budowa modeli

3.3.1. Model badaj¡cy zainteresowanie kinem

Najpierw zbadamy model uwzgl¦dniaj¡cy wszystkie zmienne obja±niaj¡ce. Oto ocenywspóªczynników otrzymane za pomoc¡ funkcji glm():

Call:

glm(formula = czy.kino ~ fac.plec + fac.wiek + fac.wyksztalcenie +

fac.miejscowosc + fac.liczbaosob + fac.stan , family = binomial ())

Coefficients:


(Intercept) 1.788026 0.592221 3.019 0.002535 **

fac.plec1 -0.199946 0.174910 -1.143 0.252980

fac.wiek2 -0.892130 0.250486 -3.562 0.000369 ***

fac.wiek3 -0.907820 0.299279 -3.033 0.002418 **



fac.wyksztalcenie4 1.544811 0.419291 3.684 0.000229 ***

fac.miejscowosc2 0.248074 0.188686 1.315 0.188595

fac.miejscowosc3 0.496878 0.206830 2.402 0.016290 *

fac.liczbaosob2 -0.337223 0.456886 -0.738 0.460459

fac.liczbaosob3 -0.489516 0.494227 -0.990 0.321945

fac.stan2 -0.005641 0.273051 -0.021 0.983516

fac.stan3 0.029906 0.240253 0.124 0.900939

fac.stan4 -0.714305 0.453438 -1.575 0.115185

---

Zmiennymi obja±niaj¡cymi o najwi¦kszym znaczeniu, czyli tymi, dla których zostaªa napoziomie istotno±ci 5% odrzucona hipoteza o ich nieistotno±ci, okazaªy si¦ wiek (zarówno dlapoziomu 2, jak i dla poziomu 3 p-warto±¢ jest niska, wynosi odpowiednio 0,0369% i 0,2418%),wyksztaªcenie (dla poziomu 4, czyli dla wyksztaªcenia wy»szego p-warto±¢ to 0,0229%) i wiel-ko±¢ miejscowo±ci (dla poziomu 3, czyli dla du»ej miejscowo±ci p-warto±¢ wynosi 1,629%).Na tym etapie mo»emy ustali¢, »e te trzy zmienne znajd¡ si¦ w ostatecznym modelu. Innezmienne okazaªy si¦ mniej istotne wedªug tego kryterium.

Zobaczmy, jakie zmienne zostan¡ wykluczone za pomoc¡ funkcji step():

Call: glm(formula = czy.kino ~ fac.wiek + fac.wyksztalcenie + fac.miejscowosc ,


Coefficients:

(Intercept) fac.wiek2 fac.wiek3 fac.wyksztalcenie2

1.3186 -0.8619 -0.8966 -0.3825

fac.wyksztalcenie3 fac.wyksztalcenie4 fac.miejscowosc2 fac.miejscowosc3

0.4728 1.5066 0.2600 0.4817

Degrees of Freedom: 1283 Total (i.e. Null); 1276 Residual

Null Deviance: 1141

Residual Deviance: 1033 AIC: 1049

Przy u»yciu funkcji step() za optymalny zbiór zmiennych obja±niaj¡cych wedªug kry-terium Akaike'a uznany zostaª zbiór zªo»ony ze zmiennych: fac.wiek, fac.wyksztalceniei fac.miejscowosc, natomiast zmienne fac.plec, fac.liczbaosob i fac.stan zostaªy wyklu-czone.

Dla ka»dej z trzech wykluczonych zmiennych zobaczmy, jak b¦d¡ wygl¡daªy wyniki regresjiprzeprowadzonej z uwzgl¦dnieniem tylko tej jednej ze zmiennych obja±niaj¡cych.

Wyniki regresji z uwzgl¦dnieniem zmiennej fac.plec:

32

Call:

glm(formula = czy.kino ~ fac.plec , family = binomial ())

Coefficients:


(Intercept) 1.4749 0.1029 14.330 <2e-16 ***

fac.plec1 0.3346 0.1520 2.201 0.0277 *

---

Wyniki regresji z uwzgl¦dnieniem zmiennej fac.liczbaosob:

Call:

glm(formula = czy.kino ~ fac.liczbaosob , family = binomial ())

Coefficients:


(Intercept) 2.1316 0.3997 5.333 9.69e-08 ***

fac.liczbaosob2 -0.4894 0.4089 -1.197 0.231

fac.liczbaosob3 -0.6331 0.4363 -1.451 0.147

---

Wyniki regresji z uwzgl¦dnieniem zmiennej fac.stan:

Call:

glm(formula = czy.kino ~ fac.stan , family = binomial ())

Coefficients:


(Intercept) 1.9841 0.1438 13.797 < 2e-16 ***

fac.stan2 -0.1924 0.2415 -0.797 0.42568

fac.stan3 -0.5716 0.1780 -3.211 0.00132 **

fac.stan4 -1.0678 0.4009 -2.664 0.00772 **

---

W tych modelach regresji, gdzie zbiór zmiennych obja±niaj¡cych zostaª ograniczony dotylko jednej zmiennej, hipoteza o nieistotno±ci zostaªa odrzucona tylko w przypadku zmien-nych fac.stan (dla poziomu 3 p-warto±¢ wynosi 0,132 %, a dla poziomu 4 p-warto±¢ wynosi0,772%) oraz fac.plec (p-warto±¢ dla poziomu 1 to 2,77 %). Dla zmiennej fac.liczbaosobnawet w takim modelu regresji hipoteza o nieistotno±ci nie zostaªa odrzucona, dlatego w tymmomencie mo»emy podj¡¢ decyzj¦ o nieuwzgl¦dnianiu jej w ostatecznym modelu.

Zbadajmy model nieuwzgl¦dniaj¡cy tej zmiennej:

Call:


fac.miejscowosc + fac.stan , family = binomial ())

Coefficients:


(Intercept) 1.38597 0.38159 3.632 0.000281 ***

fac.plec1 -0.21389 0.17434 -1.227 0.219882

fac.wiek2 -0.84137 0.24484 -3.436 0.000590 ***

fac.wiek3 -0.85920 0.29419 -2.921 0.003494 **




fac.miejscowosc2 0.26538 0.18790 1.412 0.157847

fac.miejscowosc3 0.52349 0.20492 2.555 0.010632 *

fac.stan2 -0.04259 0.26742 -0.159 0.873464

fac.stan3 -0.02130 0.23077 -0.092 0.926450

fac.stan4 -0.66252 0.44897 -1.476 0.140042

---

33

Teza o nieistotno±ci zmiennych fac.plec i fac.stan nadal nie zostaªa odrzucona, mimo»e w modelach, w których te zmienne stanowi¡ jedyne zmienne obja±niaj¡ce teza o ich nie-istotno±ci zostaªa odrzucona. By¢ mo»e te zmienne s¡ silnie skorelowane z tymi zmiennymiobja±niaj¡cymi, dla których teza o nieistotno±ci zostaªa odrzucona. Zbadajmy to sposobemzaproponowanym w [6] s. 290, czyli dodaj¡c do zbioru zmiennych obja±niaj¡cych interakcjetych zmiennych, co do których podejrzewamy, »e mog¡ by¢ skorelowane.

Pary zmiennych, które mog¡ by¢ ze sob¡ powi¡zane to:

• wiek i stan cywilny,

• wiek i wyksztaªcenie,

• pªe¢ i wyksztaªcenie,

• wielko±¢ miejscowo±ci i stan cywilny.

Uwzgl¦dnimy interakcje tych zmiennych w kolejnym modelu:

Call:


fac.miejscowosc + fac.stan + fac.stan:fac.wiek + fac.plec:fac.wyksztalcenie +

fac.stan:fac.miejscowosc + fac.wiek:fac.wyksztalcenie , family = binomial ())

Coefficients:


(Intercept) 1.988947 0.630812 3.153 0.00162 **

fac.plec1 -0.885699 0.980100 -0.904 0.36616

fac.wiek2 -2.918514 1.086817 -2.685 0.00724 **

fac.wiek3 10.523386 535.412238 0.020 0.98432




fac.miejscowosc2 0.839476 0.374807 2.240 0.02511 *

fac.miejscowosc3 0.865270 0.394886 2.191 0.02844 *

fac.stan2 0.911171 0.626192 1.455 0.14564

fac.stan3 -0.738590 0.535589 -1.379 0.16789

fac.stan4 11.214024 535.412598 0.021 0.98329

fac.wiek2:fac.stan2 -0.210996 0.639102 -0.330 0.74129

fac.wiek3:fac.stan2 0.142563 0.939016 0.152 0.87933

fac.wiek2:fac.stan3 1.169547 0.582597 2.007 0.04470 *

fac.wiek3:fac.stan3 1.315301 0.808756 1.626 0.10388

fac.wiek2:fac.stan4 -9.602568 535.412981 -0.018 0.98569

fac.wiek3:fac.stan4 -12.253480 535.412056 -0.023 0.98174

fac.plec1:fac.wyksztalcenie2 0.499063 1.066287 0.468 0.63976



fac.miejscowosc2:fac.stan2 -0.732198 0.686669 -1.066 0.28629

fac.miejscowosc3:fac.stan2 -1.595943 0.654496 -2.438 0.01475 *

fac.miejscowosc2:fac.stan3 -0.842332 0.454975 -1.851 0.06411 .




fac.wiek2:fac.wyksztalcenie2 2.204033 1.276771 1.726 0.08430 .

fac.wiek3:fac.wyksztalcenie2 -11.073941 535.412472 -0.021 0.98350





---

34

Hipoteza o nieistotno±ci poszczególnych interakcji zostaªa na poziomie istotno±ci 5% od-rzucona tylko w przypadku interakcji mi¦dzy zmiennymi fac.wiek i fac.stan (jest istotnakorelacja mi¦dzy byciem w przedziale wiekowym 26-40 lat a »yciem w maª»e«stwie) oraz mi¦-dzy zmiennymi fac.miejscowosc i fac.stan (korelacja mi¦dzy mieszkaniem w du»ym mie±ciea byciem w zwi¡zku nieformalnym).

Przy u»yciu funkcji step() za optymalny zbiór zmiennych obja±niaj¡cych wedªug kry-terium Akaike'a uznany zostaª zbiór zªo»ony ze zmiennych: fac.wiek, fac.wyksztalcenie,fac.miejscowosc, fac.stan oraz interakcji: fac.wiek i fac.stan oraz fac.miejscowosc i fac.stan,natomiast zmienna fac.plec oraz interakcje zmiennych fac.wiek i fac.wyksztalcenie orazzmiennych fac.plec i fac.wyksztalcenie zostaªy wykluczone. Wykluczmy te dwie interakcjeoraz zmienn¡ opisuj¡c¡ pªe¢ z ostatecznego modelu. Zbadajmy tak zmodykowany model:

Call:

glm(formula = czy.kino ~ fac.wiek + fac.wyksztalcenie + fac.miejscowosc +

fac.stan + fac.stan:fac.wiek + fac.stan:fac.miejscowosc ,


Coefficients:


(Intercept) 1.154024 0.399105 2.892 0.003834 **

fac.wiek2 -1.035749 0.331937 -3.120 0.001807 **

fac.wiek3 -1.198687 0.633562 -1.892 0.058494 .




fac.miejscowosc2 0.854600 0.373395 2.289 0.022095 *

fac.miejscowosc3 0.844374 0.390940 2.160 0.030784 *

fac.stan2 0.893805 0.622351 1.436 0.150953

fac.stan3 -0.844628 0.515895 -1.637 0.101587

fac.stan4 11.069782 535.412575 0.021 0.983505

fac.wiek2:fac.stan2 -0.218642 0.629668 -0.347 0.728416

fac.wiek3:fac.stan2 0.269708 0.940126 0.287 0.774200

fac.wiek2:fac.stan3 1.205899 0.569344 2.118 0.034171 *

fac.wiek3:fac.stan3 1.427331 0.802261 1.779 0.075218 .

fac.wiek2:fac.stan4 -9.445954 535.412954 -0.018 0.985924

fac.wiek3:fac.stan4 -12.180255 535.412052 -0.023 0.981850


fac.miejscowosc3:fac.stan2 -1.640744 0.648123 -2.532 0.011357 *

fac.miejscowosc2:fac.stan3 -0.820321 0.451460 -1.817 0.069211 .




---



AIC: 1049.7

Graczne porównanie ±rednich warto±ci zmiennej czy.kino w zale»no±ci od kombinacji po-ziomów zmiennych obja±niaj¡cych, których interakcje zostaªy uwzgl¦dnione w powy»szymmodelu, zostaªo przedstawione na wykresach typu interaction.plot() na rysunku 3.1.W ogólno±ci, ró»ne nachylenia poszczególnych krzywych na wykresach oraz przecinanie si¦tych krzywych ±wiadczy o istnieniu istotnych interakcji ([1], s. 214-216). Przy interakcjizmiennych fac.wiek i fac.stan krzywe maj¡ podobne nachylenia dla wszystkich warto±cizmiennej fac.stan oprócz ostatniej wdowców i rozwodników. By¢ mo»e wynika to z niskiejliczno±ci tej grupy; w szczególno±ci byªa tylko jedna osoba mªoda (16-25 lat) w tej grupie.Krzywe na tym wykresie przecinaj¡ si¦, ale pod maªym k¡tem. Sytuacja na wykresie interakcji

35

fac.miejscowosc i fac.stan wygl¡da ciekawiej krzywe maj¡ ró»ne nachylenia i przecinaj¡si¦ w licznych miejscach, zwªaszcza w okolicach poziomu partner dla zmiennej fac.stani poziomu du»e miasto dla zmiennej fac.miejscowosc.

0.6

0.7

0.8

0.9

1.0

fac.stan

mea

n of

czy

.kin

o

wolny partner malzonek rozwód

fac.wiek

16−2526−4041−50

0.65

0.70

0.75

0.80

0.85

0.90

fac.stan

mea

n of

czy

.kin

o


fac.miejscowosc

duze m.wiesmale m.

Rysunek 3.1: Wykresy interaction.plot() ukazuj¡ce interakcje mi¦dzy zmiennymifac.wiek i fac.stan oraz fac.miejscowosc i fac.stan w modelu badaj¡cym zmienn¡ czy.kino

36

Powstaªy w ten sposób model okazuje si¦ optymalny wedªug kryterium Akaike'a (funk-cja step() nie odrzuca »adnej ze zmiennych obja±niaj¡cych). Dlatego te» nie b¦dziemy ju»modykowa¢ tego modelu. Jednak dla naszych analiz, w których b¦dziemy chciaªy porówna¢wpªyw zmiennych obja±niaj¡cych na ró»ne zmienne obja±niane, taki model, cho¢ optymalny,okazuje si¦ zbyt skomplikowany. Dlatego te» nasz wybór ostatecznego modelu opisuj¡cegozainteresowanie kinem jako no±nikiem kultury pada na model prostszy, nieuwzgl¦dniaj¡cyodpowiednich interakcji zmiennych obja±niaj¡cych ani zmiennej fac.stan, czyli na modelproponowany przez pierwsz¡ u»yt¡ przez nas funkcj¦ step(), w którym za optymalny zbiórzmiennych obja±niaj¡cych wedªug kryterium Akaike'a uznany zostaª zbiór zªo»ony ze zmien-nych: fac.wiek, fac.wyksztalcenie i fac.miejscowosc. Jest to w pewnym sensie kompromispomi¦dzy dopasowaniem do danych a liczb¡ uwzgl¦dnionych zmiennych obja±niaj¡cych.

Call:

glm(formula = czy.kino ~ fac.wiek + fac.wyksztalcenie + fac.miejscowosc ,


Coefficients:


(Intercept) 1.3186 0.3737 3.529 0.000417 ***

fac.wiek2 -0.8619 0.2083 -4.138 3.5e-05 ***

fac.wiek3 -0.8966 0.2507 -3.577 0.000347 ***




fac.miejscowosc2 0.2600 0.1868 1.392 0.164051

fac.miejscowosc3 0.4817 0.2031 2.372 0.017705 *

---



AIC: 1049.2

Dewiancja jest wi¦ksza ni» w przypadku poprzedniego modelu. Ró»nica ta jednak nie jestznacz¡ca, natomiast model jest du»o prostszy ma o poªow¦ mniej zmiennych obja±niaj¡-cych. Wªa±nie z tych powodów postanowiªy±my ostatecznie wybra¢ model oparty na trzechzmiennych obja±niaj¡cych.

Rysunek 3.2 przedstawia wykresy ukazuj¡ce, jak wybrane ostatecznie zmienne obja±nia-j¡ce wpªywaj¡ na zmienn¡ obja±nian¡. Interpretacja wykresów znajduje si¦ w rozdziale 3.5.

3.3.2. Model badaj¡cy zainteresowanie ksi¡»kami zmienna czy.ksiazki0

Analogicznie jak dla kina, zbudujemy model dla ksi¡»ek. Na pocz¡tku we¹miemy nawarsztat zmienn¡ czy.ksiazki0, czyli tak¡, która za osob¦ czytaj¡c¡ ksi¡»ki uznaje t¦, któraw ci¡gu roku przeczytaªa co najmniej jedn¡ ksi¡»k¦. Zaczniemy od modelu peªnego, czylizawieraj¡cego wszystkie zmienne obja±niaj¡ce:

Call:

glm(formula = czy.ksiazki0 ~ fac.plec + fac.wiek + fac.wyksztalcenie +


Coefficients:


(Intercept) 1.90789 0.71111 2.683 0.0073 **

fac.plec1 0.94816 0.23090 4.106 4.02e-05 ***

fac.wiek2 -0.29148 0.29264 -0.996 0.3192

fac.wiek3 0.19793 0.36885 0.537 0.5915

fac.wyksztalcenie2 -1.10234 0.59447 -1.854 0.0637 .

37



fac.miejscowosc2 -0.04465 0.22789 -0.196 0.8447

fac.miejscowosc3 0.14123 0.26004 0.543 0.5871

fac.liczbaosob2 0.36274 0.48453 0.749 0.4541

fac.liczbaosob3 0.39073 0.53790 0.726 0.4676

fac.stan2 -0.50097 0.31996 -1.566 0.1174

fac.stan3 -0.37788 0.29583 -1.277 0.2015

fac.stan4 -0.54145 0.58731 -0.922 0.3566

---

Widzimy, »e najmniejsz¡ p-warto±¢ ma pªe¢ i w tym momencie tylko tej zmiennej niemo»emy odrzuci¢.

Sprawdzamy, »e funkcja step() usuwa z modelu zmienne fac.miejscowosc, fac.liczbaosobi fac.stan:Call: glm(formula = czy.ksiazki0 ~ fac.plec + fac.wiek + fac.wyksztalcenie ,


Coefficients:

(Intercept) fac.plec1 fac.wiek2 fac.wiek3

2.21314 0.93329 -0.51039 -0.03878

fac.wyksztalcenie2 fac.wyksztalcenie3 fac.wyksztalcenie4

-1.17676 -0.30578 0.61582

Zobaczmy jednak jak wygl¡daj¡ modele, w których te zmienne s¡ jedynymi zmiennymiobja±niaj¡cymi.

Miejscowo±¢:Call:

glm(formula = czy.ksiazki0 ~ fac.miejscowosc , family = binomial ())

Coefficients:


(Intercept) 2.1401 0.1559 13.729 <2e-16 ***

fac.miejscowosc2 -0.2132 0.2143 -0.995 0.3197

fac.miejscowosc3 0.4149 0.2430 1.707 0.0878 .

---

Liczba osób w gospodarstwie:Call:

glm(formula = czy.ksiazki0 ~ fac.liczbaosob , family = binomial ())

Coefficients:


(Intercept) 2.13163 0.39974 5.333 9.69e-08 ***

fac.liczbaosob2 0.04246 0.41317 0.103 0.918

fac.liczbaosob3 0.11212 0.46092 0.243 0.808

---

Stan cywilny:Call:

glm(formula = czy.ksiazki0 ~ fac.stan , family = binomial ())

Coefficients:


(Intercept) 2.4849 0.1759 14.124 <2e-16 ***

fac.stan2 -0.3029 0.2855 -1.061 0.2887

fac.stan3 -0.4720 0.2182 -2.163 0.0306 *

fac.stan4 -0.6931 0.5141 -1.348 0.1776

---

38

Mo»emy odrzuci¢ zmienne fac.liczbaosob i fac.miejscowosc, gdy» na poziomie istotno±ci5% hipoteza zerowa o ich nieistotno±ci nie jest odrzucona.

Dalej zgodnie z wcze±niejszym post¦powaniem dorzucamy do modelu interakcje zmien-nych, które podejrzewamy o silne skorelowanie. W tym wypadku mog¡ to by¢ jedynie wieki stan cywilny.

Call:


fac.stan + fac.wiek:fac.stan , family = binomial ())

Coefficients:


(Intercept) 2.4182 0.5440 4.446 8.76e-06 ***

fac.plec1 0.9721 0.2304 4.220 2.45e-05 ***

fac.wiek2 -0.8814 0.3835 -2.298 0.0215 *

fac.wiek3 0.3630 1.0779 0.337 0.7363

fac.wyksztalcenie2 -1.0754 0.5978 -1.799 0.0720 .



fac.stan2 -0.9768 0.4613 -2.118 0.0342 *

fac.stan3 -1.1780 0.6123 -1.924 0.0544 .

fac.stan4 10.3954 535.4113 0.019 0.9845

fac.wiek2:fac.stan2 1.2949 0.6503 1.991 0.0465 *

fac.wiek3:fac.stan2 -0.4629 1.2553 -0.369 0.7123

fac.wiek2:fac.stan3 1.2212 0.6918 1.765 0.0775 .

fac.wiek3:fac.stan3 0.5655 1.2430 0.455 0.6491

fac.wiek2:fac.stan4 -10.7886 535.4117 -0.020 0.9839

fac.wiek3:fac.stan4 -11.1452 535.4133 -0.021 0.9834

---

W tak skonstruowanym modelu wszystkie zmienne oprócz wyksztaªcenia wydaj¡ si¦ zna-cz¡co wpªywa¢ na nasz model. Jednak funkcja step() zostawia nam te same zmienne, cow modelu pierwotnym, czyli fac.plec, fac.wiek, fac.wyksztalcenie, a reszt¦ odrzuca:

Call: glm(formula = czy.ksiazki0 ~ fac.plec + fac.wiek + fac.wyksztalcenie ,


Coefficients:


2.21314 0.93329 -0.51039 -0.03878


-1.17676 -0.30578 0.61582

Dlatego w ostatecznym modelu uwzgl¦dnimy tylko te trzy zmienne.

Call:



Deviance Residuals:


-2.7514 0.2185 0.3388 0.5262 0.9637

Coefficients:


(Intercept) 2.21314 0.52956 4.179 2.93e-05 ***

fac.plec1 0.93329 0.22595 4.131 3.62e-05 ***

fac.wiek2 -0.51039 0.24064 -2.121 0.0339 *

fac.wiek3 -0.03878 0.31324 -0.124 0.9015



39


---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1




AIC: 767.86


Na wykresach (rysunek 3.3) zaprezentowano, jak na caªy model wpªywaj¡ poszczególnezmienne.

3.3.3. Model badaj¡cy zainteresowanie ksi¡»kami zmienna czy.ksiazki10

Zobaczmy teraz jak zmieni si¦ nasz model, je±li do grupy osób nieczytaj¡cych ksi¡»ekdoª¡czymy tych, którzy przeczytali 10 lub mniej ksi¡»ek w ci¡gu roku. Znowu zaczynamy odpeªnego modelu:

Call:



Coefficients:


(Intercept) -0.01779 0.41744 -0.043 0.9660

fac.plec1 0.50780 0.12786 3.972 7.14e-05 ***

fac.wiek2 -0.17994 0.16164 -1.113 0.2656

fac.wiek3 0.37425 0.20915 1.789 0.0736 .

fac.wyksztalcenie2 -1.00515 0.38970 -2.579 0.0099 **



fac.miejscowosc2 -0.13773 0.14541 -0.947 0.3436

fac.miejscowosc3 -0.15437 0.14644 -1.054 0.2918

fac.liczbaosob2 -0.03156 0.28739 -0.110 0.9125

fac.liczbaosob3 -0.00700 0.31911 -0.022 0.9825

fac.stan2 -0.31523 0.18153 -1.737 0.0825 .

fac.stan3 -0.51537 0.17116 -3.011 0.0026 **

fac.stan4 -0.58198 0.39453 -1.475 0.1402

---

Tym razem zmienne pªe¢, wyksztaªcenie i stan cywilny wpªywaj¡ istotnie na nasz model.Funkcja step() dodaje do tego okrojonego modelu zmienn¡ wiek:

Call: glm(formula = czy.ksiazki10 ~ fac.plec + fac.wiek + fac.wyksztalcenie +

fac.stan , family = binomial ())

Coefficients:


-0.1040 0.5013 -0.1954 0.3514

fac.wyksztalcenie2 fac.wyksztalcenie3 fac.wyksztalcenie4 fac.stan2

-1.0060 -0.2398 0.3255 -0.3274

fac.stan3 fac.stan4

-0.5183 -0.6004

Post¦puj¡c jak poprzednio, sprawd¹my jak wykluczone zmienne wpªywaj¡ na zaintereso-wanie czytelnictwem w modelach, w których s¡ jedynymi zmiennymi obja±niaj¡cymi.

40

Miejscowo±¢:

Call:

glm(formula = czy.ksiazki10 ~ fac.miejscowosc , family = binomial ())

Coefficients:


(Intercept) -0.13292 0.09588 -1.386 0.166

fac.miejscowosc2 -0.22085 0.13816 -1.598 0.110

fac.miejscowosc3 0.03050 0.13609 0.224 0.823

Liczba osób w gospodarstwie:

Call:

glm(formula = czy.ksiazki10 ~ fac.liczbaosob , family = binomial ())

Coefficients:


(Intercept) 0.1214 0.2466 0.492 0.623

fac.liczbaosob2 -0.3486 0.2547 -1.368 0.171

fac.liczbaosob3 -0.2586 0.2814 -0.919 0.358

Widzimy wi¦c, »e obydwie zmienne mo»emy odrzuci¢, skoro okazaªy si¦ nieistotne w mo-delach regresji, w których peªniªy rol¦ jedynych zmiennych obja±niaj¡cych.

Nasz ostateczny model jest zªo»ony ze zmiennych: fac.plec, fac.wiek, fac.wyksztalcenie,fac.stan.

Call:



Deviance Residuals:


-1.6541 -1.0449 -0.7014 1.1574 1.9867

Coefficients:


(Intercept) -0.1040 0.3018 -0.345 0.73025

fac.plec1 0.5013 0.1264 3.966 7.32e-05 ***

fac.wiek2 -0.1954 0.1567 -1.247 0.21224

fac.wiek3 0.3514 0.2036 1.726 0.08441 .




fac.stan2 -0.3274 0.1778 -1.842 0.06553 .

fac.stan3 -0.5183 0.1630 -3.180 0.00147 **

fac.stan4 -0.6004 0.3925 -1.530 0.12608

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


Null deviance: 1768 on 1283 degrees of freedom

Residual deviance: 1662 on 1274 degrees of freedom

AIC: 1682


Wpªyw poszczególnych zmiennych na czy.ksiazki10 jest zaprezentowany na rysunku 3.4.

41

3.4. Diagnostyka modeli

W tym rozdziale przetestujemy modele, które ostatecznie otrzymaªy±my, pod wzgl¦demdopasowania do naszych danych. Dla ka»dego modelu sprawdzimy 4 kryteria:

1. ró»nica dewiancji,

2. statystyka R2P ,

3. R2N Nagelkerkego,

4. statystyka Pearsona.

Ró»nica dewiancji sªu»y do oceny poprawno±ci modelu, podczas gdy R2P , R

2N i statystyka

Pearsona mówi¡ o dopasowaniu modelu do danych.Zaczniemy od modelu dla zmiennej czy.kino. Oto otrzymany przez nas wynik:

Call:

glm(formula = czy.kino ~ fac.wiek + fac.wyksztalcenie + fac.miejscowosc ,


Coefficients:


(Intercept) 1.3186 0.3737 3.529 0.000417 ***

fac.wiek2 -0.8619 0.2083 -4.138 3.5e-05 ***

fac.wiek3 -0.8966 0.2507 -3.577 0.000347 ***




fac.miejscowosc2 0.2600 0.1868 1.392 0.164051

fac.miejscowosc3 0.4817 0.2031 2.372 0.017705 *

---



AIC: 1049.2

Ró»nica dewiancji zerowej i resztowej wynosi: G2H0

−G2H1

= 1140.8−1033.2 = 107.6, gdziewedªug H0 wszystkie wspóªczynniki przy zmiennych obja±niaj¡cych s¡ równe 0, natomiastwedªugH1 przy zmiennych obja±niaj¡cych stoj¡ wspóªczynniki wyliczone przez funkcj¦ glm().Tak zadana statystyka ma asymptotyczny rozkªad χ2 z 1283− 1276 = 7 stopniami swobody.Obliczamy: P(G2

H0− G2

H1> 107.6) ≈ 0. Czyli odrzucamy H0, wi¦c wedªug tego kryterium

nasz model jest istotnie lepszy ni» model pusty.

Teraz sprawd¹my warto±¢R2P . Wiedz¡c, »e R2

P = 1−G2

H1

G2H0

dla hipotez jak wy»ej, obliczamy:

R2P = 1− 1033.2

1140.8 = 0.094. Zobaczmy jeszcze ile wynosi R2N Nagelkerkego. Obliczamy w pakiecie

R za pomoc¡ odpowiedniej funkcji, »e R2N = 0.137. Nie s¡ to du»e liczby, jednak ci¦»ko jest

uzyska¢ wysok¡ warto±¢ R2P w dziedzinach spoªecznych, gdzie na odpowiedzi wpªywa ogromna

ilo±¢ czynników, a znamy tylko niewielk¡ cz¦±¢ z nich, Tak wi¦c niskie warto±ci R2P i R2

N nies¡ podstaw¡ do stwierdzenia, »e nasz model jest niedostatecznie dopasowany do danych.

Sprawd¹my jeszcze jak wygl¡da statystyka Pearsona X2. Wedªug H0 zbiór wyestymo-wanych wspóªczynników jest wystarczaj¡cy, natomiast wedªug H1 powinni±my u»y¢ modeluwysyconego. X2 policzymy korzystaj¡c z funkcji pakietu R opisanej w rozdziale 2. Wynosiona 1278,48. Asymptotycznie ta statystyka zbiega do rozkªadu χ2 z 1276 stopniami swobody,st¡d P(X2 > 1278.48) = 0.475. Oznacza to, »e nie mo»emy odrzuci¢ hipotezy zerowej o po-prawno±ci modelu, wi¦c mo»emy przyj¡¢, »e nasz model jest dobrze dopasowany do naszychdanych.

42

Przejdziemy teraz do modelu dla zmiennej czy.ksiazki0:

Call:



Coefficients:


(Intercept) 2.21314 0.52956 4.179 2.93e-05 ***

fac.plec1 0.93329 0.22595 4.131 3.62e-05 ***

fac.wiek2 -0.51039 0.24064 -2.121 0.0339 *

fac.wiek3 -0.03878 0.31324 -0.124 0.9015




---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1




AIC: 767.86

Obliczamy ró»nic¦ dewiancji: G2H0

− G2H1

= 841.82 − 753.86 = 87.96. Liczba stopniswobody rozkªadu χ2 wynosi 1283−1277 = 6. Zatem P(G2

H0−G2

H1> 87.96) ≈ 0, czyli model

jest poprawny.Dalej sprawdzamy, »e R2

P = 1− 753.86841.82 = 0.104, a R2

N = 0.138. Znowu 0.104 i 0,138% nies¡ du»ymi liczbami, jednak, bior¡c pod uwag¦ charakter naszych danych, dopuszczalnymi.

Obliczamy w R statystyk¦ PearsonaX2, wynosi ona 1270,36 dla rozkªadu o 1277 stopniachswobody. Podobnie jak poprzednio znajdujemy P(X2 > 1270.36) = 0.547 i stwierdzamy, »enie mo»emy odrzuci¢ hipotezy o poprawno±ci naszego modelu, czyli wedªug tego kryteriumzmienne wraz z ocenami wspóªczynników s¡ dostatecznie dopasowane do danych.

I ostatni model, czyli dla zmiennej czy.ksiazki10:

Call:



Coefficients:


(Intercept) -0.1040 0.3018 -0.345 0.73025

fac.plec1 0.5013 0.1264 3.966 7.32e-05 ***

fac.wiek2 -0.1954 0.1567 -1.247 0.21224

fac.wiek3 0.3514 0.2036 1.726 0.08441 .




fac.stan2 -0.3274 0.1778 -1.842 0.06553 .

fac.stan3 -0.5183 0.1630 -3.180 0.00147 **

fac.stan4 -0.6004 0.3925 -1.530 0.12608

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


Null deviance: 1768 on 1283 degrees of freedom

Residual deviance: 1662 on 1274 degrees of freedom

AIC: 1682

43

Ró»nica dewiancji wynosi G2H0

−G2H1

= 1768−1662 = 106 przy 1283−1274 = 9 stopniachswobody. St¡d P(G2

H0− G2

H1> 106) ≈ 0, wi¦c wedªug tego kryterium nasz model jest

poprawny.Liczymy R2

P = 1− 16621768 = 0.06, jednak zobaczmy jeszcze, jak wygl¡da R2

N Nagelkerkego.Post¦puj¡c jak poprzednio mamy, »e R2

N = 0.106.Na koniec policzymy statystyk¦ Pearsona X2, wynosi ona 1285,19 przy 1274 stopniach

swobody. P(X2 > 1285.19) = 0.407, czyli hipoteza zerowa, mówi¡ca, »e model jest poprawny,nie mo»e zosta¢ odrzucona, co mieli±my nadziej¦ uzyska¢.

3.5. Interpretacja modeli

Otrzymane za pomoc¡ funkcji glm() oceny wspóªczynników w modelach mo»na ªatwo zin-terpretowa¢ po przeksztaªceniu ich funkcj¡ exp(x). Po wykonaniu takiej operacji reprezentuj¡one wzrost lub spadek szansy w odniesieniu do poziomu bazowego.

Zaczniemy od interpretacji modelu opisuj¡cego zmienne ró»nicuj¡ce zainteresowanie ki-nem. Oto otrzymane oceny wspóªczynników wyra»one w terminach szansy, uzyskane za po-moc¡ funkcji exp(coef()):

(Intercept) fac.wiek2 fac.wiek3

3.7380972 0.4223658 0.4079534


0.6821323 1.6044290 4.5113986

fac.miejscowosc2 fac.miejscowosc3

1.2969024 1.6187689

W przypadku tego modelu istotnymi zmiennymi obja±niaj¡cymi s¡ wiek, wyksztaªcenie orazwielko±¢ miejscowo±ci.

Poziomem bazowym stworzonej przez nas zmiennej fac.wiek jest przedziaª wiekowy 16-25lat. W naszym modelu wiek wpªywa ograniczaj¡co na cz¦stotliwo±¢ chodzenia do kina dlaobu kolejnych przedziaªów wiekowych (26-40 lat oraz 41-50 lat) szansa maleje o ok. 60%w stosunku do poziomu bazowego.

Z modelu wynika, »e szansa zainteresowania kinem jest najmniejsza dla osób z wyksztaª-ceniem zasadniczym zawodowym (o ok. 32% mniejsza ni» dla osób z wyksztaªceniem pod-stawowym), wi¦ksza dla osób z wyksztaªceniem ±rednim (o ok. 60% wi¦ksza ni» dla osóbz wyksztaªceniem podstawowym), a zdecydowanie najwi¦ksza dla grupy osób z wyksztaª-ceniem wy»szym i studentów a» 4,5 razy wi¦ksza ni» dla grupy osób z wyksztaªceniempodstawowym.

Zgodnie z oczekiwaniami z naszego modelu wynika, »e osoby mieszkaj¡ce w miastach wi¦-cej korzystaj¡ z no±nika kultury, jakim jest kino, ni» osoby mieszkaj¡ce w miejscowo±ciachwiejskich. Szansa zainteresowania kinem w maªych i du»ych miastach wzrasta o odpowiednio30% i 62% w stosunku do szansy na wsiach.

Przejd¹my do modelu zwi¡zanego ze zmienn¡ czy.ksiazki0. Przypomnijmy, »e ta zmiennauznaje za czytelników ksi¡»ek osoby, które w ostatnim roku przeczytaªy co najmniej jedn¡ksi¡»k¦. Oto jak przedstawiaj¡ si¦ eksponenty ocen kolejnych wspóªczynników:


9.1443757 2.5428687 0.6002627 0.9619586


0.3082763 0.7365457 1.8511682

44

W przypadku tego modelu istotnymi zmiennymi obja±niaj¡cymi s¡ pªe¢, wiek i wyksztaªcenie.Kobiety maj¡ 2,5 razy wi¦ksz¡ szans¦ przeczytania ksi¡»ki ni» m¦»czy¹ni.Wedªug modelu ludzie mªodzi s¡ najaktywniejsz¡ grup¡ czytelników. Wraz z przej±ciem

do drugiego przedziaªu wiekowego (26-40 lat) szansa maleje o 40%, a w trzecim przedziale(41-50 lat) osi¡ga prawie tak wysoki poziom jak w pierwszym (jest o tylko 4% ni»sza).

Zgodnie z oczekiwaniami najbardziej aktywn¡ czytelniczo z badanych grup okazaªy si¦osoby z wyksztaªceniem wy»szym, a najmniej aktywn¡ osoby po szkole zasadniczej zawodo-wej. W odniesieniu do poziomu bazowego tej zmiennej (osób z wyksztaªceniem podstawowym)osi¡gaj¡ odpowiednio o 85% wi¦ksz¡ i 69% mniejsz¡ szans¦ przeczytania przynajmniej jednejksi¡»ki. Do±¢ zaskakuj¡cym jest wynik mówi¡cy, »e dla osób z wyksztaªceniem ±rednim szansata jest o 26% mniejsza ni» dla osób z najni»szym wyksztaªceniem.

Przejd¹my do modelu zwi¡zanego ze zmienn¡ czy.ksiazki10. Przypomnijmy, »e ta zmiennauznaje za czytelników ksi¡»ek osoby, które w ostatnim roku przeczytaªy co najmniej 10 ksi¡-»ek. Oto jak przedstawiaj¡ si¦ eksponenty ocen kolejnych wspóªczynników:


0.9011803 1.6508767 0.8224651 1.4209970

fac.wyksztalcenie2 fac.wyksztalcenie3 fac.wyksztalcenie4 fac.stan2

0.3656689 0.7868143 1.3847256 0.7207667

fac.stan3 fac.stan4

0.5955334 0.5485664

W tym modelu istotnymi zmiennymi obja±niaj¡cymi s¡ te same, co dla poprzedniego modeluoraz dodatkowo stan cywilny.

Podobnie jak w poprzednim modelu badane kobiety okazaªy si¦ bardziej aktywnymi czy-telnikami od m¦»czyzn, ale ró»nica nie jest ju» tak wyra¹na szansa dla kobiet jest o 65%wi¦ksza.

W odró»nieniu od modelu opartego na zmiennej czy.ksiazki0, w tym modelu najwi¦ksz¡szans¦ przeczytania co najmniej 10 ksi¡»ek w ci¡gu roku maj¡ osoby po 40 roku »ycia jestona o 42% wi¦ksza ni» dla osób mªodych. Podobnie jak w tamtym modelu, najmniej czytaj¡c¡grup¡ okazaªy si¦ osoby w wieku 26-40 lat.

Oceny wspóªczynników stoj¡cych przy zmiennych odpowiadaj¡cych za wyksztaªcenie s¡zbli»one do tych uzyskanych w poprzednim modelu. Ponownie najbardziej aktywnymi czy-telnikami okazuj¡ si¦ osoby z wy»szym wyksztaªceniem (szansa o 38% wi¦ksza ni» dla osóbz wyksztaªceniem podstawowym), a osoby z wyksztaªceniem zasadniczym zawodowym i ±red-nim maj¡ szans¦ przeczytania co najmniej 10 ksi¡»ek w ci¡gu roku odpowiednio o 63% i 21%mniejsz¡ ni» grupa b¦d¡ca poziomem bazowym.

Dodatkow¡ istotn¡ zmienn¡ okazaª si¦ stan cywilny. Wedªug modelu najaktywniejszymiczytelnikami s¡ ludzie w stanie wolnym. Wraz ze zmian¡ stanu cywilnego szansa przeczytaniaco najmniej 10 ksi¡»ek w ci¡gu roku maleje. Dla osób w zwi¡zkach, maª»e«stw i rozwodnikó-w/wdowców szansa maleje odpowiednio o 28%, 40% i 45%.

W tablicy 3.3 znajduje si¦ zestawienie ocen wspóªczynników budowanych modeli po prze-ksztaªceniu ich funkcj¡ exp(x), czyli wzrostu lub spadku szansy w odniesieniu do poziomu ba-zowego dla kolejnych poziomów zmiennych w modelach. Znak oznacza, »e dana zmiennanie zostaªa uwzgl¦dniona w ostatecznym modelu. Kropki i gwiazdki przy ocenach wspóª-czynników odpowiadaj¡ rz¦dowi wielko±ci p-warto±ci w te±cie, w którym hipotez¡ zerow¡ jestnieistotno±¢ danej zmiennej. Przypomnijmy dokªadniej ich znaczenie:

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

45

model model model

zmienna poziom czy.kinoczy.kinoczy.kino czy.ksiazki0czy.ksiazki0czy.ksiazki0 czy.ksiazki10czy.ksiazki10czy.ksiazki10

wiek 26-40 lat 0,42 *** 0,60 * 0,8241-50 lat 0,41 *** 0,96 1,42 .

pªe¢ kobiety 2,54 *** 1,65 ***

zawodowe 0,68 0,30 * 0,37 **wyksztaªcenie ±rednie 1,60 0,74 0,79

wy»sze/studenci 4,51 *** 1,85 1,38

wielko±¢ maªe miasto 1,30 miejscowo±ci du»e miasto 1,62 *

stan partner 0,72 .cywilny maª»onek 0,60 **

rozwodnik/wdowiec 0,55

Tablica 3.3: Zestawienie ocen wspóªczynników (przeksztaªconych funkcj¡ exp(x)) w modelachzwi¡zanych ze zmiennymi czy.kino, czy.ksiazki0 i czy.ksiazki10

3.6. Porównanie modeli i wnioski

W punktach przedstawimy wnioski wynikaj¡ce z porównania zbudowanych modeli.

• Na wst¦pie przypomnijmy, »e rozpatrywana próba jest reprezentatywna dla po-

pulacji polskich aktywnych internautów, a nie dla populacji wszystkich Pola-

ków. Jak ju» wspomniaªy±my w rozdziale 3.1, wynika to ze specyki badania, któregogªównym celem byªo przeanalizowanie wpªywu nieformalnych obiegów tre±ci kulturo-wych na rozwój kultury. Na pewno fakt ten zawy»a wielko±¢ odsetka osób, które czytaj¡ksi¡»ki i chodz¡ do kina. Je±li dana osoba ma warunki materialne pozwalaj¡ce na staªydost¦p do Internetu, to z pewno±ci¡ sta¢ j¡ te» na regularne wizyty w kinie oraz nakupno ksi¡»ek.

• Na przewidywany poziom zainteresowania kinem istotny wpªyw ma miejsce

zamieszkania. Ten wynik jest do±¢ intuicyjny, mo»na go uzasadni¢ tym, »e w miejsco-wo±ciach wiejskich dost¦p do tego typu rozrywki jest utrudniony, natomiast du»e mia-sta oferuj¡ mnogo±¢ kin i szeroki repertuar lmów. Jednocze±nie ludzie z du»ych miastprowadz¡ inny tryb »ycia, by¢ mo»e s¡ bardziej otwarci na tego typu no±nik kultury.Zaw¦»enie grupy badanych osób do aktywnych internautów sprawia, »e wyestymowanezainteresowanie kinem w miejscowo±ciach wiejskich w stosunku do miast mo»e by¢ wy»-sze ni» w rzeczywisto±ci. Gdyby zbada¢ grup¦ reprezentatywn¡ dla wszystkich Polaków,czyli do badanej grupy doª¡czy¢ w szczególno±ci osoby mieszkaj¡ce we wsiach, o niskimstatusie maj¡tkowym, nie dysponuj¡ce staªym dost¦pem do Internetu, ró»nica w szansiezainteresowania kinem prawdopodobnie pogª¦biªaby si¦.

• W badaniu zmiennej czy.ksiazki10czy.ksiazki10czy.ksiazki10 w odró»nieniu od czy.ksiazki0czy.ksiazki0czy.ksiazki0 istotny oka-

zaª si¦ stan cywilny. Przy takim rozró»nieniu najwi¦cej czytaj¡c¡ grup¡ badanychokazali si¦ ludzie b¦d¡cy w stanie wolnym. Nie jest to du»ym zaskoczeniem - ludzienie zaanga»owani w bliskie relacje z jedn¡ osob¡, nie posiadaj¡cy pochªaniaj¡cego »y-cia rodzinnego, maj¡ wi¦cej czasu dla siebie, na swoje pasje, przyjemno±ci. Aczkolwiekotrzymany wynik mówi¡cy, »e najmniej si¦gaj¡ po ksi¡»ki rozwodnicy i wdowcy, ju»

46

nie jest tak samo oczywisty. Niew¡tpliwie nie mo»na ich postrzega¢ jako wolnych, cho¢takimi w wi¦kszo±ci s¡. By¢ mo»e to, »e nie czytaj¡ du»o ksi¡»ek wi¡»e si¦ z nagª¡zmian¡ w »yciu. Musz¡ wi¦cej czasu po±wi¦ci¢ na rzeczy, którymi, by¢ mo»e, do tejpory niewiele lub nawet w ogóle si¦ nie zajmowali. Zauwa»my, »e liczebno±¢ grupy

rozwodników i wdowców jest du»o ni»sza od liczebno±ci pozostaªych grup

(wida¢ to na rysunku 3.4), przez co wyniki dotycz¡ce tej grupy mog¡ znacz¡co odbiega¢od rzeczywisto±ci.

• Kolejnym ciekawym spostrze»eniem jest to, »e we wszystkich trzech modelach bardzopodobnie plasuj¡ si¦ uwzgl¦dnione przez sonda» etapy edukacji. Zdecydowanienajmniej korzystaj¡ z badanych no±ników kultury osoby z wyksztaªceniem zasadniczymzawodowym, a najwi¦cej studenci i osoby, które uko«czyªy uczelni¦ wy»sz¡. Pierwszaobserwacja prawdopodobnie wynika z tego, »e osoby, które decyduj¡ si¦ na uko«czenieszkoªy zawodowej maj¡ nierzadko trudn¡ sytuacj¦ materialn¡, b¡d¹ nie szczyc¡ si¦ wy-sokimi wynikami w nauce. Obydwie te rzeczy w wi¦kszo±ci nie sprzyjaj¡ ani czytaniuksi¡»ek, ani cz¦stemu chodzeniu do kina. Natomiast studenci czytaj¡ du»o naukowychksi¡»ek, wymaganych przez swój kierunek, ale równie» w ramach relaksu wi¦cej chodz¡do kina. Podobnie grupa ludzi, którzy ju» pracuj¡, w ten sposób sp¦dza wolny czas,odpoczywa przy czytaniu ksi¡»ek i ogl¡daniu lmów. Je±li chodzi o pozostaªe dwiebadane grupy, czyli osoby z wyksztaªceniem podstawowym i ±rednim, to ta pierwszawi¦cej czyta, natomiast druga wi¦cej chodzi do kina. Jest to by¢ mo»e spowodowanetym, »e osoby z wyksztaªceniem podstawowym maj¡ce niewiele wi¦cej ni» 16 lat, s¡ za-zwyczaj w liceum lub technikum. W obydwu instytucjach czyta si¦ sporo lektur, ale te»podr¦czników do poszczególnych przedmiotów. Uczniowie szkóª ponadgimnazjalnychmaj¡ cz¦sto mniej czasu na chodzenie do kina, zwªaszcza te osoby, które przygotowuj¡si¦ do matury. Brak dost¦pu do staªego ª¡cza internetowego mo»e by¢ skorelowanyz utrudnionym dost¦pem do edukacji, co mogªo sprawi¢ i» pewna grupa osób z niskimwyksztaªceniem nie zostaªa uwzgl¦dniona w badanej próbie internautów, przez co otrzy-mane zró»nicowanie we wska¹nikach zainteresowania czytelnictwem i ogl¡daniem lmóww kinie mi¦dzy osobami z wyksztaªceniem niskim a wysokim zmniejszyªo si¦.

• Kolejnym uzyskanym przez nas wynikiem jest niskie zainteresowanie czytelnictwemw grupie ludzi w wieku 26-40 lat w stosunku do innych grup zarówno w ana-lizie zmiennej czy.ksiazki0, jak i zmiennej czy.ksiazki10 szansa zainteresowania czyta-niem ksi¡»ek byªa dla tej grupy mniejsza ni» dla grupy mªodszej i dla grupy starszej. By¢mo»e jest to spowodowane tym, »e ten wiek jest najbardziej aktywnym okresem w »yciuczªowieka jest to na ogóª okres intensywnego rozwoju kariery zawodowej i »ycia rodzin-nego. Maªa ilo±¢ czasu wolnego mo»e powodowa¢ brak zainteresowania czytelnictwem.Otrzymany wynik tªumaczy, dlaczego zdecydowaªy±my si¦ na faktoryzacj¦

zmiennej wiekwiekwiek. Gdyby±my tego nie zrobiªy, model regresji wymusiªby monotoniczn¡,a nawet liniow¡ zale»no±¢ szansy od wieku. Z otrzymanego modelu wynika, »e ta zale»-no±¢ nie jest liniowa.

• Do±¢ zaskakuj¡cym wynikiem okazaªa si¦ tak istotna i wyra¹na zale»no±¢ zaintere-sowania czytelnictwem od pªci. Zarówno przy analizie zmiennej czy.ksiazki0, jaki zmiennej czy.ksiazki10 badane kobiety wykazaªy du»o wi¦ksze zamiªowanie do czyta-nia ksi¡»ek ni» m¦»czy¹ni. Trudno jest poda¢ sensown¡ interpretacj¦ i prawdopodobneprzyczyny takiego wyniku bez nara»ania si¦ na zarzuty o stronniczo±¢ wzgl¦dem której±z pªci. Zatem powstrzymamy si¦ od komentarza, aby unikn¡¢ wniosków, które mogªybyzosta¢ uznane za krzywdz¡ce.

47

16−25 26−40 41−50

0.5

0.6

0.7

0.8

0.9

wiek

praw

dopo

dobi

enst

wo

zai

nter

esow

ania

kin

em

podst zaw sr wyz

0.5

0.6

0.7

0.8

0.9

wyksztalcenie

praw

dopo

dobi

enst

wo

zai

nter

esow

ania

kin

em

wies male m. duze m.

0.5

0.6

0.7

0.8

0.9

wielkosc miejscowosci

praw

dopo

dobi

enst

wo

zai

nter

esow

ania

kin

em

Rysunek 3.2: Wykresy pudeªkowe dla prawdopodobie«stwa zainteresowania kinem (zmiennaobja±niana czy.kino) w zale»no±ci od poszczególnych poziomów zmiennych obja±niaj¡cychfac.wiek, fac.wyksztalcenie i fac.miejscowosc; grubo±¢ ka»dego z pudeªek jest proporcjo-nalna do pierwiastka z liczebno±ci danej grupy

48

mezczyzna kobieta

0.65

0.70

0.75

0.80

0.85

0.90

0.95

plec

praw

dopo

dobi

enst

wo

prz

eczy

tani

a 1

ksi

azki

16−25 26−40 41−50

0.65

0.70

0.75

0.80

0.85

0.90

0.95

wiek

praw

dopo

dobi

enst

wo

prz

eczy

tani

a 1

ksi

azki

podst zaw sr wyz

0.65

0.70

0.75

0.80

0.85

0.90

0.95

wyksztalcenie

praw

dopo

dobi

enst

wo

prz

eczy

tani

a 1

ksi

azki

Rysunek 3.3: Wykresy pudeªkowe dla prawdopodobie«stwa zainteresowania czytelnictwem(zmienna obja±niana czy.ksiazki0) w zale»no±ci od poszczególnych poziomów zmiennych ob-ja±niaj¡cych fac.plec, fac.wiek i fac.wyksztalcenie; grubo±¢ ka»dego z pudeªek jest propor-cjonalna do pierwiastka z liczebno±ci danej grupy

49

mezczyzna kobieta

0.2

0.3

0.4

0.5

0.6

0.7

plec

praw

dopo

dobi

enst

wo

prz

eczy

tani

a p

onad

10

ksi

azek

16−25 26−40 41−50

0.2

0.3

0.4

0.5

0.6

0.7

wiek

praw

dopo

dobi

enst

wo

prz

eczy

tani

a p

onad

10

ksi

azek

podst zaw sr wyz

0.2

0.3

0.4

0.5

0.6

0.7

wyksztalcenie

praw

dopo

dobi

enst

wo

prz

eczy

tani

a p

onad

10

ksi

azek


0.2

0.3

0.4

0.5

0.6

0.7

stan cywilny

praw

dopo

dobi

enst

wo

prz

eczy

tani

a p

onad

10

ksi

azek

Rysunek 3.4: Wykresy pudeªkowe dla prawdopodobie«stwa zainteresowania czytelnictwem(zmienna obja±niana czy.ksiazki10) w zale»no±ci od poszczególnych poziomów zmiennychobja±niaj¡cych fac.plec, fac.wiek, fac.wyksztalcenie i fac.stan; grubo±¢ ka»dego z pudeªekjest proporcjonalna do pierwiastka z liczebno±ci danej grupy

50

Podsumowanie

W pracy tej przeprowadziªy±my analiz¦ danych rzeczywistych dotycz¡cych no±ników kul-tury, jakimi s¡ kino i ksi¡»ki. Modelowanie oparªy±my na regresji logistycznej, której zarys,wraz ze sposobem estymowania wspóªczynników, przedstawiªy±my w rozdziale teoretycznym.

Regresja sªu»y do opisu zale»no±ci pomi¦dzy zmiennymi. W szczególno±ci regresja logi-styczna modeluje zmienn¡ binarn¡ mówi¡c¡, czy dane zdarzenie nast¡piªo, czy nie, w zale»-no±ci od innych, dowolnych zmiennych. Nasza analiza dotyczyªa zainteresowania czytaniemksi¡»ek i chodzeniem do kina w zale»no±ci od pªci, wieku, wyksztaªcenia, miejsca zamieszkania,liczby osób w gospodarstwie domowym oraz stanu cywilnego. Ze zmiennych obja±niaj¡cychstworzyªy±my wektory jako±ciowe, co w przypadku pªci, wyksztaªcenia, miejsca zamieszkaniai stanu cywilnego jest w miar¦ naturalne, natomiast w przypadku wieku i liczby osób w go-spodarstwie nie wiedziaªy±my, czy istnieje reguªa opisuj¡ca wzrost lub spadek zainteresowaniano±nikami kultury wraz ze wzrostem wieku. Co do liczby osób, okazaªa si¦ ona w ka»dymz modeli nieistotnym czynnikiem, natomiast je±li chodzi o wiek, wprowadzenie takiego po-dziaªu okazaªo si¦ sªuszne, gdy» zale»no±¢ od wieku okazaªa si¦ niemonotoniczna w modelachregresji opisuj¡cych zainteresowanie ksi¡»kami. Zmienne binarne stworzyªy±my w oparciuo liczb¦ przeczytanych ksi¡»ek i wyj±¢ do kina w ostatnim roku. Poniewa» nie byªy±my doko«ca przekonane, co uzna¢ za czytanie ksi¡»ek, stworzyªy±my dwie zmienne jedna z nichza osob¦ czytaj¡c¡ uznaje tak¡, która przeczytaªa co najmniej jedn¡ ksi¡»k¦, a druga tak¡,która przeczytaªa ich powy»ej dziesi¦ciu w ostatnim roku. Za pomoc¡ odpowiednich funk-cji, opisanych w rozdziale 2, udaªo nam si¦ zbudowa¢ trzy modele, które w zadowalaj¡cymstopniu wyznaczaj¡ zale»no±¢ pomi¦dzy istotnymi zmiennymi. Diagnoza modeli polegaj¡cana testowaniu hipotez o ich poprawno±ci i dopasowaniu do danych wyszªa pozytywnie.

Otrzymane wyniki zinterpretowaªy±my odwoªuj¡c si¦ do wªasnych do±wiadcze« i obser-wacji, na co pozwoliª wybrany przez nas temat i charakter danych. By¢ mo»e nie wszystkiewysnute przez nas wnioski s¡ trafne, gªówn¡ przyczyn¡ mo»e by¢ ograniczona liczba czynni-ków wpªywaj¡cych na zmienne obja±niane, do których nie miaªy±my dost¦pu. Niemniej jednakw wi¦kszo±ci wyniki s¡ intuicyjnie poprawne, co mo»e przemawia¢ za niewielkim odst¦pstwemod rzeczywisto±ci.

51

Dodatek A

Kody pakietu R u»yte w pracy

A.1. Wczytanie i transformacja danych

Wczytanie danych pobranych ze strony internetowej:

> obiegi = read.table("C:/sciezka_do_pliku/dane_sondaz.csv", sep=";",

header=T)

Wczytanie i binaryzacja odpowiedzi na pytanie o cz¦stotliwo±¢ chodzenia do kina:

> kino = obiegi [ ,248]

> czy.kino=c(1:1284)

> for (i in 1:1284) if (kino[i]<5) czy.kino[i]=1 else czy.kino[i]=0

Wczytanie i dwa sposoby binaryzacji odpowiedzi na pytanie o liczb¦ przeczytanych ksi¡»ek:

> ileksiazek = obiegi [ ,160]

> czy.ksiazki0=c(1:1284)

> if (ileksiazek[i]>0) czy.ksiazki0[i]=1 else czy.ksiazki0[i]=0

> czy.ksiazki10=c(1:1284)

> if (ileksiazek[i]>10) czy.ksiazki10[i]=1 else czy.ksiazki10[i]=0

Wczytanie i faktoryzacja zmiennej plec:

> plec = obiegi [ ,152]

> fac.plec=factor(factor(plec , labels=c("1","0")))

Wczytanie zmiennej rokurodzenia, utworzenie zmiennej wiek oraz jej faktoryzacja:

> rokurodzenia = obiegi [ ,151]

> wiek = 2011 - rokurodzenia

> fac.wiek=factor(factor(wiek , labels=c("1","1","1","1","1","1","1","1",

"1","1","2","2","2","2","2","2","2","2","2","2","2","2","2","2","2",

"3","3","3","3","3","3","3","3","3","3")))

Wczytanie zmiennej wyksztalcenie i jej faktoryzacja:

> wyksztalcenie = obiegi [ ,159]

> fac.wyksztalcenie=factor(factor(wyksztalcenie , labels=c("1","2","3","4")))

Wczytanie zmiennej wielkoscmiejscowosci i jej faktoryzacja:

> wielkoscmiejscowosci = obiegi [,156]

> fac.miejscowosc=factor(factor(wielkoscmiejscowosci , labels=c("1","2","2",

"2","2","3","3","3","3")))

Wczytanie zmiennej liczbaosob (liczba osób w gospodarstwie domowym) i jej faktoryzacja:

> liczbaosob=obiegi [ ,346]

> fac.liczbaosob=factor(factor(liczbaosob , labels=c("1","2","2","2","3","3",

"3","3")))

53

Wczytanie zmiennej stan (stan cywilny) i jej faktoryzacja:

> stan=obiegi [ ,380]

> fac.stan=factor(factor(stan ,labels=c("1","2","3","4")))

A.2. Budowa modelu zwi¡zanego z kinem

U»ycie funkcji glm() i summary() do budowy pierwszego modelu zwi¡zanego z kinem:

> regresjakino1 = glm(formula = czy.kino ~ fac.plec+fac.wiek+

fac.wyksztalcenie+fac.miejscowosc+fac.liczbaosob+fac.stan ,

family=binomial ())

> summary(regresjakino1)

U»ycie funkcji step() do korekty pierwszego modelu zwi¡zanego z kinem:

> step(regresjakino1 , direction="backwards")

Budowa modeli opartych na pojedynczych zmiennych obja±niaj¡cych:

> regresjakino.plec = glm(formula = czy.kino ~ fac.plec , family=binomial ())

> summary(regresjakino.plec)

> regresjakino.liczbaosob = glm(formula = czy.kino ~ fac.liczbaosob ,

family=binomial ())

> summary(regresjakino.liczbaosob)

> regresjakino.stan = glm(formula = czy.kino ~ fac.stan , family=binomial ())

> summary(regresjakino.stan)

Budowanie kolejnych modeli zwi¡zanych z kinem:


fac.wyksztalcenie+fac.miejscowosc+fac.stan , family=binomial ())



fac.wyksztalcenie+fac.miejscowosc+fac.stan+fac.stan:fac.wiek+

fac.plec:fac.wyksztalcenie+fac.stan:fac.miejscowosc+

fac.wiek:fac.wyksztalcenie , family=binomial ())


> regresjakino4 = glm(formula = czy.kino ~ fac.wiek+fac.wyksztalcenie+

fac.miejscowosc+fac.stan+fac.stan:fac.wiek+fac.stan:fac.miejscowosc ,

family=binomial ())


> regresjakino5 = glm(formula = czy.kino ~ fac.wiek+fac.wyksztalcenie+

fac.miejscowosc , family=binomial ())


A.3. Budowa modelu zwi¡zanego ze zmienn¡ czy.ksiazki0

Budowa pierwszego modelu zwi¡zanego ze zmienn¡ czy.ksiazki0:

> regresjaksiazki0a <-glm(formula=czy.ksiazki0~fac.plec+fac.wiek+

fac.wyksztalcenie+ fac.miejscowosc+fac.liczbaosob+fac.stan ,

family=binomial ())

> summary(regresjaksiazki1)

54


> regresjaksiazki0.miejscowosc <-glm(formula=czy.ksiazki0~fac.miejscowosc ,

family=binomial ())

> summary(regresjaksiazki0.miejscowosc)

> regresjaksiazki0.liczbaosob <-glm(formula=czy.ksiazki0~fac.liczbaosob ,

family=binomial ())

> summary(regresjaksiazki0.liczbaosob)

> regresjaksiazki0.stan <-glm(formula=czy.ksiazki0~fac.stan , family=binomial ())

> summary(regresjaksiazki0.stan)

Budowa kolejnych modeli zwi¡zanych ze zmienn¡ czy.ksiazki0:

> regresjaksiazki0b <- glm(formula = czy.ksiazki0 ~ fac.plec+fac.wiek+

fac.wyksztalcenie+fac.stan+fac.wiek:fac.stan , family=binomial ())

> summary(regresjaksiazki0b)

> regresjaksiazki0c <-glm(formula=czy.ksiazki0~fac.plec+fac.wiek+

fac.wyksztalcenie , family=binomial ())

> summary(regresjaksiazki0c)

A.4. Budowa modelu zwi¡zanego ze zmienn¡ czy.ksiazki10

Budowa pierwszego modelu zwi¡zanego ze zmienn¡ czy.ksiazki10:

> regresjaksiazki10a <-glm(formula=czy.ksiazki10~fac.plec+fac.wiek+

fac.wyksztalcenie+ fac.miejscowosc+fac.liczbaosob+fac.stan ,

family=binomial ())

> summary(regresjaksiazki10a)


> regresjaksiazki10.miejscowosc <-glm(formula=czy.ksiazki10~fac.miejscowosc ,

family=binomial ())

> summary(regresjaksiazki10.miejscowosc)

> regresjaksiazki10.liczbaosob <-glm(formula=czy.ksiazki10~fac.liczbaosob ,

family=binomial ())

> summary(regresjaksiazki10.liczbaosob)

Budowa ostatecznego modelu zwi¡zanego ze zmienn¡ czy.ksiazki10:

> regresjaksiazki10b <-glm(formula=czy.ksiazki10~fac.plec+fac.wiek+

fac.wyksztalcenie+fac.stan , family=binomial ())

> summary(regresjaksiazki10b)

A.5. Tworzenie wykresów

Nadanie nowych warto±ci poszczególnym poziomom zmiennych obja±niaj¡cych w celuotrzymania etykiet na wykresach ponowne u»ycie funkcji factor():

> fac.plec=factor(factor(plec , labels=c("mezczyzna","kobieta")))

> fac.wiek=factor(factor(wiek , labels=c("16-25","16-25","16-25","16-25",

"16-25","16-25","16-25","16-25","16-25","16-25","26-40","26-40","26-40",

"26-40","26-40","26-40","26-40","26-40","26-40","26-40","26-40","26-40",

"26-40","26-40","26-40","41-50","41-50","41-50","41-50","41-50","41-50",

"41-50","41-50","41-50","41-50")))

> fac.wyksztalcenie=factor(factor(wyksztalcenie , labels=c("podst","zaw","sr",

55

"wyz")))

> fac.miejscowosc=factor(factor(wielkoscmiejscowosci , labels=c("wies",

"male m.","male m.","male m.","male m.","duze m.","duze m.","duze m.",

"duze m.")))

> fac.stan=factor(factor(stan ,labels=c("wolny","partner","malzonek",

"rozwod")))

Tworzenie wykresów z rysunku 3.1:

> interaction.plot(fac.stan ,fac.wiek ,czy.kino ,lwd =2)

> interaction.plot(fac.stan ,fac.miejscowosc ,czy.kino ,lwd=2)


> plot(fac.wiek , regresjakino5$fitted.value , xlab="wiek",

ylab="prawdopodobienstwo zainteresowania kinem", varwidth = TRUE)

> plot(fac.wyksztalcenie , regresjakino5$fitted.value ,

xlab="wyksztalcenie",


> plot(fac.miejscowosc , regresjakino5$fitted.value ,

xlab="wielkosc miejscowosci",



> plot(fac.plec , regresjaksiazki0c$fitted.value , xlab="plec",

ylab="prawdopodobienstwo przeczytania 1 ksiazki", varwidth = TRUE)

> plot(fac.wiek , regresjaksiazki0c$fitted.value , xlab="wiek",


> plot(fac.wyksztalcenie , regresjaksiazki0c$fitted.value ,




> plot(fac.plec , regresjaksiazki10b$fitted.value , xlab="plec",

ylab="prawdopodobienstwo przeczytania ponad 10 ksiazek",

varwidth = TRUE)

> plot(fac.wiek , regresjaksiazki10b$fitted.value , xlab="wiek",


varwidth = TRUE)

> plot(fac.wyksztalcenie , regresjaksiazki10b$fitted.value ,



varwidth = TRUE)

> plot(fac.stan , regresjaksiazki10b$fitted.value , xlab="stan cywilny",


varwidth = TRUE)

56

A.6. Diagnostyka modeli

Wczytanie pakietu do obliczenia R2:

> library(rms)

Obliczanie R2 dla modelu regresjakino5:

> lrm(regresjakino5)

> lrmregresjakino5 <-lrm(regresjakino5)

> lrmregresjakino5$stats

Obliczanie R2 dla modelu regresjaksiazki0c:

> lrm(regresjaksiazki0c)

> lrmregresjaksiazki0c <-lrm(regresjaksiazki0c)

> lrmregresjaksiazki0c$stats

Obliczanie R2 dla modelu regresjaksiazki10b:

> lrm(regresjaksiazki10b)

> lrmregresjaksiazki10b <-lrm(regresjaksiazki10b)

> lrmregresjaksiazki10b$stats

Obliczanie statystyki Pearsona X2 dla modelu regresjakino5:

> sum(residuals(regresjakino5 ,type="pearson")^2)

Obliczanie statystyki Pearsona X2 dla modelu regresjaksiazki0c:

> sum(residuals(regresjaksiazki0c ,type="pearson")^2)

Obliczanie statystyki Pearsona X2 dla modelu regresjaksiazki10b:

> sum(residuals(regresjaksiazki10b ,type="pearson")^2)

57

Bibliograa

[1] Przemysªaw Biecek, Przewodnik po pakiecie R, Ocyna Wydawnicza GiS, Wrocªaw 2011.

[2] Je Gill, Generalized Linear Models: A Unied Approach, Sage Publications, Floryda2001.

[3] R. I. Jennrich, P. F. Sampson, Newton-Raphson and Related Algorithms for Maximum

Likehood Variance Component Estimation, Technometrics, vol. 18, nr 1, 1976, 1117.

[4] Christopher Manning, Logistic regression with R, http://nlp.stanford.edu/manning/courses/ling289/logistic.pdf, 2007.

[5] Wojciech Niemiro, Statystyka, 2011.

[6] Simon J. Sheather, A Modern Approach to Regression with R, Springer, Texas 2008.

[7] Dokumentacja pakietu R, http://finzi.psych.upenn.edu/R/library/stats/html/,dost¦p dnia 13.05.2012r.

[8] Internetowa encyklopediaWikipedia, http://pl.wikipedia.org/wiki/Regresja_(statystyka),dost¦p dnia 2.06.2012r.

59

regresja logistyczna algorytm estymacji wspóªczynników i przykªad zastosowania w ... ·...

Documents