STATISTIKA
21.3.2011
Doc.dr. Tadeja Kraner Šumenjak
KORELACIJA
Pri osnovni korelacijski analizi preskušamo, kako močno sta dve statistični spremenljivki povezani (usklajeni) ali korelirani. Mera za medsebojno povezanost je kovarianca
yxyxn
c i
n
i
ixy 1
1
0
0
0
xy
xy
xy
c
c
c negativna linearna povezanost
ni linearne povezanosti
pozitivna linearna povezanost
Jakost povezave pa merimo s Pearsonovim
koeficientom korelacije.
Personov koeficient korelacije računamo po
formuli (enaka pri linearni regresiji):
yx
xy
xy
cr
Grafično lahko ponazorimo povezanost z razsevnim
grafikonom. Za ilustracijo poglejmo nekaj razsevnih
grafikonov.
Personov koeficient korelacije ima naslednje
lastnosti:
•Vrednosti koeficienta korelacije so na intervalu od
-1 do +1.
•Koeficient korelacije je simetričen, torej .
•Korelacija spremenljivke same s seboj je 1.
•Statistični spremenljivki sta nekorelirani natanko
tedaj, ko je korelacijski koeficient enak 0.
•Če je korelacijski koeficient 1 ali -1, potem med
spremenljivkama obstaja linearna funkcijska
zveza.
yxxy rr
Glede na velikost korelacijskega koeficienta
ločimo:
močno linearno povezavo, če je
0,8 rxy 1,
srednje močno linearno povezavo, če je
0,6 rxy < 0,8,
šibko linearno povezavo, če je
rxy < 0,6.
Pri uporabi korelacijskega koeficienta moramo
biti zelo previdni. Če povezava med
spremenljivkama ni linearna, uporaba
korelacijskega koeficienta kot mere povezanosti
ni ustrezna. Naslednja slika prikazuje kvadratno
povezavo. V tem primeru bi bil Personov kor.
koeficient blizu 0. Povezava obstaja, ki pa ni
linearna.
Ponavadi nas zanima, ali sta spremenljivki v populaciji sploh povezani. Sklepamo na osnovi vrednosti koeficienta korelacije v vzorcu.
H0: R=0 Spremenljivki nista linearno povezani.
H1: R≠0 Spremenljivki sta linearno povezani.
Teorija pokaže, da je testna statistika za tako
ničelno domnevo naslednja:
Njena ničelna porazdelitev je t(n-2).
2
2
1
xy
xy
r nt
r
Izračunavanju vrednosti testne statistike se
lahko izognemo, če imamo na razpolago ustrezne
statistične tabele. V teh tabelah je podana
kritična vrednost Pearsonovega koeficienta
korelacije pri določeni stopnji značilnosti in pri
velikosti vzorca n.
Zdravniki merijo dve vrednosti krvnega tlaka,
sistolični in diastolični tlak. Izračunajte Personov
korelacijski koeficient. Podatke prikažite tudi
grafično. Pri stopnji značilnosti 0,05 preverite
domnevo o povezanosti obeh tlakov.
Sistolični Diastolični
210 130
169 122
187 124
160 104
167 112
176 101
185 121
Komentar
Pri stopnji značilnosti 0,05 ne moremo trditi, da
obstaja pozitivna linearna povezava med
sistoličnim in diastoličnim krvnim tlakom.
Primer
V vzorcu imamo 10
meteoroloških postaj. Za
njih imamo podatke za dve
spremenljivki: povprečna
temperatura in količina
padavin.
Povp.temp.
(0C)
Padavine
(mm)
15 338
15,4 385
15,5 383
13,7 375
15,3 396
12,8 4,5
13,3 554
12,6 473
11,0 464
13,3 448
Podatke grafično prikažite.
Izračunajte Pearsonov korelacijski koeficient.
Pri stopnji značilnosti 0,05 preverite domnevo, da
sta spremenljivki korelirani.
ČASOVNE VRSTE
Družbeno ekonomski pojavi so časovno
spremenljivi. Razni dejavniki vplivajo na te
pojave in jih spreminjajo. Da bi si predstavljali
dinamiko teh pojavov, jih predstavimo s
časovnimi vrstami.
Časovna vrsta je niz istovrstnih pojavov, ki
se nanašajo na zaporedne časovne razmike
ali trenutke.
Osnovni namen analize časovnih vrst je:
opazovati časovni razvoj pojavov.
iskati zakonitosti med časovnimi pojavi.
predvidevati nadaljnji razvoj.
Časovne vrste so:
Trenutne: vrednosti se nanašajo na trenutek.
Primer: temperatura zraka ob 8 uri zjutraj.
Intervalne: vrednosti se nanašajo na časovni
interval.
Primer: število rojstev na leto, pridelek jabolk na
leto.
Izvedene: vrednosti so izračunane.
Primer: letna stopnja inflacije.
Najpogosteje časovne vrste predstavimo z linijskim
grafikonom. Za določene časovne vrste so primerni
še polarni grafikon, Brunsmanov grafikon, Z
diagram ter Ganttov grafikon, ki pa jih, razen
polarnega grafikona, ne bomo posebej obravnavali.
Osnovno orodje za analizo časovnih vrst so
indeksi.
Ponovite verižne indekse, indekse s stalno in
povprečni indeks!
Število porok v Sloveniji v letih 2000-2006
0
1000
2000
3000
4000
5000
6000
7000
8000
2000 2001 2002 2003 2004 2005 2006
Vsako časovno vrsto lahko sestavlja več komponent
(dekompozicija časovne vrste). Oblika časovne vrste je
odvisna od njihovega deleža.
Pri časovni vrsti skušamo identificirati naslednje
komponente:
•Trend (T)
•Sezonska (S)
•Ciklična komponenta (C)
•Iregularne spremembe (slučajna komponenta) (E)
Oglejmo si vlogo posameznih komponent.
KOMPONENTE ČASOVNIH VRST
TREND
Predstavlja dolgoročno gibanje pojava, podaja
pa osnovno smer razvoja.
Dolgoročne spremembe nastanejo zaradi
gospodarskih sprememb, sprememb v okolju,
bioloških dejavnikov.
Trend je lahko linearen, kvadratni,
eksponenten...
Uporabimo enake metode kot pri regresiji.
SEZONSKA KOMPONENTA
Se nanaša na periodične spremembe.
Sezonske variacije nastanejo zaradi letnih časov,
praznikov, vremena.
Sezonska komponenta ima svojo dolžino, ki je
konstantna (med dvema vrhovoma preteče več
let).
Primer
Oglejmo si potrošnjo piva v posameznih mesecih.
Brez težav bomo ugotovili, da je v zimskih
mesecih manjša kot v poletnih mesecih. Pravimo,
da je potrošnja piva sezonska, saj je v poletnem
času veliko večja kot v preostalem delu leta.
V letu pa imamo lahko tudi več sezon. Tako
imamo na primer letno in zimsko turistično
sezono.
Gostota prometa na cestah.
V grafikonu ustreza vsakemu mesecu kot 300. Podatke posameznega
meseca rišemo v sredini ustreznega kota. Oddaljenost točke od
središča je sorazmerna velikosti pojava v tem mesecu. Če točke
zaporednih mesecev medsebojno povežemo, dobimo poligon.
Najlepšo predstavo o sezonski komponenti dobimo, če podatke o
velikosti pojava v posameznih mesecih narišemo v polarnem
grafikonu.
Mrtva sezona
Večji odkup
(konec
vegetacije)
CIKLIČNA KOMPONENTA
Se nanaša na neperiodične spremembe.
Predstavlja nihanje okoli trenda in je očitna v
zelo dolgih obdobjih.
Primer
Določeni pojavi imajo obdobja, ko je pojav
izrazitejši. Tako lahko ugotovimo, da je nek
kultivar jabolk nekaj let "moderen", nato pa pade
za določeno obdobje pri potrošnikih v "nemilost".
Naravne nesreče.
IREGULARNE SPREMEMBE
Na velikost pojavov pa vplivajo tudi faktorji, na
katere nimamo vpliva in jih ne moremo razložiti
s trendom, ciklično in sezonsko komponento.
Tako nam v kmetijstvu vreme vpliva na boljši ali
slabši pridelek, izbruh epidemije pri živalih lahko
vpliva na večjo ali manjšo porabo mesa itd. Take
spremembe, ki vplivajo na velikost pojava in ki
jih ne moremo predvideti vnaprej, imenujemo
iregularne spremembe (iregularni vplivi,
šum, slučajna komponenta).
Časovna vrsta ni nujno rezultat delovanja vseh
komponent. Vedno pa obstaja slučajna
komponenta.
Za vsako časovno vrsto skušamo identificirati
njen model. Najsplošnejša sta dva:
ADITIVNI: Y=T+S+C+E
MULTIPLIKATIVNI: Y=T· S · C · E
ADITIVNI
MODEL
PRIMER
METODE ZA DOLOČANJE TRENDA
Prostoročno določanje trenda na grafičnem
prikazu na začetku analize.
Analitične metode. Najenostavnejša metoda:
regresija po metodi najmanjših kvadratov.
Leto Breskve - število
rodnih dreves (v
1000)
1988 150
1989 121
1990 112
1991 111
1992 109
1993 86
1994 79
1995 72
Izberimo si podatke o spreminjanju števila rodnih
dreves breskev v Sloveniji določenem časovnem
obdobju. Podatki za leta 1988-1995 so navedeni v
preglednici. Podatke grafično prikažite v razsevnem
grafikonu:
Število rodnih dreves breskev v obdobju od 1988-1995. leta.
V grafikonu so leta zapisana v sredini stolpca, saj ima leto intervalni
in ne trenutni značaj. Točke rišemo vedno v sredini obdobja, odmik od
abscisne osi pa je sorazmeren velikosti pojava. V grafikonu povežemo
točke zaporednih let, da si olajšamo določitev oblike trenda. Trend
vrišemo tako, da se točkam ustrezna krivulja najbolje prilega.
Iz zgornje slike lahko razberemo, da je linearen
trend sprejemljiv. Torej ga lahko opišemo z
enačbo
T = a + bt
Da dobimo enačbo trenda lahko uporabimo
sistem normalnih enačb, ki smo jih spoznali pri
linearni regresiji. Ta sistem ima obliko:
y na b x
x y a x b x
i
i
n
i
i
n
i i
i
n
i
i
n
i
i
n
1 1
1 1
2
1
Enačbe se poenostavijo, če napravimo premik časovne vrste. Uvedemo
tehnični čas:
Če imamo podatke za neparno število let (na primer 7) opravimo
premik začetka časovne osi tako:
Če imamo podatke za parno število let (na primer 6) opravimo premik
začetka časovne osi tako:
1998 1999 2000 2001 2002 2003 2004
-3 -2 -1 0 1 2 3
1998 1999 2000 2001 2002 2003
-5 -3 -1 1 3 5
parno število let:
-(2n1), ..., -3, -1, 1, 3, ..., (2n+1)
neparno število let
-2n, ..., -2, -1, 0, 1, 3, ..., 2n
S pravkar opisanima premikoma časovne osi dosežemo, da je vsota
vrednosti spremenljivke x enaka nič. Torej je
Če to upoštevamo, se naše normalne enačbe za trend poenostavijo. Velja:
xi
i
n
1
0
y na
x y b x
i
i
n
i i
i
n
i
i
n
1
1
2
1
an
y
b
x y
x
i
i
n
i i
i
n
i
i
n
1
1
1
2
1
Za primer, ko smo opazovali spreminjanje števila rodnih dreves
breskev, moramo najprej poiskati ustrezne vsote, ki so izračunane
v spodnji preglednici
Leto
t
xi x i2 Breskve - število rodnih dreves
(v 1000) - yi
xiyi
1988 - 7 49 150 - 1050
1989 - 5 25 121 - 605
1990 - 3 9 112 - 336
1991 - 1 1 111 - 111
1992 1 1 109 109
1993 3 9 86 258
1994 5 25 79 395
1995 7 49 72 504
Skupaj 0 168 840 - 836
an
y
b
x y
x
i
i
n
i i
i
n
i
i
n
1 840
8105
836
1684 976
1
1
2
1
,
T = 105 - 4,976 x
Oglejmo si še pomen obeh parametrov v enačbi.
Parameter a, ki je v našem primeru 105, nam
podaja vrednost trenda sredi časovne vrste pa tudi
aritmetično sredina števila breskovih dreves v
opazovanem obdobju, torej 105000.
Parameter b, ki je v našem primeru –4,976, pa
povprečen letni prirastek. Torej se je število dreves
v opazovanem obdobju v povprečju letno zmanjšalo
za 4976.
S pomočjo te enačbe ocenjujemo gibanje pojava v
prihodnosti. Za leto 1996 dobimo naslednjo
oceno:
T(l=1996) = T(x=9) = 105 - 4,976 ∙9 = 60,22
Opozoriti pa velja, da moramo namesto leta
1996 vstaviti v enačbo ustrezno vrednost
transformirane spremenljivke x.
V preglednici so prikazani podatki o mesečnem odkupu kmetijskih
proizvodov v Sloveniji (podatki so v milijonih SIT).
leto
Mesec 1995 1996
januar 4544 4667
februar 4305 4704
marec 5257 5592
april 4770 5496
maj 5187 5740
junij 4739 5047
julij 5479 5731
avgust 5641 6055
september 5187 7174
oktober 6474 7080
november 6109 7135
december 7034 8016
Ugotovite obliko trenda za leto 1995 (graf).
Izračunajte parametre trenda (a in b).
Obrazložite oba parametra.
Povprečno so v obravnavanem obdobju odkupili……
proizvodov.
V povprečju se je v obravnavanem obdobju število
odkupov vsak mesec povečalo za……….