statistica braila
Post on 13-Jul-2016
276 Views
Preview:
DESCRIPTION
TRANSCRIPT
Compartimentul 3Atenuarea multicoliniarităţii
Spre deosebire de modelul unifactorial în cazul modelului multifactorial, ipoteza 11
presupune independenţa variabilelor explicative. Nerespectarea ei produce fenomenul de
multicoliniaritate cazul, în care o variabilă endogenă este explicată de mai multe variabile
explicative.
Frecvenţa relativ ridicată a coliniarităţii dintre variabilele explicative se datorează
gradului ridicat de interdependenţă din economie.
Existenţa multicoliniarităţii este semnalată de
1) analogiile în evoluţia a variabilelor explicative;
2) apropierea de zero a determinantului XTX;
3) mărimea coeficientului de determinaţie multiplă (R2) care aproape coincide cu
mărimea lui în cazul în care una dintre variabilele cauzale este omisă;
4) contrazicere în verificarea testelor şi anume testul F aplicat valorilor teoretice este
semnificabil, iar testul t, aplicat parametrilor de regresie semnalează ne semnificaţii în rândul
parametrilor.
Atenuarea multicoliniarităţii.
1) Dacă seriile de date sunt formate dintr-un număr redus de termeni (n<10), atunci se
recomandă includerea de termeni suplimentari (n>15), astfel încât întâmplătoarele analogii să
fie, pe cât posibil, eliminate.
2) În cazul corelării intense a 2 variabile exogene, se renunţe la una din ele,
considerându-se că variabila omisă este exprimată de către cea reţinută în model.
3) Dacă datele sunt prezentate sub formă de serii cronologice, se poate proceda la
calculul diferenţelor de ordinul 1 (yi -yi+1) sau la logaritmarea valorilor yi, x1i, x2i, ..., în
scopul atenuării coliniarităţii, prilejuite de prezenţe trendului în date.
Procedee de selecţie a variabilelor exogene în cazul unui model multifactorial.
Eliminarea fenomenului de coliniaritate implică calcularea coeficienţilor de corelaţie
liniară din trei variabilele exogene şi ry/x, coeficienţii de corelaţie liniară dintre variabila
explicată y şi variabilele sale explicative xi. Dacă va trebui ca una din cele două
variabile să fie eliminate din rândul variabilelor exogene.
45
Criteriul de excludere / includere a 2 variabile exogene care-s corelate liniar:
Dacă - se exclude Xj şi se reţine Xi; în caz contrar se exclude Xi şi se reţine Xj.
Astfel în prima etapă reţinând k variabile exogene liniar independente - fiind posibilă
estimarea celor (k+1) parametri se poate trece la etapa în care se continuă operaţia de selecţie a
variabilelor exogene xi.
În acest scop sunt mai multe procedee.
Primul procedeu
în model se introduc cele k variabile exogene, ordinea de includere fiind dată de
mărimea coeficienţilor de corelaţie a variabilei Y în raport de factorii săi:
În aşa fel se obţin k modele:
După cum ştim:Variaţie totala a variabilei Y = Variaţia explicată de modelul M(j) +Variaţie reziduală
Analiza acestor modele pe baza ANOVA prezentăm în tabelulTabelul 3.1
Măsura variaţieiSurse de variaţie Explicată de
modelNumărul de
grade de libertate
Reziduală Numărul de grade de libertate
x1
x1, …., xj
x1, …, xj, …, xk
xj+1, …, xk
Totală
1jk
k-jn-1
-
n-2n-(j+1)n-(k+1)
-
Din ultima relaţie uşor se obţine coeficientul de determinaţie:
care măsoară ponderea din variaţia totală a variabilei dependente z explicată de modelul M(j);
Coeficientul de determinaţie şi exprimă ponderea din variaţia
totală a variabilei y neexplicată de modelul M(j).
46
Pe baza acestor relaţii se pot formula criteriile de alegere a modelului optim M(r) din
grupul de modele M(j), şi anume sau sau
, gradul de semnificaţie a acestor mărimi fiind în prealabil verificat
cu ajutorul testului F.
Al doilea procedeu porneşte de la premiza că cei (k+1) factori de influenţă ai variabilei
explicate y sunt liniari independenţi. În aceste condiţii matricea (XT X)-1se calculează şi
cu ajutorul ei se estimează parametrii şi dispersiile acestora obţinându-se modelul
Apoi se testează semnificaţie estimatorilor cu ajutorul testului t cu pragul de
semnificaţie şi (n-(k+1)) grade de libertate.
Dacă atunci este semnificativ diferit de zero, în caz contrar
este nesemnificativ diferit de zero.
Presupunând că diferă de zero pentru j=0,1,...,r şi nu diferă semnificativ de
zero pentru j=r+1,...,k înseamnă că (xj)jr nu influenţează semnificativ variabila y şi pot fi
excluşi, astfel modelul va fi construit pe baza variabilelor exogene (xj), (Vjn). Al treilea
procedeu:
Teste de determinare a multicoliniarităţii.
l) Testul Klein
Acest test este fondat pe compararea coeficientului de determinaţie R2y calculat pentru
modelul cu k variabile exogene: şi coeficienţii de corelaţie simplă
între variabile explicative pentru ij.
Dacă există prezumtia multicoliniarităţii.
2) Testul Farrar et Glauber
Etapa 1. Calculăm determinantul matricei coeficienţilor de corelaţie între variabilele
explicative:
Dacă valoarea determinantului D tinde spre zero, riscul
47
multicolinarităţii e mare.
De exemplu, pentru in model de 2 variabile explicative, dacă ambele serii sunt perfect
corelate, atunci determinantul , iar în cazul când seriile sunt
ortogonale determinantul devine .
Etapa 2 .Efectuăm un test 2, verificând ipotezele următoare:
I0: D=1 (seriile sunt ortogonale).
I1: D<1 (seriile sunt dependente).
Valoarea empirică 2calculată
pentru un eşantion de n observaţii şi K numere de variabile
explicative (K=k+1 dacă termenul constant se include) este 2calc =-[n-1—1/6
(2k+5)LnD. Dacă tabelar cu 1/2 k(k-1) grade de libertate şi un prag de semnificaţie
, atunci ipoteza I0 este respinsă, are loc prezumţie multicoliniarităţii.
Dacă 2calc 2
tab se acceptă ipoteza de ortogonalitate.
Deasemenea pentru eliminarea multicoliniarităţii se aplică: METODA REGRESIEI
CONSECUTIVE.
Studiul de caz 3 (rezolvat)
În tabelul 3.2, ce urmează, sunt prezentate datele ce se referă la volumul producţiei
lansate şi a resurselor utilizate (capitalul fix şi munca) în industria unei ţări pe o perioadă de
10 ani (ritmurile de creştere a factorilor). În scopul simplificării analizei, datele au fost
logaritmate. Rezultatele obţinute formează conţinutul tabelului 3.2.
În acest tabel sunt folosite următoarele notaţii: X1=lgZ; X2=lgK; Y=(lgP-1), unde Z, K, P
reprezintă respectiv munca, capitalul fix şi volumul producţiei:
48
Tabelul 3.2.Anii 1 2 3 4 5 6 7 8 9 10 TotalY 83,2 86.3 90,8 90,8 98,7 101,
7104,5
109,3
111,4
115,5
992,2
X1 42,3 44,7 47,1 50,3 53,5 56,4 59,3 63,1 66,9 70,2 553,8X2 24,2 30,0 34,5 38,7 44,3 49,1 56,8 62,8 66,9 71,3 478,6
Se cere de analizat dependenţa liniară
REZOLVARE:
1. Pentru datele tabelului calculăm matricea:
464,2370432,1382432,1382396,811
2121
2121
xxxxxx
XX T
Matricea inversă:
De unde
;
523870215,0270409331,0ˆ
Prin urmare, modelul dependenţei obţine forma:
Tastăm coeficienţii 1 şi 2.
,
368,1368348,1310
2
Q
S - eroarea standard.
6015,019324267,0368348275,111ˆ1
aSS
3519,0066145839,0368348275,122ˆ2
aSS
Valoarea tabelară a statisticii Student este: 21,365,2)7;05,0()3,( tttnt .
49
Deci, coeficienţii 1 si 2 sunt nesemnificativi.
Calculăm statistica Fisher:
158,29427
106639,13549361,1101
F .
Din tabelă F(0,05;2;7) = 4,74 < F = 294,158.
Rezultă, că dependenţa variabilei Y de ansamblul variabilelor X1 şi X2 este semnificativă.
Contradicţia obţinută este explicată de prezenţa multicolinearităţii. Pentru a ne convinge
de această ipoteză utilizăm, simptoamele specifice fenomenului multicolinearităţii.
1. Modificări ale datelor iniţiale (inclusiv şi ne esenţiale) conduc la modificări
esenţiale a estimaţiilor coeficienţilor modelului.
Pentru verificarea acestei premise, să estimăm modelul (1), utilizând mai întâi datele
primelor cinci observări .
;892,239784,136784,136848,78
5
1
22
5
121
5
121
5
1
21
xxx
xxxXX T
=205,14176; ;848,78784,136
784,136892,2391)( 1
XX T
1)(ˆ XX T
6770,67ˆˆˆ22110 XXY , sau
.)3016,1(
7878,0)2704,2(
1003,06770,67 21 e
XXY
Calculăm erorile estimaţiilor coeficienţilor 1 si 2:
0995,22
2 Q
S
4552,214176,205
892,2390995,211ˆ1
aSS
50
Evident, că şi de această dată estimaţiile coeficienţilor nu sunt semnificative. Mai mult ca
atât, estimaţia 1003,0ˆ1 , a coeficientului variabilei X1, este lipsită de sens (sporirea forţei
de muncă cu o unitate, conduce la mişcorarea volumului de producţie ceea ce este absurd).
Pentru datele ultimelor 5 observări (anii 6-10) rezultatele estimării sunt
.
ceea ce înseamnă, că coeficientul 1̂ este nesemnificativ, iar 2̂ este semnificativ.
Comparăm estimaţiile:
Deci, instabilitatea estimaţiilor (în dependenţă de numărul observărilor) se confirmă.
2. Estimaţiile sunt însoţite de erori standard relativ mari, şi deci având o
semnificaţie joasă, totodată modelul în întregime este semnificativ.
Confirmarea acestor afirmaţii este prezentată mai sus şi anume:
, iar F = 294,158.
3. Următoarea premisă este numită în legătură cu testul Farrar şi Glauber. În
conformitate cu acest test se calculează mai întâi coeficientul de determinaţie multipli 2iR
între variabila exogenă Xi şi celelalte m-1 variabile exogene rămase. Semnificaţia
coeficienţilor 2iR se verifică utilizând F-statistica (testul Fisher) sau t-statistica (testul Student).
Testul F este .,...,2,1,)(:)1(
)1(:2
2
mimnR
mRF
i
ii
Testul Farrar-Glauber evidenţiază care din variabilele X sunt expuse în mai mare măsură
multicolinearităţii.
În cazul exemplului analizat avem 2 variabile explicative X1 şi X2. Calculăm coeficientul
de corelaţie:
9936,0
464,2370396,811)432,1382( 2
22
21
22122
1 21
xxxx
rr xx
0,12428:)9936,01(
1:9936,0)210(:)1(
)12(:2
1
21
1
rr
F .
51
Valoarea critică (tabelară): F(0,05;1;8)=4,26, (F1=1242,0>4,26).
Deci, valoarea coeficientului de determinaţie r12 este semnificativă.
Testul t ne conduce la acelaşi rezultat:
242,351
212
1
1
F
r
nrt
t(0,05;n-2) = t(0,05;8) = 2,306, (t = 35,242 > 2,306).
4. Valoarea determinantului matricei XTX este foarte mică.
Într-adevăr, dacă ţinem cont de transformarea datelor iniţiale(înmulţirea lor cu o sută)
valoarea determinantului. Calculată pentru aceste date iniţiale 0 este:
8840 1077312,12266
101
)100(1 , adică foarte mică, ceea ce înseamnă, că
matricea XTX este aproape de o matrice degenerată). În problema analizată fenomenul
multicolinearităţii este cauzat de dependenţa între coeficienţii de regresie ß1+β2=1 , tipică
pentru funcţiile de producţie de tip Cobb-Douglas.
În cazul general fenomenul multicolinearităţii este cauzat de nivelul înalt al corelaţiei
între variabilele independente (indicatorii economici, în cazul dezvoltării echilibrate şi stabile
de lungă durată a economiei naţionale, sporesc în timp cu ritmuri aproximativ proporţionale).
Ţinând cont de ipoteza ß1+β2=1 (ea poate fi verificată, utilizându-se testul T), obţinem
modelul
uxxY 22110
sau
uXXXY )( 21120
sau
uXXXY )( 21102 (2).
Modelul (2) reprezintă o dependenţă liniară de 2 variabile: Z=Y-X2 si X=X1-X2 (tabelul
3.3).
Tabelul 3.3
Anii 1 2 3 4 5 6 7 8 9 10Z=Y-X2 59 56,3 56,3 52,1 54,4 52,6 47,7 46,5 44,5 44,2
X=X1-X2 18,1 14,7 12,6 11,6 9,2 7,3 2,5 0,3 0 -1,1
Calculăm estimaţiile coeficienţilor modelului Z=ß0+β1X+u (2).
Estimatorul coeficientului β1 este
52
757844199,0996,416018,316
)())((ˆ
221
XXZZXX
xxz
sau 7578,0ˆ1 .
Estimatorul coeficientului β0 este
.6610116,452,7757844,036,5110 XZ
Deci, modelul (2) obţine forma
,)0656,0(
758,0)6501,0(
6610,45e
XZ
respectiv, modelul iniţial =45,6610+0,758X1+0,242X2.
Pentru testarea modelului, calculăm:
,4924084,239)(ˆ
,844,253)(
2
2
11
22
xxz
xzQ
ZZzQ
;3516,1412
2 QQeQ
;6501,0996,416105,9823394,1
;0656,01
;3394,18
2
2
ˆ
2ˆ
2
0
1
xnx
SS
xSS
QS
Valoarea critică (tabelară) pentru pragul de semnificaţie =0,01, şi 8 grade de libertate
este t(0,01;8)=3,355; deoarece 355,3554,111
ˆ
t si 355,32328,700
ˆ
t , urmează că
ambii coeficient ß0 şi β1 sunt semnificativi.
Testul F=133,496.
Valoarea tabelară este F(0,01; 1; 8)=11,3; F=133,496>11,3. Deci modelul (2) în
întregime este semnificativ coeficientul de determinaţie R2=0,9435; R=0,9713.
În încheiere, a rămas de verificat ipoteza relaţiei 1+2=1. Pentru aceasta, revenim la
mărimele:
53
Ipoteza verificată poate fi scrisă astfel:
H0:”1+2-1=0” iar H1:”1+2-10
Mai departe avem:
=0,0339939; unde C
11
.
Obţinem statistica t:
tS C X X CT T
1 21
1 0 205720451 368348 0 03399395
0 8154 ( )
,, ,
, .
Evident, că (t)=(-0,8154) este valoare de un nivel mai jos de orice prag de semnificaţie
cu 8 grade de libertate, ceea ce nu ne permite de a respinge ipoteza H0:”1+2-1=0” (sau
1+2=1).
Ţinând cont de transformările efectuate a informaţiei iniţiale, uşor se poate demonstra
echivalenţa modelului testat:
Y=45,6610+0,758X1+0,242X2 cu modelul clasic de tip Cobb-Douglas:
Y=28,62X10,758X2
0,242
sau Y=28,62K0,758L0,242,
unde L - munca, iar K - capitalul fix utilizat în procesul de producţie.
Studiul de caz 4 (rezolvat)
În tabelul 3.4 ce urmează prezentăm datele obţinute privind 13 observări, în scopul
analizei dependenţei dintre efectul Y (unităţi de producţie) şi resursele de producţie (materie
primă de 4 tipuri): X1,X2,X3 si X4 (procente) consumate.
Tabelul 3.4
Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13X1 1.0 1.0 1.0 2.0 3.0 7.0 7.0 10.0 11.0 11.0 11.0 11.0 21.0
X2 29.0 31.0 40.0 54.0 71.0 26.0 52.0 68.0 56.0 31.0 55.0 66.0 47.0
X3 15.0 22.0 23.0 18.0 17.0 6.0 6.0 8.0 8.0 8.0 9.0 9.0 4.0
X4 52.0 44.0 34.0 22.0 6.0 60.0 33.0 12.0 20.0 47.0 22.0 12.0 26.0
Y 74.3 72.5 83.8 93.1 102.7 78.5 95.9 109.4 104.3 87.6 109.2 113.3 115.9
54
*Sursă: Н.Дрейпер, Смит. Прикладной регрессионный анализ. Книга 2.М.: 1987,
с.284.
REZOLVARE. În studiul de caz propus prezenţa multicolinearităţii este cauzată de
dependenţa aproape funcţională a variabilelor cauzale: X1+X2+X3+X497,0 (deoarece
X1+X2+X3+X4 - reprezintă un amestec egal aproximativ cu 97% (de la 96 la 98%)). Din
această cauză det (XTX), adică matricea XTX este aproape de o matrice degenerată.
Pentru soluţionarea problemei vom utiliza metoda excluderii consecutive. Etapele
principale ale acestei metode sunt:
1. Se estimează modelul dependenţei în întregime (se includ toate
variabilele cauzale )
2. Se calculează t-statistica fiecărui coeficient de regresie tbi, respectiv
valoarea criteriului Fi=t2bi (criteriul parţial Fi).
3. Cea mai mică valoare Fi egală de exemplu cu FL este comparată cu
valoarea tabelară (critică) F(1; n-m-1; ) ( n-numărul observărilor; m-numărul
coeficienţilor de regresie; - pragul de semnificaţie). Sunt posibile cazurile: a)
FL<F0. Variabila respectivă explicativă, ce a asigurat atingerea numai a nivelului atât
de mic FL de explicaţie, este exclusă din procesul de analiză a dependenţei. Se
produce estimarea modelului dependenţei Y de variabilele care au mai rămas.
b) FL>F0. În acest caz, modelul obţinut este cel căutat (final).
Revenim la problemă:
Estimăm modelul în întregime. Obţinem
,)709,0(
X144,0)755,0(
X102,0)724,0(
X510,0)745,0(
X551,1405,62Y 4321 Testele Student ale
coeficienţilor de regresie sunt:
,203,0709,0144,0t;1351,0
755,0102,0t
;704,0724,0510,0t;082,2
745,0551,1t
43
21
iar statisticile Fcalc. sunt:
F1=t12=4,335; F2=t2
2=0,496; F3=t32=0,018; F4=t4
2=0,041.
De aici FL=min .018,0FF,F,F,F 34321
Pentru pragul de semnificaţie =0,05 şi gradele de libertate respectiv egale cu 1 ţi 8,
valoarea F0 =F(1;8;0,05)=5,32 (pentru =0,10, respectiv F0=3,46).
Întrucât valoarea calculată F0=5,32 (sau 3,46) este mai mare decât FL=0,018, variabila X3
55
se exclude. Trecem la următoarea iteraţie.
Calculăm estimaţiile MCMMP a ecuaţiei de regresie ce include variabilele cauzale X1, X2
şi X4. Obţinem (det (XTX)=0,2716)
Y=203,642+)173,0(
X236,0)186,0(
X416,0)117,0(
X452,1 421
Deci: t1=12,410, respectiv F1=t12=154,014;
t2=2,236 iar F2=5,002;
t4=-1,364 iar F4=1,861;
şi FL=F4=1,861<F0=F(1;9;0,10)=3,36.
De data aceasta eliminăm variabila X4. Modelul final se obţine la iteraţia următoare,
deoarece
Y=52,577+)046,0(
X662,0)121,0(
X468,1 21
şi F1=146,52; F2=208,58 iar F0=F(1;10;0,10)=3,285<FL=F1=146,52.
Vom aplica mai departe metoda regresiei eşalonate.
Metoda regresiei consecutive
Metoda excluderii consecutive se începe cu estimarea dependenţei ce include toate
variabilele explicative identificate. La fiecare iteraţie se exclud o variabilă. Procesul se termină
cu ecuaţia finală testată, adecvată dependenţei analizate.
Metoda includerii consecutive reprezintă o încercare de a ajunge la acelaşi rezultat , dar
procedând în direcţie inversă. Ordinea de includere consecutivă a necunoscutelor poate fi
stabilită cu ajutorul coeficientului parţial de corelaţie - măsura cantitativă a gradului (ponderii)
în care factorul (variabila explicativă) determină evoluţia variabilei efect (variabilei explicate)
Metoda regresiei consecutive (eşalonate) reprezintă o variantă intermediară între
metodele de excludere se includere. Se fixează, mai întâi două valori tabelare a criteriului F
(repartiţia Fisher): FT1 - pragul de includere a variabilei şi FT2 - de respingere (excludere) a
variabilei explicative.
În continuare, se analizează matricea coeficienţilor de corelaţie obişnuiţi. Se alege cel
mai mare coeficient de corelaţie .)X,Y(rmaxr)XY(r kkii1 Variabila respectivă Xi se
include. Se estimează modelul dependenţei Y şi Xi. Se calculează criteriul Fi=ti2 . Daca Fi>FT1,
variabila Xi se acceptă. În caz contrar se respinge. După fiecare includere se verifică, dacă n-au
apărut variabile ce au coeficienţi nesemnificativi (pentru care Fi<FT2, unde Fi - cea mai mică
valoare). Acesta se poate întâmpla din cauza corelaţiei semnificative între variabilele
explicative (cauzale), (prezentei multicolinearităţii).56
Procedura de includere (excludere) consecutivă se termină atunci când dispare
posibilitatea de a realiza includerea sau excluderea variabilei cauzale Xi.
Pentru valorile tabelare FT1 şi FT2 ca de obicei se aleg aceleaşi praguri de semnificaţie .
Mai frecvent se ia =0,05 (5%), dar uneori şi alte valori de la 0,01 până la 0,1. Uneori, se
preferă de a fixa un nivel de semnificaţie mai înalt pentru excludere decât pentru includere, în
scopul păstrării unui număr mai mare de variabile explicative identificate.
Revenim la problemă.
1. Prezentăm matricea coeficienţilor de corelaţie
Tabelul 3.5Y X1 X2 X3 X4
Y 1,0 0,73071745 0,81625268 -0,53467065 -0,82130513X1 0,73071745 1,0 0,22857948 -0,82413372 -0,24544512X2 0,81625268 0,22857948 1,0 -0,13924238 -0,97295516X3 -0,53467065 -0,82413372 -0,13924238 1,0 0,02953700X4 -0,82130513 -0,24544512 -0,97295516 0,02953700 1,0
Din tabel constatăm, că cel mai mare coeficient de corelaţie r(Y1X4)=-0,82130513. Prin
urmare, X4 este prima variabilă ce va fi inclusă în ecuaţia de regresie.
2. Prezentăm dependenţa lineară respectivă
Calculăm F4=t42= 2
2
)774780072,4(1545960,07381619,0
.
sau F4=22,7985247422,7985.
Fie =0,05; FT1=FT2=F(0,05;1;11)=4,8443 (pentru =0,01, F(0,01;1;11)=9,6460).
Întrucât F4=22,7985>FT1=4,84, variabila X4 se păstrează.
3. Calculăm coeficienţii parţiali de corelaţie între variabilele neidentificate în
model (X1, X2 si X3) cu X4. Utilizăm formulele:
.3,2,1,),(1),(1
),(),(),()/,(
42
42
444
i
XXrXYr
XXrXYrXYrXXYr
i
iii
Obţinem:
Predomină 91541,0)/,( 412 XXYr . Deci, următoarea variabilă care va fi
inclusă esteX1.
57
4. Estimăm regresia respectivă:
Deci rămâne de acceptat ambele variabile. Remarcăm, că pentru modelul precedent
coeficientul de determinaţie – R2=67,45%, iar pentru modelul dependenţei Y de X1 si X4
coeficientul R2=0,9725 (97,25%). Erorile standard sunt respectiv egale cu 8,9639 şi 2,7343.
Ceea ce înseamnă că modelul al doilea este mai bun.
5. Pentru includerea următoarei variabile, calculăm coeficienţii de corelaţie
parţiali pentru variabilele X2 şi X3 cu condiţia eliminării influenţei variabilelor X1 şi X4.
D - matricea coeficienţilor de corelaţie.
Obţinem: 35833,0)),/(,( 4122 XXXYr şi 32003,0)),/(,( 413
2 XXXYr
Întrucât )),/(,( 4122 XXXYr > )),/(,( 411
2 XXXYr ,rezultă, că următoarea variabilă ce
trebuie inclusă este X2. Obţinem modelul:
36,3)9;1;10,0(8632,1,,min
8632,1)365011,1(1732876,02365395,0
0259,5)2418513,2(1856103,04161107,0
008,154)41000,12(1169974,04519380,1
)1732876,0(2365395,0
)1856103,0(4161107,0
)1169974,0(4519380,1
6482,71ˆ
2421
22
4
22
2
22
1
421
FFFFF
F
F
F
unde
XXXY
T
Deci, variabila X4 trebuie respinsă. Obţinem modelul:
TFFFFFF
XXY
5229,146,min5823,208;5229,146
)0458,0(66225,0
)12130,0(468306,1
57734,52ˆ
121
21
21
Modelul se acceptă.
58
7. A rămas de examinat ultima variantă a modelului
.8321,1;548,250;7166,68
,)18471,0(
25002,0)04423,0(
656915,0)20458,0(
69584,11936,48ˆ
321
321
FFF
XXXY
Variabila X3 se respinge. Procedura regresiei consecutive s-a terminat. Cea mai bună
variantă reprezintă modelul:
)046,0(662,0
)121,0(468,1
577,52ˆ 21 XXY
Remarcă. Majoritatea pachetelor de analiză econometrică nu calculează coeficienţii
parţiali de corelaţie. Se propune de utilizat t - statistica sau F=t2 statistica, în calitate de
instrument de ordonare a procesului de includere (excludere) a variabilelor.
Putem proceda astfel. Analizăm regresiile dependenţelor Y de variabilele X1, X2, X3, şi
X4. Obţinem statisticile:
F1=12,6025; F2=21,9606; F3=4,4034 si F4=22,7985. .,,max 3214 FFFF
Deci X4 este prima variabilă ce trebuie inclusă.
Pentru variantele dependenţelor Y de variabilele X4, X1; X4, X2 şi X4, X3 obţinem
F1=159,295; F2=0,43108; F3=40,2945. .,,max 3211 FFFF
Deci următoarea variabilă este X1, ce se include.
Variantele dependenţei Y de X4, X1, X2 şi X4, X1, X3 ne conduc respectiv la valorile
F2=1,8632 si F3=4,2358. Se analizează modelul doi. Întrucât, valoarea F4=t24 pentru modelul
)1733,0(2365,0
)1856,0(4161,0
)1170,0(4519,1
6482,71ˆ 421 XXXY
este nesemnificativă.
Mai departe, ultima variantă posibilă a regresiei Y de variabilele X1, X2, X3, analizată
mai sus arată, că influenţa variabilei X3(statistica F3=1,8321<FT2) este nesemnificativă.
Respingând variabila X3, obţinem aceeaşi variantă finală a modelului adecvat procesului
studiat:
)046,0(662,0
)121,0(468,1
577,52ˆ 21 XXY
Studiul de caz 5 (propus)
În tabelul 3.6. ce urmează sunt prezentate ritmurile de creştere a unei grupe de indicatori
macroeconomici (%), observate pe parcursul a 14 ani. Acestea sunt: produsul intern brut (Y);
amortizarea (X1); numărul personalului ocupat în economia naţională (X2); mărimea
importului (X3); volumul cheltuielilor în ştiinţă şi elaborări ştiinţifice (X4) şi timpul (anii t). Se
59
cere de analizat dependenţa variabilei Y de factorii indicaţi.
Între variabilele X1, X2, X3, X4 şi t există o dependenţă de un înalt grad ceea ce
condiţionează prezenta multicolinearităţii. Din această cauză se propune de utilizat metodele
respective: a) metoda excluderii consecutive; b) metoda regresiei (includerii-excluderii)
consecutive. Fiecare student formează varianta proprie în felul următor.
Pentru anul de bază t=1, valorile indicatorilor de fixat astfel: Y1=(620,0+10N) mil. unit.
monetare; X11=(23,2+N) mil. unit. monetare; X21=(71,8+N) mil. unit. monetare;
X31=(24,30+N) mil. unit. monetare; X41=(1,50+N) mil. unit. monetare, unde N este numărul
variantei studentului.
Tabelul 3.6.Anul (t) Y X1 X2 X3 X4
1. 100 100 100 100 1002. 119,0 119,0 101,8 127,1 158,93. 131,1 124,6 103,6 161,6 231,84. 143,8 133,2 108,2 180,3 358,35. 156,8 144,3 108,1 202,6 419,26. 165,5 156,5 4107,5 230,6 466,97. 177,8 171,1 108,7 279,1 491,48. 201,1 181,9 108,4 290,2 541,09. 225,2 195,7 108,9 344,2 617,210. 241,1 213,9 107,8 374,8 727,211. 250,4 228,8 108,4 383,2 915,912. 259,0 245,6 108,4 410,3 940,413. 270,3 265,1 106,5 397,0 966,214. 307,1 283,1 106,6 450,5 1116,5Anul (t) Y X1 X2 X3 X4
Studiul de caz propus poate fi îndeplinit prin pragurile de includere şi excludere a
criteriului F sunt respectiv egale FT1=3 şi FT2=2 iar în caz de necesitate, utilizatorul are
posibilitate să intervină numind aceste mărimi de sinestătător.
60
top related