tezË doktorature - api.fshn.edu.al

151
UNIVERSITETI I TIRANËS FAKULTETI I SHKENCAVE TË NATYRËS PROGRAMI I STUDIMIT: Metodat Probabilitare, Statistike dhe Metodat e Analizës Numerike TEZË DOKTORATURE SERITË KOHORE, REDUKTIMI I PËRMASAVE, PARASHIKIMI: STUDIMI I NGJASHMËRIVE NËPËRMJET REDUKTIMIT TË PËRMASAVE TË SERISË, PARAQITJES SIMBOLIKE DHE PËRDORIMI I METODAVE SAX Doktoranti: Udhëheqësi: Eralda GJIKA (DHAMO) PROF. DR. Llukan PUKA Tiranë, 2014

Upload: others

Post on 27-Oct-2021

34 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TEZË DOKTORATURE - api.fshn.edu.al

UNIVERSITETI I TIRANËS

FAKULTETI I SHKENCAVE TË NATYRËS

PROGRAMI I STUDIMIT: Metodat Probabilitare, Statistike dhe Metodat e

Analizës Numerike

TEZË DOKTORATURE

SERITË KOHORE, REDUKTIMI I PËRMASAVE,

PARASHIKIMI: STUDIMI I NGJASHMËRIVE NËPËRMJET

REDUKTIMIT TË PËRMASAVE TË SERISË, PARAQITJES

SIMBOLIKE DHE PËRDORIMI I METODAVE SAX

Doktoranti: Udhëheqësi:

Eralda GJIKA (DHAMO) PROF. DR. Llukan PUKA

Tiranë, 2014

Page 2: TEZË DOKTORATURE - api.fshn.edu.al

ii

UNIVERSITETI I TIRANËS

FAKULTETI I SHKENCAVE TË NATYRËS

PROGRAMI I STUDIMIT: Metodat Probabilitare, Statistike dhe Metodat e

Analizës Numerike

TEZË DOKTORATURE

paraqitur nga

Znj. Eralda GJIKA (DHAMO)

Udhëhequr nga:

Prof. Dr. Llukan PUKA

Për marrjen e gradës shkencore:

DOKTOR

Me temë:

SERITË KOHORE, REDUKTIMI I PËRMASAVE, PARASHIKIMI:

STUDIMI I NGJASHMËRIVE NËPËRMJET REDUKTIMIT TË

PËRMASAVE TË SERISË, PARAQITJES SIMBOLIKE DHE PËRDORIMI I

METODAVE SAX

Mbrohet më datë ____/____/2014 para jurisë:

1. Prof._______________________________________Kryetar

2. Prof._______________________________________Anëtar (Oponent)

3. Prof.________________________________________Anëtar (Oponent)

4. Prof.________________________________________Anëtar

5. Prof.________________________________________Anëtar

Page 3: TEZË DOKTORATURE - api.fshn.edu.al

iii

PËRMBAJTJA

Falenderime ………………………………………………………………….…...….vii

Hyrje …………………………………………………………………………….…..viii

Kapitulli 1 Karakteristikat e serive kohore. Terma dhe përkufizime

1.2 Natyra e serive kohore……………………………………………………….…2

1.3 Modele statistikore të serive kohore…………………………………………....6

1.4 Madhësitë e varësisë, funksioni i autokovariancës (ACVF) dhe funksioni i

Autokorrelacionit (ACF)…………………………………………….................7

1.5 Stacionariteti, Trendi dhe Sezonaliteti……………………………………..…....9

1.6 Vlerësimi i autokorrelacionit ………………………………...………….……10

Kapitulli 2 Regresi linear dhe sheshimi eksponencial për ndërtimin e

modeleve parashikuese të serive kohore demografike

2.1 Regresi linear i aplikuar në seritë kohore ………………………….………....12

2.1.1 Përkufizime dhe modele ………………………………….……..…...12

2.2 Metodat e Sheshimit Eksponencial …………………………….…………..18

2.2.1 Dekompozimi i serive kohore ……………………………………….19

2.2.2 Klasifikimi i Metodave të Sheshimit Eksponencial …………………20

2.3 Parashikimi pikësor për metodat më të njohura ……………………..………21

2.3.1 Sheshimi i thjeshtë eksponencial (N, N) …………………………….21

2.3.2 Metoda lineare Holt (A, N) ………………………………………….23

2.3.3 Metoda me trend të shuar (damped) (Ad, A) ………………………..24

2.3.4 Metoda Holt- Winters me trend dhe sezonalitet ……….…………….24

2.4 Parashikimi pikësor për gjithë metodat …………………….………………..26

2.5 Vlerat fillestare dhe vlerësimi ……………………………………………….26

2.5.1 Vlerat fillestare ………………………………………………………26

Page 4: TEZË DOKTORATURE - api.fshn.edu.al

iv

2.5.2 Vlerësimi …………………………………………...………………..27

2.6 Cilësia e parashikimit ………………………………………………………..27

2.6.1 Gabimet që varen nga shkallëzimi …………………………………..27

2.6.2 Gabimet përqindje (percentage errors) ………………………………28

2.6.3 Gabimet e shkallëzuar (scaled errors) ……………………………….28

2.7 Përzgjedhja e modelit të parashikimit ……………………………………….29

2.8 Parashikimi automatik në R …………………………………………………31

Kapitulli 3 Modelet SARIMA konsiderata dhe vlerësime. Simulimi i

modeleve ARIMA në programin R

3.1 Modelet Autoregresive me Mesatare të Lëvizshme (ARMA) ………………37

3.1.1 Modelet Autoregresive (AR) ……………………………………...…37

3.1.2 Simulimi i një procesi AR(p) në R ……………………………..…....40

3.1.3 Modelet me Mesatare të Lëvizshme (MA) ………………………..…41

3.1.4 Simulimi i një procesi MA(q) në R ………………………………….42

3.1.5 Modelet Autoregresive me Mesatare të Lëvizshme (ARMA) ………43

3.1.6 Simulimi i një procesi ARMA(p,q) në R…………………………….45

3.1.7 Modelet ARIMA……………………………………………………..46

3.1.8 Ndërtimi i Modeleve ARIMA ……………………………………….47

3.1.9 Vlerësimi i Parametrave për Modelet ARMA (p,q) ………….……...60

3.2 Modelet SARIMA multiplikative ……………………………………………69

3.3 Modelet ARCH dhe GARCH …………………………………………...….72

Kapitulli 4 Përzgjedhja e modelit më të mirë për qëllime parashikimi

sipas

metodologjisë Box-Jenkins

4.1 Metodologjia Box- Jenkins ………………………………………………….78

4.1.1 Hapat e metodologjisë Box dhe Jenkins …………………………….79

Page 5: TEZË DOKTORATURE - api.fshn.edu.al

v

4.2 Aplikimi i metodologjisë Box-Jenkins në një seri demografike me të dhëna

Shqiptare (Simulimi i parashikimeve në R)………….……………….....…..81

Kapitulli 5 Reduktimi i Përmasave dhe Ngjashmëritë Në Seritë Kohore.

Modifikimi dhe Aplikime të Teknikave PAA dhe SAX në

zbulimin e ngjashmërive të sekuencave të ADN-ve

5.1 Funksionet distancë (Aksiomat metrike) …………………………….………97

5.1.1 Distanca Minkowski …………………………………………………98

5.1.2 Distanca Manhatan/ Distanca “City Block” …………………………98

5.1.3 Distanca Euklidiane ………………………………………………….98

5.1.4 Distanca Çebishev …………………………………………………...98

5.1.5 Distanca Jaccard ……………………………………………………..99

5.1.6 Koeficienti Dice ……………………………………………………..99

5.1.7 Ngjashmëria kosinusoidale …………………………………………100

5.1.8 Distanca Hamming …………………………………………………100

5.1.9 Madhësitë probabilitare të ngjashmërive…………………………...100

5.1.10 Vlerësimi me metodën e përgjasisë maksimale (MLE) dhe vlerësimi i

maksimumit a-posteriori ………………………………………….………..100

5.2 Kërkimi i ngjashmërive në seri kohore numerike ………………………….101

5.2.1 Dynamic Time Warping (DTW) …………………………………...101

5.2.2 Aplikime të teknikës DTW në programin R ……………………….102

5.3 Reduktimi i përmasave të serive kohore …………………………………...107

5.3.1 Përkufizime dhe koncepte kryesore ………………………………..107

5.3.2 Teknika SAX (Symbolic Aggregate Approximation) në R.……….108

5.4 Zbulimi i ngjashmërive në sekuencat e ADN-ve nëpërmjet teknikës SAX të

implementuar në gjuhën R …………………………………………………116

5.5 Modifikimi i teknikës SAX për ngjashmëritë në sekuencat e ADN-ve.

Rezultate eksperimentale ……………….……………………..…………...118

Konkluzione ………………………………………………………………..……..121

Page 6: TEZË DOKTORATURE - api.fshn.edu.al

vi

Bibliografia ………………………………………………………………………..123

Shtojca ……………………………………………………………..………….….130

Page 7: TEZË DOKTORATURE - api.fshn.edu.al

vii

FALENDERIME

Përfundimi i kësaj teze doktorature ishte një rrugëtim i gjatë, i mundimshëm,

frutdhënës dhe surprizues. Kam nevojë të falenderoj shumë përsona të cilët më kanë

ndihmuar dhe mbështetur, që kanë besuar tek unë jo vetëm në vitet e doktoraturës por

edhe më herët.

Së pari, dua të falenderoj udhëheqësin tim profesor Llukan Puka për mbështetjen e tij

të vazhdueshme, këshillat dhe nxitjen për të kërkuar gjithmonë më të mirën në

ndërtimin e këtij punimi. Gjithashtu një falenderim shkon dhe për gjithë kolegët e mi

të cilët më kanë ndihmuar me vërejtjet dhe këshillat e tyre.

Një falenderim i veçatë shkon për familjen time, për mbështetjen që në propozimet e

para të kësaj teze dhe në udhëtimin e gjatë e të vështirë deri në përfundimin e saj.

Faleminderit, bashkëshortit tim Elvans, për mbështetjen dhe durimin që ke treguar me

mua gjatë këtij rrugëtimi. Faleminderit Emia që me ardhjen tënde u kurorëzua dhe ky

disertacion.

Page 8: TEZË DOKTORATURE - api.fshn.edu.al

viii

Hyrje

1.1 Disa zhvillime

Seritë kohore të vrojtueshme, të cilat përshkruajnë fenomene që ndryshojnë në lidhje

me kohën, mund të klasifikoheshin rreth viteve 1940 në dy kategori kryesore:

evolutive dhe stacionare. Me kalimin e viteve klasifikimi filloi të bëhej më i gjerë dhe

më eksplicit bazuar në natyrën e të dhënave të serisë kohore. Në analizën e serive

kohore evolutive koha luan një rol të rëndësishëm, një shembull mund të jetë një

variabël i pavarur në funksion të trendit. Seritë kohore stacionare janë të

“pandryshueshme” në respekt me strukturën e tyre të përgjithshme. Luhatjet në seri

kohore stacionare mund të duken të rastësishme ose të shfaqin tendenca (prirje) të

rregullta. Në analizën e serive kohore stacionare koha luan një rol dytësor.

Metodat klasike të Furie dhe Shuster, të cilat kanë në themel te tyre hipotezën mbi

ekzistencën e periodiciteteve të fshehura, janë përdorur shpesh dhe kanë rezultuar të

suksesshme deri në vitet ’40. Ata që i dhanë një ndryshim të rëndësishëm fushës së

serive kohore ishin Yule, Slutsky dhe Wold.

Duke u nisur nga një seri kohore e rastësishme, si për shembull hedhja e një zari të

rregullt, G.U. Yule (1921, 1926) formoi diferencat e një rendi të fiksuar dhe zbuloi se

seria e përftuar shfaqte tendenca të rregullta në luhatje.

E. Slustsky (1927, 1937) studioi efektin e disa parametrave linear më të përgjithshëm

dhe zbuloi se, nën disa rrethana të caktuara, seria kohore do të shfaqte valë

sinusoidale me ndryshime të ngadalta të amplitudës dhe fazës. Slutsky ishte i pari që

prezantoi proceset e quajtura më vonë mesatare të lëvizshme (MA). G.U Yule (1927)

në një studim të serisë kohore të njollave diellore investigoi korrelacionin e

shumfishtë midis vrojtimeve dhe përafroi, duke përdorur analizën e regresit linear,

çdo vrojtim me një funksion linear të vrojtimeve paraardhëse. Kjo skemë u quajt më

vonë skema e autoregresionit linear dhe sot modele të tilla quhen modele

autoregresive (AR). Nga pikëpamja e teorisë së probabilitetit skemat e regresit linear

janë raste të vecanta të proçeseve stacionare të rastësishme të përkufizuara dhe

studiuara nga A. Khintchinc (1932,1934).

H.Would ishte ai i cili në vitin 1938 në tezën e tij të doktoratës “A study in the

Analysis of Stationary time series” përmend modelet e serive kohore të propozuara

nga Yule dhe Slutsky dhe i kombinon ato për ndërtimin e modeleve ARMA

(Autoregresive me mesatare të lëvizshme).

Në vitet pasuese fusha e serive kohore pati një impakt të rëndësishëm jo vetëm në

drejtimin matematikor por edhe në disiplina të tjera të shkencës siç ishin: ekonomi,

meteorologji, demografi, ekologji etj.

Në vitin 1956, Robert Goodell Bown ishte i pari që propozoi teknikën e sheshimit

eksponencial për seritë kohore. Më pas në 1957, Charles C.Holt e zgjeroi më tej

kuptimin e sheshimit eksponencial me një faktor. Holt vuri re se nëse seria kohore

shfaqte trend atëherë sheshimi eksponencial me një faktor nuk jepte rezultate të

kënaqshme. Në vitet pasuese (1957,1960) ishte Peter Winters një student i Holt i cili

së bashku me Holt propozuan teknikën e sheshimit eksponencial me dy faktorë. Kjo

Page 9: TEZË DOKTORATURE - api.fshn.edu.al

ix

teknikë merrte në konsideratë edhe sezonalitetin. Më pas teknika u përmirësua duke

shtuar edhe një parametër të tretë.

Në vitet 2000, Rob J. Hyndman pedagog në universitetin Monash, Australi së bashku

me të tjerë kërkues ( Koehler A.B; Ord J.K; Snyder R.D; 2005) iu përkushtuan

studimit dhe përmirësimit të teknikave të sheshimit eksponencial dhe i paraqitën

përfundimet e tyre në punimin “Forecasting with exponential smoothing”. Studime

mbi teknikat e shumta të propozuara ndër vite pasqyronin në takimet e tyre edhe

Makridakis S. dhe Hibon M. (M-Competition).

Arritje tjetër në fushën e serive kohore ishte metodologjia e propozuar nga

statisticienët George Box dhe Gwilym Jenkins (1976) për ndërtimin e një modeli

ARMA. Kjo metodologji ishte ndër të parat e cila nxiti më tej zhvillimin e

programeve kompjuterike për të mundësuar përllogaritjet e shumta dhe të ndërlikuara

për vlerësimin e parametrave të modelit. Megjithëse në vitet 2000 studiues të

ndryshëm (përmendim këtu M-Competitions të Makridakis dhe Hibon) kanë kritikuar

teknikën e propozuar nga Box dhe Jenknins ajo vazhdon të jetë një ndër teknikat më të

mira të propozuara deri më sot për ndërtimin e modeleve ARMA.

Në vitet ’80 u prezantuan modifikime të modeleve bazë (AR, MA) ku ndër to ishte

edhe modeli ARCH (AutoRegresive Conditional Heteroskedasticity) i propozuar nga

Robert F. Engle në revistën Econometrica, 1982. Modele të tjera pasuan modelin e ri

të propozuar nga Engle kështu ishte modeli GARCH (Generalized AutoRegresive

Conditional Heteroskedasticity) u propozua në vitin 1986 nga Tim Bollerslev;

NGARCH (Nonlinear Generalized AutoRegresive Conditional Heteroskedasticity) u

propozua nga Engle R.F. dhe Ng V.K. në vitin 1993; EGARCH (Exponential

General AutoRegresive Conditional Heteroskedasticity) u propozua nga Nelson në

vitin 1991; QGARCH ( Quadratic GARCH) u propozua nga Senata në vitin 1995;

TGARCH (Threshold GARCH) u propozua nga Zakoian (1994) i cili u bazua në

modelin GJR GARCH të propozuar nga Glosten, Jagannathan dhe Runkle (1993).

Zhvillimet teorike u shoqëruan me pjesën softuerike. Seritë kohore masive dhe

modelet matematike gjithnjë e më të holla kërkonin edhe mbështetje për kryerjen e

njehsimeve. Të gjithë softueret që kishin qëllime statistike, përfshinë gjithnjë e më

shumë algoritme e module për veprimet. Softueret si SAS, SPSS, S-Plus etj në

versionet e tyre të reja kanë arritjet më të fundit në fushën e serive kohore.

Në tezën tonë, vëmëndja është përqëndruar në softueret R dhe MATLAB, sepse

ofrojnë mjedise pune komode; R nuk është komercial, dhe sidomos pas viteve 2000

është kthyer në një mjedis pune shumë i suksesshëm për qëllime të kërkimit

akademik. Studiues të ndryshëm të fushës së serive kohore kanë dhënë kontributin e

tyre në pasurimin e softuerit R i cili gjithnjë e më shumë përmban teknika të analizës

së serive kohore.

Për më shumë se dy dekada, metodologjive të kërkimit të ngjashmërive në seri kohore

u është kushtuar një vëmendje e veçantë nga kërkues të fushave të biostatistikës,

bioinformatikës, mjekësisë etj. Përmirësimi i teknikave ekzistuese dhe gjetja e atyre të

reja ka qenë një synim i vazhdueshëm. Ashtu sikurse shumë probleme në shkencat

kompjuterike, përzgjedhja e përfaqësimit të mirë lidhet me lehtësinë dhe eficencën e

serive kohore. Duke patur ndër mend këto janë prezantuar një numër i madh i

Page 10: TEZË DOKTORATURE - api.fshn.edu.al

x

metodave të reduktimit të serive kohore duke filluar me Transformimin Diskret Furie

(DFT) [Faloutsos et al. 1994], Transformimin Valor Diskret (DWT) [Chan dhe Fu

1999], modelet Pjesë –Pjesë Lineare (PAA) [Keogh et al. 2001], (APCA) [Geurts

2001; Keogh et al. 2001], dhe Dekompozimi me Vlera Singulare (SVD) [Keogh et al.

2001].

Teknika e prezantuar së fundmi nga Keogh është Përafrimi simbolik (SAX) [Keogh

et al 2006]. Kjo teknikë ka treguar të jetë mjaft efiçente jo vetëm në përpunimin e

serive kohore, zbulimet e ngjashmërive midis serive kohore me përmasa të mëdha por

edhe në zgjidhjen e problemeve të shumta të fushave të ndryshme të shkencës në një

kohë mjaft të shkurtër.

1.2 Qëllimi i studimit dhe organizimi i materialit

Qëllimi i këtij punimi është studimi i serive kohore, teknikave të ngjashmërive dhe

reduktimit të përmasave të tyre. Në pjesën e saj të parë, kjo tezë doktorate siguron një

përmbledhje teorike të koncepteve dhe natyrës së serive kohore të gërshetuara me

praktikën. Rastet e studimit janë seri kohore me të dhëna nga vendi. Qëllimi kryesor i

kësaj pjese është studimi i natyrës së serive kohore, përdorimi i teknikave të ndërtimit

të modeleve dhe parashikimeve nëpërmjet softuerit R [Dhamo E. Puka Ll.,2010;

Dhamo E. Puka Ll.,2011A; Dhamo E. Puka Ll.,2011B; Dhamo E. Puka Ll.,2012].

Në pjesën e tij të dytë, materiali prezanton disa prej teknikave të zbulimit të

ngjashmërive midis serive kohore si dhe teknika të reduktimit të përmasave. Qëllimi i

kësaj pjese përveç njohjes me teknikat është dhe shfrytëzimi i softuerit R për

ndërtimin e algoritmeve të ngjashërive dhe reduktimit të përmasave të serive kohore.

Më tej, synohet të modifikohen teknikat e reduktimit të serive kohore dhe

simbolizimit të tyre dhe tregohen përpjekjet për të modifikuar teknikat e prezantuara

deri më sot duke i zbatuar ato në situata të ndryshme në fushën e gjenetikës,

informatikës etj [Dhamo E. Puka Ll.,2012A; Dhamo E. Puka Ll.,2012B].

Organizimi i materialit

Materiali është ndërtuar në 5 kapituj të cilët prezantojnë gradualisht koncepte, teknika

të analizës së serive kohore si dhe teknika të reduktimit të përmasave të serive kohore

dhe zbulimit të ngjashmërive.

Në Kapitullin 1, prezantohen disa nga karakteristikat kryesore të serive kohore.

Përkufizohen trendi, sezonaliteti, periodiciteti, stacionariteti, funksionet

autokovariancë dhe autokorrelacioni (autokorrelacion i pjesshëm) veti të tyre.

Gjithashtu në këtë kre prezantohen disa nga seritë kohore të cilat do të jenë në qëndër

të studimit në krerët pasues. Seritë kohore janë përzgjedhur qëllimisht për të zbuluar

efektshmërinë e teknikave të analizës së serive kohore në seri ekonomike,

demografike, financiare etj.

Kapitulli 2 trajton metodën e sheshimit eksponencial si një ndër metodat më klasike

të përdorura për qëllime parashikimi. Në këtë pjesë aplikohen metodat e sheshimit

eksponencial me një , dy dhe tre faktorë në seritë kohore të prezantuara në kapitullin

1. Metodat aplikohen në softuerin R nëpërmjet të cilit arrihet të ndërtohen modele të

Page 11: TEZË DOKTORATURE - api.fshn.edu.al

xi

sheshimit eksponencial dhe të analizohet cilësia e tyre nëpërmjet gabimeve dhe

kritereve të informacionit.

Metodat klasike të serive kohore si dhe kombinimet e tyre prezantohen në Kapitullin

3. Në këtë kre studiohet natyra e modeleve autoregresive (AR) dhe mesatare të

lëvizshme (MA), kombinime të tyre ARMA( Autoregresive me mesatare të

lëvizshme), ARIMA (Autoregresive me mesatare të lëvizshme të integruar), SARIMA

( ARMA sezonale), ARCH ((AutoRegresive Conditional Heteroskedasticity) dhe

modifikime të tij. Studiohen gjithashtu metodat e vlerësimit të parametrave të modelit

nëpërmjet softuerit R. Zbatime të këtyre teknikave ofrohen nëpërmjet serive kohore të

prezantuara në kapitullin 1. Tregohen hapat e analizës së stacionaritetit të serisë

nëpërmjet testeve grafike dhe numerike në R (QQ-plot, lag-plot, grafikët ACF etj),

transformimet e serive kohore deri në një seri stacionare si dhe testet e cilësisë së

modeleve të propozuara nga vlerësimet e parametrave.

Metodologjia e përzgjedhjes së një modeli të mirë për qëllime parashikimi

prezantohet në Kapitullin 4. Hapat e metodologjisë aplikohen në seritë kohore me të

dhëna reale nga vendi (prezantuar në Kapitullin 1) dhe për lehtësira të përllogaritjeve

shfrytëzohet softueri R. Bazuar në hapat e metodologjisë Box dhe Jenkins dhe

rezultatet e përftuara kryhet analiza e përshtatshmërisë së modelit të ndërtuar dhe

arrihet në përfundimet mbi cilësinë e parashikimit.

Pjesa e dytë e materialit është përmbledhur në Kapitullin 5, ajo prezanton dhe

analizon teknikat e propozuara për reduktimin e përmasave të serive kohore,

përmirësimin e tyre dhe aplikimet e tyre. Teknikat kryesore ku bazohet materiali jane:

Piecewise Aggregate Approximation (PAA) ( Yi dhe Faloutos, 2000; Keogh et al,

2000) dhe Symbolic Aggregate Approximation (SAX) (Keogh et al, 2003). Në këtë

kapitull i kushtohet vëmëndje ndërtimit të algoritmeve të dy teknikave PAA dhe SAX

në softuerin R. Prezantohen algoritmet dhe testet numerike të ecurisë së tyre. Efiçenca

e algoritmeve në R krahasohet me algoritmet e ndërtuar në MATLAB nga autorët. Si

madhësi të ngjashmërive të serive kohore numerike përmenden distancat e propozuara

si për shembull distanca: Euklidiane, Minkowski, Manhatan, Chebyshev, Jaccard,

Hamming, Levenshtein, Keogh etj. Për më tepër, analizohen teknikat e ngjashmërive

midis dy serive kohore numerike apo simbolike. Dhe në fund të këtij kapitulli

prezantohen rezultatet eksperimentale të testimit të modifikimeve të propozuara në

teknikat bazë PAA dhe SAX. Modifikimet për zbulimin e ngjashmërive në sekuenca

të ADN-ve tregojnë se algoritmi SAX është i lehtë dhe shpejtë në afishim e

rezultateve të ngjashmërive.

Page 12: TEZË DOKTORATURE - api.fshn.edu.al

1

"Predicting the future is hard, especially if it hasn't happened yet." -- Yogi Berra

Kapitulli 1

Karakteristikat e Serive Kohore

Terma dhe Përkufizime

Ky kapitull prezanton konceptet themelore në teorinë e modeleve të serive kohore. Në

veçanti, prezantohen konceptet e proceseve stokastike, funksionet autokovariancë,

proceset stacionare dhe funksionet e autokorrelacionit.

Analiza e të dhënave eksperimentale të vëzhguara në momente të ndryshme të kohës

çon në probleme të reja të modelimit statistikor dhe përfundimeve statistikore.

Korrelacioni i dukshëm i prezantuar nga zgjedhja e rastit, të pikave të afërta në kohë,

mund të kufizojnë ashpër aplikimin e shumë metodave statistikore, tradicionalisht të

varura në supozimin se këto vëzhgime të afërta janë të pavarura dhe me shpërndarje të

njëjtë. Këtyre qasjeve sistematike, të cilat duhet t’i përgjigjen pyetjeve matematikore

dhe statistikore që vijnë nga korrelacionet kohore, i referohemi shpesh si analiza e

serive kohore.

Ndikimi i analizës së serive kohore në aplikimet shkencore mund të dokumentohet

pjesërisht duke listuar shkurt fushat e ndryshme në të cilat mund të shfaqen probleme

të rëndësishme të serive kohore. Për shembull, shumë seri kohore familjare mund të

shfaqen në fushën ekonomike, ku ne jemi të ekspozuar ndaj ndryshimeve ditore të

çmimeve të produkteve ushqimore apo shifrave mujore të papunësisë në vend. Studiues

në fushën e sociologjisë interesohen për seritë e popullatave si, normat e lindjeve,

vdekjeve, martesave apo numrit të studentëve që shkojnë çdo vit akademik në

universitete. Një epidiomolog mund të interesohet në numrin e rasteve të prekur nga

gripi në një periudhë kohore. Në mjekësi, matja e presionit të gjakut gjatë një periudhe

kohe mund të ndihmojë në recetën e ilaceve për të trajtuar hipertensionin ose vrojtimi i

një elektrocenfalograme (EKG) mund të ndihmojë mjekët kardiak të vlerësojnë situatën

e zemrës së një individi. Rezonanca magnetike e valëve të trurit mund të përdoret për

të studiuar se si reagon truri ndaj disa stimujve në kushte eksperimentale.

Shumë aplikime intensive dhe të sofistikuara të serive kohore janë shfaqur në probleme

fizike dhe të shkencave mjedisore. Një ndër seritë kohore më të vjetra është ajo e numrit

të njollave diellore mujore të studiuara nga Schuster (1906). Investigime më moderne

lidhen me matjet e temperaturave mbi ngrohjen globale dhe ndikimet e saj në normat e

mortalitetit. Seritë kohore gjeofizike mund të japin informacione mbi temperaturat dhe

rreshjet. Regjistrimet sizmike mund të ndihmojnë në dallimin midis një termeti dhe

shpërthimeve nukleare.

Seritë kohore të përmendura më sipër janë veç disa shembuj të databazave

eksperimentale që mund të përdoren për të ilustruar procesin e aplikimit të

metodologjive klasike statistikore në kornizën e korreluar të serive kohore. Në

Page 13: TEZË DOKTORATURE - api.fshn.edu.al

2

këndvështrimin tonë, hapi i parë në investigimin e çdo serie kohore gjithmonë duhet të

përfshijë një shqyrtim të kujdesshëm të të dhënave të regjistruara në kohë. Ky shqyrtim

shpesh sugjeron metodën e analizimit që do të përdoret në përmbledhjen e

informacionit të të dhënave. Qëllimi i analizës së serive kohore është i dyfishtë: të

kuptojë apo modelojë mekanizmin stokastik që krijon një seri e vrojtuar dhe të

parashikojë vlerat e ardhshme të një serie bazuar në historikun e asaj serie.

1.2 Natyra e serive kohore Në këtë sesion do të prezantojmë disa nga rastet më të zakonshme të shfaqjes së serive

kohore dhe pyetjet statistikore që mund të lindin mbi të dhëna të tilla. Këtyre rasteve

do t’u referohemi në vazhdimësi të materialit.

Shembull 1.1 Vlera mesatare mujore e dëmeve të ndodhura në një kompani sigurimi

2005-2008

Figura 1.1 tregon vlerën mesatare mujore të dëmeve të shkaktuara nga të siguruarit në

një kompani sigurimi në Shqipëri për një periudhë 42 mujore (2005-2008). Vini re

qëndrueshmërinë e serisë. Metoda për të analizuar të dhëna të tilla do të prezantohen në

kapitujt 2 dhe 3.

Figura 1.1 Vlera mesatare mujore e dëmeve të kompanisë së sigurimeve (2005-

2008) në Lek

Shembull 1.2 Numri i lindjeve për muaj në Shqipëri 1990-2008

Figura 1.2/a Numri i lindjeve për muaj në Shqipëri (1990-2008)

Muaj

0 10 20 30 40

20000

60000

100000

140000

Muaj 0 50 100 150 200

2000

3000

4000

5000

6000

7000

8000

Page 14: TEZË DOKTORATURE - api.fshn.edu.al

3

Seria kohore e lindjeve sipas muajve në Shqipëri është një ndër seritë që është studiuar

me kujdes në këtë punim. Të dhënat janë marrë nga INSTAT dhe në total përfshijnë

vrojtimet që prej Janarit të viti 1985 deri në Dhjetor të vitit 2008 (288 vrojtime). Në

këto të dhëna kohore vihet re një zbritje graduale e vlerave dhe një variacion i rregullt

i cili duket se përsëritet me kalimin e kohës.

Figura 1.2/b Numri i lindjeve për muaj në Shqipëri (1985-2008), INSTAT

Natyra e serisë kohore të numrit të lindjeve për muaj do të jetë objekt studimi në kapitujt

në vijim.

Shembull 1.3 Numri i vdekjeve për muaj në Shqipëri (1985-2008)

Figura 1.3 Numri i vdekjeve për muaj në Shqipëri (1985-2008), INSTAT

Seria kohore e numrit të vdekjeve për çdo muaj për periudhën 1985- 2008 është

paraqitur në Figurën 1.3. në këtë figurë vihet re përsëritja e “sinjalit” , periodicitet dhe

mungesa e trendit në muajt në vazhdim.

Muaj 1985 1990 1995 2000 2005

2000

3000

4000

5000

6000

7000

8000

Muaj

1985 1990 1995 2000 2005

1000

1500

2000

Page 15: TEZË DOKTORATURE - api.fshn.edu.al

4

Shembull 1.4 Numri i martesave për muaj në Shqipëri (1985-2008)

Figura 1.4 Numri i martesave për muaj në Shqipëri (1990-2008), INSTAT

Seria e numrit të martesave për muaj shfaq një sjellje e cila përsëritet me kalimin e

kohës. Kjo sjellje periodike e numrit të martesave për muaj është me interes sepse

procesi mund të jetë i rregullt dhe me një normë apo frekuencë oshilacioni e cila mund

të ndihmojë të identifikohen vlerat e vrojtuara.

Shembull 1.5 Norma e fertilitetit (TFR) për çdo muaj (1985-2008)

Figura 1.5 Norma mujore e fretilitetit në Shqipëri për periudhën (1985-2008)

Këtyre të dhënave do t’ju rikthehemi në kapitujt 2 dhe 3.

Muaj 1985 1990 1995 2000 2005

500

1000

1500

2000

2500

3000

3500

Muaj 1985 1990 1995 2000 2005

1

2

3

4

5

6

7

Page 16: TEZË DOKTORATURE - api.fshn.edu.al

5

Shembull 1.6 Vlera e dëmeve (prona) të një kompanie sigurimi për periudhën (2005 –

2010)

Figura 1.6 Vlera mujore e dëmeve për periudhën (2005-2010)

Figura 1.6 tregon vlerën mujore të dëmeve të deklaruara nga siguruesit në një kompani

sigurimi në Shqipëri për periudhën Janar 2005 deri Dhjetor 2010, në total 11 477

vrojtime. Seria kohore e dëmeve është një shembull i serive kohore ekonomike dhe

financiare me luhatshmëri.

Shembull 1.7 Numri ditor i shtrimeve në pavionin e kardiologjisë QSUT (1 Janari

2006 deri në 31 Dhjetor 2010)

Figura 1.7 Shtrimet ditore në pavionin e kardiologjisë QSUT (2006-2010)

Të dhënat mbi numrit ditor të shtrimeve përbëjnë në total 1825 vëzhgime. Numri

minimal ditor i shtrimeve është 1, dhe numri maksimal është 51 shtrime në ditë. Numri

mesatar i shtrimeve të përditshme është 16.

Figura 1.7 tregon një prirje të ngadalshmenë rritje në vitet e fundit dhe kjo mund të jetë

një rezultat i vetëdijes së njerëzve për t’u kontrolluar tek kardiologu.

Property claim value

Day

Va

lue

in

AL

L

0 2000 4000 6000 8000 10000

01

50

00

00

35

00

00

0

Ditë

2006 2007 2008 2009 2010 2011

0

10

20

30

40

50

Page 17: TEZË DOKTORATURE - api.fshn.edu.al

6

Shembull 1.8 Numri ditor i defekteve të telefonisë fikse të raportuara gjatë periudhës

, Janar 2009 deri Mars 2011

Figura 1.8 Defektet ditore të telefonisë fikse (2009-2011)

Të dhënat e mësipërme i përkasin një ndër telefonive fikse më të mëdha që operojnë në

Shqipëri. Figura 1.8 pasqyron ditë në të cilat numri i defekteve është i lartë dhe të tjera

në të cilat ky numër është i ulët. Kjo sjellje tregon praninë e sezonalitetit të cilin do ta

shqyrtojmë në vijim të materialit.

Këto dhe të tjera seri kohore do të jenë objekt i studimit në vazhdim.

1.3 Modele statistikore të serive kohore

Qëllimi parësor i analizës së serive kohore është të zhvillojë modele matematikore të

cilat të ofrojnë përshkrime të besueshme për të dhënat e zgjedhjes së bërë. Në mënyrë

që të sigurojmë një mjedis statistikor për të përshkruar natyrën e të dhënave, që në dukje

luhatet në mënyrë të rastësishme në lidhje me kohën, ne supozojmë se seria mund të

përkufizohet si një grupim ndryshoresh rasti të indeksuara sipas rendit që shfaqen në

kohë. Për shembull, ne mund të konsiderojmë një seri kohore si një sekuencë

ndryshoresh rasti: X1, X2, X3, ..., ky ndryshorja e rastit X1 tregon vlerën e marrë nga seria

në momentin e parë të kohës, ndryshorja e rastit X2tregon vlerën e marrë nga seria në

momentin e dytë të kohës dhe kështu me rradhë. Në përgjithësi një bashkësi

ndryshoresh rasti, {Xt}, të indeksuara nga koha i referohet një procesi stokastik. Në

material t do të jetë diskrete dhe do të marrë vlera të plota.

Shembull 1.9 Zhurma e bardhë (White Noise)

Një shembull i thjeshtë i serive të gjeneruara mund të jetë një grupim i ndryshoreve të

rastit të pakorreluara, wt, me pritje matematike 0 dhe dispersion të fundëm 2

w . Seria

kohore e gjeneruar nga ndryshoret e rastit të pakorreluara mund të përdoret si një model

për zhurmën në aplikacionet inxhinierike, ku quhet zhurmë e bardhë; në material do të

përdorim shënimin 2(0, )t ww WN .

Shpesh në material do të kërkojmë që zhurma të jetë një varg ndryshoresh rasti të pavarura dhe

me shpërndarje të njëjtë me pritje matematike 0 dhe dispersion 2

w . Do ta bëjmë të dallueshëm

Dite 0 200 400 600 800

0

200

400

600

800

1200

Page 18: TEZË DOKTORATURE - api.fshn.edu.al

7

këtë rast duke iu referuar si zhurmë e bardhë e pavarur. Një seri zhurmë e bardhë është zhurma

e bardhë Gausiane, ku wt janë ndryshore rasti të pavarura me pritje matematike 0 dhe

dispersion 2

w . Figura 1.6 tregon një paraqitje grafike të një zhurme të bardhë me pritje

matematike 0 dhe dispersion 2

w =1.

Figura 1.9 Zhurmë e bardhë Gausiane

Shembull 1.10 Mesatarja e lëvizshme

Këtë model dhe të tjerët në vijim do t’i shqyrtojmë më me hollësi në kapitullin 2.

Mesatarja e lëvizshme është një mënyrë e sheshimit të një serie kohore. Ajo merr në

konsideratë vlerat e zhurmës në momentet e shkuara. Modeli më i thjeshtë i mesatares

së lëvizshme MA(1) do të shkruhej:

1t t tX w w (1.1)

Ndërsa modeli i përgjithshëm me mesatare të lëvizshme i rendit q, MA(q) do të shkruhej:

1 1 2 2 ...t t t t q t qX w w w w (1.2)

Shembull 1.11 Proceset Autoregresive

Modeli më i thjeshtë autoregresiv është modeli AR(1) i cili mund të shkruhet si:

1t t tX X w (1.3)

ku, është parametri i modelit. Në përgjithësi një model autoregresiv i rendit p, AR(p) do të

shkruhej:

1 1 2 2 ...t t t p t p tX X X X w (1.4)

Shembujt e përmendur më sipër janë disa nga modelet kryesore të serive kohore. Ato janë baza

e ndërtimit të modeleve të rëndësishme të kombinuara për seritë kohore.

1.4 Madhësitë e varësisë, funksioni i autokovariancës (ACVF) dhe

funksioni i autokorrelacionit (ACF)

Le të jetë ( , )tX t T një seri kohore.

0 20 40 60 80 100

-2

-1

0

1

2

3

Koha

Xt

Page 19: TEZË DOKTORATURE - api.fshn.edu.al

8

Përkufizim 1.1 Funksioni i autokovariancës quhet funksioni që për çdo

,s t T përcaktohet me barazimin:

( , ) [( )( )]X s s t ts t E X X (1.5)

Kur nuk ekziston konfuzion mbi serinë kohore të cilës i referohemi mund të shkruajmë ( , )s t

në vend të ( , )X s t .

Përkufizim 1.2 Funksioni i autokorrelacionit (ACF) quhet funksioni që për

çdo ,s t T përcaktohet me barazimin:

( , )

( , )( , ) ( , )

s ts t

s s t t

(1.6)

Janë të vërteta vetitë e mëposhtëme të funksionit autokovariancë dhe autokorrelacion

të serisë kohore X.

1. ( , ) ( , )s t t s

2. t(0) (X )D

3. ( ) ( )h h , për çdo h=|s-t|

4. 1 ( , ) 1s t

5. (0) 1

6. ( ) ( )h h për çdo h=|s-t|

Përkufizim 1.3 Funksioni i kros-kovariancës midis dy serive kohore (Xt) dhe

(Yt) quhet funksioni që për çdo ,s t T përcaktohet me barazimin:

( , ) [( )( )]s tXY s X t Ys t E X Y (1.7)

Përkufizim 1.4 Funksioni i kros-korrelacionit midis dy serive kohore (Xt) dhe

(Yt) quhet funksioni që për çdo ,s t T përcaktohet me barazimin:

( , )

( , )( , ) ( , )

XYXY

X Y

s ts t

s s t t

(1.8)

Përkufizim 1.5 (Xt) quhet proces linear, nëse shprehet si një kombinim linear i

zhurmës së bardhë (wt):

t j t j

j

X w

(1.9)

ku, koefiҫientët j kënaqin kushtin:

Page 20: TEZË DOKTORATURE - api.fshn.edu.al

9

| |j

j

(1.10)

Për procesin linear mund të tregohet se funksioni autokovariancë jepet nga:

2( ) w j h j

j

h w

(1.11)

për, 0h ; kujtojmë se ( ) ( )h h .

Përkufizim 1.6 Njëproces (Xt ), quhet Gausian nëse vektori k-dimensional

1 2( , ,..., ) '

kt t tX X X X për çdo moment të kohës 1 2, ,..., kt t t dhe çdo numër të plotë

pozitiv k, ka shpërndarje normale.

1.5 Stacionariteti, Trendi dhe Sezonaliteti

Karakteristika të rëndësishme të serisë kohore janë: stacionariteti, trendi dhe

sezonaliteti.

Stacionariteti përkufizohet si cilësi e një procesi në të cilin disa parametra statistikorë

(pritja matematike dhe dispersioni) nuk ndryshojnë në lidhje me kohën.

Trendi përkufizohet si një prirje e caktuar në një seri kohore. Teknika të regresit linear

mund të ndihmojnë në studimin e trendit të një serie kohore.

Sezonaliteti përkufizohet si një sjellje e përsëritshme dhe e parashikueshme e serisë

kohore përgjatë trendit.

Studimi i një serie kohore lidhet ngushtë me nocionin e stacionaritetit. Një seri kohore

stacionare ruan të pandryshueshme disa cilësi të saj e kjo bën të mundur parashikimin.

Modelet që studiohen në këtë punim lidhen me stacionaritetin e “dobët” (ose të rendit

të dytë). Krahas tij konsiderohet edhe stacionariteti i “fortë”. Përkufizimet që vijojnë

saktësojnë këto kuptime.

Përkufizim 1.7 Një seri kohore ( )tX quhet rigorozisht stacionare nëse vektori:

1 2{ , ,..., }

kt t tX X X

dhe vektori:

1 2{ , ,..., }

kt h t h t hX X X

kanë shpërndarje të njëjtë për çdo k=1,2,..., çdo 1 2, , ..., kt t t , për çdo

0, 1, 2, ...h

Le të jetë ( , )tX t T një seri kohore e tillë që: 2( )tE X për çdo t:

Përkufizim 1.8 Seria kohore ( )tX quhet stacionare e rendit të dytë ose

stacionare e dobët nëse:

Page 21: TEZË DOKTORATURE - api.fshn.edu.al

10

(1) funksioni i pritjes matematike ( )tt E X është konstant dhe nuk varet nga koha

t, dhe

(2) funksioni kovariancë ( , ) ( , )s t s t varet nga s dhe t vetëm nëpërmjet diferencës

së tyre |s-t|.

Në vazhdim do të përdorim termin stacionaritet dhe do të nënkuptojmë stationaritetin

e dobët.

Nëse një seri është e rendit të dytë, 2( )tE X , dhe rigorozisht stacionare, atëherë ajo

është stacionare. E anasjellta nuk është gjithmonë e vërtetë. Një rast i rëndësishëm në

të cilin stacionariteti sjell stacionaritetin rigoroz është seria Gausiane. Meqë pritja

matematike e një serie stacionare është e pavarur nga koha do të shkruajmë:

t (1.13)

Gjithashtu meqë funksioni kovariancë e një serie kohore stacionare varet nga s dhe t

vetëm nëpërmjet diferencës së tyre |s-t|, mund ta thjeshtëzojmë shënimin. Le të

shënojmë s=t+h, atëherë:

0

( , ) [( )( )]

[( )( )]

( ,0)

t h t

h

t h t E X X

E X X

h

(1.14)

nuk varet nga koha t.

Rrjedhimisht kemi këto shprehje për ACVF dhe ACF

( ) [( )( )]t h th E X X (1.15)

( , ) ( )( )

(0)( , ) ( , )

t h t hh

t h t h t t

(1.16)

1.6 Vlerësimi i autokorrelacionit

Treguesit e përkufizuar më sipër, në situatë reale, është e nevojshme të vlerësohen

nëpërmjet vrojtimeve 1 2, ,..., nX X X nga seria kohore ( )tX . Për këtë qëllim

përkufizohen treguesit empirik përkatës, si vlerësime statistike.

Pritja matematike e një serie kohore stacionare është konstante. Ajo vlerësohet me anë

të mesatares:

1

1 n

t

t

X Xn

(1.17)

Funksioni autokovariancë ( )h vlerësohet nga funksioni autokovariancë i zgjedhjes si

më poshtë.

Page 22: TEZË DOKTORATURE - api.fshn.edu.al

11

1

1ˆ( ) ( )( )

n h

t h t

t

h X X X Xn

(1.18)

me, ˆ ˆ( ) ( )h h për h=0,1,...,n-1

Ndërsa funksioni i autokorrelacionit ( )h vlerësohet nëpërmjet:

ˆ( )

ˆ( )ˆ(0)

hh

(1.19)

Funksioni autokorrelacion i zgjedhjes ka një shpërndarje të zgjedhjes e cila na lejon ne

të vlerësojmë nëse të dhënat janë tërësisht të rastësishme, seri të zhurmave të bardha

apo korrelacionet janë domethënëse në ndonjë lag.

Pohim1.1 Nën disa kushte të përgjithshme, nëse Xt është zhurmë e bardhë, atëherë

për vëllime zgjedhje të mëdha, ACF e zgjedhjes, ˆ ( )X h , për h=0,1,...,T ku T është e

fiksuar por arbitrare, ka shpërndarje përafërsisht normale me pritje matematike zero

dhe devijim standart të dhënë:

ˆ ( )

1X h

n (1.20)

Bazuar në rezultatin e mësipërm përftojmë një metodë të përafërt për të vlerësuar nëse

piqet në ˆ( )h janë domethënës duke përcaktuar nëse piku i vëzhguar ndodhet jashtë

intervalit 2

n (ose ndryshe, ˆ ( )2

X h ); për një zhurmë të bardhë, përafërsisht 95% e

ACF-ve të zgjedhjes duhet të jenë brenda këtyre kufijve.

Në rastin e kros-kovariancës ( )XY h dhe kros-korrelacionit ( )XY h janë:

1

1ˆ ( ) ( )( )

n h

XY t h t

t

h X X Y Yn

(1.21)

ku, ˆ ˆ( ) ( )XY XYh h , dhe:

ˆ ( )

ˆ ( )ˆ ˆ(0) (0)

XYXY

X Y

hh

(1.22)

Page 23: TEZË DOKTORATURE - api.fshn.edu.al

12

Kapitulli 2

Regresi Linear dhe Sheshimi Eksponencial për

Ndërtimin e Modeleve Parashikuese të Serive Kohore

Demografike

Në këtë kapitull do të shqyrtohen metodat e regresit dhe sheshimit eksponencial për

ndërtimin e modeleve të serive kohore. Qëllimi kryesor i ndërtimit të këtyre modeleve

është parashikimi. Aplikimet e këtyre teknikave do t’i prezantojmë duke ndërtuar disa

modele për seritë kohore të: numrit të lindjeve për muaj, numri të martesave për muaj,

normës së fertilitetit, numrit të përgjithshëm të popullatës në Shqipëri.

2.1 Regresi linear i aplikuar në seritë kohore

Modelet lineare dhe aplikimet e tyre janë po aq dominuese në konteksin e serive kohore

sa edhe në statistikën klasike. Modelet e regresit janë të rëndësishme për modelet e

serive kohore. Në një seri kohore të përgjithshme funksioni i pritjes matematike është

një funksion arbitrar i kohës. Në një seri stacionare funksioni i pritjes matematike është

konstant në lidhje me kohën. Shpesh na duhet të zgjedhim rrugën e mesme dhe të

konsiderojmë funksione të pritjes matematike relativisht të thjeshta (por jo konstante)

në lidhje me kohën.

“Trendi” mund të jetë mjaft i pakapshëm. E njëjta seri kohore mund të shihet ndryshe

nga analistë të ndryshëm. Trendi i perceptuar shpesh është vetëm një artificë e

korrelacionit të fortë pozitiv midis vlerave të serisë kohore, në pika të afërta të kohës,

dhe rritjes së dispersionit në proces ndërkohë që koha rritet.

2.1.1 Përkufizime dhe modele

Në përgjithësi është e nevojshme që të dhënat e serive kohore të jenë stacionare. Në

vrojtimet e serive kohore e rëndësishme është të vlerësojmë me saktësi

autokorrelacionin. Do të ishte e vështirë të matje varësinë midis vlerave të vrojtuara

nëse struktura e varësisë nuk është e rregullt apo është duke ndryshuar me kohën.

Page 24: TEZË DOKTORATURE - api.fshn.edu.al

13

Ndoshta mënyra më e lehtë për të punuar me seritë kohore jo stacionare është trendi.

Mund ta shkruajmë këtë model të serive kohore si:

t t tX Y

(2.1)

ku, tX janë vëzhgimet,

t tregon trendin dhe tY është një proces stacionar. Shpesh një

trend i fortët , mund të errësojë sjelljen e një procesi stacionar

tY , sic do e shohim në

shembujt në vijim.

Regresi linear në konteksin e serive kohore është një metodë e thjeshtë për tëvlerësuar

trendin në vrojtimet e kryera. Modeli më i thjeshtë i regresit linear është ai i fuqisë së

parë:

1 2t tX t w (2.2)

ku, 1 2, janë koeficientë të panjohur të regresit (të cilët vlerësohen duke përdorur

metodën e katrorëve më të vegjël) dhe { }tw është një gabim i rastësishëm ose një proces

zhurmë me ndryshore rasti të pavarura dhe me shpërndarje të njëjtë normale me pritje

matematike zero dhe dispersion konstant, dhe tështë koha

Në shembujt në vijim ne do të interesohemi kryesisht për modelin e thjeshtë të regresit

linear. Mënyra më e thjeshtë për të përftuar një seri stacionare (në rastet kur trendi është

i dukshëm) është kombinimi i dy formulave (2.1) dhe (2.2). Hapat që ndiqen janë:

Hapi 1: Ndërto një model të regresit linear për serinë e vrojtuar ( )tX .

Bazuar në (2.2) le ta shënojmë këtë model

1 2ˆ

t t (2.3)

Hapi 2: Për të përftuar serinë pa trend zbresim nga vrojtimet origjinale vlerat e

vlerësuara në hapin 1, pra përftojmë:

1 2ˆ ˆt t t tY X X t

(2.4)

Nëse nga paraqitja grafike e serisë ˆtY , vihet re se njëendje e rastësishme mund të jetë

një model i mirë për trendin atëherë mund të modelohet trendi si një përbërëse

stokastike duke përdorur modelin e endjes së rastësishme me zhvendosje:

1t t tw

(2.5)

ku, tw është zhurma e bardhë dhe është e pavarur nga

tY . Nëse modeli i përshtatshëm

është (2.1) atëherë duke diferencuar vrojtimet tX , përftojmë njëproces stacionar:

1 1 1

1

( ) ( )

t t t t t t

t t t

X X Y Y

w Y Y

(2.6)

Do të tregohet në kapitujt në vijim se procesi i përftuar si diferencë e vrojtimeve (2.6)

është stacionar.

Page 25: TEZË DOKTORATURE - api.fshn.edu.al

14

Një avantazh i kryerjes së diferencave për të larguar trendin është se nuk kërkohet

vlerësimi i asnjë parametri gjatë veprimeve të diferencimit. Një disavantazh është se

veprimi i diferencimit nuk jep një vlerësim të procesit stacionar.

Shembull 2.1 Numri i lindjeve për muaj në Shqipëri (1985-2008)

Le të konsiderojmë të dhënat mbi numrin e lindjeve për muaj në Shqipëri për periudhën

1985-2008. Ashtu sikurse e vumë re në kapitullin 1, Figura 1.2/b, në këto të dhëna vihet

re një trend zbritës. Ne mund të përdorim regresin linear për të vlerësuar këtë trend duke

përshtatur një model si ai në (2.1). Po supozojmë gjithashtu se gabimet { }tw janë të

pavarur dhe me shpërndarje të njëjtë, gjë që mund edhe të mos jetë e vertetë. Vlerat e

parametrit kohë (t) janë marrë 0, 1, 2, 3,..., 288; kjo do të ndikojë vetëm në vlerën e

termit të lirë në modelin e regresit.

Duke aplikuar modelin dhe të dhënat mbi numrin e lindjeve në programin R përftojmë

koeficientët e vlerësuar 1 2=6864.724,   =18.758 dhe vlerën e koeficientit të

përcaktueshmërisë 0.7569. Figura 2.1 tregon qartë drejtëzën e regresit linear të modelit

të ndërtuar më sipër.

Figura 2.1 Trendi nëpërmjet regresit linear të numrit të lindjeve (1985-2008)

Trendi i zbuluar tregon një sjellje në zbritje të numrit të lindjeve në 20 vitet e fundit.

Por është e dukshme se vija e regresit linear të përftuar nëpërmjet regresit të thjeshtë

linear është vetëm një vlerësim i thjeshtë i trendit. Modele më të mira do të nevojiten

për të përshkruar sa më mirë sjelljen e kësaj serie kohore.

Shembull 2.2 Largimi i trendit nga seria e numrit të lindjeve (1985-2008)

Le të provojmë të stacionarizojmë serinë e lindjeve duke përdorur veprimin e

diferencimit. Në hyrje të kapitullit 2 përmendëm se diferencat e para të vrojtimeve

largojnë trendin linear në serinë kohore. Figura 2.2 tregon serinë e re të numrit të

lindjeve pas kryerjes së veprimit të diferencimit të rendit të parë.

0 50 100 150 200 250

2000

3000

4000

5000

6000

7000

8000

Muaj

Page 26: TEZË DOKTORATURE - api.fshn.edu.al

15

Figura 2.2 Seria e diferencave të para të numrit të lindjeve (1985-2008)

Vini re “largimin” e trendit linear në serinë e lindjeve për çdo muaj.

Shembull 2.3 Numri i martesave për muaj në Shqipëri (1985-2008)

Seria e martesave për çdo muaj në Shqipëri, me vrojtime prej Janarit të vitit 1985 deri

në Dhjetor të vitit 2008, është një tjetër seri interesante. Ashtu sikurse e vumë re edhe

në kapitullin 1 (Figura 1.4) kjo seri shfaq një sjellje me karakter kryesisht përsëritës.

Në Figurën 2.3 është paraqitur seria e vrojtimeve për numrin e martesave dhe drejtëza

e regresit linear në varësi të kohës.

Figura 2.3 Numri i martesave për muaj (1985-2008) dhe drejtëza e regresit linear

Shembull 2.4 Norma e fertilitetit (Total Fertility Rate) (1985-2008)

Në shembullin më poshtë kemi marrë në konsideratë normën e fertilitetit për çdo muaj

për Shqipërinë për periudhën 1985-2008. Le të japim disa përkufizime të nevojshme

për treguesit që po shqyrtojmë në këtë shembull.

Muaj 1985 1990 1995 2000 2005

-2000

-1000

0

1000

2000

0 50 100 150 200 250

500

1000

2000

3000

Muaj

Page 27: TEZË DOKTORATURE - api.fshn.edu.al

16

Norma e fertilitetit (TFR) për një popullatë është numri mesatar i fëmijëve që një femër

do të mund të lindte gjatë jetës së saj. Ky tregues është një vlerë mesatare pasi disa

femra mund të lindin më shumë fëmijë, disa më pak dhe disa të mos lindin. Teorikisht,

kur vlera e 2TFR , çdo çift zëvendëson veten.

Duke marrë në konsideratë faktin se nëçdo martesë është një grua përgjegjëse për të

dhënë jetë dhe në çdo martesë ka mundësi të larta që gruaja të lindë dhe të mbijetojë

lindjes së fëmijës, ne kemi vlerësuar normën e fertilitetit si raport i numrit të lindjeve

për muaj dhe numrit të martesave për muaj.

Numri i lindjeve per muaj TFR =

Numri i martesave per muaj (2.7)

Vlera më e vogël e normës së fertilitetit për Shqipërinë është 0.9342 dhe është vrojtuar

në Janar 2007 dhe vlera më e madhe është 7.3193 dhe është vrojtuar në Mars 2005.

Vihet re (me përjashtim të vlerës së vrojtuar në Mars 2005) se ky tregues ka një trend

zbritës. Duke përdorur modelin e regresit linear të përmendur më sipër (2.3) përftojmë

ekuacionin e drejtëzës së regresit:

TFR =3.37 - 0.006 *t

Dhe vlera të koeficientit të përcaktueshmërisë rreth 0.29. Nga Figura 2.4 duket se ky

trend është real.

Figura 2.4 Vlera e TFR për çdo muaj dhe drejtëza e regresit linear ( 1985-2008)

Qëndrueshmëria e serisë kohore të martesave ka ndikuar në serinë kohore të koeficientit

të TFR duke zbutur në këtë mënyrë trendin zbritës të imponuar nga seria e numrit të

lindjeve. Edhe në këtë shembull model i regresit linear nuk është i përshtatshëm për të

parashikuar ecurinë e këtij treguesi në të ardhmen.

Shembull 2.5 Norma e rritjes së popullatës (Population Growth Rate, PGR)

Shpesh ky tregues shprehet si:

0 50 100 150 200 250

1

2

3

4

5

6

7

Muaj

Page 28: TEZË DOKTORATURE - api.fshn.edu.al

17

- lim

Popullata në fund të periudhës Popullata në fil të periudhësPGR

Popullata në fund të periudhës

(2.8)

Formula (2.8) mund të shkruhet si vijon:

- t tPGR L V

(2.9)

Formula (2.9) rrjedh nga formula e përgjithshme e projeksionit të popullatës:

( 1) - t t tPopullata në momentin t P L V

(2.10)

ku,

t

t

t

P =Numri i Popullatës në momentin e kohës ,

= Numri i Lindjeve në momentin e kohës ,

V = Numri i Vdekjeve në momentin e kohës

t

L t

t

(2.11)

Modeli i plotë duhet të marrë në konsidertaë edhe numrin e emigrantëve dhe

imigranteve në momentin e kohës t, portë dhënat për Shqipërinë nuk janë të

mjaftueshme për të gjetur apo vlerësuar këta tregues. Ndaj ne kemi marrë në

konsideratë vetëm numrin e lindjeve dhe vdekjeve për periudhën 1985-2008.

Figura 2.5 Norma e rritjes së popullsisë për muaj (1985-2008)

Sikurse vihet re, nga Figura 2.4, kjo seri ka një trend zbritës e ndikuar kryesisht nga

trendi i serisë së numrit të lindjeve e cila tregon një zbritje të dukshme pas vitit 1995.

Ky trend vihet re edhe nga drejtëza e regresit linear në lidhje me kohën:

5839 -15.06* PGR t (2.12)

0 50 100 150 200 250

1000

2000

3000

4000

5000

6000

7000

Muaj

Page 29: TEZË DOKTORATURE - api.fshn.edu.al

18

Por gjithashtu edhe nga koefiçienti i përcaktueshmërisë: 2 0.6647R . Vlerat e

koeficientit të përcaktueshmërisë janë domethënëse.

Pasi kemi grupuar të dhënat sipas viteve përftojmë një seri më të reduktuar dhe një

drejtëz regresi e cila tregon tani më qartë trendin vjetor të këtij treguesi. Figura 2.6/a

dhe 2.6/b tregojnë qartë trendin zbritës.

Figura 2.6/a Norma e rritjes vjetore (PGR), 1985-2008

Figura 2.6/b Drejtëza e regresit linear të normës së rritjes vjetore (PGR), 1985-2008

Në fund të këtyre shembujve duam të theksojmë se modeli i regresit linear i vrojtimeve

në lidhje me kohën nuk është një model i mirë për ndërtimin e modeleve parashikuese

të serive kohore, kjo pasi natyra e serive kohore shfaq përvecse trendit edhe

karakteristika të tjera të rëndësishme (siç është përshembull: sezonaliteti dhe

periodiciteti).

2.2 Metodat e Sheshimit Eksponencial Metodat e sheshimit eksponencial janë zhvilluar që prej vitit 1950. Ord et al, 1997, dhe

Hyndman et al, 2002, japin një kornizë mbi modelet. Llogaritjet e vlerësimit të

Viti

1985 1990 1995 2000 2005

2000

3000

4000

5000

5 10 15 20

2000

3000

4000

5000

Viti

Page 30: TEZË DOKTORATURE - api.fshn.edu.al

19

parametrave, intervalet e besimit dhe proçedura mbi përzgjedhjen e modelit. Në këto

publikime, por edhe të tjera, janë zhvilluar studime mbi gjithë modelet e mundshme të

sheshimit eksponencial. Në këtë pjesë do të prezantojmë sheshimin eksponencial si dhe

hapësirën e modeleve të tij.

2.2.1 Dekompozimi i serive kohore Është më se e zakonshme në fushën e biznesit apo ekonomisë të mendojë një seri kohore

si kombinim i disa përbërëseve si për shembull trendi (T), cikli (C), sezonaliteti (S) dhe

përbërësja e gabimeve (E). Përcaktimi i këtyre përbërëseve mund të bëhet si më poshtë:

Trendi (T): Orientimi afatgjatë i serisë kohore

Sezonaliteti (S): Një model që përsëritet me një period të njohur

(psh; 12 mujore, 7 ditore etj)

Cikël: Një model që përsëritet me një rregullsi por me periodicitet të

panjohur dhe që ndryshon (psh; një cikël financiar)

Gabimet: Komponentja e paparashikueshme e series

Figura 2.7 Vlerat e përftuara nga metoda e sheshimit eksponencial Holt-Winters

për katër seritë e mësipërme

Në këtë material do të përqëndrohemi kryesisht në tre përbërëset T, S dhe E. Çdo

element ciklik do të përmblidhet me përbërësen trend përveç rasteve kur ai është i

dukshëm.

Këta tre përbërës mund të kombinohen në një numër të ndryshëm mënyrash. Një model

i pastër aditiv mund të shprehet si:

X T S E (2.13)

ku, tre përbërësit mblidhen së bashku për të formuar serinë e vëzhguar.

Një model i pastër multiplikativ mund të shprehet si:

Holt-Winters filtering

Time

Observ

ed /

Fitte

d

1990 1995 2000 2005

2000

5000

8000

Holt-Winters filtering

Time

Observ

ed /

Fitte

d

1990 1995 2000 2005

500

1500

3000

Holt-Winters filtering

Time

Observ

ed /

Fitte

d

2006.0 2006.5 2007.0 2007.5 2008.0 2008.5

20000

80000

140000

Holt-Winters filtering

Time

Observ

ed /

Fitte

d

1990 1995 2000 2005

12

34

56

7

Page 31: TEZË DOKTORATURE - api.fshn.edu.al

20

x x X T S E (2.14)

ku të dhënat formohen si rezultat i prodhimit të tre përbërëseve.

Një seri sezonale e rregulluar formohet duke larguar përbërësen sezonale nga të dhënat

dhe duke lënë vetëm dy përbërëset trend dhe gabim. Në modelin aditiv, seria e

rregulluar sezonale është X S , ndërsa në modelin multiplikativ seria sezonale e

rregulluar është /X S . Për detaje të mëtejshme mbi rregullimet sezonale dhe

dekompozimin e serive kohore mund të shihet Makridakis et al (1998).

Kombinime të tjera, përvec modeleve të thjeshta aditive dhe multiplikative, janë të

mundshme. Për shembull,

( + ) x X T S E (2.15)

e cila trajton përbërësen e parregullt si multiplikative dhe përbërëset e tjera si aditive.

(Për referenca shiko Hyndman (2004))

2.2.2 Klasifikimi i Metodave të Sheshimit Eksponencial

Në sheshimin eksponencial gjithmonë nisim me një përbërës trend i cili është një

kombinim i termit të nivelit (l) dhe termit të rritjes (b). Niveli dhe rritja mund të

kombinohen në disa mënyra duke dhënë pesë lloje të trendit në të ardhmen. Le të

shënojmë Th trendin e parashikuar pas h periodave të ardhshme, dhe shënojmë një

parametër “shuarës” (damp) ( 0 1 ). Pesë llojet e trendit apo modeleve të rritjes

janë si vijon:

Asnjë: T lh

Aditiv: T l bhh

Aditiv damped: 2( ... )hT l bh

Multiplikativ: hT lbh

Multiplikativ damped: 2( ... )h

T lbh

Një metodë me trend në “shuarje” (damped trend) është e përshtatshme kur në serinë

kohore besohet se norma e rritjes në fund të të dhënave historike nuk ka gjasa të

vazhdojë më shumë se një periudhë e shkurtër në të ardhmen. Ekuacioni për trendin

damped bën atë që emërtimi tregon: shuan trendin me rritjen e horizontit të

parashikimit. Kjo përmirëson shpesh cilësinë e parashikimit, në vecanti për intervale të

gjata kohore.

Pasi kemi përzgjedhur një përbërëse trend mund të prezantojmë një përbërëse sezonale

dhe një gabim, aditiv apo multiplikativ. Nga të dhënat historike natyra e përbërëses së

gabimit nuk është marrë në konsideratë pasi gabimet aditive apo multiplikative nuk

ndikojnë në parashikime.

Page 32: TEZË DOKTORATURE - api.fshn.edu.al

21

Nëse përbërësja e gabimit nuk merret në konsideratë atëherë kemi pesëmbëdhjetë

metoda të sheshimit eksponencial të pasqyruara në Tabelën 2.1. Ky klasifikim

(taksonomi) i metodave u prezantua fillimisht nga Pegels’ (1969) dhe u vazhdua më tej

nga Gardner (1985), Hyndman et al. (2002, 2005), Taylor (2003).

Tabela 2.1 Klasifikimi i metodave të sheshimit eksponencial (Hyndman et al, 2000)

Përbërësja sezonale

N

(pa sezonalitet)

A

(Aditiv)

M

(Multiplikativ) Përbërësja Trend

N (pa trend) N, N N, A N, M

A (Aditiv) A, N A, A A, M

Ad (Aditiv damped) Ad, N Ad, A Ad, M

M (Multiplikativ) M, N M, A M, M

Md (Multiplikativ

damped) Md, N Md, A Md, M

Disa nga metodat e tabelës 2.1 njihen me emra të tjerë përshembull: (N, N) përshkruan

metodën e thjeshtë eksponenciale (ose SES- Simple Exponential Smoothing); (A, N)

përshkruan metodën lineare Holt’s; (A, A) përshkruan metodën Holt-Winters’ aditive;

(A, M) metodën multiplikative Holt-Winters. Qelizat e tjera të tabelës përfaqësojnë

metoda të sheshimit eksponencial më pak të njohura.

Për secilën nga 15 metodat e përshkruar në tabelën 2.1 ekzistojnë dy hapësira të

mundshme modelesh, njëra me përbërëse gabim aditive dhe tjetra multiplikative. Nëse

përdoren të njëjtat vlera të parametrave atëherë këto dy modele do të japin të njëjtat

vlera të parashikuara pavarësisht intervaleve të ndryshme të parashikimeve. Pra,

ekzistojnë 30 modele të mundshme të përshkruara nga ky klasifikim.

2.3 Parashikimi pikësor për metodat më të njohura

Duhet të kemi parasysh dallimin midis metodave të sheshimit eksponencial dhe

hapësirës së modeleve themelore. Një metodë e sheshimit eksponencial është një

algoritëm për prodhimin e vlerave të parashikuara. Hapësira e modeleve themelore jep

të njëjtat vlera për parashikimin por gjithashtu siguron një kornizë për të llogaritur

intervalet e parashikimit dhe veti të tjera.

2.3.1 Sheshimi i thjeshtë eksponencial (N, N)

Le të supozojmë se kemi grumbulluar të dhëna deri në një moment kohe t-1,

1 2 1{ , ,..., }tX X X , dhe kërkojmë të parashikojmë vlerën pasardhëse të serisë sonë

kohore, Xt.Vlerën e parashikimit tonë do ta shënojmë ˆtX . Kur vlera tX të bëhet e

disponueshme, gabimi në parashikim do të jetë ˆt tX X . Metoda e thjeshtë e sheshimit

Page 33: TEZË DOKTORATURE - api.fshn.edu.al

22

eksponencial (e njohur gjithashtu si metoda e sheshimit eksponencial me një parametër)

u prezantua nga Brown (1959), ajo merr në konsideratë vlerën e parashikuar në

momentin e mëparshëm dhe e rregullon atë duke përdorur gabimin gjatë parashikimit.

Pra parashikimi për momentin pasardhës sipas kësaj metode do të jepej nga formula:

1

ˆ ˆ ˆ( )t t t tX X X X (2.16)

ku, është një konstante midis 0 dhe 1.

Pra siç vihet re, parashikimi i ri është parashikimi i vjetër plus një rregullim për gabimin

që ka ndodhur në parashikimin e fundit të kryer. Kur ka një vlerë pranë 1, parashikimi

i ri do të përfshijë një rregullim thelbësor për gabimin në parashikimin e mëparshëm.

Anasjelltas kur ka një vlerë pranë 0, parashikimi i ri do të përfshijë shumë pak

rregullime.

Një mënyrë tjetër për të shkruar (2.16) është:

1

ˆ ˆ(1 )t t tX X X (2.17)

Parashikimi1

ˆtX

bazohet në peshimin e vrojtimeve më të fundit tX me një peshë ,

dhe parashikimin më të fundit ˆtX me një peshë1 . Në këtë mënyrë kjo metodë mund

të interpretohet si një mesatare e lëvizshme e parashikimeve më të fundit dhe vrojtimeve

më të fundit.

Implikimi i sheshimit eksponencial mund të vihet re më lehtë nëse (2.17) zgjerohet duke

zëvendësuar ˆtX me përbërëset e saj, si në vijim:

1 1 1

2

1 1

ˆ ˆ(1 )[ (1 ) ]

ˆ (1 ) (1 )

t t t t

t t t

X X X X

X X X

(2.18)

Nëse vazhdohet me këtë proces zëvendësimi rezultati do të ishte:

2 3

1 1 2 3

4 1

4 1 1

ˆ (1 ) (1 ) (1 )

ˆ (1 ) ... (1 ) (1 )

t t t t t

t t

t

X X X X X

X X X

(2.19)

Pra,1

ˆtX

përfaqëson një mesatare të lëvizshme të peshuar të gjithë vrojtimeve të

shkuara me pesha që vijnë duke u zvogëluar eksponencialisht; nga kjo vjen dhe emri

“sheshim eksponencial”. Vëmë re se, pesha e 1X mund të jetë relativisht e madhe kur

është e vogël dhe seria kohore është me përmasë të vogël. Përzgjedhja e vlerës

fillestare të është e rëndësishme dhe njihet si “problem fillestar” të cilin do ta

trajtojmë në vijim.

Një vlerë e parashikuar e t hX bazuar mbi gjithë vlerat e vrojtuara deri në momentin e

kohës t shënohet/

ˆt h tX

. Për parashikimet me një hap do të përdorim shënimet

1 1/ˆ ˆ

t t tX X .

Page 34: TEZË DOKTORATURE - api.fshn.edu.al

23

Për parashikime me periodë të madhe, supozohet se funksioni i parashikimit është i

“sheshtë”, pra:

/ 1

ˆ ˆ , 2,3,...t h t tX X h (2.20)

Një funksion i sheshtë parashikimi përdoret sepse sheshimi eksponencial i thjeshtë

funksionon më mirë për të dhëna të cilat nuk kanë trend, sezonalitet apo të tjera

karakteristika.

Një mënyrë tjetër për ta shkruar këtë është zëvendësimi i 1

ˆt tl X . Pastaj,

t h t tX l

dhe1(1 )t t tl X l . Vlera e

tl është një matës i “nivelit” të serisë në momentin e

kohës t.

Në mënyrë që të llogarisim vlerën e parashikuar duke përdorur metodën e thjeshtë të

sheshimit eksponencial duhet të specifikojmë vlerën fillestare 0 1

ˆl X dhe vlerën e

parametrit . Tradicionalisht vlera e 1X merrej e njëjtë me vlerën e parë të vrojtuar dhe

specifikohej të ishte një vlerë e vogël, shpesh 0.2. Në ditët e sotme ka mënyra më

efikase për të përzgjedhur këto parametra për të cilat ne do të flasim në vijim.

2.3.2 Metoda lineare Holt (A, N)

Holt (1957) e zgjeroi sheshimin e thjeshtë eksponencial në sheshimin eksponencial

linear me qëllim lejimin e parashikimit në të dhëna që shfaqin trend. Parashikimet sipas

kësaj metode gjenden duke përdorur dy konstante sheshuese, dhe * (me vlera

midis 0 dhe 1), dhe tre ekuacione:

Niveli : 1 1(1 )( )t t t tl X l b

(2.21a)

Rritja: * *

1 1( ) (1 )t t t tb l l b (2.21b)

Parashikimi: /

ˆt h t t tX l b h

(2.21c)

ku,tl tregon një vlerësues të nivelit të serisë kohore në momentin e kohës t, dhe

tb

tregon një vlerësues të rritjes së serisë kohore në momentin e kohës t. Vini re se, tb

është një mesatare e peshuar e rritjes së mëparshme 1tb dhe një vlerësues i rritjes i

bazuar në diferencën midis niveleve të njëpasnjëshme. Arsyeja përse në shënimet tona

përdorim * në vend të do të bëhet e qartë kur të të flasim për hapësirën e modeleve

të sheshimit eksponencial.

Në rastin e veçantë kur * , metoda Holt është ekuivalente me metodë e Brown të

sheshimit eksponencial me dy parametra [Brown, 1959]. Brown përdor një argument të

zhvlerësuar (discounting) për të arritur në ekuacionin e tij për parashikimin, pra 1

përfaqëson faktorin e zakonshëm që aplikohet në përbërëset trend dhe nivel.

Një rast i veçantë i kësaj metode është rasti kur * 0 . Në këtë rast:

Niveli: 1(1 )( )t t tl X l b

Parashikimi: /

ˆt h t tX l bh

Page 35: TEZË DOKTORATURE - api.fshn.edu.al

24

Kjo metodë njihet si “sheshimi eksponencial me zhvendosje (drift) dhe është i lidhur

ngushtë me metodën “Theta” të parashikimit të përdorur nga Assimakopoulos dhe

Nikolopoulos (2000). Lidhja midis këtyre metodave u tregua nga Hyndman dhe Billah

(2003).

2.3.3 Metoda me trend të shuar (damped) (Ad, A)

Gardner dhe Mckenzie (1985) propozuan një modifikim të metodës lineare Holt me

qëllim lejimin e shuarjes së trendit. Ekuacionet për këtë metodë janë:

Niveli: 1 1(1 )( )t t t tl X l b

(2.22a)

Rritja: * *

1 1( ) (1 )t t t tb l l b (2.22b)

Parashikimi: 2

/ˆ ( ... )h

t h t t tX l b (2.22c)

Pra rritja për një hap të parashikimit të1tX është

tb dhe rritja shuhet (damped) nga

një faktor i për çdo moment kohe në të ardhmen. Nëse 1 kjo metodë jep të njëjtin

parashikim me metodën lineare Holt. Nëse 0 1 kur h , parashikimi i

përafrohet një asimptote të dhënë nga / (1 )t tl b . Për të mënjanuar rastin që një

koefiçient negativ t’i aplikohet 1tb në (2.24b) zakonisht kufizohet 0 dhe 1 për

të mënjanuar rritjen eksponenciale të tb .

2.3.4 Metoda Holt- Winters me trend dhe sezonalitet

Nëse të dhënat e vrojtuara nuk kanë trend apo sezonalitet atëherë sheshimi eksponencial

i thjeshtë është i përshtatshëm. Nëse të dhënat e vrojtuara shfaqin trend, atëherë metoda

lineare Holt është e përshtatshme. Por nëse të dhënat janë sezonale këto metoda nuk

mund ta trajtojnë mirë problemin.

Holt (1957) propozoi një metodë për të dhëna sezonale. Kjo metodë u studiua më tej

nga Winters (1960), dhe tani ajo njihet me emrin “Metoda Holt-Winters”.

Metoda Holt-Winters bazohet në tre ekuacione sheshimi, një për nivelin, një për trendin

dhe një për sezonalitetin. Është e ngjashme me metodën lineare Holt, me një ekuacion

shtesë që merr në konsideratë sezonalitetin. Në fakt ka dy metoda të ndryshme Holt-

Winters, në varësi të modelimit të sezonalitetit (aditiv apo multiplikativ).

Sezonaliteti multiplikativ (metoda (A, M))

Ekuacionet bazë për metodën multiplikative Holt-Winters janë:

Niveli: 1 1(1 )( )t

t t t

t

Xl l b

s m

(2.23a)

Rritja: * *

1 1( ) (1 )t t t tb l l b (2.23b)

Sezonaliteti: 1 1/ ( ) (1 )t t t t t ms X l b s (2.23c)

Parashikimi: ˆ ( )/

X l b h st tt h t t m hm (2.23d)

Page 36: TEZË DOKTORATURE - api.fshn.edu.al

25

ku, m është gjatësia e sezonalitetit (për shembull, numri i muajve apo stinëve të vitit),

tl përfaqëson nivelin e serisë, tb tregon rritjen,

ts është përbërësja sezonale, /

ˆt h tX

është

parashikimi për h perioda në të ardhmen dhe [( 1)mod ] 1mh h m . Parametrat *( , , ) shpesh kufizohen të marrin vlera brenda intervalit ]0, 1[ . Në vijim do t’i

rikthehemi këtyre kufizimeve si dhe vlerave fillestare dhe vlerësuesve të parametrave

të metodës.

Ekuacioni (2.23c) shkruhet ndryshe nga autorë si Makridakis et al (1998) apo

Bowerman et al (2005):

/ (1 )t t t t ms X l s

Modifikimi i dhënë në (2.22c) u propozua nga Ord et al (1997) për të lehtësuar

formulimin e hapësirës. Ajo është e njëjtë me propozimin e Archibaldit (1990).

Modifikimi jep një ndryshim të vogël por të papërfillshëm të parashikimit.

Sezonaliteti aditiv (metoda (A, A))

Këto komponente në metodën Holt-Winters mund të trajtohen në mënyrë aditive,

megjithëse ky trajtim përdoret shumë pak në praktikë. Ekuacionet bazë për metodën

aditive Holt-Winters janë:

Niveli: 1 1( ) (1 )( )t t t m t tl X s l b

(2.24a)

Rritja: * *

1 1( ) (1 )t t t tb l l b (2.24b)

Sezonaliteti: 1 1( ) (1 )t t t t t ms X l b s (2.24c)

Parashikimi: ˆ/

X l b h st h t t t

t m hm

(2.24d)

Ekuacioni i dytë është i njëjtë me (2.23b) të vetmet ndryshime në ekuacionet e tjera

janë se treguesit sezonal tanimë i shtohen apo zbriten në vend që të merret prodhimi

apo raportet.

Ashtu sikurse edhe me modelin multiplikativ, ekuacioni më i përdorur në tekste për

termin sezonal është ndryshe nga (2.26c). Shumica e teksteve përdorin:

* *( ) (1 )t t t t ms X l s

Nëse zëvendësojmë lt duke përdorur (2.26a) përftojmë:

* *

1 1(1 )( ) [1 (1 )]t t t t t ms X l b s

Pra, përftojmë të njëjtat parashikime nëse zëvendesojmë në (2.26c) me *(1 ) .

2.4 Parashikimi pikësor për gjithë metodat

Le të prezantojmë në këtë pjesë hapësirën e modeleve të sheshimit eksponencial. Për

secilën metodë ka dy modele, një model me gabime aditive dhe një model me gabime

multiplikative. Parashikimet pikësore për të dy modelet janë të njëjta por intervalet e

parashikimit do të ndryshojnë.

Page 37: TEZË DOKTORATURE - api.fshn.edu.al

26

Me qëllim dallimin e modeleve aditive dhe multiplikative i shtohet një gërmë tjetër

secilit shënim të modelit. Treshja (E, T, S) i referohet tre përbërëseve gabim (Error),

trend dhe sezonalitet. Kështu, modeli ETS (A, A, N) ka gabime aditive, trend aditiv dhe

nuk ka sezonalitet (ky është modeli linear Holt me gabime aditive). Në mënyrë të

ngjashme ETS (M, Md, M) i referohet një modeli me gabime multiplikative, trend në

shuarje (damped) multiplikativ dhe sezonalitet multiplikativ. Shënimi ETS (...) shërben

për të kujtuar rendin në të cilin janë specifikuar përbërëset. ETS mund të konsiderohet

edhe një shkurtim i Exponential Smoothing.

Tabela mbi llogaritjet rekursive dhe parashikimin e 15 modeleve të sheshimit

eksponencial të përmendura në krye të kreut gjendet në shtojcë. (Shtojca 1)

2.5 Vlerat fillestare dhe vlerësimi

2.5.1 Vlerat fillestare

Nëse duam të përdorim këto modele për qëllime parashikimi ne duhet të specifikojmë

llojin e modelit, vlerat fillestare y0 dhe vlerat e parametrave , , dhe (nëpërmjet

vlerësimit).

Tradicionalisht vlera fillestare specifikohet duke përdorur një vlerë të përzgjedhur ad

hoc, apo sipas një skeme euristike. Skema euristike e propozuar nga Hyndman et al

duket të funksionojë mjaft mirë. Hapat që ajo ndjek janë:

Vlera fillestare e përbërëses sezonale.

Për vrojtime sezonale njehsojmë mesataren e lëvizshme të rendit 2xm, duke shfrytëzuar

të dhënat paraprake, shënojmë {ft}, t=m/2 +1, m/2 +2,... . Për sezonalitetin aditiv,

largojmë trendin nga vrojtimet me qëllim përftimin e Xt+ft; për sezonalitetin

multiplikativ, largojmë trendin nga vrojtimet me qëllim përftimin e Xt/ ft. Njehsojmë

treguesit fillestar sezonal, s-m+1, s-m+2, ... , s0 duke llogaritur mesataren e vrojtimeve, me

trend të larguar, për çdo sezon. Normalizojmë këta tregues sezonal në mënyrë që ata

të qëndrojnë të pandryshuar për sezonalitetin aditiv dhe t’i shtohen m-së për

sezonalitetin multiplikativ.

Vlera fillestare e nivelit

Për vrojtime sezonale njehsojmë një trend linear duke përdorur regresin linear në 10

vrojtimet e para sezonale të rregulluara (pra, duke përdorur treguesit sezonal të njehsuar

më sipër) kundrejt variablit kohë t=1,2,..., 10. Për të dhënat jo-sezonale njehsojmë një

trend linear duke shfrytëzuar 10 vlerat e para të vrojtuara në lidhje me variablin kohë

t=1,2, ... ,10. Shënojmë l0 termin e lirë të ekuacionit të drejtëzës së regresit linear të

thjeshtë.

Vlera fillestare e rritjes

Për trendin aditiv, shënojmë b0 koeficientin pranë ndryshores së pavarur në ekuacionin

e drejtëzës së regresit. Për trendin multiplikativ shënojmë 0 1b

ba

, ku a tregon termin

e lirë dhe b tregon koeficientin pranë ndryshores së pavarur të trendit të përshtatur. Këto

vlera përmirësohen më vonë duke i vlerësuar së bashku me parametrat e tjerë të modelit.

Page 38: TEZË DOKTORATURE - api.fshn.edu.al

27

2.5.2 Vlerësimi Për të ndërtuar modelin e përshtatshëm të serisë kohore duhet të vlerësohen parametrat

e modelit dhe gjendjet fillestare. Vlerësuesit e përgjasisë maksimale janë mjaft të

kërkuar për këto proçedura sepse janë të qëndrueshëm dhe asimptotikisht efiçentë nën

disa kushte të arsyeshme [Gallant 1987, fq. 357-391; Hamilton 1994, fq. 133-149]. Hyndman et al (2008, fq. 67-68) tregojnë se parametrat , , dhe vektori i gjendjeve

fillestare y0 mund të vlerësohen duke minimizuar:

* 2

0

1 1

( , ) log( ) 2 log | ( 1) |n n

t t

t t

L y n r y

(2.27)

ku, ( , , , ) ' ,0 0 0 0 1 1( , , , ,..., ) 'my l b s s s dhe n- numri i vrojtimeve të kryera.

Vlerësime alternative mund të përftohen duke minimizuar MSE (gabimin mesatar

katror), minimizimin e dispersionit të mbetjeve apo ndonjë kriteri tjetër i cili mat

gabimin e parashikimit.

Cilido prej kritereve që mund të përdoret zakonisht fillohet optimizimi me y0 sipas

skemës së mësipërme të propozuar nga Hyndman et al dhe (0.1,0.01,0.01,0.99) ' .

Ka disa sugjerime mbi kufizimet e parametrave , , . Përafrimi tradicional është të

sigurojë që ekuacionet e ndryshme të interpretohen si mesatare të lëvizshme, pra

kërkohet që * *, , ,1

të marrin vlera brenda intervalit (0,1). Kjo

sugjeron që: 0 1,0 ,0 1 ,0 1 . Megjithëse disa autorë pohojnë

se këto kufizime janë shpesh më shumë seç duhen.

2.6 Cilësia e parashikimit

Problemi i matjes së cilësisë së parashikimit të dhënë nga disa metoda të ndryshme ka

qënë subjekt që ka tërhequr vëmendjen e shumë studiuesve në fushën e serive kohore.

Një diskutim i plotë mbi këtë çështje jepet nga Hyndman dhe Koehler (2006). Ka tre

raste sipas të cilave mund të ketë lindur një parashikim:

1. Parashikimi mund të jetë përftuar nga një bazë vrojtimesh të zakonshme kohore. Pra,

bazuar mbi vrojtimet në momentet e kohës t=1, ... , n mund të përftohen parashikimet

me një periodë kohe pas momentit të kohës n.

2. Parashikimi mund të jetë përftuar nga vrojtime në baza të ndryshme kohore.

3. Mund të duam të krahasojmë cilësinë e metodave midis disa serive në një horizont

parashikimi të përbashkët.

Ndërkohë që këto janë situata të ndryshme, matja e cilësisë së parashikimit është e njëjtë

në secilin rast. Madhësitë e përmendura më poshtë në material janë përshkruar për

parashikimet me një hap përpara; përgjithësimi për h-hapa përpara është i

menjëhershëm në çdo rast dhe nuk con në pyetje të reja parimore.

2.6.1 Gabimet që varen nga shkallëzimi

Gabimi i parashikimit me një hap përpara është ˆe X Xt t t , pa i kushtuar vëmëndje

mënyrës se si është përftuar parashikimi. Në mënyrë të ngjashme gabimi i parashikimit

Page 39: TEZË DOKTORATURE - api.fshn.edu.al

28

me h-hapa përpara është ˆ| |

e X Xt ht t h t ht

. Ky gabim është në të njëjtën shkallë

me vrojtimet. Madhësitë e cilësisë së parashikimit që bazohen në et varen nga

shkallëzimi.

Dy madhësitë më të përdorshme bazohen në gabimet absolute ose katrorët e gabimeve:

Gabimi mesatar absolut (MAE-Mean Absolute Error) = (| |)tmesatarja e

Gabimi mesatar katror (MSE-Mean Squared Error) = 2( )tmesatarja e

Kur krahasohen metodat parashikuese në të njëjtën seri, preferohet të përdoret si

madhësi krahasuese MAE duke qënë se është e lehtë për t’u kuptuar dhe njehsuar. Ajo

nuk mund të përdoret për të bërë krahasime midis serive sepse është e pakuptimtë të

krahasosh cilësinë në shkallë të ndryshme.

2.6.2 Gabimet përqindje (percentage errors)

Gabimi përqindje jepet nga 100tt

t

ep

y . Gabimet përqindje kanë përparësinë se janë të

pavarur nga shkalla, nuk kanë një shkallë natyrale dhe për këtë qëllim përdoren

kryesisht për të krahasuar performancën parashikuese midis serive kohore të ndryshme.

Madhësia më shumë e përdorshme është:

Gabimi përqindje mesatar absolut (MAPE-Mean Absolute Percentage Error) =

(| |)tmesatarja p

Madhësitë e bazuar në gabimet në përqindje kanë mangësinë e të qënit të pafundme apo

të papërcaktuara nëse yt =0 për ndonjë t në periudhën që interesohemi, dhe të pasurit e

një shpërndarje shumë asimetrike kur ndonjë vlerë e ytështë pranë zeros. Një problem

tjetër që neglizhohet me gabimet në përqindje është fakti se ato supozojnë vlera

pozitive. Për shembull, një gabim në përqindje nuk ka kuptim nëse matet cilësia e

parashikimeve të temperaturës në shkallët Celcius apo Fahrenheit.

Ato gjithashtu kanë mangësinë e penalizimit rëndë të gabimeve pozitive sesa atyre

negative. Ky konstatim çoi në përdorimin e të ashtuquajturës MAPE “simetrike” të

propozuar nga Makridakis (1993), e cila u përdor në konkurimin e M3 (Makridakis dhe

Hibon, 2000). Kjo madhësi përcaktohet si:

Gabimi- përqindje mesatar absolut (sMAPE) = ˆ ˆ(200 | | /( ))t t t tmesatarja y y y y

Nëse ty është zero atëherë ˆ

ty ka shumë mundësi të jetë shumë pranë zeros. Pra,

madhësia ende përmban pjestimin me një numër shumë pranë zeros. Gjithashtu vlera e

sMAPE mund të jetë negative, pra nuk është një madhësi e “gabimit- përqindje mesatar

absolut’.

2.6.3 Gabimet e shkallëzuar (scaled errors)

MASE u propozua nga Hyndman dhe Koehler (2006) si një madhësi e përgjithshme për

matjen e cilësisë së parashikimit. Ata propozuan të shkallëzojnë gabimet bazuar në in-

Page 40: TEZË DOKTORATURE - api.fshn.edu.al

29

sample MAE nga metoda naive e parashikimit. Kështu një gabim i shkallëzuar

përkufizohet si:

1

2

1| |

1

tt n

i i

i

eq

y yn

dhe është i pavarur nga shkalla e vrojtimeve. Një gabim i shkallëzuar është më i vogël

se 1 nëse vjen nga një parashikim më i mirë se parashikimi naïve sipas mesatares për

një zgjedhje. Anasjelltas është më i madh se 1 nëse parashikimi është më i “keq” sesa

parashikimi naïve sipas mesatares për një zgjedhje.

Gabimi i mesatar absolut i shkallëzuar përcaktohet si:

MASE = (| |)tmesatarja q

MASE mund të përdoret për të krahasuar metoda të parashikimit në një seri të vetme

dhe për të krahasuar cilësinë e parashikimit midis serive duke qënë se ajo është scale-

free. Është i vetmi tregues që mund të përdoret në të gjitha rastet. Kur MAE<1, metoda

e propozuar jep gabime më të vogla se metoda naïve. MASE është më pak e ndjeshme

ndaj vlerave të huaja, e lehtë të interpretohet dhe pak e ndryshueshme për zgjedhje me

përmasë të vogël.

2.7 Përzgjedhja e modelit të parashikimit

Synimi në përzgjedhjen e modelit është gjetja e modelit me cilësi më të mira

parashikuese. Përzgjedhja e modelit me vlera të vogla të gabimeve apo minimizim të

vlerësuesit sipas metodës së përgjasisë maksimale nuk na siguron që modeli do të jetë

më i miri për parashikime.

Një mënyrë tjetër është përdorimi i një kriteri informacioni i cili në formën e

përgjithshme të tij shfaqet si:

0

ˆ2log ( , | ) ( )IC L y y q n (2.28)

ku, 0

ˆ( , | )L y y është funksioni i përgjasisë maksimale, q është numri i parametrave në

vektorin plus numri i gjendjeve të lira në0y , dhe ( )n është një funksion i përmasës

së zgjedhjes. Pra, ( )n është një penalitet që i shoqërohet një modeli për numrin e

parametrave dhe gjendjeve në model. 1

Tabela 2.2 përmbledh disa nga kriteret e informacionit dhe penalitetet përkatëse.

Tabela 2.2 Kriteret e informacionit

Kriteri ( )n Penaliteti Burimi

AIC 2 2q Akaike (1974)

BIC log(n) qlog(n) Schvarz(1978)

HQIC 2log(log(n)) 2qlog((log(n)) Hannan dhe quinn (1979)

AICc 2n/(n-q-1) 2qn/(n-q-1) Sugiura (1978)

LEIC c empirike qc Billah et al (2003)

1 Për më tepër informacion shiko Hyndman et al, 2008

Page 41: TEZË DOKTORATURE - api.fshn.edu.al

30

Në kriterin e informacionit Akaike (AIC) (Akaike 1974), ( ) 2n dhe penaliteti

është2q. AIC rrjedh duke konsideruar parimet e përgjasisë maksimale dhe entropisë

negative. Le të supozojmë se duhet të parashikojmë vlerat e ardhshme të një serie

kohore *

1[ ,..., ]n n hy y y duke shfrytëzuar vlerat e tashme dhe të shkuara

1[ ,..., ]ny y y . Përzgjedhja e modelit mund të shihet si problemi i përafrimit të*( | )f y y , densiteti i vërtetë i kushtëzuar i *y kur dihet se y është vrojtuar. Nëse *( | )g y y është një vlerësues i f , mirësia e tij në përafrimin e f do të mund të matej

nëpërmjet entropisë së tij negative.

*

** *

*|

( | )( , ) ( | ) log

( | )y y

f y yI f g f y y dy

g y y

Parimi i entropisë negative është të përzgjedhë densitetin e përafruar g që minimizon

pritjen matematike të entropisë negative *|[ ( , )]

y yE I f g [Akaike, 1977]. Entropitë

negative të modeleve të ndryshme duhet të vlerësohen me qëllim gjetjen e vlerës

minimale të këtij treguesi. Kriteri i informacionit Akaike vlerëson dy herë entropinë

negative dhe është dizenjuar për të prodhuar një vlerësues simptotikisht të

pazhvendosur me rritjen e n-së. Pra, modeli i cili ka vlerën minimale të AIC duhet të

ketë gabim parashikues më të vogël për *y , të paktën asimptotikisht.

Në kriterin e informacionit Bejesian (BIC) [Schvarz, 1978], ( ) log( )n n dhe

penaliteti është log( )q n . Kriteri i Shvarz-it erdhi si zgjidhje bejesiane e problemit të

identifikimit të modelit. BIC është i qëndrueshëm sipas rendit (order consistent) nën

disa kushte të qëndrueshme. Një kriter është i qëndrueshëm sipas rendit nëse me rritjen

e vëllimit të zgjedhjes kriteri minimizohet në rendin e vërtetë me probabilitet që shkon

drejt 1. Për modelet tona rendi është numri i parametrave dhe gjendjeve të lira. Në

kontrast, AIC është kritikuar si i paqëndrueshëm dhe tenton të mbivlerësojë modelet.

Geweke dhe Meese (1981) e treguan këtë për modelet e regresit linear, Shibata (1976)

për modelet autoregresive dhe Hannan (1980) për modelet ARMA.

Në kriterin e informacionit Hannan–Quinn (HQIC) [Hannan dhe Quinn, 1979],

( ) 2log(log( ))n n dhe penaliteti 2 log(log( ))q n . Për të kuptuar më mirë qëllimin e

Hannan dhe Quinn le ta shkruajmë kriterin e informacionit (2.28) në formën Gausiane

të tij2:

2

1 1

log( ) 2 log | ( 1) | ( )n n

t t

t t

IC n r y q n

(2.29)

Duke pjestuar të dy anët me n:

2

1 1

2log( ) log | ( 1) |

n n

t t n

t t

IC r y qCn

ku, 1 ( )nC n n .

Synimi i Hannan dhe Quinn ishte të gjenin një kriter informacioni, bazuar në

minimizimin e IC, i cili të ishte i qëndrueshëm sipas rendit dhe për të cilin nC të

2Referenca Hyndman et al, 2008 (fq. 67-119)

Page 42: TEZË DOKTORATURE - api.fshn.edu.al

31

zvogëlohej me ritme të shpejta. Pra, HQIC ka vetinë, ashtu sikurse BIC, e të qënit i

qëndrueshëm sipas rendit dhe i afrohet performancës optimale parashikuese të AIC-së.

Në kriterin e informacionit AIC me zhvendosje të korregjuar (AICc) [Sugiura 1978;

Hurvich dhe Tsai 1989], ( ) / ( 1)n n n q dhe penaliteti 2 / ( 1)qn n q . Ndërsa

BIC dhe HQIC janë të qëndrueshëm sipas rendit, ata nuk janë asimptotikisht eficentë

si AIC. Për më tepër AIC është një vlerësues përafërsisht i pazhvendosur dhe ka një

zhvendosje negative e cila bëhet më e theksuar me rritjen e raportit n/q. AICc është një

kriter informacioni asimptotikisht eficent i cili bën një rregullim të përafërt për këtë

zhvendosje negative, dhe ka treguar se jep modele më të mira për vëllime zgjedhje të

vogla.

2.8 Parashikimi automatik në R

Llogaritjet kërkojnë kohë dhe shpesh janë të dyshimta për modelin e përshtatur.

Përgjithësisht nuk ka një metodë e cila të performojë më mirë në çdo seri kohore. Për

seri kohore me cilësi të ndryshme ka metoda të ndryshme parashikimi që performojnë

në një mënyrë më efiçente.

Përdorimi i teknikave parashikuese në programin R kërkon instalimin e disa paketave

statistikore, ndër më kryesoret:expsmooth, Mcomp, fma, pastec, psych, Hmisc, nls2,

nlme, dynlm, dynamicGraph, lmtest, psplin3.

Autorët e diskutime më të fundit të metodave parashikuese dhe cilësive të modeleve

parashikuese, kanë dhënë kontributin e tyre në R duke ndërtuar algoritme të shpejtë dhe

eficentë, për gjetjen e një modeli optimal për parashikime.

Në vijim po prezantojmë disa aplikime të metodave të sheshimit eksponencial, sipas

Holt dhe Winters, në seritë kohore të prezantuara në fillim të 2.2. Tabela 2.3 paraqet

modelet e përzgjedhura nga algoritmi i implementuar në programin R nga Hyndman et

al.

Tabela 2.3 Modelet e sheshimit eksponencial (H-W) për seritë e lindjeve,

martesave, dëmeve, TFR

Koeficentët

e sheshimit

eksponecial

Sheshimi

Eksponencial

Sheshimi

Eksponencial

Sheshimi

Eksponencial

Sheshimi

Eksponencial

Seria kohore e

Lindjeve

Seria kohore e

Martesave

Seria kohore e

Demeve

Seria kohore e

TFR

alpha 0.7056884 0.09005282 0.03811473 0.0754692

beta 0 0.008497386 1 0.0129869

gamma 1 0.2841229 0.474314 0.269427

a 3072.05 1937.67 50314.02 1.48

b -15.14 -1.48 -6789.02 -0.005

s1 -358.08 474.26 -8266.27 -0.31

s2 -973.13 -393.77 -6027.03 0.035

3 Për detaje shiko http://CRAN.R-project.org/package=forecasting .

Page 43: TEZË DOKTORATURE - api.fshn.edu.al

32

s3 -864.03 -605.76 -12843.05 0.83

s4 -788.39 -199.92 -25467.28 0.002

s5 -119.64 -339.72 -19386.51 0.40

s6 69.01 -678.93 -13212.71 0.88

s7 602.84 -602.16 -11531.83 0.96

s8 635.46 869.34 -8003.60 -0.36

s9 1227.89 63.67 -2911.02 0.26

s10 845.48 -280.71 -8856.43 0.43

s11 108.64 -571.86 6769.84 0.43

s12 -66.05 106.74 10453.52 -0.17

Tabela 2.3 pasqyron rezultatet e përftuara pas aplikimit të metodës së sheshimit

eksponencial, koeficientët , , si dhe koeficientët sezonal për secilin model.

Tabela 2.4 Modelet e sheshimit eksponencial sipas modelit ETS për seritë e lindjeve,

martesave, dëmeve, TFR

Koeficentët

e sheshimit

eksponecial

ETS(M,N,M) ETS(M,N,M) ETS(M,N,N) ETS(M,A,A)

Seria kohore

e Lindjeve

Seria kohore

e Martesave

Seria

kohore e

Demeve

Seria

kohore e

TFR

alpha 0.8342 0.0763 1.00E-04 0.8047

beta 1.00E-04

gamma 0.13 0.2689 1.00E-04

l 6733.5658 1966.065 60691.3694 3.5967

b 0.0653

sigma 0.093 0.1671 0.3856 0.2288

s1 0.8135 1.4666 -0.975

s2 0.8009 1.1128 -0.38

s3 0.957 1.1029 -0.231

s4 1.0173 1.0188 -0.047

s5 1.1204 0.9591 -0.315

s6 1.1891 0.9779 0.589

s7 1.1641 0.8209 0.759

s8 1.1566 0.821 0.534

s9 1.1072 0.8696 0.35

s10 0.9897 0.9254 0.529

s11 0.8408 0.8315 -0.279

s12 0.8786 1.0934 -0.533

ME -18.69 -11.006 -2.51 -0.084

RMSE 448.94 367.46 23398.3 0.63

MAE 325.43 261.89 18024.42 0.43

MPE -0.77 -4.16 -19.97 -7.1

MAPE 6.71 14.08 39.55 18.97

MASE 0.76 0.62 0.81 0.83

Page 44: TEZË DOKTORATURE - api.fshn.edu.al

33

AIC 5181.51 5035.08 1006.06 1330.41

AICC 5183.05 5036.62 1006.36 1332.42

BIC 5232.79 5086.36 1009.53 1389.02

Ashtu sikurse u vu re, në paragrafët më sipër, në përllogaritjet e koeficientëve

përfshihen një numër i madh veprimesh. Por, me ndihmën e një softueri të specializuar

(në këtë punim është përdorur softueri R) rezultatet mund të përftohen shumë shpejt.

Metodologjia që kemi ndjekur në modelet e mësipërme është propozuar nga Hyndman

et al në konkurset e Makridakis et al (1982, 2000), dhe ka treguar se është shumë e mirë

për parashikimet afatshkurtër (deri në gjashtë perioda parashikimi) dhe në vecanti për

seri kohore me sezonalitet të pranishëm.

Në kapitujt në vijim do të ndërtojmë modele të tjera parashikimi dhe do t’i rikthehemi

këtyre modeleve për t’i krahasuar mbi bazën e treguesve të cilësisë.

Figura 2.8 paraqet grafikisht vlerat e reale të serisë së lindjeve në Shqipëri së bashku

me vlerat e përftuara nga sheshimi eksponencial dhe vlerat e parashikuara nga metoda

Holt-Winters. Për të ndërtuar këtë grafik është shfrytëzuar seria origjinale e vrojtimeve

për periudhën 1990-2005; seria origjinale me vlerat e vrojtuara për periudhën 2006-

2008 (kjo për qëllim krahasimi midis dy periudhave të ndryshme mbi të cilat janë

ndërtuar dy modelet). Vini re, nga grafiku ruajtjen e natyrës sezonale të serisë dhe vlerat

e përafërta me vlerat reale në periudhën ’06-’08, gjë që na bën të besojmë se modeli

mund të jetë i përshtatshëm për parashikime në periudhat në vijim.

Figura 2.8 Sheshimi dhe Parashikimi Holt-Winters (vija blu= vrojtimet reale për

periudhën ’90-‘05, vija e kuqe= vlerat e sheshuara dhe parashikimi bazuar në

vrojtimet e periudhës ’90-’05, vija lejla= vrojtimet reale për periudhën ’06-’08, vija

jeshile= parashikimi bazuar mbi vrojtimet në periudhën ’90-‘08)

Metoda e sheshimit eksponencial Holt-Winters e implementuar në programin R ofron

përveç vlerave të koefiçientëve të modelit optimal të përzgjedhur sipas alogritmit

Holt-Winters filtering

Time

Obs

erve

d / F

itted

1995 2000 2005 2010

2000

4000

6000

8000

Page 45: TEZË DOKTORATURE - api.fshn.edu.al

34

automatik edhe paraqitjet grafike të vlerave origjinale të vrojtuara dhe vlerat e

parashikuara. Figura 2.9 paraqet aplikimin për katër seritë kohore të përmendura në 2.2.

Figura 2.9 Vlerat e parashikuara dhe intervalet e besimit sipas modeleve të sheshimit

eksponencial4

Le të rikthejmë vëmëndjen në dy modelet e sheshimit eksponencial të propozuara për

katër seritë e përmenduramë sipër. Grafikët në figurat në vijim tregojnë parashikimet

dhe intervalet e besimit për secilën seri kohore sipas dy metodave atë Holt-Winters dhe

ETS.

Figura 2.10 Parashikimi dhe intervalet e besimit 80% dhe 95% për serinë e

lindjeve sipas metodave Holt-Winters dhe ETS

4 Grafikët nga e majta në të djathtë janë: Seria e lindjeve ’85-’08, seria e martesave ’85-’08, seria e

demeve ’05-’08, seria e TFR ’85-‘08

Forecasts from ETS(M,N,M)

2007 2008 2009 2010 2011

10

00

30

00

50

00

70

00

Forecasts from HoltWinters

2007 2008 2009 2010 2011

02

00

04

00

06

00

0

Forecasts from HoltWinters

1985 1990 1995 2000 2005 2010

-2000

0

2000

6000

Forecasts from HoltWinters

1985 1990 1995 2000 2005 2010

500

1500

2500

3500

Forecasts from HoltWinters

2005 2006 2007 2008 2009 2010 2011

-5e+05

-3e+05

-1e+05

1e+05

Forecasts from HoltWinters

1985 1990 1995 2000 2005 2010

0

2

4

6

Page 46: TEZË DOKTORATURE - api.fshn.edu.al

35

Të dy modelet (HW dhe ETS) e ndërtuara për secilën nga seritë kohore japin vlerësime

të parashikimit të përafërta dhe vlerësime intervalore gjithashtu të përafërta.

Figura 2.11 Parashikimi dhe intervalet e besimit 80% dhe 95% për serinë e

martesave sipas metodave Holt-Winters dhe ETS

Nga Figura 2.11 vihet re se metoda e sheshimit ETS ka gabime multiplikative (M), nuk

ka trend (N) dhe sezonaliteti është multiplikativ (M). Vlerat e parashikuara dhe

intervalet e besimit për periudhat pasardhëse janë të përafërta nga të dy modelet. Të dy

modelet ruajnë sezonalitetin e vrojtimeve.

Figura 2.12 Parashikimi dhe intervalet e besimit 80% dhe 95% për serinë e dëmeve

sipas metodave Holt-Winters dhe ETS

Nga Figura 2.12 vihet re se metoda e sheshimit ETS ka gabime multiplikative (M), nuk

e ruan trendin (N) dhe sezonalitetin (N). Parashikimi për periudhat pasardhëse është

vlera mesatare e vrojtimeve. Metoda Holt-Winters ruan trendin zbritës dhe jep një

parashikim i cili ruan trendin zbritës dhe sezonalitetin.

Forecasts from ETS(M,N,M)

2007 2008 2009 2010 2011

10

00

20

00

30

00

Forecasts from HoltWinters

2007 2008 2009 2010 2011

50

01

50

02

50

03

50

0

Forecasts from ETS(M,N,N)

2007 2008 2009 2010

2000

060

000

1000

0014

0000

Forecasts from HoltWinters

2007 2008 2009 2010

-2e+

05-1

e+05

0e+0

01e

+05

Page 47: TEZË DOKTORATURE - api.fshn.edu.al

36

Figura 2.13 Parashikimi dhe intervalet e besimit 80% dhe 95% për serinë e TFR-së

sipas metodave Holt-Winters dhe ETS

Nga Figura 2.13 vihet re se metoda e sheshimit ETS për serinë e treguesit TFR ka

gabime multiplikative (M), trend aditiv (A) dhe sezonalitet aditiv (A). Intervali i besimit

për vlerat e parashikuara sipas metodës ETS është më i gjerë në periudhat në vijim

ndërsa sipas metodës Holt-Winters intervalet e besimit qëndrojnë pranë sjelljes

sezonale të modelit.

Forecasts from ETS(M,A,A)

2005 2007 2009 2011

05

10

Forecasts from HoltWinters

2005 2007 2009 2011

02

46

Page 48: TEZË DOKTORATURE - api.fshn.edu.al

37

Kapitulli 3

Modelet SARIMA konsiderata dhe vlerësime. Simulimi i

modeleve ARIMA në programin R.

Në kapitullin 1 dhe 2, prezantuam autokorrelacionin dhe kros-korrelacionin si mjete

për të qartësuar lidhjet që mund të ndodhin brenda dhe midis serive kohore në lage të

ndryshëm. Gjithashtu trajtuam se si të ndërtojmë modele lineare bazuar në teorinë

klasike të regresit. Modelet që do të trajtojmë në këtë kapitull janë të përshtatshme kur

seritë kohore janë jo-stacionare dhe të shkurtëra.

Regresi klasik është shpesh i pamjaftueshëm për të shpjeguar gjithë dinamikën

interesante të një serie kohore. Modelet që do të trajtohen në këtë pjesë janë: modelet

autoregresive (AR), me mesatare të lëvizshme (MA), modelet autoregresive me

mesatare të lëvizshme (ARMA), modelet autoregresive me mesatare të lëvizshme të

integruar (ARIMA), modelet autoregresive me mesatare të lëvizshme të integruar dhe

me sezonalitet (SARIMA).

Seritë kohore mbi të cilat do të punohet janë seritë e përmendura në kapitujt paraardhës:

seria mujore e lindjeve, seria mujore e martesave, seria e dëmeve të kompanisë së

sigurimit, seria mujore e treguesit të fertilitetit TFR si dhe seria kohore e numrit të

difekteve ditore të një prej kompanive të telefonisë fikse në Shqipëri. Për këtë të fundit

është ndërtuar një model parashikimi i cili përshtatet me luhatshmërinë në një seri

kohore, modeli GARCH.

Modelet autoregressive (AR) u prezantuan për herë të parë nga Yule në vitin 1926 dhe

u pasuan më vonë nga Slutsky i cili në vitin 1937 prezantoi skemën e modeleve me

mesatare të lëvizshme (MA). Ishte Wold në vitin 1938, i cili kombinoi të dy skemat,

AR dhe MA, dhe tregoi se modelet ARMA mund të përdoren për të modeluar gjithë

seritë kohore stacionare për sa kohë që rendi p, numri i termave të AR-së, dhe rendi q,

numri i termave të MA-së ishin specifikuar saktësisht.

3.1 Modelet Autoregresive me Mesatare të Lëvizshme (ARMA)

3.1.1 Modelet Autoregresive (AR)

Në metodën klasike të regresit linear variabli i varur ndikohet nga vlerat e fundit të

variablit të pavarur. Në rastin e serive kohore ne dëshirojmë që variabli i varur të

ndikohet nga vlerat e shkuara të variablit të pavarur.

Page 49: TEZË DOKTORATURE - api.fshn.edu.al

38

Modelet autoregresive bazohen në idenë se vlerat Xt të serisë kohore mund të

shpjegohen si një funksion i p vlerave të shkuara1 2, ,...,t t t pX X X

, ku p përcakton

numrin e hapave në të shkuarën që nevojiten për të parashikuar vlerën në momentin e

kohës t.

Përkufizim 3.1 Një model autoregresiv i rendit p, shkurt AR (p), është një model

i formës:

1 1 2 2 ...t t t p t p tX X X X w (3.1)

ku, tX është stacionar,

1 2, ,..., p janë konstante 0p dhe tw është një zhurmë e

bardhë Gausiane me pritje matematike zero dhe dispersion 2w

. Pritja matematike e

tX është zero. Nëse pritja matematike ( ) e tX nuk është zero, zëvendësojmë

tX

në (3.1) pra,

1 1 2 2( ) ( ) ... ( )t t t p t p tX X X X w

Ose mund ta shkruajmë:

1 1 2 2 ...t t t p t p tX X X X w (3.2)

ku, 1 2( ... )p .

Përkufizim 3.2 Operatori i zhvendosjes majtas (backshift) përcaktohet si vijon:

1t tBX X

ndërkaq: 2

1 2( )t t t tB X B BX BX X e kështu me radhë. Pra,

k

t t kB X X (3.3)

Mund të shkruajmë1t t tX X X duke përdorur operatorin B:

(1 )t tX B X (3.4)

ose:

2 2 2

1 2

(1 ) (1 2 )

2

t t t

t t t

X B X B B X

X X X

nga vetia e linearitetit të operatorit. Për ta kontrolluar mjafton të marrim diferencën e

rendit të dytë: 1 1 1 2( ) ( ) ( ) ( )t t t t t t tX X X X X X X

Përkufizim 3.3 Diferenca e rendit d përcaktohet nëpërmjet operatorit B si vijon:

(1 )d dB (3.5)

Kur d=1 shënojmë 1

Page 50: TEZË DOKTORATURE - api.fshn.edu.al

39

Modeli AR (p) mund të shkruhet duke shfrytëzuar operatorin B:

2

1 2(1 ... )p

p t tB B B X w (3.6)

Ose, ndryshe:

( ) t tB X w (3.7)

ku Operatori autoregresiv ( )B është:

2

1 2( ) 1 ... p

pB B B B (3.8)

Midis modeleve AR (p) modeli i rendit të parë është ai kur p=1, 1t t tX X w .

Duke zëvendësuar në mënyrë iterative pas k herë përftojmë:

1 2 1

2

2 1

1

0

( )

...

t t t t t t

t t t

kk j

t k t j

j

X X w X w w

X w w

X w

Nëse | | 1 ne mund të shkruajmë një model AR (1) si një proces linear:

0

j

t t j

j

X w

(3.9)

Procesi AR (1) i përcaktuar në (3.9) është stacionar me pritje matematike:

0

( ) ( ) 0j

t t j

j

E X E w

dhe funksion autokovariancë:

0 0

22 2 2

20 0

( ) cov( , )

, 01

j j

t h t t h j t j

j j

hj j h h j w

w w

j j

h X X E w w

h

(3.10)

Kujtojmë vetinë e autokovariancës ( ) ( )h h , ndaj e shprehim për 0h . Nga (3.10)

mund të shkruajmë autokorrelacionin për AR(1):

( )( ) , 0

(0)

hhh h

Dhe ( )h kënaq barazimin: ( ) ( 1), 1,2,...h h h .

Page 51: TEZË DOKTORATURE - api.fshn.edu.al

40

3.1.2 Simulimi i një procesi AR(p) në R

Softueri R mundëson simulimin e një procesi AR(p) nëse disponohet informacioni

bazë, pra1 2, ,..., p dhe

tw është një zhurmë e bardhë Gausiane me pritje matematike

zero dhe dispersion 2w

. Mjafton të instalohet nga cran-R paketa e parashikimit

forecast dhe të thërritet > library(forecast)

Le të provojmë të simulojmë një proces AR(1) me parametër 0,4 përmasë 100 dhe

të përftojmë një paraqitje grafike të tij.

Komandat që bëjnë të mundur këtë janë:

>plot(arima.sim(list(order=c(1,0,0),ar=0.4),n=100),ylab="x",main=(exp

ression("+ AR(1) "*phi*" =+.4")),col="blue",lwd=2)

Figura 3.1 Model AR(1) i simuluar me 0.4 , n=100

Dhe një model AR(1) me vlerë të parametrit negativ 0.4 do të përftohej nga

komanda:

>plot(arima.sim(list(order=c(1,0,0),ar=-.4),n=100),ylab="x",

+main=(expression("AR(1)"*phi*" =-0.4")),col="blue",lwd=2)

Figura 3.2 Model AR(1) i simuluar me 0.4 , n=100

AR(1) =+.4

Time

x

0 20 40 60 80 100

-3-2

-10

12

3

AR(1) =-0.4

Time

x

0 20 40 60 80 100

-2-1

01

23

Page 52: TEZË DOKTORATURE - api.fshn.edu.al

41

Natyrshëm lind pyetja: A ekziston një proces AR(1) me | | 1 stacionar ? Procese të

tilla quhen “eksplozive” sepse vlerat e serisë kohore rriten shumë shpejt. Është e qartë

se nëse | | j rritet pafundësisht ndërsa j ,1

0

kj

t j

j

w

nuk do të konvergjojë kur

k , kështu që intuita e përdorur për të përftuar (3.11) nuk funksionon në mënyrë

të drejtpërdrejtë. Megjithëse mund të modifikohet duke përftuar një model stacionar.5

3.1.3 Modelet me Mesatare të Lëvizshme (MA)

Përkufizim 3.4 Një model me mesatare të lëvizshme i rendit q, shkurt MA(q),

përcaktohet si:

1 1 2 2 ...t t t t q t qX w w w w (3.11)

ku 1 2, ,..., ( 0)q q janë parametra. Zhurma

tw supozohet një zhurmë e bardhë

Gausiane.6

Përkufizim 3.5 Operatori i mesatares së lëvizshme është:

2

1 2( ) 1 ... q

qB B B B (3.12)

Ndryshe nga procesi autoregresiv, procesi me mesatare të lëvizshme është stacionar për

çdo vlerë të parametrave1 2, ,..., q .

Trajta e modelit të mesatares së lëvizshme duke përdorur operatorin do të ishte:

( )t tX B w

Le të fillojmë investigimin e modeleve MA duke konsideruar modelin e rendit të parë,

MA(1), i cili jepet në formën1t t tX w w . Duke vepruar si në AR(1) (këtu veprimet

janë më të thjeshta pasi MA është funksion i zhurmës së bardhë) përftojmë

autokovariancën e procesit:

2 2

2

(1 ) , 0

( ) cov( , ) , 1

0, 1

w

t h t w

h

h X X h

h

(3.13)

Dhe funksioni autokorrelacion për MA(1) është:

2, 1

( ) 1

0, 1

hh

h

(3.14)

5Time Series Analysis and it’s Applications in R. Shumway, David Stoffer, 2006, fq.88-89 6Disa tekste apo softuere e shkruajnë procesin MA me koeficientë negativ:

...1 1 2 2X w w w wt t q t qt t

Page 53: TEZË DOKTORATURE - api.fshn.edu.al

42

Vini re, | (1) | 1/ 2 për çdo vlerë të parametrit . Gjithashtu Xtështë e korreluar me Xt-

1 por jo me 2 3, ,...t tX X

. Ndryshe nga modeli AR(1), në të cilin korrelacioni midis Xt

dhe Xt-k nuk është kurrë zero, ajo që vihet re për MA(1) është fakti për vlera pozitive

të parametrit Xt dhe Xt-1 janë pozitivisht të korreluara dhe për vlera negative të

parametrit janë negativisht të korreluara, për më tepër vlera e autokorrelacionit në

vlerë absolute është e njëjtë. Gjithashtu vlera e autokorrelacionit për procesin MA(1)

është e njëjtë për dhe1/ .

3.1.4 Simulimi i një procesi MA(q) në R

Softueri R mundëson simulimin e një procesi MA(q) nëse disponohet informacioni

bazë, pra1 2, ,..., q dhe

tw është një zhurmë e bardhë Gausiane me pritje matematike

zero dhe dispersion 2w

.

Le të provojmë të simulojmë një proces MA(1) me parametër 0.6 , përmasë 100

dhe të përftojmë një paraqitje grafike të tij.

Komandat që bëjnë të mundur këtë janë:

>plot(arima.sim(list(order=c(0,0,1),ma=+.6),n=100),ylab="x",main=(exp

ression("MA(1) "*theta*" =0.6")),col="blue",lwd=2)

Figura 3.3 Model MA(1) i simuluar me 0.6 , n=100

Dhe një model MA(1) me parametër 0.6 dhe n=100 do të përftohej nga

komanda:

>plot(arima.sim(list(order=c(0,0,1),ma=.6),n=100),ylab="x",main=(expr

ession("MA(1) "*theta*" =-0.6")),col="blue",lwd=2)

MA(1) =0.6

Time

x

0 20 40 60 80 100

-3-1

13

Page 54: TEZË DOKTORATURE - api.fshn.edu.al

43

Figura 3.4 Model MA(1) i simuluar me 0.6 , n=100

Vini re, seria e simuluar në Figurën 3.3 ( 0.6 ) është më e sheshuar se seria e simuluar

në Figurën 3.4 ( 0.6 ).

3.1.5 Modelet Autoregresive me Mesatare të Lëvizshme (ARMA)

Përkufizim 3.6 Një seri kohore { ; 0, 1, 2,...}tX t është proces autoregresiv

me mesatare të lëvizshme, ARMA(p,q) nëse është stacionar dhe:

1 1 2 2 1 1 2 2... ...t t t p t p t t t q t qX X X X w w w w

(3.15)

me 0, 0p q dhe 2 0w . Parametrat p dhe q quhen përkatësisht parametra

autoregresive dhe mesatare të lëvizshme. Nëse Xt ka pritje matematike të ndryshme nga

zero , shënojmë1(1 ... )p dhe e shkruajmë modelin si:

1 1 2 2 1 1 2 2... ...t t t p t p t t t q t qX X X X w w w w (3.16)

Për sa më sipër { ; 0, 1, 2,...}tw t është një zhurmë e bardhë Gausiane.

Modeli ARMA mund të shkruhet duke përdorur operatorët e modeleve autoregresive

(AR) dhe me mesatare të lëvizshme (MA). Në veçanti për një model ARMA(p,q) trajta

do të ishte:

( ) ( )t tB X B w

(3.17)

Për një proces ARMA(p,q), përcaktuar si në (3.17), ku zerot e ( )z janë jashtë rrethit

njësi, mund të shkruajmë:

0

t j t j

j

X w

Nga kjo rrjedh se ( ) 0tE X . Gjithashtu funksioni autokovariancë për tX mund të

shkruhet:

MA(1) =-0.6

Time

x

0 20 40 60 80 100

-20

12

3

Page 55: TEZË DOKTORATURE - api.fshn.edu.al

44

2

0

( ) cov( , ) , 0t h t w j j h

j

h X X h

(3.18)

Për një proces ARMA(p,q) funksioni autokovariancë kënaq barazimin7:

1( ) ( 1) ... ( ) 0, max( , 1)ph h h p h p q (3.19)

Me kushte fillestare,

2

1

( ) ( ) , 0 max( , 1)p q

j w j j h

j j h

h h j h p q

(3.20)

Duke pjestuar (3.19) dhe (3.20) me (0) do të na lejojë të njehsojmë ACF-në,

( ) ( ) / (0)h h .

Shembull 3.1 ACF për një proces ARMA(1,1)

Le të konsiderojmë një proces ARMA(1,1) 1 1t t t tX X w w ku | | 1 .

Bazuar në (3.19) funksioni autokovariancë kënaq barazimin:

( ) ( 1) 0, 2,3,...h h h

Pra zgjidhja e përgjithshme është ( ) , 1,2,3,...hh c h . Për të përftuar kushtet

fillestare shfrytëzojmë (3.20):

2 2

2

(0) (1) [1 ]

(1) (0)

w

w

Duke e zgjidhur sistemin në lidhje me të panjohurat (0), (1) , përftojmë:

22

2

2

2

1 2(0)

1

(1 )( )(1)

1

w

w

Për të gjetur vlerën e c-së, vini re (1) c , nga e cila rrjedh (1) /c . Pra, zgjidhja

e përgjithshme është:

2 1

2

(1 )( )( )

1

h

wh

Duke pjestuar të dy anët me (0) përftojmë fuknsionin autokorrelacion për procesin

ARMA(1,1):

7 Për detaje shiko Shumway dhe Stoffer, (2008)

Page 56: TEZË DOKTORATURE - api.fshn.edu.al

45

(3.21)

3.1.6 Simulimi i një procesi ARMA(p,q) në R

Komanda për simulimin e një procesi ARMA(p,q) në R është një gërshetim i dy

komandave të mësipërme për simulimin e modeleve AR dhe MA. Komandat më poshtë

japin paraqitjet grafike të simulimit të tre proceseve të thjeshtë ARMA(1,1) me

parametra të ndryshëm , .

>plot(arima.sim(list(order=c(1,0,1),ar=-0.8,ma=-0.7),n=100),ylab="x",

+main=(expression("ARMA(1,1) "*phi*"=-0.8 "*theta*" =-0.7")),

+col="blue",lwd=2)

>plot(arima.sim(list(order=c(1,0,1),ar=-0.1,ma=-0.2),n=100),ylab="x",

+main=(expression("ARMA(1,1) "*phi*"=-0.1 "*theta*" =-0.2")),

+col="blue",lwd=2)

>plot(arima.sim(list(order=c(1,0,1),ar=0.8,ma=0.7),n=100),ylab="x",ma

in=(expression("ARMA(1,1) "*phi*"=0.8 "*theta*"

=0.7")),col="blue",lwd=2)

ARMA(1,1) =-0.8 =-0.7

Time

x

0 20 40 60 80 100

-6-2

2

ARMA(1,1) =-0.1 =-0.2

Time

x

0 20 40 60 80 100

-20

2

ARMA(1,1) =0.8 =0.7

Time

x

0 20 40 60 80 100

-6-2

2

1

2

(1 )( )( ) , 1

1 2

hh h

Page 57: TEZË DOKTORATURE - api.fshn.edu.al

46

Figura 3.5 Modele ARMA(1,1) të simuluar në R me n=100

3.1.7 Modelet ARIMA

Në paragrafët paraardhës vrojtuam se nëse tX është njëendje e rastit,

1t t tX X w ,

duke diferencuar tX , zbuluam se

t tX w është stacionar. Në shumë situata mund të

mendohet se seria kohore kompozohet nga dy përbërëse, një përbërëse trendi jo-

stacionar dhe një përbërëse stacionare me pritje matematike zero. Për shembull

konsiderojmë procesin:

t t tX Y (3.18)

ku, 0 1t t dhe

tY stacionar. Duke diferencuar në të do të përftojmë një proces

stacionar:

1 1 1 1t t t t t tX X X Y Y Y (3.19)

Një tjetër model i cili çon në diferencat e para është rasti kur t në (3.18) është një

proces stokastik që ndryshon me ngadalë sipas një endje të rastit:

1t t tv

ku, tv është stacionar. Në këtë rast,

t t tX v Y

është stacionar. Nëse t në (3.18) është një polinom i rendit k,

0

kj

t j

j

t

, atëherë

seria e diferencuar k

tX është stacionare.

Modelet stokastike me trend të pranishëm mund të çojnë në rende më të larta

diferencimi. Për shembull, le të supozojmë në (3.18) : 1t t tv dhe 1t t tv v e

ku te është stacionare. Nëse kryejmë diferencën e rendit të parë,

t t tX v Y ky

proces nuk është stacionar, por nëse kryejmë diferencën e rendit të dytë, 2 2

t t tX e Y , atëherë procesi përftojmë një proces stacionar.

Modelet e integruara ARMA, apo ARIMA, janë një zgjerim i klasës së modeleve

ARMA për të përfshirë diferencimin.

Përkufizim 3.7 Një seri kohore { ; 0, 1, 2,...}tX t është një proces

ARIMA(p,d,q) nëse

(1 )d d

t tX B X është ARMA(p,q). Në përgjithësi modeli mund të

shkruhet si:

Page 58: TEZË DOKTORATURE - api.fshn.edu.al

47

( )(1 ) ( )d

t tB B X B w (3.20)

Nëse ( )d

tE X modeli mund të shkruhet si:

( )(1 ) ( )d

t tB B X B w

ku, 1(1 ... )p .

3.1.8 Ndërtimi i Modeleve ARIMA

Për të përshtatur një model ARIMA ndiqen disa hapa. Këto hapa përfshijnë ndërtimin

grafik të të dhënave, transformim i të dhënave, identifikimin e rendit të varësisë së

modelit, vlerësimin e parametrave, diagnostikimin dhe zgjedhjen e modelit.

a) Transformimet

1) Diferencimi

Së pari, ashtu sikurse me çdo analizë të dhënash, duhet të ndërtojmë një grafik kohor të

të dhënave dhe të inspektojmë grafikun për anomali. Nëse në të dhënat vrojtohet trend

atëherë transformimi i diferencimit mund të jetë i përshtatshëm. Diferenca e rendit të

parëështë një shembull i një filtri linear i cili aplikohet për të eliminuar trendin. Të tjera

filtra, të formuara nga mesatarja e vlerave pranëtX , mund të prodhojnë seri të

rregulluara të cilat kanë eleminuar të tjera luhatje.Teknnika e diferencimit është një

përbërëse e rëndësishme e modeleve ARMA të Box dhe Jenkins (1970)8.

Një alternativë tjetër e diferencimit, e quajtur diferencim thyesor (fractional

differencing) zgjeron nocionin e operatorit të diferencimit (3.5) në fuqi thyese -0.5<d

< 0.5, të cilat gjithashtu përcaktojnë procese stacionar. Modele ku aplikohet diferencimi

i pjesshëm i përkasin fushës së serive kohore mjedisore (hidrologji).9

2) Logaritmimi

Një tjetër transformim i përdorshëm është logaritmi natyror:

lnt tY X (3.21)

i cili ka një tendencë të shtypë luhatjete mëdha mbi pjesë të serisë.

Gjithashtu një transformim mund të sugjerohet në varësi të aplikimit të tij. Për

shembull, nëse marrim në konsideratë një situatë ekonomike në fushën e investimeve

do të mund të shkruanim:

1(1 )t t tX p X ,

8Për detaje shiko Box et al.,1994 9Për detaje shiko Granger dhe Joyeux (1980), Hosking (1981)

Page 59: TEZË DOKTORATURE - api.fshn.edu.al

48

ku, tX është vlera e investimit në momentin e kohës t dhe ptështë ndryshimi në

përqindje nga momenti i kohës t-1 nët, e cila mund të jetë dhe negative. Duke

logaritmuar të dy anët kemi:

1ln( ) ln(1 ) ln( )t t tX p X

ose, [ln( )] ln(1 )t tX p

Nëse ndryshimi i përqindjes së investimit, pt, qëndron në vlera relativisht të vogla,

atëherë ln(1 )t tp p dhe kështu,

[ln( )]t tX p

do të jetë njëproces relativisht i qëndrueshëm. Shpesh [ln( )]tX quhet norma e rritjes.

Si një shembull i transformimeve më sipër le të shohim serinë e lindjeve në Shqipëri

(1985-2008). Vlerat e mëdha të serisë shfaqin luhatje të konsiderueshme krahasuar me

vlerat e ulëta.

Figura 3.6 paraqet serinë kohore të numrit të lindjeve për muaj në Shqipëri, serinë

kohore të transformuar sipas logaritmit natyror dhe serinë e transformuar sipas

diferencave të para të logaritmit natyror të serisë reale.

Figura 3.6 Transformimet e serisë kohore të Lindjeve në Shqipëri (1985-2008)

Vini re luhatjet të cilat pas transformimit të parë (logaritmit) bëhen më uniforme si në

vlerat e mëdha ashtu edhe në ato të vogla të serisë. Pas transformimit të dytë (diferencat

e logaritmit), grafiku i tretë në Figurën 3.6, mund ta konsiderojmë serinë e transformuar

si një model të përshtatshëm stacionar.

Seria e lindjeve, 1985-2008

Time

X0

1985 1990 1995 2000 2005

2000

5000

8000

Seria e transformuar duke logaritmuar

Time

X0

1985 1990 1995 2000 2005

7.8

8.4

9.0

Seria e transformuar duke diferencuar vlerat e logaritmuara

Time

X0

1985 1990 1995 2000 2005

-0.4

0.2

0.6

Page 60: TEZË DOKTORATURE - api.fshn.edu.al

49

Shënim: Të tjera transformime përveç atyre të përmendura më sipër mund të aplikohen

në seritë kohore, përmendim këtu: ngritjen në fuqi, zbritjen e një konstanteje apo çdo

kombinim i transformimeve kryesore.

3) Transformimet fuqi (Box-Cox)

Nëse, për shembull, ndryshueshmeria në grafik rritet me rritjen e kohës, mund të jetë e

nevojshme të transformohen të dhënat me qëllim stabilizimin e dispersionit. Në raste të

tilla mund të përdoren transformimet fuqi Box-Cox të cilat u prezantuan nga Box dhe

Cox (1964). Për një vlerë të dhënë të parametrit , transformimi përcaktohet në

formën:

( 1), 0

ln , 0

t

t

t

X

Y

X

(3.22)

Metoda për të përzgjedhur fuqinë propozohen nga Johnson dhe Wichern (1992).

Transformimet përdoren gjithashtu për të përmirësuar përafrimin me normalitetin apo

për të përmirësuar linearitetin e parashikimit. Termi tX është pjesa më e rëndësishme

e shprehjes së parë, por zbritja me 1 dhe pjestimi me e bën tY të ndryshojë në mënyrë

të zbutur kur 0 . Në fakt një llogaritje e thjeshtë tregon se ndërsa 0 ,

( 1)ln( )t

t

XX

. Vini re se, vlera e 1/ 2 i korrespondon një transformimi rrënjë

katrore të përdorshëm për të dhënat që ndjekin një shpërndarje puasoniane, dhe 1

i korrespondon një transformimi reciprok.

Transformimet e fuqive aplikohen vetëm në të dhëna me vlera pozitive. Nëse ndonjë

prej vlerave është negative apo zero, atëherë mund t’u shtohet një konstante pozitive të

gjitha vlerave për t’i bërë ato pozitive dhe më pas të kryhet transformimi. Kjo konstante

përgjithësisht zgjidhet subjektivisht. Për shembull në të dhëna në fushën e biologjisë

shfaqja e zerove trajtohet shpesh duke shtuar një konstante të njëjtë me vlerën më e

vogël pozitive të vrojtuar ndër gjithë vlerat e vrojtuara.

mund të konsiderohet si një parametër shtesë që duhet vlerësuar në model.

Megjithëse një vlerësim i saktë i parametrit shpesh nuk është i garantuar. Vlerat

fillestare të cilat mund të mjaftojnë dhe kanë domethënie intuitive propozohen

0, 1, 1/ 2, 1/ 3, 1/ 4 . Programe kompjuterik (duke përfshirë ketu R) ofrojnë

mundësitë e marrjes në konsideratë të disa vlerave të parametrit .10

b) Funksionet autokorrelacion (ACF) dhe autokorrelacion i pjesshëm (PACF)

Pas transformimit të përshtatshëm të të dhënave, hapi tjetër është identifikimi i vlerave

fillestare të rendeve autoregresive, p, rendin e diferencimit, d, rendin e mesatares

sëlëvizshme, q. Në paragrafët e mësipërm kemi përmendur disa mënyra për të

përzgjedhur rendin e diferencimit d. Një grafik i serisë kohore sugjeron nëse nevojitet

apo jo një diferencim. Nëse ka nevojë për diferencim atëherë diferencojmë të dhënat

duke filluar nga rendi më i vogël, d=1, dhe inspektojmë serinë e tX . Nëse vëmë re se

10Funksioni në R për transformimet Box-Cox :> BoxCox.ar(data)

Page 61: TEZË DOKTORATURE - api.fshn.edu.al

50

nevojitet një tjetër diferencim atëherë provojmë të diferencojmë sërisht dhe

inspektojmë grafikun e të dhënave 2

tX . Duhet të kemi kujdes të mos rrisim shumë

rendin e diferencimit pasi kjo mund të shfaqë varësi aty ku nuk ekziston. Për shembull,

t tX w është e pakorreluar, por 1t t tX w w është një MA(1).

Së bashku me grafikun e serisë kohore grafiku i autokorrelacionit të zgjedhjes mund të

ndihmojë nëse diferencimi është i nevojshëm. Duke qënë se ( )(1 )dz z është një

polinom me rrënjë njësi, ACF-ja e zgjedhjes, ˆ( )h , me rritjen e h-së nuk do të zbresë

me shpejtësi drejt zeros. Pra, një zbritje e ngadaltë e ˆ( )h është një tregues për nevojën

e diferencimit.

Kur është caktuar vlera paraprake e d-së, hapi pasues është të vrojtohet ACF-ja dhe

PACF-ja e zgjedhjes për serinë d

tX për çfarëdo vlera të d-së që janë zgjedhur. Tabela

3.1 tregon se si mund të përzgjidhen vlerat fillestare të p dhe q.

Tabela 3.1 Sjellja e ACF dhe PACF për modelet kryesore të serive kohore

AR(p) MA(q) ARMA(p,q)

ACF

Zvogëlim të vlerave të

autokorrelacionit

(tails off)

Zhdukje të

autokorrelacionit

pas lagut q

(cut off after lag p)

Zvogëlim të

vlerave të

autokorrelacionit

(tails off)

PACF

Zhdukje të autokorrelacionit

pas lagut p

(cut off after lag p)

Zvogëlim të vlerave

të autokorrelacionit

(tails off)

Zvogëlim të

vlerave të

autokorrelacionit

(tails off)

Nëse p=0 dhe q>0, ACF-ja zhduket pas lagut q dhe PACF zvogëlon vlerat deri në

zhdukje. Nëse q=0 dhe p>0, PACF-ja zhduket pas lagut p dhe ACF-ja zvogëlon vlerat

deri në zhdukje. Nëse p>0 dhe q>0 së bashku ACF-ja dhe PACF-ja do të zhduken.

Konceptet e zhdukjes (cut off) dhe zvogëlimit deri në zhdukje (tail off) të ACF-së dhe

PACF-së nuk do të jenë të qarta për sa kohë ne jemi duke konsideruar vlerësues.

Gjithashtu dy modele që në dukje janë të ndryshëm mund të jenë shumë të ngjashëm

realisht. Duke patur këtë parasysh nuk duhet të jemi shumë në merak për të qënë të

saktë në këtë fazë të përshtatjes së modelit. Në këtë fazë duhet të kemi në dorë disa

vlera fillestare të p, q dhe d.

Në kapitullin 1 kemi parë se për një MA(q) vlera e ACF-së për lage më të mëdhenj se

q është zero. Dhe për më tepër, duke qënë se 0q , ACF-ja nuk do të ketë vlerën zero

në lagun q. Në këtë mënyrë ACF-ja ofron një informacion të konsiderueshëm për rendin

e varësisë kur procesi është një proces mesatare e lëvizshme. Nëse procesi është ARMA

apo AR, vetëm ACF-ja na ofron një informacion të vogël për rendin e varësisë. Për këtë

arsye do të ishte mirë të studionim një funksion i cili do të sillej si ACF-ja e modeleve

Page 62: TEZË DOKTORATURE - api.fshn.edu.al

51

MA, por për modelet AR, ky funksion u quajt funksioni autokorrelacion i pjesshëm

(PACF).

Për të përcaktuar saktë PACF-në e serive kohore stacionare me pritje matematike zero,

le të shënojmë, 1h

hX , kombinimin linear të 1 2 1{ , ,..., }h hX X X

që minimizon

12

1

( )h

h j j

j

E X X

. Pra, mund të shënojmë:

1

1 1 2 2 1 1...h

h h h hX X X X

(3.23)

Në (3.23) nuk nevojitet term i lirë pasi pritja matematike etX është zero.

Në mënyrë të ngjashme për 0X do të shënonim:

1

0 1 1 2 2 1 1...h

h hX X X X

(3.24)

Koeficientët 1 2 1, ,..., h

janë të njëjtët në (3.23) dhe (3.24)

Përkufizim 3.8 Funksioni autokorrelacion i pjesshëm (PACF) i një serie

kohore stacionare { ; 0, 1, 2,...}tX t , shënohet hh , për h=1,2,... është

11 1 0( , ) (1)corr X X (3.25)

dhe

1 1

0 0( , ), 2h h

hh h hcorr X X X X h (3.26)

Të dyja 1( )h

h hX X dhe 1

0 0( )hX X janë të pakorreluara me 1 2 1( , ,..., )hX X X

.

Nga stacionariteti i serisë mund të pohojmë se PACF-ja, hh , është korrelacioni midis

tX dhet hX

, nga i cili është “hequr” pjesa e korrelacionit që vjen nga ndikimi i

1 2 ( 1)( , ,..., )t t t hX X X . Ky ndikim modelohet varësia më e mirë lineare e tX nga

1 2 ( 1)( , ,..., )t t t hX X X . Nëse

tX është një proces Gausian atëherë,

1 ( 1)( , | ,..., )t t h t t hhhcorr X X X X .

Shembull 3.1 PACF-ja e një AR(1)

Le të konsiderojmë njëproces AR(1) të dhënë në trajtën:1 ,| | 1t t tX X w . Sipas

përkufizimit të PACF-së, 11 (1) . Për të njehsuar22 , konsiderojmë regresin e X2

në varësi të X1, 2

1

1X X . Zgjedhim për të minimizuar:

2 2

2 1( ) (0) 2 (1) (0)E X X

Page 63: TEZË DOKTORATURE - api.fshn.edu.al

52

Duke derivuar dhe barazuar me zero do të përftojmë: (1) / (0) (1) . Pra,

2

1

1X X . Në vazhdim konsiderojmë regresin eX0 në varësi të X1, 0

1

1X X .

Zgjedhim për të minimizuar:

2 2

0 1( ) (0) 2 (1) (0)E X X .

Ky është i njëjti ekuacion si më parë, pra dhe 1

0 1X X .

Duke bërë zëvendësimet përftojmë: 22 2 1 0 1( , )corr X X X X .

Kujtojmë, ( ) (0) hh ndaj 2

2 1 0 1cov( , ) (2) 2 (1) (0) 0X X X X

dhe nga kjo mund të shkruajmë:22 0 .

Për rastin e një procesi AR(p), p>1 do të kemi: 22 0 për çdo h>1.

Shembull 3.2 PACF-ja e një MA(1)

Le të konsiderojmë një proces MA(1) në trajtën1,| | 1t t tX w w . Duke kryer të

njëjtat llogaritje si në shembullin më sipër do të përftojmë: 2 2 4

22 / (1 ) . Për

një MA(1) në përgjithësi mund të tregohet se:

2

2( 1)

( ) (1 ), 1

1

h

hh hh

.

Në lidhje me sjelljen e fuknsioneve ACF dhe PACF të modeleve kryesore mund të

pohojmë se:

PACF-ja e modeleve MA ka një sjellje të ngjashme me ACF-në e modeleve AR.

ACF-ja e modeleve AR ka një sjellje të ngjashme me PACF-në e modeleve MA.

Duke qënë se një model ARMA mund të shprehet si një AR e pafundme, PACF-ja e saj

nuk do të zhduket.

Shembull 3.3 Grafikët e ACF-së dhe PACF-së për modelet AR(1), AR(2), MA(1),

MA(2), ARMA(1,1), ARMA(1,2) të simuluara në R

0 5 10 15 20

-0.2

0.2

0.6

1.0

Lag

AC

F

ACF per AR(1), phi=0.3

5 10 15 20

-0.2

0.0

0.2

Lag

Pa

rtia

l A

CF

PACF per AR(1), phi=0.3

Page 64: TEZË DOKTORATURE - api.fshn.edu.al

53

Figura 3.7 Grafikët e ACF dhe PACF për disa modele të simuluara në R

0 5 10 15 20

-0.5

0.0

0.5

1.0

Lag

AC

F

ACF per AR(2), phi1=0.3, phi2=-0.8

5 10 15 20

-0.8

-0.4

0.0

Lag

Pa

rtia

l A

CF

PACF per AR(2), phi1=0.3, phi2=-0.8

0 5 10 15 20

-0.2

0.2

0.6

1.0

Lag

AC

F

ACF per MA(1), theta=0.3

5 10 15 20

-0.2

0.0

0.1

0.2

Lag

Pa

rtia

l A

CF

PACF per MA(1), theta=0.3

0 5 10 15 20

-0.5

0.0

0.5

1.0

Lag

AC

F

ACF per MA(2), theta1=0.3,theta2=-0.85

5 10 15 20

-0.6

-0.2

0.0

0.2

Lag

Pa

rtia

l A

CF

PACF per MA(2), theta1=0.3,theta2=-0.85

0 5 10 15 20

-0.2

0.2

0.6

1.0

Lag

AC

F

ACF per ARMA(1,1), phi1=0.2, theta=-0.85

5 10 15 20

-0.4

-0.2

0.0

0.2

Lag

Pa

rtia

l A

CF

PACF per ARMA(1,1), phi1=0.2, theta=-0.85

Page 65: TEZË DOKTORATURE - api.fshn.edu.al

54

Shembull 3.4 Grafikët e ACF-së dhe PACF-së për modelet e serive kohore të

shembujve të marra në kapitullin 1

Le të shohim grafikisht ACF dhe PACF për seritë e përmendura në kreun 1.

Figura 3.8 Grafikët e ACF dhe PACF për seritë reale (në R)

0.0 0.5 1.0 1.5 2.0

0.0

0.4

0.8

Lag

AC

F

ACF e zgjedhjes per serine e lindjeve '85-'08

0.5 1.0 1.5 2.0

-0.2

0.2

0.6

Lag

Pa

rtia

l A

CF

PACF e zgjedhjes per serine e lindjeve '85-'08

0.0 0.5 1.0 1.5 2.0

-0.2

0.2

0.6

1.0

Lag

AC

F

ACF e zgjedhjes per serine e martesave '85-'08

0.5 1.0 1.5 2.0

-0.2

0.0

0.2

0.4

Lag

Pa

rtia

l A

CF

PACF e zgjedhjes per serine e martesave '85-'08

0.0 0.2 0.4 0.6 0.8 1.0 1.2

-0.2

0.2

0.6

1.0

Lag

AC

F

ACF e zgjedhjes per serine e demeve

0.2 0.4 0.6 0.8 1.0 1.2

-0.3

-0.1

0.1

0.3

Lag

Pa

rtia

l A

CF

PACF e zgjedhjes per serine e demeve

0.0 0.5 1.0 1.5 2.0

0.0

0.4

0.8

Lag

AC

F

ACF e zgjedhjes per serine e TFR

0.5 1.0 1.5 2.0

-0.2

0.2

0.6

Lag

Pa

rtia

l A

CF

PACF e zgjedhjes per serine e TFR

Page 66: TEZË DOKTORATURE - api.fshn.edu.al

55

Komandat në R për të përftuar paraqitjet grafike të ACF-së dhe PACF-së për seritë me

të dhëna mbi Shqipërinë gjenden në shtojcën 2.

Duke u nisur nga paraqitja grafike e funksioneve të autokorrelacionit dhe

autokorrelacionit të pjesshëm mund të supozojmë disa modele të mundshme të serive

të mësipërme.

Interpretime:

Seria mujore e lindjeve

Duke vrojtuar grafikun e ACF për serinë e lindjeve mund të vëmë re vlera të

autokorrelacionit të cilat nuk zvogëlohen drejt zeros me rritjen e lagut por kanë një

sjellje “valore”. Kjo tendencë e ACF-së tregon se seria e lindjeve nuk është një seri

kohore stacionare (kjo vihet re edhe nga grafiku i ndërtuar në kapitullin 1, për më tepër

ajo shfaq dhe trend i cili do të ndikojë në përcaktimin e koeficientit d). Sjellja e PACF-

së, e cila ndryshon nga ACF-ja, tregon se modeli i cili mund t’i përshtatet kësaj serie

është një model i kombinuar ARIMA. Një rritje e menjëhershme e autokorrelacionit të

pjesshëm në lagun 1 propozon një koeficient autoregresioni p=1. Ndërsa një zvogëlim

i ngadaltë i PACF-së gërshetuar me sjelljen “valore” të ACF-së propozon një term

mesatare të lëvizshme. Një rend diferencimi, d=1 mund t’i aplikohet modelit, gjithashtu

rendet fillestare të koeficientëve autoregresiv dhe mestatare të lëvizshme nuk duhet të

jenë të mëdhenj. Kësaj serie mund t’i propozohet një model ARIMA (p,d,q), ku vlerat

e parametrave mund të fillohen nga (1,1,1).

Seria mujore e martesave

Grafiku i ACF-së për serinë e martesave tregon një sjellje jo shumë të dukshme “valore”

me vlera të cilat zvogëlohen drejt zeros. Kjo tendencë e ACF-së tregon se seria e

martesave nuk është një seri kohore stacionare (kjo do të ndikojë në përcaktimin e rendit

d). Vlera të alternuara të ACF-së, pozitive dhe negative, si dhe zvogëlim i ngadaltë drejt

zeros tregojnë një model autoregresiv. Sjellja e PACF-së, tregon një zvogëlim të

ngadaltë të vlerave të autokorrelacionit të pjesshëm në lage, vlera e autokorrelacionit

në lagun 1 propozon një rend mesatare të lëvizshme. Modeli për serinë kohore të

martesave mund të jetë një model ARIMA(p,d,q).

Seria mujore e dëmeve

Duke vëzhguar grafikun e ACF-së për serinë e dëmeve mund të shohim qartë se vlera

e autokorrelacionit fillojnë të zvogëlohen drejt zeros, ato qëndrojnë brenda intervalit të

besimit. Shuarja e vlerave të autokorrelacionit në mënyrë të alternuar (vlera pozitive

dhe negative) propozon një proces autoregresiv. Për të supozuar rendin e procesit mund

të vrojtohet lagu në të cilin vlerat autokorrelacionit të pjesshëm, PACF-së, pëson një

rritje të menjëhershme. Në grafikun e PACF-së së dëmeve kjo rritje e menjëhershme

vihet re pranë lagut 1. Kjo propozon një model AR(1) për serinë e dëmeve. Sigurisht

duke qënë se të dhënat janë mujore dhe për një periudhë të konsiderueshme duhet të

merret në konsiderate edhe një parametër sezonal në modelin që do t’i përshtatet serisë.

Seria mujore e TFR

Nga grafiku i ACF-së vihet re një sjellje sinusoidale e vlerave të autokorrelaciont të

serisë së TFR-së. Kjo sjellje propozon një model i cili shfaq sjellje periodike (një

parametër periodik do të jetë i pranishëm në model). Gjithashtu meqënëse vlerat e ACF-

së nuk bien drejt zeros në mënyrë të menjëhershme kjo nënkupton një seri jo-stacionare.

Jo-stacionariteti (prania e trendit) i serisë i propozon modelit një term diference d (rendi

Page 67: TEZË DOKTORATURE - api.fshn.edu.al

56

mund të përcaktohet pas disa testeve, rekomandohet të fillohet me d=1). Sjellja

sinusoidale e ACF-së e kombinuar me një zvogëlim të ngadaltë të vlerave të PACF-së

tregon praninë e një rendi të modelit me mesatare të lëvizshme. Pra modeli që mund të

propozohet për serinë e TFR do të jetë një model ARIMA(0,d,q) me sezonalitet të

pranishëm.

Shembull 3.5 ACF për serinë e lindjeve pas dy transformimeve të kryera

Figura 3.9 ACF pas stacionarizimit të serisë së lindjeve

Vini re zvogëlimin e vlerave të autokorrelacionit për serinë e lindjeve pas transformimit

të dytë (diferencim i vlerave të logaritmuara të serisë reale).

Duke vrojtuar formën dhe sjelljen e ACF-së dhe PACF-së, ajo çka këshillohet në

përshtatjen e modelit është: të niset puna duke supozuar modele me rende të ulëta,

(p,q,d), dhe të kontrollohet shkalla e përshtatjes së modelit me të dhënat reale duke

përdorur teste statistikore apo tregues mbi gabimet.

c) Grafikët Lag (Lag-plot)

Për një seri kohore një grafik lag është një teknikë grafike për të përcaktuar nëse

ekziston një strukturë autokorrelacioni brenda serisë. Për dy seri kohore një grafik lag

është një teknikë grafike e cila përdoret për të përcaktuar nëse ekzistojnë struktura

kros-korrelacioni midis dy serive kohore.

Idealisht ( për një proces zhurmë të bardhë apo dy seri kohore të pakorreluara), grafiku

lag duhet të ketë pamjen e një tabele qitje me goditje të ç’rregullta.

Për një seri kohore grafiku lag përbëhet nga:

0.0 0.5 1.0 1.5 2.0

0.0

0.4

0.8

Lag

AC

F

X0

0.0 0.5 1.0 1.5 2.0

0.0

0.4

0.8

Lag

AC

F

X0

0.0 0.5 1.0 1.5 2.0

-0.2

0.2

0.6

1.0

AC

F

X0

Page 68: TEZË DOKTORATURE - api.fshn.edu.al

57

Boshti vertikal= Xi

Boshti horizontal=Xi+lagu

Për dy seri kohore grafiku lag përbëhet nga:

Boshti vertikal= Yi

Boshti horizontal=Xi+lagu

Ndërtimi i grafikëve lag bëhet më i ndërlikuar dhe kërkon kohë me rritjen e rendit të

modelit. Softuere statistikor bëjnë përllogaritjen e vlerave të autokorrelacionit (për një

seri kohore) në pak sekonda duke afishuar paraqitjen grafike menjëherë më pas. Në R

komandat që ofrojnë ndërtimin e grafikëve lag janë zbatuar në shembujt e serive reale

të përmendura në kreun 1.

Shembull 3.6 Grafikët lag për seritë kohore të kapitullit 1

Kodi në R që bën të mundur afishimin e grafikëve lag gjendet në sajtin e poshtë shënuar 11.

Seritë kohore të marra në shqyrtim janë seritë mujore të: lindjeve, martesave, dëmeve

dhe TFR.

Komandat për secilën seri kohore dhe grafikët lag sipas renditjes së mësipërme janë

paraqitur më poshtë.

Komandat në R:

> lag.plot1(Ls,9,corr=TRUE,smooth=TRUE)

> lag.plot1(Ms,9,corr=TRUE,smooth=TRUE)

> lag.plot1(Demets,9,corr=TRUE,smooth=TRUE)

> lag.plot1(TFR,9,corr=TRUE,smooth=TRUE)

11Më tepër informacion: http://www.stat.ualberta.ca/~wiens/stat479/R%20scripts/itall.R

2000 4000 6000 8000

2000

5000

8000

Ls(t-1)

Ls(t

)

0.93

2000 4000 6000 8000

2000

5000

8000

Ls(t-2)

Ls(t

)

0.84

2000 4000 6000 8000

2000

5000

8000

Ls(t-3)

Ls(t

)

0.75

2000 4000 6000 8000

2000

5000

8000

Ls(t-4)

Ls(t

)

0.65

2000 4000 6000 8000

2000

5000

8000

Ls(t-5)

Ls(t

)

0.58

2000 4000 6000 8000

2000

5000

8000

Ls(t-6)

Ls(t

)

0.55

2000 4000 6000 8000

2000

5000

8000

Ls(t-7)

Ls(t

)

0.56

2000 4000 6000 8000

2000

5000

8000

Ls(t-8)

Ls(t

)

0.6

2000 4000 6000 8000

2000

5000

8000

Ls(t-9)

Ls(t

)

0.67

Page 69: TEZË DOKTORATURE - api.fshn.edu.al

58

Figura 3.10 a) Grafiku lag për serinë kohore të lindjeve (lagu=9)

Siç edhe vihet re nga grafikët lag për serinë kohore të lindjeve autokorrelacioni i

brendshëm i serisë është i rëndësishëm. Vlerat e autokorrelacionit në lage janë larg

zeros.

Figura 3.11 b) Grafiku lag për serinë kohore të martesave (lagu=9)

Grafikët lag për serinë kohore të martesave tregojnë një shpërndarje të rastësishme të

pikave dhe vlera të autokorrelacionit të ulëta krahasuar me serinë kohore të lindjeve.

Pra, ashtu sikurse pohuam edhe më sipër nëpërmjet analizimit të ACF dhe PACF kjo

seri nuk shfaq autokorrelacion të brendshëm.

500 1500 2500 3500

500

2000

3500

Ms(t-1)

Ms(t

)

0.38

500 1500 2500 3500

500

2000

3500

Ms(t-2)

Ms(t

)

0.06

500 1500 2500 3500

500

2000

3500

Ms(t-3)

Ms(t

)

0.09

500 1500 2500 3500

500

2000

3500

Ms(t-4)

Ms(t

)

0.14

500 1500 2500 3500

500

2000

3500

Ms(t-5)M

s(t

)

-0.07

500 1500 2500 3500

500

2000

3500

Ms(t-6)

Ms(t

)

-0.29

500 1500 2500 3500

500

2000

3500

Ms(t-7)

Ms(t

)

-0.09

500 1500 2500 3500

500

2000

3500

Ms(t-8)

Ms(t

)

0.08

500 1500 2500 3500

500

2000

3500

Ms(t-9)

Ms(t

)

0.02

Page 70: TEZË DOKTORATURE - api.fshn.edu.al

59

Figura 3.12 c) Grafiku lag për serinë kohore të dëmeve (lagu=9)

Ky grafik është një rast i pastër i mungesës së autokorrelacionit të serisë kohore. Vini

re shpërndarjen e rastësishme të pikave dhe vlerat koresponduese të autokorrelacionit

për çdo lag.

Figura 3.13 d) Grafiku lag për serinë kohore të TFR (lagu=9)

20000 60000 100000 140000

20000

80000

140000 Demets(t-1)

Dem

ets

(t)

0.28

20000 60000 100000 140000

20000

80000

140000 Demets(t-2)

Dem

ets

(t)

-0.02

20000 60000 100000 140000

20000

80000

140000 Demets(t-3)

Dem

ets

(t)

0.18

20000 60000 100000 140000

20000

80000

140000 Demets(t-4)

Dem

ets

(t)

0.12

20000 60000 100000 14000040000

100000

Demets(t-5)

Dem

ets

(t)

-0.15

20000 60000 100000 140000

40000

100000

Demets(t-6)

Dem

ets

(t)

0.03

20000 60000 100000 140000

40000

100000

Demets(t-7)

Dem

ets

(t)

0.19

20000 60000 100000 140000

40000

100000

Demets(t-8)

Dem

ets

(t)

-0.14

20000 60000 100000 140000

40000

100000

Demets(t-9)

Dem

ets

(t)

0.05

1 2 3 4 5 6 7

12

34

56

7

TFR(t-1)

TF

R(t

)

0.64

1 2 3 4 5 6 7

12

34

56

7

TFR(t-2)

TF

R(t

)

0.42

1 2 3 4 5 6 7

12

34

56

7

TFR(t-3)

TF

R(t

)

0.3

1 2 3 4 5 6 7

12

34

56

7

TFR(t-4)

TF

R(t

)

0.2

1 2 3 4 5 6 7

12

34

56

7

TFR(t-5)

TF

R(t

)

-0.01

1 2 3 4 5 6 7

12

34

56

7

TFR(t-6)

TF

R(t

)

-0.09

1 2 3 4 5 6 7

12

34

56

7

TFR(t-7)

TF

R(t

)

-0.04

1 2 3 4 5 6 7

12

34

56

7

TFR(t-8)

TF

R(t

)

0.16

1 2 3 4 5 6 7

12

34

56

7

TFR(t-9)

TF

R(t

)

0.26

Page 71: TEZË DOKTORATURE - api.fshn.edu.al

60

Vlerat e autokorrelacionit për seritë kohore të TFR-së janë të rëndësishme vetëm në

laget e para. Në laget pasues këto vlera shkojnë në zbritje dhe të alternuara i afrohen

zeros.

Paraqitjet grafike lag për seritë kohore janë të rëndësishme por njëherëshi për lage të

mëdha ato e rëndojnë grafikun dhe bëhen të vështira për t’u analizuar. Në R ofrohet një

tjetër funksion i gatshëm për përllogaritjen e autokorrelacionit në lage të mëdhenj,

acf2() në paketën astsa.

Nëse intersohemi të shohim ecurinë e autokorrelacionit dhe autokorrelacionit të

pjesshëm të serisë kohore në lage të mëdhenj atëherë aplikimi i këtij funksioni do të

bëjë të mundur afishimin e vlerave, ACF dhe PACF, për çdo lag si dhe paraqitjet grafike

të ACF dhe PACF. Duhet të kemi kujdes që numri i lageve të mos kalojë numrin e

vëzhgimeve.

Komandat në R dhe rezultatet për secilin lag (1-30):

Lindjet Martesat Dëmet TFR

> acf2(Ls,30)

ACF PACF

[1,] 0.93 0.93

[2,] 0.84 -0.15

[3,] 0.75 -0.09

[4,] 0.65 -0.07

[5,] 0.58 0.14

[6,] 0.55 0.24

[7,] 0.56 0.19

[8,] 0.60 0.24

[9,] 0.67 0.24

[10,] 0.75 0.19

[11,] 0.81 0.14

[12,] 0.84 0.03

[13,] 0.81 -0.29

[14,] 0.76 0.06

[15,] 0.68 -0.05

[16,] 0.60 -0.02

[17,] 0.54 0.04

[18,] 0.50 -0.05

[19,] 0.50 0.07

[20,] 0.54 0.08

[21,] 0.61 0.05

[22,] 0.67 -0.06

[23,] 0.71 -0.12

[24,] 0.73 0.02

[25,] 0.70 -0.13

[26,] 0.65 -0.02

[27,] 0.58 -0.01

[28,] 0.50 0.00

[29,] 0.45 -0.02

[30,] 0.41 -0.02

> acf2(Ms,30)

ACF PACF

[1,] 0.38 0.38

[2,] 0.06 -0.10

[3,] 0.09 0.12

[4,] 0.14 0.08

[5,] -0.07 -0.18

[6,] -0.29 -0.23

[7,] -0.09 0.11

[8,] 0.08 0.09

[9,] 0.02 0.01

[10,]-0.04 0.02

[11,] 0.20 0.20

[12,] 0.61 0.50

[13,] 0.25 -0.19

[14,] 0.03 -0.01

[15,] 0.01 -0.15

[16,] 0.12 0.06

[17,]-0.07 -0.05

[18,]-0.25 0.03

[19,]-0.08 0.04

[20,] 0.12 0.13

[21,]-0.01 -0.13

[22,]-0.04 0.09

[23,] 0.20 0.10

[24,] 0.47 0.07

[25,] 0.20 -0.06

[26,] 0.02 0.00

[27,] 0.00 -0.03

[28,] 0.07 -0.05

[29,]-0.07 0.05

[30,]-0.26 -0.08

> acf2(Demets,30)

ACF PACF

[1,] 0.28 0.28

[2,] -0.02 -0.11

[3,] 0.18 0.24

[4,] 0.12 -0.02

[5,] -0.15 -0.17

[6,] 0.03 0.12

[7,] 0.19 0.10

[8,] -0.14 -0.20

[9,] 0.05 0.25

[10,] -0.04 -0.34

[11,] -0.19 0.01

[12,] -0.20 -0.12

[13,] 0.09 0.16

[14,] -0.01 -0.06

[15,] -0.01 0.20

[16,] 0.13 -0.16

[17,] -0.10 -0.04

[18,] -0.08 -0.03

[19,] -0.09 -0.09

[20,] -0.11 -0.14

[21,] -0.15 0.13

[22,] 0.11 -0.07

[23,] -0.06 -0.11

[24,] -0.31 -0.23

[25,] -0.12 0.00

[26,] -0.06 -0.02

[27,] -0.19 -0.04

[28,] -0.18 -0.13

[29,] 0.10 0.03

[30,] 0.02 0.03

> acf2(TFR,30)

ACF PACF

[1,] 0.64 0.64

[2,] 0.42 0.01

[3,] 0.30 0.05

[4,] 0.20 -0.02

[5,] -0.01 -0.25

[6,] -0.09 0.01

[7,] -0.04 0.10

[8,] 0.16 0.35

[9,] 0.26 0.16

[10,] 0.35 0.13

[11,] 0.50 0.23

[12,] 0.65 0.26

[13,] 0.54 0.00

[14,] 0.41 0.04

[15,] 0.25 -0.09

[16,] 0.17 0.03

[17,]-0.03 -0.16

[18,]-0.09 0.01

[19,]-0.05 0.04

[20,] 0.14 0.14

[21,] 0.20 -0.04

[22,] 0.29 -0.03

[23,] 0.45 0.10

[24,] 0.55 0.03

[25,] 0.44 -0.06

[26,] 0.33 0.01

[27,] 0.22 -0.01

[28,] 0.15 0.03

[29,]-0.03 -0.07

[30,]-0.11 -0.03

3.1.9 Vlerësimi i Parametrave për Modelet ARMA (p, q)

Përgjatë këtij sesioni do të supozojmë se kemi n vrojtime, 1 2, ,..., nX X X , nga një proces

Gausian ARMA(p,q) i kthyeshëm në të cilin parametrat e rendeve, p dhe q, janë

fillimisht të njohur. Qëllimi është vlerësimi i parametrave të modelit2

1 2 1, ,..., , ,..., ,p q w . Problemi i përcaktimit të rendeve u trajtua më sipër dhe do të

vazhdojnë në kapitujt në vijim (teknika Box-Jenkins).

Page 72: TEZË DOKTORATURE - api.fshn.edu.al

61

Ka disa metoda vlerësimi për parametrat, dy më kryesoret dhe më të përdorshmet janë:

metoda e momenteve dhe metoda e përgjasisë maksimale. Në këtë pjesë do të

shqyrtojmë metodën e momenteve për vlerësimin e parametrave të modelit ARMA. Do

të supozojmë 0 . Le të konsiderojmë rastin kur kjo metodë jep vlerësime optimal

(eficente), rasti AR(p).

Në paragrafët më sipër forma e një procesi AR(p) ishte:

1 1 2 2 ...t t t p t p tX X X X w

Në këtë rast duke ndërtuar p+1 ekuacionet e (3.19) dhe (3.20), h=0,1,...,p, gjenden:

Ekuacionet e Yule-Walker:

1( ) ( 1) ... ( ), 1,2,...,ph h h p h p

2

1(0) (1) ... ( ).w p p

Duke përdorur shënimet matricore, ekuacionet Yule-Walker shkruhen:

2, (0) ' ( ),p p w p (3.27)

ku, , 1{ ( )}p

p j kk j është një matricë pxp, 1 2( , ,..., ) 'p është një vektor px1

dhe ( (1),..., ( )) 'p p është një vektor px1. Duke zbatuar metodën e momenteve,

zëvendësojmë ( )h në (3.27) me ˆ( )h (funksioni autokorrelacion i zgjedhjes) dhe duke

e zgjidhur:

1 2 ' 1ˆ ˆ ˆˆ ˆ ˆ ˆˆ, (0)p p w p p p (3.28)

Këta vlerësues quhen vlerësues Yule-Walker. Për qëllime llogaritëse disa herë është më

e përshtatshme të punohet me ACF-në e zgjedhjes.

Duke faktorizuar (0) në (3.28) mund të shkruajmë vlerësuesit Yule-Walker:

1 2 ' 1 'ˆ ˆˆ ˆˆ ˆ ˆ ˆ ˆ ˆˆ, (0)[1 ] (0)[1 ]p p w p p p pR R (3.29)

ku, , 1

ˆ ˆ{ ( )}p

p j kR k j është një matricë pxp dhe ˆ ˆ ˆ( (1),..., ( )) 'p p është një vektor

px1.

Për proceset AR(p) nëse vëllimi i zgjedhjes është i madh, vlerësuesit Yule-Walker janë

përafërsisht të shpërndarë normalish dhe 2ˆw është shumë pranë vlerës reale 2 w .

Page 73: TEZË DOKTORATURE - api.fshn.edu.al

62

Veti 3.1 Vëllime të mëdha të zgjedhjes dhe vlerësuesit Yule-Walker

Sjellja asimptotike ( n ) e vlerësuesve Yule-Walker për rastin e proceseve të

rastësishme AR(p) është si vijon:

2 1 2 2ˆ ˆ( ) (0, ), pd

w p w wn N (3.30)

Veti 3.2Për njëproces të rastësishëm AR(p), kur n , kemi:

ˆ (0,1), d

hhn N h p (3.31)

Shembull 3.7 Vlerësimi i parametrave për njëproces AR(2) nëpërmjet vlerësuesve

Yule-Walker

Në shembullin 3.3 simuluam një proces AR(2) me n=100 vlera dhe vlera të

parametrave 1 20.3, 0.8 . Pra modeli i simuluar do të shkruhej (në faqen e punës

në R është ruajtur me emrin ar2):

1 2 20.3 0.8t t t tX X X w

ku, ~ (0,1)tw N janë të pavarura. Për këto vlera të serisë së simuluar njehsojmë vlerat

e autokovariancës dhe autokorrelacionit nëpërmjet programit R.

Mënyra e parë

Mund të shfrytëzojmë funksionet e gatshme në R për të kryer veprimet llogaritëse.

Vlera e autokovariancës në lagun zero është vlera e dispersionit të serisë së simuluar:

> var(ar2)

[1] 2.248947

Pra, autokovarianca në lagun zero është ˆ(0) 2.25 .

Ndërsa vlerat e autokorrelacionit të zgjedhjes në lagun 1 dhe 2 i gjejmë duke shfrytëzuar

funksionin acf2 në R:

> acf2(ar2,2)

ACF PACF

[1,] 0.20 0.20

[2,] -0.67 -0.74

Pra, ˆ ˆ(1) 0.20; (2) 0.67 . Duke kryer veprimet përftojmë:

1 1

1

2

ˆ ˆ ˆ1 (1) (1) 1 -0.2 0.20 0.34782ˆ

ˆ ˆ ˆ(1) 1 (2) -0.2 1 0.67 0.73946

dhe,

Page 74: TEZË DOKTORATURE - api.fshn.edu.al

63

20.34782

ˆˆ ˆ ˆˆ (0)[1 ( (1), (2)) ] 2.24895[1 (0.20, 0.67) ] 0.97830.73946

w

Duke shfrytëzuar vetinë 3.1 matrica asimptotike e variancë-kovariancës për :

1 12 ˆ1 (1) 1 -0.20 0.0435 -0.00087ˆ1 1 0,9783

ˆˆ (1) 1 -0.20 1 -0.00087 0.0435(0) 100 2.24895

w

n

mund të shfrytëzohet për të gjetur intervalet e besimit për parametrat e . Për shembull

në shembullin më sipër intervalet e besimit për parametrat e modelit AR(2) do të jenë:

1

2

ˆ 0.34789 2 0.0435;0.34789 2 0.0435 0.0692;0.765

ˆ 0.73946 2 0.0435; 0.73946 2 0.0435 0.3223; 1.15

Vini re, vlerat e vlerësuara janë shumë pranë vlerave reale të modelit si dhe intervalet

e besimit i përfshijnë këto vlera.

Mënyra e dytë

Veprimet e mësipërme mund t’i thjeshtonim duke përdorur softuerin R për të afishuar

rezultatet e vlerësuesve Yule-Walker për modelin AR(2). Komandat që do ndiqeshin

në R dhe rezultatet e afishuara janë:

> ar2.yw=ar.yw(ar2,order=2)

> ar2.yw

Call:

ar.yw.default(x = ar2, order.max = 2)

Coefficients:

1 2

0.3512 -0.7393

Order selected 2 sigma^2 estimated as 0.9983

Shënim: Ndryshimet në vlerat e llogaritura sipas mënyrës së parë dhe mënyrës së dytë

vijnë si rezultat i rrumbullakimeve.

Vlerësuesit Yule-Walker të përftuar për modelet AR(p) janë vlerësues optimal, kjo

sepse modelet AR janë modele lineare dhe vlerësuesit Yule-Walker janë në themel

vlerësues të metodës së katrorëve më të vegjël. Nëse përdorim metodën e momenteve

për modelet MA dhe ARMA nuk do të përftojmë vlerësues optimal sepse procese të

tilla nuk janë linear në lidhje me parametrat.

Për të tilla modele propozohen metoda të tjera vlerësuesish të parametrave si për

shembull ajo e përgjasisë maksimale. Veprimet për vlerësimin e parametrave të

modeleve të mësipërme nëpërmjet metodës së përgjasisë maksimale janë të gjata dhe

të vështira, kërkojnë kujdes në përllogaritje. Në shembullin 3.7 ne do të prezantojmë

Page 75: TEZË DOKTORATURE - api.fshn.edu.al

64

aplikimin e kesaj metode nëpërmjet softuerit R. Funksioni i cili bën të mundur

aplikimin e metodës së përgjasisë maksimale në R për një model AR është:

> ar.mle(data,order)

Nëse e aplikojmë këtë funksion në serinë e simuluar në Shembullin 3.6, AR(2),

rezultatet që do japë metoda e përgjasisë maksimale janë:

> ar2.mle=ar.mle(ar2,order=2)

> ar2.mle

Call:

ar.mle(x = ar2, order.max = 2)

Coefficients:

1 2

0.3496 -0.7371

Order selected 2 sigma^2 estimated as 0.9495

Vlerat e përllogaritura janë të përafërta me metodën e momenteve.

Një tjetër funksion në R i cili afishon informacion mbi modelin, përfshirë këtu edhe

vlerësimin e parametrave, është:

>ar(ARp,order.max=p,AIC=F,method=”yw”)# vlerësuesit Yule-walker

>ar(ARp,order.max=p,AIC=F,method=”ols”)#vlerësuesit sipas metodës së

katrorëve

>ar(ARp,order.max=p,AIC=F,method=”mle”)# vlerësuesit sipas metodës së

përgjasisë maksimale

Të zbatuara në serinë e simuluar më sipër (ar2) do përftonim këto rezultate:

> ar(ar2,order.max=2,AIC=F,method="yw")

Call:

ar(x = ar2, order.max = 2, method = "yw", AIC = F)

Coefficients:

1 2

0.3512 -0.7393

Order selected 2 sigma^2 estimated as 0.9983

> ar(ar2,order.max=2,AIC=T,method="ols")

Call:

ar(x = ar2, order.max = 2, method = "ols", AIC = T)

Coefficients:

Page 76: TEZË DOKTORATURE - api.fshn.edu.al

65

1 2

0.3491 -0.7421

Intercept: 0.02104 (0.09878)

Order selected 2 sigma^2 estimated as 0.9561

> ar(ar2,order.max=2,AIC=F,method="mle")

Call:

ar(x = ar2, order.max = 2, method = "mle", AIC = F)

Coefficients:

1 2

0.3496 -0.7371

Order selected 2 sigma^2 estimated as 0.9495

Shembull 3.8 Vlerësimi i parametrave për një proces ARIMA(p,d,q) nëpërmjet

funksioneve të gatshme në R

Metoda e momenteve nuk është e përshtatshme për modelet MA. Le ta shohim këtë fakt

duke shqyrtuar modelin MA(1),1t t tX w w për të cilin dimë se:

1 21

dhe duke zëvendësuar

1 1r (1r është funksioni autokorrelacion i

zgjedhjes) zgjidhim ekuacionin e gradës së dytë në lidhje me . Nëse 1| | 0.5r atëherë

dy rrënjët e ekuacionit janë:

1 1

1 11

2 4r r

Prodhimi i dy rrënjëve është gjithmonë i barabartë me 1; për këtë arsye vetëm njëra nga

zgjidhjet kënaq kushtin e kthyeshmërisë | | 1 .

Pas disa veprimeve të thjeshta algjebrike shohim se vlerësuesi i parametrit mund të

shkruhet:

2

1

1

1 1 4ˆ2

r

r

Nëse: 1 0.5r atëherë ekzistojnë zgjidhje reale të parametrit .

Nëse: 1| | 0.5r atëherë nuk ekzistojnë zgjidhje reale të parametrit dhe kështu metoda e

momenteve dështon në përpjekjen për të gjetur një vlerësues të parametrit .

Le të shqyrtojmë modelin MA(2) të simuluar në shembullin 3.3:

Page 77: TEZË DOKTORATURE - api.fshn.edu.al

66

> ma2=arima.sim(list(order=c(0,0,2),ma=c(0.3,-0.85)),n=100)

Nëse njohim vlerat e vrojtuara dhe rendin e modelit atëherë një nga funksionet i cili bën

të mundur përshtatjen e një modeli duke vlerësuar parametrat e tij është:

> arima(data,order=c(p,d,q))

Nëse e aplikojmë komandën e mësipërme në modelin e simuluar MA(2) rezultati që do

përftojmë do të jetë:

> arima(ma2,order=c(0,0,2))

Call:

arima(x = ma2, order = c(0, 0, 2))

Coefficients:

ma1 ma2 intercept

0.1477 -0.6834 0.0369

s.e. 0.0774 0.0752 0.0567

sigma^2 estimated as 1.414: log likelihood = -159.96, aic = 327.91

Vlerësimet e afishuara nga funksioni arima në R japin vlera të parametrave të përafërt

me vlerat reale të parametrave të serisë.

Nëse aplikojmë të njëjtin funksion për serinë e simuluar në shembullin 3.7, AR(2),

rezultatet janë të njëjta me vlerat e afishuara nga metoda e përgjasisë maksimale.

Një mangësi që ka funksioni arima() është fakti se ai kërkon informacion mbi llojin e

modelit dhe duke e shfrytëzuar këtë informacion kryen përllogaritjet statistikore për

vlerësimin e parametrave të modelit.

Të tjera funksione që cilësojnë metodën e vlerësimit të parametrave (CSS apo ML)

janë:

> arima(ma2,order=c(0,0,2),method="CSS")# CSS,metoda e katrorëve më të

vegjël

Series: ma2

ARIMA(0,0,2) with non-zero mean

Coefficients:

ma1 ma2 intercept

0.1479 -0.6917 0.0377

s.e. 0.0750 0.0744 0.0558

sigma^2 estimated as 1.432: part log likelihood=-159.84

> arima(ma2,order=c(0,0,2),method="ML")# ML,metoda e përgjasisë

maksimale

Series: ma2

Page 78: TEZË DOKTORATURE - api.fshn.edu.al

67

ARIMA(0,0,2) with non-zero mean

Coefficients:

ma1 ma2 intercept

0.1477 -0.6834 0.0369

s.e. 0.0774 0.0752 0.0567

sigma^2 estimated as 1.414: log likelihood=-159.96

AIC=327.91 AICc=328.33 BIC=338.33

Por në jetën reale shpesh përballemi me seri kohore të cilave nuk ia njohim natyrën. Në

këtë rast një tjetër funksion i R-së bën të mundur vlerësimin e parametrave të modelit

pa patur informacion mbi rendin e modelit apo llojin e tij, ky është funksioni

auto.arima(). Për serinë e simuluar MA(2) ky funksion afishon rezultatet e

mëposhtëme:

> auto.arima(ma2)

Series: ma2

ARIMA(0,0,2) with zero mean

Coefficients:

ma1 ma2

0.1549 -0.6766

s.e. 0.0764 0.0741

sigma^2 estimated as 1.42: log likelihood=-160.16

AIC=326.32 AICc=326.57 BIC=334.14

Nëse do arsyetonim për modelin më të mirë një tregues është kriteri i informacionit

AIC. Në kapitullin 2 ne trajtuam disa nga kriteret të cilat mund të përdoren për të

përzgjedhur modelin më të përshtatshëm. Një prej tyre ishte kriteri i informaccionit

Akaike (AIC). Vlera sa më të vogla të AIC-së tregojnë përshtatshmëri më të lartë të

modelit. Në rastin e MA(2) modeli më i përshtatshëm është ai i propozuar nga funksioni

auto.arima(), sepse vlera e AIC-së (AIC=326.32) është më e vogël se vlera e AIC-së

në modelin e propozura nga funksioni arima()(AIC = 327.91).

Shembull 3.9 Vlerësimi i parametrave për seritë kohore reale, Funksioni

auto.arima()

Formulat përllogaritëse për të vlerësuar parametrat e modelve ARIMA(p,d,q)

vështirësohen me rritjen e rendeve të modelit. Kështu përshembull për një model të

thjeshtë ARMA(1,1) formulat përllogaritëse duke përdorur metodën e momenteve do

të ishin:

1

2

(1 )( ), 1

1 2

h

h h

Page 79: TEZË DOKTORATURE - api.fshn.edu.al

68

Vëmë re se: 2 2

1 1

ˆ r

r

. Duke zgjidhur ekuacionin: 1 2

ˆ ˆ(1 )( )

ˆ1 2r

në lidhje

me parametrin mund të gjejmë një vlerësues për të.

Ashtu sikurse e përmendëm më sipër një ndër paketat që bën të mundur përdorimin e

funksionit auto.arima() në R, është paketa forecast(). Rezultatet që afishon ky funksion

pas aplikimit në një seri kohore janë:

- rendet e modelit (p,d,q)

- parametrat e modelit

- dispersioni i vlerësuar

- statistika të mirësisë së modelit të vlerësuar

Pas aplikimit të këtij funksioni në seritë kohore reale të prezantuara në kapitullin 1

modelet e propozuara janë:

1) Seria e lindjeve

> auto.arima(Ls)

Series: Ls

ARIMA(2,1,2)(1,0,1)[12]

Coefficients:

ar1 ar2 ma1 ma2 sar1 sma1

0.3319 0.2136 -0.5477 -0.4098 0.9552 -0.6757

s.e. 0.4469 0.3260 0.4309 0.4200 0.0209 0.0597

sigma^2 estimated as 171549: log likelihood=-2142.84

AIC=4299.67 AICc=4300.08 BIC=4325.29

2) Seria e martesave

> auto.arima(Ms)

Series: Ms

ARIMA(1,1,1)(1,0,2)[12]

Coefficients:

ar1 ma1 sar1 sma1 sma2

0.3710 -0.9895 0.9666 -0.5387 -0.1637

s.e. 0.0574 0.0110 0.0168 0.0657 0.0601

sigma^2 estimated as 117134: log likelihood=-2089.04

AIC=4190.09 AICc=4190.39 BIC=4212.05

3) Seria e demeve

> auto.arima(Demets)

Series: Demets

ARIMA(1,0,0)(0,0,1)[12] with non-zero mean

Coefficients:

ar1 sma1 intercept

Page 80: TEZË DOKTORATURE - api.fshn.edu.al

69

0.3236 -0.7916 63639.112

s.e. 0.1553 0.5752 2761.071

sigma^2 estimated as 335775495: log likelihood=-477.03

AIC=962.05 AICc=963.13 BIC=969

4) Seria e TFR

> auto.arima(TFR)

Series: TFR

ARIMA(0,1,2)(1,0,1)[12]

Coefficients:

ma1 ma2 sar1 sma1

-0.6653 -0.3063 0.9687 -0.7466

s.e. 0.0538 0.0527 0.0158 0.0495

sigma^2 estimated as 0.304: log likelihood=-243.4

AIC=496.81 AICc=497.02 BIC=515.1

Pas këtyre modeleve të propozuara mbetet të fillojmë punën për të gjetur modelin më

të mirë me qëllim përftimin e parashikimeve më të “mira”. Në kapitullin 4 do të trajtohet

metoda Box –Jenkins si një ndër metodat më të përdorshme për përzgjedhjen e modelit

më të mirë.

3.2 Modelet SARIMA multiplikative

Në këtë sesion do të trajtojmë disa modifikime që i janë bërë modeleve ARIMA për të

konsideruar sjelljen sezonale dhe jo-stacionare. Shpesh varësia nga e shkuara tenton të

ndodhë më fortë dhe duke shfaqur sezonalitet në disa lage s. Për shembull, të dhënat

mujore financiare me shumë të ngjarë kanë një përbërëse vjetore tëforte, e cila shfaqet

në lage shumfish të s=12. Kjo ndodh për shkak të lidhjeve të forta të aktivitetit në gjithë

vitin kalendarik. Të dhënat e mbledhuratremujore do të shfaqin një periodë përsëritëse

vjetore në çdotremujorë. Fenomene natyrore, si për shembull temperatura, kanë

përbërëse të forta sezonale. Gjithashtu ndryshueshmëria e shumë proceseve me natyrë

fizike, biologjike dhe ekonomike priret të shfaqë luhatje sezonale. Ky sezonalitet dhe

stacionaritet përfshihet në model në formën e një përbërësi multiplikativ qëështë me

interest ë studiohet. Për këtë qëllim futet modeli ARMA sezonali pastër (pure sesonal

autoregressive moving average model), që shënohet ARMA (P,Q)s dhe që është i

formës:

( ) ( )s s

P t Q tB X B w (3.32)

ku, operatorët

2

1 2( ) 1 ...s s s Ps

P PB B B B (3.33)

dhe

2

1 2( ) 1 ...s s s Qs

Q QB B B B (3.34)

Page 81: TEZË DOKTORATURE - api.fshn.edu.al

70

janë përkatësisht përbërësi autoregresiv sezonal dhe përbërësi mesatare të lëvizshme

sezonal të rendeve P dhe Q, me periodë sezonale s.

Mund të tregohet se për të siguruar stacionaritetin, si në rastin e proceseve ARMA

josezonalë, kërkohet që rrënjët e polinomit karakteristik ( )s

P z dhe të polinomit

karakteristik ( )s

Q z të jenë jashtë rrethit njësi. Në këtë mënyrë sigurohet që procesi

ARMA(P,Q)s është rastësor (causal) dhe i kthyeshëm (invertible).

Në përgjithësi mund të kombinohen operatorët sezonal dhe jo-sezonal në një model

autoregresiv me mesatare të lëvizshme multiplikativ sezonal, i cili shënohet

ARMA(p,q)x(P,Q)s që shkruhet në formën e përgjithshme:

( ) ( ) ( ) ( )s s

P t Q tB B X B B w (3.35)

si model të përgjithshëm.

Në analogji me tabelën 3.1 që përshkruan sjelljen e ACF dhe PACF për modelt ARMA

të kthyeshëm, mund të ndërtohet një tabelë për sjelljen e ACF dhe PACF për modelet

e përziera si këto më lart (Shih Shumway dhe Sttofer, 2006).

Le të shohim modelin e përzier sezonal ARMA(1,0)x(1,0)12që shkruhet:

12 1t t t tX X w w

ku | | 1 dhe | | 1 . Meqënëse 12 1, ,t t tX w w

janë të pakorreluara, dhe tX është

stacionar, atëherë: 2 2 2 2(0) (0) w w ose 2

2

2

1(0)

1w

.

Nëse shumëzojmë modelin me t hX

, h>0 dhe duke marrë pritjen matematike të dy

anëve gjejmë: 2(1) (11) w dhe ( ) ( 12), 2h h h .

Funksioni autokorrelacion për këtë model është:

2

(12 ) , 1,2,...

(12 1) (12 1) , 0,1,2,...1

( ) 0, .

h

h

h h

h h h

h ndryshe

Mund të ndodhë të kemi sezonalitet jo stacionar, për shembull, kur procesi është

pothuajse periodik në sezon. Për shembull për serinë e temperaturave mesatare mujore

për çdo muaj të vitit, çdo muaj Janar do të ketë përafërsisht të njëjtën vlerë, çdo muaj

Shkurt gjithashtu e kështu me rradhë. Në këtë rast mund të mendojmë se temperatura

mesatare mujore Xtmodelohet si:

t t tX S w

ku, St është një përbërëse sezonale që ndryshon ngadalë nga njëri vit në tjetrin si një

endje e rastit:

Page 82: TEZË DOKTORATURE - api.fshn.edu.al

71

12t t tS S v

Në këtë model tw dhe

tv janë procese zhurmë e bardhë të pakorreluara. Prirja e

vrojtimeve për të ndjekur këtë lloj modeli shfaqet në funksionin autokorrelacion të

zgjedhjes (ACF) i cili ka vlera të larta dhe zbret shumë ngadalë në laget h=12k, për

k=1,2, ... . Nëse mënjanojmë efektin e viteve pasardhës nga njeri-tjetri, gjejmë:

12

12 12(1 ) .t t t t t tB X X X v w w

Modeli i mësipërm është një model stacionar MA(1)12, dhe funksioni autokorrelacion i

tij do të ketë një vlerë të lartë vetëm në lagun 12. Në përgjithësi kur ACF zvogëlohet

ngadalë në shumfishat e një periode s por është shumë i vogël midis periodave, atëherë

mund të zbatohet diferencimi sezonal. Një diferencim sezonal i rendit D përcaktohet

me barazimin:

(1 )D s D

s t tX B X

ku D=1,2,... merr vlera të plota pozitive. Zakonisht D=1 mjafton për të përftuar

stacionaritet sezonal.

Përkufizim 3.12 Modeli multiplikativ sezonal autoregresiv me mesatare të

lëvizshme të integruar, ndryshe modeli SARIMA, nga Box dhe Jenkins (1970) jepet

nga:

( ) ( ) ( ) ( )s D d s

P s t Q tB B X B B w (3.35)

ku tw është procesi zhurmë e bardhë Gausiane. Modeli shënohet

ARIMA(p,d,q)x(P,D,Q)s. Përbërëset e zakonshme autoregresive dhe të mesatares së

lëvizshme përfaqësohen nga polinomet ( )B dhe ( )B të rendeve p dhe q

respektivisht, përbërëset autoregresive dhe mesatare të lëvizshme sezonale

përfaqësohen nga ( )s

P B dhe ( )s

Q B me rende P dhe Q, dhe përbërëset e

zakonshme të diferencave përfaqësohen nga (1 )d dB dhe (1 )D s D

s B .

Shembull 3.9 Një model SARIMA

Le të konsiderojmë një model të thjeshtë SARIMA, ARIMA(0,1,1)x(0,1,1)12, ku luhatjet

ndodhin çdo 12 muaj.Modeli do të shkruhej sipas (3.35): 12 12(1 )(1 ) (1 )(1 )t tB B X B B w (3.36)

Duke zbërthyer të dy anët e (3.36) përftojmë:

12 13 12 13(1 ) (1 )t tB B B X B B B w

ose në trajtën e ekuacioneve me diferenca:

1 12 13 1 12 13.t t t t t t t tX X X X w w w w

Përzgjedhja e modelit të përshtatshëm për një bashkësi vrojtimesh sipas formulës së

përgjithshme (3.35) është një detyrë e “frikshme”. Ne përpiqemi fillimisht të gjejmë

operatorët e diferencave që prodhojnë një seri përafërsisht stacionare dhe më pas një

Page 83: TEZË DOKTORATURE - api.fshn.edu.al

72

bashkësi modelesh ARMA ose SARIMA të thjeshtë, jo dhe aq të ndërlikuar, që i

përshtaten serisë së mbetjeve. Së pari aplikohen operatorët e diferencave dhe më pas

ndërtohen mbetjet nga një seri me përmasë të reduktuar. Në vijim vlerësohen ACF-ja

dhe PACF-ja e mbetjeve. Vlera të larta që shfaqen në këto funksione mund të

eleminohen duke përshtatur një përbërëse autoregresive ose mesatare të levizshme.

Shembull 3.10 Aplikimi i modeleve SARIMA në programin R

Një problem me interes në fushat ekonomike dhe demografike është identifikimi i një

modeli të klasës së Box-Jenkins dhe më pas prodhimi i parashikimeve bazuar në

modelin e përzgjedhur.

Do të ndalemi më shumë në kapitullin 4 përsa i përket metodologjisë Box-Jenkins për

përftimin e një modeli sa më të përshtatshëm të vrojtimeve të kryera. Në këtë shembull

do të trajtojmë mundësitë që ofron R për përshtatjen e një modeli SARIMA.

Nëse i rikthehemi shembullit 3.9, aty ku përftuam vlerësuesit e parametrave të modelit

nëpërmjet R-së, do të vëmë re se funksioni i zbatuar (auto.arima() ) ofron përveç

vlerësimeve të parametrave të modelit edhe natyrën dhe rendet e tij.

Vini re modelet e propozuara janë modele SARIMA me sezonalitet 12. Një shpjegim i

thjeshtë është fakti se vrojtimet janë mujore dhe për disa vite. Kështu që, një sezonalitet

s=12 ishte i pritshëm.

Modelet e mësipërme janë një pikë nisje për të filluar analizimin e modelit për vrojtimet

e kryera. Teknika apo tregues të tjerë aplikohen për të përzgjedhur cili nga modelet

është më i “miri” për vrojtimet.

3.3 Modelet ARCH dhe GARCH

Probleme të kohëve të fundit në finacë kanë motivuar studimin e volatilitetit, apo

ndryshueshmërisë, së serive kohore. Ndonëse modelet ARMA supozojnë një dispersion

konstant, të tjera modele si ato autoregresive me heteroskedasticitet të kushtëzuar,

ARCH, u propozuan nga Engle (1982) për të modeluar ndryshimet në volatilitet. Këto

modele u zgjeruan më tej në modelt ARCH të përgjithësuara të njohura më pas si

modelet GARCH nga Bollerslev (1986).

Korniza e modeleve ARCH/GARCH ka provuar të jetë shumë e suksesshme në

parashikimin e volatilitetit. Këto modele përshkruajnë ecurinë kohore të mesatares së

katrorëve të gabimeve, pra të evoluimit të amplitudës së pasigurisë. Vrojtimet në të cilat

dispersionet e gabimeve janë të ndryshme në momente të ndryshme thuhet se vuajnë

nga heteroskedasticiteti. Modelet GARCH e trajtojnë heteroskedasticitetin si një

dispersion që duhet modeluar.12

Në paragrafin 3.1.7 në shqyrtuam normën e rritjes së një serie. Për shembull nëse Yt

është vlera e një aksioni në momentin e kohës t, atëherë kthimi ose fitimi i afërm, Xt, i

aksionit në momentin e kohës t është:

12Shumway H. R. dhe Stoffer S. D. (2006) ; Hamilton, J. D. (1994); Engle Robert (2001)

Page 84: TEZË DOKTORATURE - api.fshn.edu.al

73

1

1

t tt

t

Y YX

Y

(3.37)

Shihet se 1(1 )t t tY X Y ; ndërkaq fitimi i afërm përfaqëson një ndryshim të vogël në

përqindje atëherë mund të shkruajmë:

[ln ]t tY X (3.38)

Të dy vlerat në (3.37) dhe (3.38) do të shënohen Xt. Modelet ARCH dhe GARCH

synojnë studimin pikërisht të Xt. Në seritë financiare, Xtnukka dispersion constant dhe

modelet e volatilitetit janë mëse normale.

Modeli më i thjeshtë ARCH është ARCH(1) sipas të cilit:

2 2

0 1 1

t t t

t t

X w

X

(3.39)

ku tw është zhurmë e bardhë Gausiane standarde. Ashtu sikurse me modelet ARMA

duhet të vendosim disa kufizime. Një kufizim i natyrshëm është që1 të mos jetë

negative, përndryshe 2

t mund të jetë negative.

Një model ARCH (1) karakterizohet nga vetitë e mëposhtëme:

Nëse 1 1 , procesi Xt është një zhurmë e bardhë dhe shpërndarja e tij e

pakushtëzuar është simetrike përreth zeros; kjo shpërndarje është leptokurtic13

Nëse, më tej, 2

13 1 , atëherë katrori i procesit, 2

tX , ndjek një model shkakësor

AR(1) me ACF të dhënë nga 2 1( ) 0h

Xh për çdo h>0. Nëse 2

13 1 , por

1 1 atëherë 2

tX është rigorozisht stacionar me dispersion të pafundëm.

Ashtu sikurse veprohej me vlerësimin e parametrave të modeleve ARMA edhe për

rastin e modeleve ARCH metodat e vlerësimit janë të njëjta. Përgjithësisht veprohet me

metodën e përgjasisë maksimale.

Modelet GARCH përdoren shpesh për seri kohore financiare por kjo nuk largon

mundësinë e të dhënave me natyrë tjetër. [Bo Zhou, Dan He; Zhili Sun (2005)]

Modeli më i thjeshtë GARCH është GARCH(1,1) i cili shkruhet:

2 2 2

0 1 1 1 1

t t t

t t t

X w

X

(3.40)

ku, ~ (0,1)tw N është zhurma e bardhë Gausiane standarde dhe 1 10, 0

Shembull 3.11 Aplikim i modeleve GARCH në R

Një ndër paketat që bën të mundur një përshtatje të vrojtimeve sipas një modeli

13 Shpërndarjet Leptokurtic janë ato shperndarje të cilat kanë koeficient të sheshtësisë (kurtosis) pozitiv

të lartë. (2004) David J. Sheskin

Page 85: TEZË DOKTORATURE - api.fshn.edu.al

74

GARCH është Rtseries. Seria kohore që kemi marrë në konsideratë është një seri e

difekteve ditore telefonike fikse të një kompanie që operon në Shqipëri.

Figura 3.14 Seria e numrit të difekteve ditore të kompanisë telefonise fikse

Sic vihet re edhe nga grafiku i serisë kohore, ka ditë në të cilët numri i difekteve është

i lartë dhe ditë në të cilët numri i difekteve është i ulët. Kjo sjellje tregon se sezonaliteti

është i pranishëm në serinë kohore dhe duhet të merret në konsideratë në hapat e

vlerësimit të modelit.

Një model i mirë duhet të ketë aftësinë të kapë karakteristikat e dukshme të serisë.

Figura 3.14 tregon një seri kohore ku sezonaliteti dhe paqëndrueshmëria janë të

pranishme.

Komandat dhe rezultatet pas përpunimit të serisë kohore në programin R tregohen më

poshtë:

Modeli i propozuar është: GARCH(1,1)

Mbetjet:

Min 1Q Median 3Q Max

0.7284 0.7534 0.8488 1.1088 1.3721

Koeficientët e modelit:

Estimate Std. Error t value Pr(>|t|)

a0 2.823e+04 1.482e+06 0.019 0.985

a1 9.611e-01 4.131e+00 0.233 0.816

b1 9.833e-10 3.275e+00 0.000 1.000

Testet diagnostikuese:

Jarque Bera Test

data: Residuals

X-squared = 1.0993, df = 2, p-value = 0.5772

Box-Ljung test

data: Squared.Residuals

X-squared = 2.8882, df = 1, p-value = 0.08923

Statistikat e kritereve të informacionit:

Numri i difekteve ditore periudha Janar 2009- Mars 2011

Vite

Nu

mri

2009.0 2009.5 2010.0 2010.5 2011.0 2011.5

02

00

40

06

00

80

01

20

0

Page 86: TEZË DOKTORATURE - api.fshn.edu.al

75

AIC BIC SIC HQIC

13.85324 13.87626 13.85319 13.86207

Vlera e statistikës Jarque-Bera testështë1.0993, p-vlera> 0.05 nënkupton se duhet të

pranojmë hipotezën zero (pra të dhënat kanë shpërndarje normale). Testi Ljung –Box

në modelin GARCH përdoret për të treguar nëse modeli që i është përshtatur vrojtimeve

ka kapur gjithë informacionin. Hipotezat që testohen janë: H0: të dhënat kanë

autokorrelacione zero vs H1: të dhënat nuk kanë autokorrelacione zero. Nëse p-vlera

> 0.05atëherë hipoteza H0 pranohet përndryshe ajo refuzohet.

Figura 3.15 paraqet parashikimet sipas modelit të propozuar GARCH (1,1) së bashku

me luhatjet ,t , për periudhën Prill-Maj 2011.

Vijat blu dhe e gjelbër tregojnë intervalet e besimit 95% për parashikimet ndërsa vija e

kuqe tregon vlerën mesatare të difekteve bazuar në modelin e propozuar GARCH(1,1).

Figura 3.15 Parashikimet sipas modelit GARCH(1,1) për periudhën Prill-Maj 2011

Funksioni Fgarch() në R ofron një analizë të plotë të modelit GARCH.

3.1.9 Krahasim i dy modeleve ARIMA dhe GARCH për serinë e difekteve

ditore të telefonisë fikse

Modelet e prezantuar në këtë kapitull janë një përpjekje e parë në investigimin që mund

t’i bëhet serive reale me të dhënanga vendi. Pas përpjekjeve të kryera në programin R

për të përshtatur një model të dhënave të defekteve ditore përftuam dy modele të

rëndësishme: ARIMA dhe GARCH.

Modeli ARIMA i propozuar:

ARIMA(4,1,5)

Koeficientët e modelit:

0 50 100 150 200 250 300

02

00

40

06

00

80

01

00

01

20

0

Index

x

Prediction with confidence intervals

X^

t h

X^

t h 2 MSE

X^

t h 2 MSE

Page 87: TEZË DOKTORATURE - api.fshn.edu.al

76

AR: =0.7644, =-1.1679,=0.4775, =-0.7626,

MA: = -1.3175, = 1.1669, = -0.7702, = 0.7138,= -0.4944

Vlerat e kritereve të informacionit:

AIC= 10698.12, AICc= 10698.39, BIC= 10745.17

Vrojtimet e defekteve telefonike ditore shfaqin volatilitet dhe kjo ishte një ndër arsyet

se përse zgjodhëm modelin GARCH për t’ia përshtatur të dhënave. Por parashikimi që

ky model ofronte për serinë e difekteve telefonike nuk ishte i kënaqshëm. Ndërkohë

modeli ARIMA (4, 1, 5) duket se i përshtatet më mirë këtyre vrojtimeve. Ky model

ofron informacion më të detajuar për vrojtimet në ditët pasardhëse, ai ruan

stacionaritetin dhe periodicitetin e serisë origjinale. (Figura 3.16 është përftuar nga

ekzekutimi i funksionit forecast() në R)

Figura 3.16 Modeli ARIMA (seria e difekteve telefonike)

Grafiku i dytë në Figurën 3.16 tregon përshtatshmërinë e modelit të propozuar ARIMA

dhe vrojtimeve reale për dy muajt në vijim.

Forecasts from ARIMA(4,1,5)

0 200 400 600 800

04

00

80

01

20

0

Forecasts from ARIMA(4,1,5)

760 770 780 790 800 810 820 830

20

06

00

10

00

Page 88: TEZË DOKTORATURE - api.fshn.edu.al

77

Figura 3.17 Parashikimet sipas modelit ARIMA ( vija e kuqe) dhe vrojtimeve reale

(vija blu) për periudhën Prill-Maj 2011

Pavarësisht suksesit të modeleve ARCH/GARCH mbi seritë kohore që shfaqin

paqëndrueshmëri, nuk ka një konsensus se përse pasiguria tenton të grumbullohet. Për

këtë arsye apo dhe mjaft të tjera modelet e propozuara tentojnë të performojnë mirë në

disa periudha dhe jo mirë në disa të tjera. [Awartani, B. M. A., & Corradi, V. (2005)]

Dite

0 10 20 30 40 50 60

200

400

600

800

1000

Page 89: TEZË DOKTORATURE - api.fshn.edu.al

78

Kapitulli 4

Përzgjedhja e modelit më të mirë për qëllime parashikimi

sipas metodologjisë Box-Jenkins

Qëllimi i këtij kapitulli është përzgjedhja e një modeli më të përshtatshëm për qëllime

të mëtejshme parashikimi për serinë kohore të numri të lindjeve çdo muaj në

Shqipëri. Përzgjedhja e modelit “më të mirë” do të kryhet bazuar mbi disa teknika të

propozuara në literaturën e serive kohore dhe aplikimi i tyre në programin R.

Në fillim do të paraqesim disa elemente kryesore të metodologjisë Box-Jenkins për

modelet ARIMA, zbatimi i saj në programin R. Në material tregohet se problemi më i

madh është mënyra e stacionarizimit të serisë kohore që Box dhe Jenkins propozojnë

(diferencimin e serisë). Kontributi i Box dhe Jenkins qëndron në zhvillimin e një

metodologjie për identifikimin dhe vlerësimin e modeleve.[ Box, G. E. P. & Jenkins,

G. (1970), (1976)]

4.1 Metodologjia Box- Jenkins Ndonëse modelet autoregresive dhe mesatare të levizshme u prezantuan fillimisht nga

Yule (1926) dhe Slutsky (1937) , ishte Wold (1938) i cili i kombinoi këto modele

(ARMA) dhe tregoi se modelimi i serive kohore të jetës reale kërkon kalimin në katër

hapa kryesorë. Së pari, seria origjinale duhet të transformohet në mënyrë të tillë që të

jetë stacionare pranë pritjes matematike dhe dispersionit të saj. Së dyti, duhet të

përcaktohet rendi i përshtatshëm i p dhe q. Së treti, duhet të vlerësohen parametrat e

modelit ARMA ( , 1i i p dhe , 1j j q ). Dhe së fundmi, duhen konsideruar mënyra

praktike të modelimit të serive sezonale në mënyrë që të specifikohen rendet e modelit.

Realizimi i rezultatetve teorike të propozuara nga Wold në seri kohore të jetës reale

nuk u bë e mundur deri në meset e viteve ’60 kur kompjuterat, të aftë për përllogaritjet

e kërkuara, u bënë të mundur të përdoreshin në masë. Box dhe Jenkins (1976, puna e

tyre origjinale 1970) popullarizuan modelet ARMA duke propozuar:

(a) udhëzime për transformimin e serisë në një seri stacionare ,

(b) përdorimin e koefiçientëve të autokorrelacionit dhe autokorrelacionit të pjesshëm

për të përcaktuar vlera të përshtatshme për p dhe q ( dhe ekuivalenteve sezonale P dhe

Q, në rastet kur seria shfaqte natyrë sezonale),

(c) një listë programesh kompjuterik për të ndihmuar përdoruesit të identifikonin rendet

e përshtatshme të parametrave p,q (edhe P, Q për rastin sezonal) si dhe vlerësimin e

parametrave të modelit,

(d) një kontroll diagnostikues për të përcaktuar nëse mbetjet ishin një zhurmë e bardhë,

në këtë rast rendet e modelit konsideroheshin përfundimtare (përndryshe duhet të

prezantohej një model tjetër në (b) dhe të përsëriteshin hapat (c) dhe (d)).

Page 90: TEZË DOKTORATURE - api.fshn.edu.al

79

Nëse kontrolli diagnostikues tregonte mbetje rastësore, atëherë modeli i ndërtuar

përdorej për parashikim ose qëllime kontrolli, duke supozuar sigurisht qëndrueshmëri,

që nënkupton se rendi i modelit dhe sjellja e tij jo-stacionare do të qëndronin të njëjta

gjatë parashikimit apo fazës së kontrollit.

Përafrimi i propozuar nga Box dhe Jenkins, që mori emrin Metodologjia Box dhe

Jenkins për modelet ARIMA, u bë mjaft popullore në vitet ’70 në mjediset akademike,

në vecanti kur u tregua me studime empirike [Cooper, 1972; Nelson, 1972;

Narasimham et al., 1974; McWhorter, 1975; Armstrong, 1978] se kjo metodologji

mund të vepronte më mirë se modelet ekonometrike, të popullarizuara në atë kohë, në

një shumllojshmëri situatash.

4.1.1 Hapat e metodologjisë Box dhe Jenkins

Proçedura origjinale e metodologjise Box-Jenkins përfshin një proces iterativ me tre

hapa: përzgjedhja e modelit, vlerësimi i parametrave dhe kontrolli i modelit.

Figura 4.1 tregon katër hapat e metodologjisë Box dhe Jenkins [Makridakis, 1983]. Ky

paragraf shqyrton secilin prej hapave dhe diskuton kontibutin e tyre në cilësinë e

parashikimit.

Figura 4.1 Skema e metodologjisë Box-Jenkins (1976)

Stacionariteti

Përpara se seria kohore të modelohet si një seri ARIMA ajo duhet të jetë stacionare në

pritje dhe dispersion. Përafrimi Box dhe Jenkins sugjeron diferencime të shkurtëra dhe

sezonale me qëllim stacionarizimin në pritjen matematike, dhe logaritmim apo

transformime të fuqisë për të arritur stacionarizim në dispersion. Të dyja mënyrat e

diferencimit janë vënë në pikëpyetje në vitet në vijim të propozimit të Box dhe Jenkins.

Kështu, Pierce (1977) argumentoi se diferencimi nuk ishte një mënyrë e përshtatshme

për të stacionarizuar të dhënat dhe kundrejt këtij transformimi ai propozoi

detrendimin.Nelson dhe Plosser (1982) argumentuan se disa seri mund të

stacionarizoheshin më mirë duke përdorur diferencimin ndërsa disa të tjera duke

shfrytëzuar largimin linear të trendit. Të tjerë në vitet në vijim [Parzen, 1982; Newton

dhe Parzen, 1984; Meese dhe Geweke,1984] kanë përdorur një filtër paraprak të

Page 91: TEZË DOKTORATURE - api.fshn.edu.al

80

përbërë nga një model AR për të zbuluar shenjat e jo-stacionaritetit përpara se të

përdornin një model ARMA.

Box dhe Jenkins sugjerojnë transformime logaritmike apo të fuqive për të arritur

stacionaritetin në dispersion. Këto transformime janë diskutuar gjithashtu në vitet e

mëvonshme dhe ende janë çështje debatesh midis ekspertëve akademik [Chatfield dhe

Prothero, 1973]. Megjithë diskutimet e shumta duhet të kihet në konsideratë fakti se

transformimet kërkojnë një gjykim personal dhe natyra e serive reale ndikon gjithashtu

në përmirësimin apo jo të parashikimeve, pas transformimeve për stacionaritet.

Sezonaliteti

Në rastin kur seritë kohore janë sezonale, metodologjia Box dhe Jenkins propozon

modele multiplikative sezonale të shoqëruar me diferencime nëse është e nevojshme të

arrihet stacionariteti në pritjen matematike. Vështirësia me të tilla përafrime është fakti

se nuk ka asnjëherë të dhëna të mjaftueshme për të përcaktuar nivelin e përshtatshëm

të modelit sezonal ARMA me një nivel besimi të arsyeshëm. Përdoruesit në të tilla

raste vazhdojnë të punojnë përmes provës dhe gabimit në identifikimin e një modeli të

përshtatshëm sezonal dhe përzgjedhjen e termit sezonal. Sezonaliteti e ndërlikon

përdorimin e modeleve ARMA pasi kërkon përdorimin e shumë më tepër vrojtimeve.

Nuk ka ende punë empirike që të tregojnë nëse largimi i sezonalitetit në vrojtime, duke

përdorur procedura dekompozimi [Durbin, 1979], dhe më pas përdorimi i

metodologjisë Box-Jenkins në serinë e rregulluar, përmirëson parashikimin.

Rendi i modelit ARMA

Rendi i modelit ARMA zbulohet duke shqyrtuar autokorrelacionin dhe

autokorrelacionin e pjesshëm në serinë e stacionarizuar. Box dhe Jenkins (1976) ofruan

teorikisht dhe praktikisht rregulla për të përcaktuar vlera të përshtatshme për p, q, P

dhe Q. E vetmja vështirësi është se shpesh mund të supozohet më shumë se një model,

duke i kërkuar në këtë mënyrë përdoruesit të zgjedhë njërin prej tyre pa patur asnjë

njohuri të zgjedhjes së tij/saj në cilësinë e parashikimit të këtij modeli. Sipas

metodologjisë Box-Jenkins çdo model që rezulton me mbetje të rastësishme është një

model i përshtatshëm. Më tej Box dhe Jenkins propozojnë parimin e parsimonisë (

parsimony) që nënkupton: përzgjedhjen e modelit më të thjeshtë ( ai që ka më pak

parametra) midis modeleve të mundshme.

Vlerësimi i parametrave të modelit

Kjo pjesë e metodologjisë Box dhe Jenkins është më e thjeshta. Procedura optimizimit

jo-lineare [Marquardt, 1963] përdoret për të vlerësuar parametrat p dhe q ( P dhe Q në

rastin sezonal). Metoda e vlerësimit është tërësish automatike pasi ajo tashmë ofrohet

nga programet kompjuterike që përdorin të njëjtin algoritëm (Marquardt).

Kontrolli diagnostikues: Me përzgjedhjen e modelit të përshtashëm dhe vlerësimin e

parametrave të tij, metodologjia Box dhe Jenkins kërkon shqyrtimin e mbetjeve (vlera

aktuale minus vlera e vlerësuar sipas modelit). Nëse këto mbetje janë rastësore atëherë

modeli është i përshtatshëm. Në të kundërt propozohet një model tjetër dhe kalohet në

hapat e vlerësimit dhe kontrollit të mbetjeve. Teste të ndryshme [Statistika Box-Pierce,

Box dhe Pierce, 1970] janë sugjeruar për të ndihmuar në përcaktimin e rastësisë së

Page 92: TEZË DOKTORATURE - api.fshn.edu.al

81

mbetjeve. Përdorimi i modeleve në të cilat mbetjet nuk janë rastësore, mund të jetë me

interes studimi për pasojat në cilësinë e parashikimeve.

Cilësia e parashikimit

Makridakis dhe Hibon në studimin e tyre të vitit 1979, M-Competition [Makridakis et

al, 1982], M2-Competition (1993) si dhe mjaft studime të tjera empirike [Schnaars,

1986; Koehler dhe Murphree, 1988; Geurts dhe Kelly, 1986; Watson et al., 1987;

Collopy dhe Armstrong, 1992] kanë treguar se metoda të thjeshta si: sheshimi

eksponencial funksionojnë më mirë se metodologjia Box dhe Jenkins për modelet

ARMA.

Në M-competition [Makridakis et al, 1982] metoda “Box-Jenkins” u aplikua në një

bashkësi prej 111 nga 1001 seri kohore. Arsyeja ishte se sipas ekspertëve metodologjia

Box –Jenkins kërkonte mestarisht 1 orë përpara se modeli të konfirmohej si i

përshtatshëm për qëllime parashikimi [Andersen dhe Weiss, 1984].

Largimi i sezonalitetit në seri

Në diskutimin e Makridakis dhe Hibon (1979) u sugjerua se metodologjia Box dhe

Jenkins duhet të aplikohet gjithashtu në të dhëna sezonale të rregulluara me qëllim

përcaktimin e efektit sezonal në cilësinë e mëvonshme.

Seria origjinale tX mund të bëhej jo-sezonale duke e pjestuar atë me indeksin e saj

sezonal jS të njehsuar sipas metodës klasike të dekompozimit (Makridakis et al, 1983)

pra, ' /t t jX X S

ku jS është indeksi sezonal që i korespondon muajit të j-të, nëse të dhënat janë mujore

, apo sezonit të j-të nëse të dhënat janë stinore. Nëse të dhënat nuk janë sezonale

atëherë të gjithë treguesit marrin vlerën 1.

Me kryerjen e parashikimeve sipas metodologjisë Box-Jenkins, vrojtimet mund të

sezonalizohen duke i shumëzuar me indeksin korresponues sezonal.

Studimi i Makridakis et al tregoi se është më e lehtë dhe më e thjeshtë aplikimi i

modeleve ARIMA sipas metodologjisë Box-Jenkins nëse të dhënat fillimisht trajtohen

për sezonalitetin.

4.2 Aplikimi i metodologjisë Box-Jenkins në një seri demografike me të

dhëna Shqiptare (Simulimi i parashikimeve në R)

Numri i lindjeve për muaj në Shqipëri mund të modelohet si një proces stokastik dhe

si rrjedhim ne mund të përdorim metodologjinë Box-Jenkins për këtë qëllim. Hapat e

ndjekur në ndërtimin e modelit të lindjeve në Shqipëri janë:

1. Përgatitja e vrojtimeve në serinë origjinale

Përfshin transformimet dhe diferencimet. Transformimet e vrojtimeve ( si rrënja

katrore apo logaritmet) mund të ndihmojnë në stabilizimin e dispersionit në një seri ku

luhatjet ndryshojnë me nivelin. Kjo ndodh shpesh me të dhëna ekonomike. Më pas të

dhënat diferencohen deri në largimin e trendit apo sezonalitetit. ‘Diferencimi’

Page 93: TEZË DOKTORATURE - api.fshn.edu.al

82

nënkupton përftimin e një serie kohore me vlera diferencat e njëpasnjëshme të serisë

origjinale. Të dhënat e diferencuara janë shpesh më lehtë për t’u modeluar se të dhënat

origjinale.

2. Përzgjedhja e modelit

Metodologjia Box-Jenkins përdor paraqitje grafike të ndryshme bazuar në serinë e

transformuar për të identifikuar modelin ARIMA më të mundshëm. Zhvillime të

mëvonshme shfrytëzojnë edhe tregues të tjerë si treguesit e informacionit (Akaike

Informatin criterion, AIC)

3. Vlerësimi i parametrave

Nënkupton gjetjen e vlerave të koeficientëve të modelit që sigurojnë përshtatjen më të

mirë me vrojtimet. Për këtë ka algoritme kompjuterike të sofistikuara tashmë.

4. Kontrolli i modelit

Përfshin testimin e supozimeve të modelit për të identifikuar nëse modeli është i

përshtatshëm. Nëse modeli nuk është i përshtatshëm atëherë duhet të kthehemi pas në

hapin 2 dhe të përpiqemi të identifikojmë një model më të mirë.

5. Parashikimi

Parashikimi është arritja e gjithë proçedurës. Me përzgjedhjen e modelit, vlerësimin

dhe kontrollin e tij qëllimi pasues është parashikimi. Softwaret statistikorë e bëjnë këtë

në pak sekonda.

Përzgjedhja e modelit më “të mirë” për parashikimin e numrit të lindjeve në Shqipëri

(të dhënat 1985-2008)

1. Analiza fillestare e serisë kohore dhe transformime të mundshme

Përpara se të ndërtojmë modelin për serinë kohore duhet të organizojmë të dhënat sipas

periodës që ato kanë. Të dhënat për numrin e lindjeve në Shqipëri janë të dhëna mujore

ndaj perioda për këtë seri kohore do të jetë 12. Përdorimi i softuerit R na krijon

lehtësira për ndërtimin e serisë kohore:

> SS5

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

... ... ... ... ... ... ... ... ... ... ...

...

1990 6077 6488 7720 7555 8130 7555 7473 7145 6981 6324 5257 3122

... ... ... ... ... ... ... ... ... ... ... ...

2005 3092 2887 2957 2991 3419 3245 3307 3586 4177 3795 3034 5420

... ... ... ... ... ... ... ... ... ... ... ...

2. Përzgjedhja e modelit

Të dhënat mujore të lindjeve u mblodhën (INSTAT) për periudhën 1 Janar 1985 deri

në 31 Dhjetor 2008, në total 288 vrojtime. (Figura 4.2).

Page 94: TEZË DOKTORATURE - api.fshn.edu.al

83

Figura 4.2 Numri i lindjeve për çdo muaj në Shqipëri (Janar 1985 - Dhjetor 2008)

a) Stacionariteti

Për të ndërtuar një model ARIMA seria kohore duhet të jetë stacionare. Një ndër

mënyrat e stacionarizimit të propozuara nga Box dhe Jenkins është diferencimi derisa

të bëhet stacionare. Gjithashtu grafiku i autokorrelacionin është një mjet identifikimi i

rendeve të modelit. Një vlerë e mirë e rendit të diferencave d është ajo e cila siguron

një zbritje të menjëhershme të ACF-së drejt vlerës zero. Sic vihet re nga grafiku i

autokorrelacionit më poshtë, seria jonë nuk është stacionare.

Figura 4.3 ACF dhe PACF për serinë e lindjeve

b) Sezonalitetit

Shumë seri kohore përfshijnë një karakteristikë sezonale e cila përsërit veten pas një

periode të rregullt kohe. Kjo karakteristikë është e dukshme në serinë e lindjeve.

Muaj

1985 1990 1995 2000 2005

2000

3000

4000

5000

6000

7000

8000

Numri i lindjeve, 1985-2008

1985 1990 1995 2000 2005

2000

4000

6000

8000

5 10 15 20 25

-0.2

0.2

0.6

Lag

ACF

5 10 15 20 25

-0.2

0.2

0.6

Lag

PACF

Page 95: TEZË DOKTORATURE - api.fshn.edu.al

84

Sezonaliteti, apo periodiciteti, mund të vlerësohen bazuar në një grafik

autokorrelacioni apo një grafik sezonal.

Grafiku mujor i mëposhtëm tregon qartë sjelljen sezonale të serisë së lindjeve. Ai

pasqyron ecurinë e 24 viteve për çdo muaj.Duket qartë se vlerat mesatare janë pranë

njera –tjetrës.

Figura 4.4 Numri i lindjeve për çdo muaj në 24 vite

c) Diferencimi për stacionaritet dhe sezonalitet

Duke aplikuar diferencat e rendit të parë në serinë kohore të lindjeve, Δyt=yt –yt-1,

përftojmë një seri kohore të re grafiku i së cilës i shoqëruar me ACF-në dhe PACF-në

është paraqitur në figurën 4.5.

Figura 4.5 ACF dhe PACF për serinë e diferencave të para

Natyra sinusoidale e grafikut të ACF-së tregon stacionaritet në serinë e vrojtuar.

Gjithashtu edhe zvogëlimi i vlerave të autokorrelacionit të pjesshëm është shenjë e

stacionaritetit.

MonthPlot

Muaj

J F M A M J J A S O N D

2000

3000

4000

5000

6000

7000

8000

Seria e diferencuar, 1985-2008

1985 1990 1995 2000 2005

-2000

0

1000

5 10 15 20 25

-0.2

0.0

0.2

0.4

Lag

ACF

5 10 15 20 25

-0.2

0.0

0.2

0.4

Lag

PACF

Page 96: TEZË DOKTORATURE - api.fshn.edu.al

85

Në vijim inspektojmë grafikët lag të serisë origjinale dhe serisë së diferencave të para.

Figura 4.6 tregon autokorrelacionin për laget 1 deri 9 për serinë origjinale dhe Figura

4.7 tregon autokorrelacionin për laget 1-9 për serinë e diferencave të para.

Natyra e Lag-plot ndryshon me diferencimin e rendit të parë të serisë origjinale. Vihet

re zvogëlimi i vlerave të autokorrelacionit me rritjen e lagut. Seria e diferencave është

stacionarizuar, dhe për këtë mjaftoi vetëm transformimi i diferencave të para.

Figura 4.6. Lag-plot për serinë origjinale

Figura 4.7. Lag-plot për serinë e diferencave

të para

3. Vlerësimi

Për të vrojtuar trendin në serinë kohore ndërtojmë një drejtëz regresi linear. Ekuacioni

i vijës së regresit është: 6864.724   18.758 L t , L është numri i lindjeve për muaj dhe

t është koha. Koeficienti i përcaktueshmërisë është 0,758, koeficienti i

përcaktueshmërisë i rregulluar është 0,7569.

Figura 4.8 Regresi linear i serisë kohore

Në fazën e vlerësimit qëllimi është të zbulojmë sezonalitetin nëse ai është i pranishëm

dhe të identifikojmë rendet e modelit. Duke vrojtuar grafikët e ACF-së dhe PACF-së

ne supozojmë se modeli mund të jetë një model ARIMA(p,d,q) dhe duke marrë në

2000 4000 6000 8000

2000

4000

6000

8000

TS(t-1)

TS

(t)

0.93

2000 4000 6000 8000

2000

4000

6000

8000

TS(t-2)

TS

(t)

0.84

2000 4000 6000 8000

2000

4000

6000

8000

TS(t-3)

TS

(t)

0.75

2000 4000 6000 8000

2000

4000

6000

8000

TS(t-4)

TS

(t)

0.65

2000 4000 6000 8000

2000

4000

6000

8000

TS(t-5)

TS

(t)

0.58

2000 4000 6000 8000

2000

4000

6000

8000

TS(t-6)

TS

(t)

0.55

2000 4000 6000 8000

2000

4000

6000

8000

TS(t-7)

TS

(t)

0.56

2000 4000 6000 8000

2000

4000

6000

8000

TS(t-8)

TS

(t)

0.6

2000 4000 6000 8000

2000

4000

6000

8000

TS(t-9)

TS

(t)

0.67

-2000 0 1000

-2000

01000

TSd(t-1)

TS

d(t

)

0.11

-2000 0 1000

-2000

01000

TSd(t-2)

TS

d(t

)

0.06

-2000 0 1000

-2000

01000

TSd(t-3)

TS

d(t

)

0.03

-2000 0 1000

-2000

01000

TSd(t-4)

TS

d(t

)

-0.2

-2000 0 1000

-2000

01000

TSd(t-5)

TS

d(t

)

-0.3

-2000 0 1000

-2000

01000

TSd(t-6)

TS

d(t

)

-0.28

-2000 0 1000

-2000

01000

TSd(t-7)

TS

d(t

)

-0.28

-2000 0 1000

-2000

01000

TSd(t-8)

TS

d(t

)

-0.22

-2000 0 1000

-2000

01000

TSd(t-9)

TS

d(t

)

-0.05

0 50 100 150 200 250

20

00

3

00

0

40

00

5

00

0

60

00

7

00

0

80

00

Drejtëza e regresit linear

Muaj

Nu

mri

i l

indje

ve

Page 97: TEZË DOKTORATURE - api.fshn.edu.al

86

konsideratë praninë e sezonalitetit atëherë ky model mund të jetë ARIMA (p, d, q) (P,

D, Q)m, m=12 frekuenca sezonale.

Sipas metodologjisë Box-Jenkins dhe duke zbatuar disa nga funksionet e gatshme në

R modeli që përftojmë për serinë e lindjeve është:

ARIMA(2,1,2)(1,0,1)[12]

Koeficientët e modelit:

s = 12, = 0.3319, = 0.2136, = 0.9552, = -0.5477, = -0.4098, = -0.6757

Vlerat e kritereve të informacionit dhe gabimeve të modelit:

AIC= 4299.67, AICc= 4300.08, BIC= 4325.29

ME= -31.60, RMSE= 413.46, MAE= 287.99, MPE= -1.25, MAPE= 5.95,

MASE= 0.67

4. Kontrolli i modelit

Një ndër propozimet e Box-Jenkins për të kontrolluar përshtatshmërinë e modelit është

kontrolli i mbetjeve. Nëse mbetjet janë të rastit atëherë modeli është i përshtatshëm.

Një test grafik që ofron R për kontrollin e natyrës së mbetjeve është grafiku i

shpërndarjes normale Q-Q plot.

Figura 4.9.a tregon grafikun Q-Q plot për mbetjet e modelit të regresit linear të

propozuar, ndërsa figura 4.9.b tregon grafikun Q-Q plot të mbetjeve të modelit ARIMA

të propozuar.

Modeli ARIMA siç vihet re edhe nga grafiku duket t’i përshtatet më mirë të dhënave

pasi natyra e mbetjeve të modelit është më pranë shpërndarjes normale.

Gjithashtu ne inspektuam edhe funksionin autokorrelacion të mbetjeve duke ndërtuar

grafikun e autokorrelacionit dhe intervalet e besimit ±2/√n. (Rezultatet grafike janë

përftuar nga funksionet e gatshme në softuerin R.)

Figura 4.9.a Mbetjet e modelit te regresit (seria e lindjeve 1985-2008)

Histogram of Residual

Residual

Fre

qu

en

cy

-2000 -1000 0 1000 2000

02

04

06

0

-3 -2 -1 0 1 2 3

-20

00

02

00

0

Normal Q-Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntile

s

Page 98: TEZË DOKTORATURE - api.fshn.edu.al

87

Figura 4.9.b Mbetjet e modelit ARIMA (seria e lindjeve 1985-2008)

Në ndihmë të grafikëve të autokorrelacionit ne kryem edhe një test të përgjithshëm i

cili merr në konsideratë amplitudat e gjithë autokorrelacioneve. Testi ofrohet nga

statistika Ljung–Box–Pierce, Q-statistic: 2

1

( )( 2)

H

h

hQ n n

n h

(4.1)

Vlera H në (4.1) zgjidhet arbitrarisht, përgjithësisht, H = 20. Nën hipotezën zero (

mungon autokorrelacion në mbetjet e modelit) statistika Q ka shpërndarje Hi-katror,2

1 ,~ H p qQ . Pra, ne do ta hedhim poshtë hipotezën zero me nivel besimi α nëse

vlera e statistikës Q kalon kuartilin (1−α) të shpërndarjes 2

H p q .

Figura 4.10 Mbetjet e modelit, ACF e mbetjevedhe statistika Ljung-Box

Histogram of Res

Res

Fre

qu

en

cy

-3000 -2000 -1000 0 1000 2000

04

08

0

-3 -2 -1 0 1 2 3

-20

00

02

00

0

Normal Q-Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntile

s

Standardized Residuals

Time

1985 1990 1995 2000 2005

-6-2

2

0.0 0.5 1.0 1.5 2.0

0.0

0.4

0.8

Lag

AC

F

ACF of Residuals

0 10 20 30 40

0.0

0.4

0.8

p values for Ljung-Box statistic

lag

p va

lue

Page 99: TEZË DOKTORATURE - api.fshn.edu.al

88

Grafiku i parë në Figurën 4.10 tregon se mbetjet e modelit ndjekin një shpërndarje

normale. Grafiku i dytë, tregon se vlerat e autokorrelcionit të mbetjeve bien brenda

intervaleve të besimit.Grafiku i tretë, tregon se vlerat e statistikës Ljung- Box nuk e

kalojnë kuartilin (1−α), ndaj hipoteza zero pranohet. Pra, nuk kemi arsye të hedhim

poshtë modelin e propozuar.

5. Parashikimi Qëllimi kryesor i vlerësimit të modeleve të lindjeve në Shqipëri është përdorimi i tyre

për parashikime të mëtejshme të popullatës në Shqipëri.

A) Modeli SARIMA

Në modelin tonë të propozuar, SARIMA, ne morëm në konsideratë natyrën sezonale të

të dhënave dhe duke shfrytëzuar disa nga madhësitë e cilësisë së modelit (përmendim

këtu gabimet MAPE, MSE, MAE, AIC, BIC etj) ne përzgjodhëm modelin me tregues

të informacionit AIC më të vogël si dhe vlera të gabimeve më të vogla. Në figurën 4.12,

tregohen vlerat e parashikuara dhe intervalet e besimit 85% dhe 95% bazuar në tre

periudha vrojtimesh të shfrytëzuara për ndërtimin e një modeli të mirë për qëllime

parashikimi: 1985-2008 (288 vrojtime), 1990-2008 (228 vrojtime) dhe 2000-2008 (96

vrojtime).

Shënim: Funksioni auto.arima() aplikon metodologjinë Box-Jenkins për të përzgjedhur

modelin më “të mirë” për vrojtimet.

Figura 4.12 Parashikimet sipas modelit SARIMA

B) Parashikimi sipas Sheshimit eksponencial (Metoda Holt-Winters)

Në kapitullin 2 ne shqyrtuam metodën Holt-Winters si një ndër metodat klasike të

sheshimit eksponencial. Aplikuam këtë teknikë në serinë e lindjeve dhe përftuam

modelin e sheshimit eksponencial me të cilin parashikuam vlerat e serisë në muajt në

Forecasts from ARIMA(2,1,2)(1,0,1)[12]

2007 2008 2009 2010 2011

1000

1500

2000

2500

3000

3500

4000

4500

Forecasts from ARIMA(1,1,1)(1,0,1)[12]

2007 2008 2009 2010 2011

1000

2000

3000

4000

Forecasts from ARIMA(0,1,0)(2,0,0)[12]

2006 2007 2008 2009 2010

01000

2000

3000

4000

5000

6000

7000

Forecasts from ARIMA(2,1,2)(1,0,1)[12]

1985 1990 1995 2000 2005 2010

2000

4000

6000

8000

Forecasts from ARIMA(1,1,1)(1,0,1)[12]

1990 1995 2000 2005 2010

2000

4000

6000

8000

Forecasts from ARIMA(0,1,0)(2,0,0)[12]

2000 2002 2004 2006 2008 2010

01000

2000

3000

4000

5000

6000

7000

Page 100: TEZË DOKTORATURE - api.fshn.edu.al

89

vijim. I rikthehemi sërisht rezultateve të përftuara për të bërë një krahasim të modelit

sipas metodologjisë Box-Jenkins me modelet e tjera.

Duke përdorur komandat e gatshme të metodës Holt-Winters në R ne përftojmë

sheshimin e serisë kohore dhe parametrat:

> HW=HoltWinters(SS5) #kryen sheshimin eksponencial te serisë kohore

Modeli Holt-Winters për serinë kohore të lindjeve në Shqipëri është një model me trend

dhe përbërëse sezonale aditive dhe parametrat e sheshimit janë: alpha: 0.729 ; beta :

0; gamma: 1 (shiko sheshimin në Figurën 4.13). Seria mbi të cilën është punuar metoda

Holt-Winters ka të dhënat prej 1990-2005.

Figura 4.13 Metoda Holt-Winters (vija blu= seria, vija e kuqe= sheshimi)

Për të gjykuar mbi mirësinë e modelit ne kemi krahasuar të dhënat reale të viteve 1990-

2008 me të dhënat e parashikuara për vitet 2006-2008. Si dhe disa prej kritereve të

parashikimit: ME, RMSE, MAE, MPE, MAPE, MASE, AIC, AICC, BIC.

Komandat e ekzekutuara në R për të përftuar parashikimet janë:

>HoltWintersForecast<-predict(HW,36,prediction.interval= TRUE)

# seria e sheshuar dhe intervalet e besimit

> HoltWintersForecast

fit upr lwr

Jan 2006 2707.779 3899.939 1515.61869

Feb 2006 2430.338 3905.949 954.72754

…. ……… ……… …… ....

Një grafik i të dhënave reale dhe atyre të parashikuara të shoqëruara me intervalet e

besimit tregohet në Figurën 4.14.

Holt-Winters filtering

Time

Obs

erve

d / F

itted

1995 2000 2005

3000

4000

5000

6000

7000

8000

Page 101: TEZË DOKTORATURE - api.fshn.edu.al

90

Figura 4.14 Metoda Holt-Winters dhe vlerësimet intervalore të parashikimit (vija

blu=seria dhe intervalet e besimitpër parashikimin, vija e kuqe= vlerat e sheshuara )

Një grafik i detajuar i të dhënave reale (Janar 1990-Dhjetor 2008), vlerave të sheshimit

eksponencial nëpërmjet metodës Holt-Winters (për periudhat 1990-2005 dhe 1990-

2008) paraqitet në Figurën 4.15.

Figura 4.15 Parashikimi nëpërmjet metodës Holt-Winters (vija blu=seria reale ’90-

‘05, vija e kuqe= vlerat e sheshuara bazuar në të dhënat e viteve ’90-’05, vija lejla =

seria reale ’06-’08, vija jeshile=vlerat e sheshuara bazuar në të dhënat e viteve ’90-

‘08)

C) Parashikimi sipas modelit ETS

Funksioni ets() afishon modelin dhe parametrat e sheshimit sipas E-Error T-trend

dhe S-Sezonalitet.

Holt-Winters filtering

Time

Obs

erve

d / F

itted

1995 2000 2005 2010

2000

4000

6000

8000

Page 102: TEZË DOKTORATURE - api.fshn.edu.al

91

Funksioni summary ()afishon një përmbledhje të modelit dhe parashikimet. Modeli

ETS për serinë e lindjeve (1990- 2005) është: ETS(A,N,A) pra një model me gabime

aditive, pa trend dhe sezonalitet aditiv.

> summary(forecast(SS))

Forecast method: ETS(A,N,A)

Model Information:

ETS(A,N,A)

Call:

ets(y = object)

Smoothing parameters:

alpha = 0.9999

gamma = 1e-04

Initial states:

l = 7499.4998

s = -560.9959 -627.2871 -90.4 205.6223 397.7078 696.0149

416.9466 299.9661 39.389 43.8771 -435.9757 -384.8651

sigma: 480.7723

AIC AICc BIC

3408.790 3411.163 3454.395

In-sample error measures:

ME RMSE MAE MPE MAPE

-19.8798397 480.7723060 329.4195487 -0.9382922 6.7947608

MASE

0.7959913

Forecasts:

Point Forecast Lo 80 Hi 80 Lo 95 Hi 95

Jan 2006 3298.174 2682.0391 3914.308 2355.87724 4240.470

… …. …. …. …

Dec 2007 3122.000 103.8945 6140.105 -1493.79378 7737.793

Modeli ETS për serinë e vrojtimeve 1990- 2008 është:

> summary(ets(Ls))

ETS(M,N,M)

Call:

ets(y = Ls)

Smoothing parameters:

alpha = 0.7654

gamma = 1e-04

Initial states:

l = 7598.2042

s=0.8879 0.8668 0.9898 1.0572 1.063 1.1367

1.0807 1.0722 1.0012 0.99 0.8972 0.9573

sigma: 0.0962

AIC AICc BIC

4036.809 4038.781 4084.820

Training set error measures:

ME RMSE MAE MPE MAPE MASE

-24.5326955 465.4780546 323.1767185 -1.0516275 6.9702644 0.8231815

Page 103: TEZË DOKTORATURE - api.fshn.edu.al

92

Duke shfrytëzuar të dhënat e serisë kohore të lindjeve për dy periudha 1990-2005 dhe

1990-2008 kemi ndërtuar dy modele, përkatësisht: ETS(A,N,A) dhe ETS(M,N,M).

Figura 4.16 paraqet serinë e vlerave reale dhe parashikimet sipas dy modeleve.:

Figura 4.16 Parashikimet dhe intervalet e besimit për modelet ETS(A,N,A) dhe

ETS(M,N,M) (vija e zeze= seria reale, vija blu=parashikimi ETS, zona blu=intervali

i besimit 80%, zona e gri=intervali i besimit 95%).

Grafiku i parë në Figurën 4.16 paraqet vlerat reale të serisë së lindjeve (1990-2005, vija

e zezë) dhe parashikimet sipas modelit për periudhën 2006-2010 (vija blu). Grafiku i

dytë në Figurën 4.16 paraqet vlerat e parashikuara (2009-2013) sipas modelit të

simuluar mbi serinë reale të vrojtimeve (1990-2008). [ Vlerat e parashikuara për secilin

model gjenden në Shtojcën 4]

D) Parashikimi sipas modelit ARIMA

Modelet ARIMA i përmendëm në kapitullin 3, ku ndërtuam edhe një model për serinë

kohore të lindjeve në Shqipëri.

Në këtë pjesë do të shqyrtojmë dy modele duke shfrytëzuar të dhënat e serisë 1990-

2005 dhe të dhënat e serisë 1990-2008.

> auto.arima(SS5) # SS5 seria kohore 1990-2005

Series: SS5

ARIMA(1,1,1)(1,0,1)[12]

Call: auto.arima(x = SS5)

Coefficients:

ar1 ma1 sar1 sma1

0.7004 -0.9657 0.9307 -0.7090

s.e. 0.0582 0.0155 0.0425 0.0871

sigma^2 estimated as 218215: log likelihood = -1448.58

AIC = 2907.16 AICc = 2907.48 BIC = 2923.42

> auto.arima(SS8) # SS8 seria kohore 1990-2008

Series: SS8

ARIMA(1,1,1)(1,0,1)[12]

Call: auto.arima(x = SS8)

Coefficients:

ar1 ma1 sar1 sma1

Forecasts from ETS(A,N,A)

Muaj

Nu

mri

i lin

dje

ve

2002 2004 2006 2008 2010

05

00

01

00

00

Forecasts from ETS(M,N,M)

Muaj

Nu

mri

i lin

dje

ve

2004 2006 2008 2010 2012 20140

20

00

40

00

60

00

80

00

Page 104: TEZË DOKTORATURE - api.fshn.edu.al

93

0.7075 -0.9674 0.9428 -0.7175

s.e. 0.0528 0.0142 0.0323 0.0722

sigma^2 estimated as 188954: log likelihood = -1705.24

AIC = 3420.48 AICc = 3420.76 BIC = 3437.61

> forecast(auto.arima(SS8))

Point Forecast Lo 80 Hi 80 Lo 95 Hi 95

Jan 2009 2932.194 2375.117 3489.270 2080.2184 3784.169

… … … … … … … …

Dec 2010 2447.406 1497.329 3397.482 994.3883 3900.423

Modelet janë përkatësisht SARIMA me koeficientë:

ARIMA(1,1,1)(1,0,1)[12] ( 1990 deri 2005 )

s = 12, 0.7004, = 0.9307, =-0.9657, = -0.7090

Ekuacioni i modelit SARIMA do të shkruhej:

1 2 12 13 14

1 12 13

1.7004 0.7004 0.9307 1.5825 0.6518

0.9657 0.709 0.6847

t t t t t t

t t t t

X X X X X X

dhe,

ARIMA(1,1,1)(1,0,1)[12] ( 1990 deri 2008 )

s = 12, 0.7075, = 0.9428, = -0.9674, = -0.7175

Grafikisht modelet dhe seria reale e vrojtimeve tregohet në figurën 4.17

Figura 4.17 Parashikimet për serinë e lindjeve sipas modeleve SARIMA

Page 105: TEZË DOKTORATURE - api.fshn.edu.al

94

Grafiku i parë, në Figurën 4.17 paraqet modeline parë

ARIMA(1,1,1)(1,0,1)[12](simuluar mbi vrojtimet 1990 - 2005) , vija e zeze= seria ’90-

’08, vija blu = parashikimi, zona portokalli =intervali i besimit 80%, zona e verdhë

=intervali i besimit 95%).

Grafikui dytë, në Figurën 4.17 paraqet modeline dytë ARIMA(1,1,1)(1,0,1)[12]

(simuluar mbi vrojtimet 1990-2008).

Tabela 4.1 dhe Tabela 4.2 tregojnë disa prej rezultateve dhe kritereve të përdorura për

vlerësimin e modelit më të mirë për parashikimet e lindjeve.

Tabela 4.1 Rezultatet sipas Sheshimit eksponencial (Holt-Winters) dhe modelit ETS

Koeficientët Exp.Smoothing

’90-‘05

Exp.Smoothing

’90-‘08

ETS

(A,N,A)

ETS

(M,N,M)

alpha 0.7294214 0.6811137 0.9999 0.7654

beta 0 0

gamma 1 1 1 e-04 1 e-04

a 3693.28 2826.18

b -40.81 -40.81

s1 -944.68 -156.94 -560.99 0.88

s2 -1181.31 -815.97 -627.28 0.86

s3 -770.64 -757.11 -90.4 0.98

s4 -433.74 -715.89 205.62 1.057

s5 403.09 -53.79 397.70 1.063

s6 793.098 145.47 696.01 1.136

s7 1194.73 716.062 416.94 1.08

s8 1270.97 778.204 299.96 1.072

s9 1400.52 1409.93 39.38 1.0012

s10 648.44 1065.26 43.87 0.99

s11 -330.24 353.50 -435.97 0.89

s12 -571.27 179.81 -384.86 0.95

ME -19.87 -24.53

RMSE 480.77 465.47

MAE 329.41 323.17

MPE -0.93 -1.05

MAPE 6.79 6.97

MASE 0.79 0.82

AIC 3408.79 4036.8

AICC 3411.16 4038.78

BIC 3454.39 4084.82

Tabela 4.2 Rezultatet për modelin SARIMA

Model ar1 ma1 sar1 sma1 AIC AICC BIC

ARIMA(1,1,1)(1,0,1)[12]

1990-2005 0.7004 -0.9657 0.9307 -0.7090 2907.16 2907.48 2923.42

s.e 0.0582 0.0155 0.0425 0.0871

ARIMA(1,1,1)(1,0,1)[12]

1990-2008 0.7075 -0.9674 0.9428 -0.7175 3420.48 3420.76 3437.61

s.e 0.0528 0.0142 0.0323 0.0722

Modelet e propozuara në këtë kapitull janë disa përpjekje të para për ndërtimin e

modeleve ARIMA për të dhënat demografike. Këtu është treguar përdorimi i

metodologjisë Box dhe Jenkins në përftimin e modeleve ARIMA dhe parashikimet e

serisë kohore të lindjeve. Të tjera studime, teknika dhe modele do të zhvillohen në

vijim me qëllim përftimin e modeleve parashikuese më të mira për seritë kohore.

Page 106: TEZË DOKTORATURE - api.fshn.edu.al

95

Mbështetur në rezultatet e gjetura, shihet se modeli “më i mirë” për parashikimin e

numrit të lindjeve është modeli sezonal ARIMA(1,1,1)(1,0,1)[12].

Box dhe Jenkins mbetet teknika e parë dhe mjaft frytdhënëse për ndërtimin e modeleve

parashikuese të serive kohore. Të dhënat e INSTAT për vitet 2009 dhe 2010 janë

treguar në tabelën 4.3

Tabela 4.3 Numri i lindjeve për muaj (2009-2010)

Muaj Janar Shkurt Mars Prill Maj Qershor Korrik Gusht

Shtator Tetor Nëntor Dhjetor

2009 3,027 2,277 2,480 2,409 3,050 2,929 3,329 3,127

3,413 2,942 2,354 2,778

2010 3,028 2,387 2,594 2,464 2,819 2,708 2,922 2,973

3,402 3,152 2,601 3,012

Parashikimet dhe intervalet e besimit sipas modelit ARIMA të propozuar më sipër për

këto dy vite janë: Point Forecast Lo 80 Hi 80 Lo 95 Hi 95

Jan 2009 2932.194 2375.117 3489.270 2080.2184 3784.169

Feb 2009 2560.444 1867.390 3253.499 1500.5089 3620.380

Mar 2009 2645.377 1886.204 3404.549 1484.3220 3806.431

Apr 2009 2578.757 1783.332 3374.183 1362.2589 3795.256

May 2009 2926.985 2110.073 3743.897 1677.6262 4176.344

Jun 2009 2901.449 2070.906 3731.991 1631.2438 4171.654

Jul 2009 3077.219 2237.443 3916.995 1792.8926 4361.545

Aug 2009 2929.827 2083.384 3776.270 1635.3043 4224.350

Sep 2009 3251.426 2399.870 4102.983 1949.0826 4553.770

Oct 2009 2988.990 2133.291 3844.688 1680.3110 4297.668

Nov 2009 2519.616 1660.400 3378.832 1205.5583 3833.674

Dec 2009 2564.050 1701.728 3426.371 1245.2430 3882.856

Jan 2010 2583.624 1699.448 3467.800 1231.3934 3935.854

Feb 2010 2296.229 1397.608 3194.851 921.9059 3670.553

Mar 2010 2420.928 1512.103 3329.753 1031.0005 3810.855

Apr 2010 2389.695 1473.199 3306.192 988.0351 3791.356

May 2010 2740.331 1817.728 3662.935 1329.3306 4151.332

Jun 2010 2732.061 1804.347 3659.775 1313.2449 4150.877

Jul 2010 2908.953 1976.781 3841.124 1483.3187 4334.586

Aug 2010 2777.907 1841.714 3714.101 1346.1235 4209.691

Sep 2010 3086.697 2146.780 4026.614 1649.2180 4524.176

Oct 2010 2843.241 1899.806 3786.675 1400.3816 4286.100

Nov 2010 2403.533 1456.725 3350.340 955.5156 3851.550

Dec 2010 2447.406 1497.329 3397.482 994.3883 3900.423

Parashikimet dhe vlerat reale të paraqitura në një grafik janë:

Figura 4.18 Parashikimet dhe vlerat reale për serinë e lindjeve sipas modeleve

SARIMA(’09-’10)

Vrojtimet reale dhe parashikimet sipas modelit ARIMA 2009-2010

Muaj

Lin

dje

2009.0 2009.5 2010.0 2010.5

24

00

26

00

28

00

30

00

32

00

34

00

Instat

Parashikim

Page 107: TEZË DOKTORATURE - api.fshn.edu.al

96

Siç vihet re edhe nga paraqitja grafike e vlerave të parashikuara sipas modelit ARIMA

të ndërtuar dhe vlerave reale të regjistruara nga INSTAT kemi një përafrim të

parashikimeve brenda intervaleve të besimit që jep modeli ARIMA. Mund të themi se

modeli i ndërtuar është një model i mirë për qëllime parashikimi të lindjeve në Shqipëri.

Parashikimet sipas modeleve të propozuara (ETS, Holt Winters dhe ARIMA) gjenden

në Shtojcën 4.

Page 108: TEZË DOKTORATURE - api.fshn.edu.al

97

Kapitulli 5

Reduktimi i Përmasave dhe Ngjashmëritë Në Seritë

Kohore. Modifikimi dhe Aplikime të Teknikave PAA

dhe SAX në zbulimin e ngjashmërive të sekuencave të

ADN-ve

Në këtë kapitull do të prezantohen teknikat e reduktimit të përmasave të një serie

kohore, PAA (Piecewise Aggregate Approximation) dhe SAX (Symbolic Aggregate

Approximation). Do të prezantohen kodet e ndërtuara në gjuhën e programimit R,

performanca e SAX në R dhe Matlab. Për më tepër do të prezantohet një modifikim i

teknikës SAX për aplikime në zbulimin e ngjashmërive në sekuenca simbolike siç janë

sekuencat e ADN-së.

Koncepti i ngjashmërisë është i rëndësishëm jo vetëm në çdo fushë të shkencës por ai

ka rrënjë të thella edhe në filozofi dhe psikologji. Në filozofinë perëndimore ku

diskutohen konceptet e origjinës, tre parimet e shoqërisë përshkruhen si: ngjashmëri,

puqje në kohë ose në vend, shkak ose pasojë (Hume, 1784). Ngjashmëria strikte

përkufizohet ndryshe nga ngjashmëria e cila kërkon ndarjen e përbërëseve identike.

Wallach (1958) e zgjeron përkufizimin e ngjashmërisë në nivelin e ”ngjashmërisë

potenciale” (përkufizim që konsiderohet si studimi i parë modern i ngjashmërisë). Ai

përfshin idenë e përzgjedhjes apo injorimit të veçorive të objekteve që krahasohen për

ngjashmëri midis tyre.

Kjo pjesë trajton më tepër madhësitë e ngjashmërive në shkencat ekzakte. Madhësitë e

ngjashmërisë në këtë trajtim janë algoritme që përcaktojnë shkallën e marrëveshjes

midis subjekteve. Në paragrafët në vijim prezantohen konceptet dhe madhësitë

matematikore që përdoren për teknikat e ngjashmërive.

5.1 Funksionet distancë (Aksiomat metrike)

Përkufizimi 5.1 Për një hapësirë të dhënash D, që përcakton bashkësinë e serive

kohore ose trajektoreve të të dhënave, dhe dy element x, y 𝜖 D, një funksion distancë

(dist) në D përcaktohet si:

dist: DxD R

ku R është bashkësia e numrave real dhe dist ka vetitë në vazhdim:

(i) dist(x,y) ≥ 0( jonegativiteti );

(ii) dist(x,y)=0 x=y ( reflektiviteti );

(iii) dist(x,y)=dist(y,x) ( simetria );

Page 109: TEZË DOKTORATURE - api.fshn.edu.al

98

Përkufizim 5.2 Për një hapësirë të dhënash D, x, y 𝜖 D së bashku me një

funksion distancë dist në D, themi se x është i ngjashëm me y nëse ( , )dist x y , ku

është një prag i paracaktuar.

Një funksion distancë ndikon drejtpërdrejt cilësinë e rezultateve të përputhjes, të tillë si

saktësinë e klasifikimit dhe klasterit. Funksioni distancë është i varur nga aplikimi dhe

të dhënat dhe për këtë qëllim duhet të modelohet më kujdes me qëllim që të kënaqë

kërkesat e aplikacionit.

Për të kuptuar më mirë ndikimin e funksioneve distancë në seritë kohore numerike po

japim në vijim disa nga funksionet distancë më të përdorura në teknikat e ngjashmërive

të serive kohore numerike.

5.1.1 Distanca Minkowski

Distanca Minkowski14 është një distancë metrike për të dhëna shumëdimensionale.

Norma-n e distancës Minkowski mund të përkufizohet si distanca Dijmidis dy pjesëve

i dhe j si më poshtë:

1/

1

| |

nd

n

ij il jl

l

D x x

(5.1)

5.1.2 Distanca Manhatan/ Distanca “City Block”

Distanca Manhatan është distanca Minkowski për vlerën e normës n=1. Ajo është

madhësia e diferencave në vlerë absolute midis dy pikave dhe përcaktohet si më poshtë:

1

| |d

ij il jl

l

D x x

(5.2)

5.1.3 Distanca Euklidiane

Distanca Minkowski për një vlerë të normës n=2 përkufizohet si distanca Euklidiane.

Kjo distancë është ndër madhësitë më të përdorshme për të përcaktuar largësinë midis

dy pikave, dhe përcaktohet si më poshtë: 2

1/ 2

1

| |d

ij il jl

l

D x x

(5.3)

5.1.4 Distanca Çebishev

Kur norma n në distancën Minkowski kjo distancë përkufizohet si distanca e

Ҫebishevit. Ajo përfaqëson distancën më të madhe ndërmjet dy vektorëve përgjatë çdo

dimensioni koordinativ, dhe përcaktohet si më poshtë:

1max | |ij il jl

l dD x x

(5.4)

14Applied Predictive Modeling, Max Kuhn & Kjell Johnson (2013)

Page 110: TEZË DOKTORATURE - api.fshn.edu.al

99

5.1.5 Distanca Jaccard

Distanca Jaccard mat ndryshimin midis dy bashkësive. Ajo është plotësuese për

koeficientin Jaccard dhe përftohet duke zbritur koeficientin Jaccard nga 1. (A dhe B

janë dy bashkësitë)

| | | |( , ) 1 ( , )

| |

A B A BJ A B J A B

A B

(5.5)

5.1.6 Koeficienti Dice

Koeficienti Dice, i emërtuar sipas Lee Raymond Dice dhe i njohur si koeficienti Dice,

është një tjetër madhësi ngjashmërie midis dy bashkësive. Nuk është shumë i

dallueshëm nga koefiçienti Jaccard por ka disa veti të tjera. (X dhe Y janë dy bashkësitë)

2 | |

| | | |

X Ys

X Y

(5.6)

Funksioni i merr vlerat nga 0 në 1, ashtu si dhe Jaccard, por funksioni diferencë

korrespondues:

2 | |

1| | | |

X Yd

X Y

(5.7)

nuk është një distancë metrike pasi nuk gëzon vetinë e trekëndëshit.

Për dy bashkësi gërmash X dhe Y, koefiçienti mund të përcaktohet si dyfishi i

informacionit të bërbashkët pjestuar me shumën e kardinaleve të dy bashkësive. Kur

konsiderohet si një madhësi ngjashmërie për bashkësi gërmash koefiçienti mund të

përllogaritet për dy fjalë x dhe y duke përdorur bigram-et sipas formulës:

2ntsn nx y

(5.8)

ku, nt është numri i bigrameve të përbashkëta të gjetura në dy fjalët (vektorët e

gërmave), nx është numri i bigrameve të gjetura në fjalën (vektorin) X dhe ny është numri

i bigrameve të gjetura në fjalën (vektorin) Y.

Bigram ose digram quhet çdo sekuencë prej dy elementesh në një fjalë, që janë në

përgjithësi gërma apo fjalë.

Shembull 5.1

Nëse duam të njehsojmë ngjashmërinë midis dy fjalëve (vektorëve të gërmave):

kohë

kahë

do të gjenim bashkësinë e bigrameve në secilën fjalë:

{ko,oh,hë}

{ka,ah,hë}

Page 111: TEZË DOKTORATURE - api.fshn.edu.al

100

Secila bashkësi ka 3 element dhe prerja e dy bashkësive të bigrameve kanë të përbashkët

1 element: hë.

Duke zëvendësuar tek formula përftojmë (2 1) /(3 3) 0.33s

Shënim: Sa më afër vlerës 1 aq më të ngjashme janë vektorët me gërma (fjalët).

5.1.7 Ngjashmëria kosinusoidale

Ngjashmëria kosinusoidale është një madhësi e njohur ngjashmërie bazuar në zbulimin

e informacionit. Në këtë përafrim fjalët që krahasohen transformohen në hapësira

vektoriale në mënyrë të tillë që rregulli Euklidian kosinusoidal të mund të përdoret për

të përllogaritur ngjashmërinë. Ky përafrim shpesh shoqërohet me përafrime të tjerë me

qëllim kufizimin e përmasës së hapësirës vektoriale.

cos( )|| || || ||

A Bngjashmëria

A B

(5.9)

5.1.8 Distanca Hamming

Kjo distancë konsiderohet si madhësia më popullore për atributet binare. Ajo

përcaktohet si numri i biteve që ndryshojnë midis dy vargjeve binare për shembull;

numri i biteve që duhet të ndryshohen me qëllim kthimin e një vargu në një tjetër. Për

shembull vargu 1011101 dhe 1001001 ka një distancë Hamming prej 2 biteve (ndryshe

themi se dy bite jane të ndryshëm). Ky përafrim përdoret për krahasime të sakta në

gjatësi.

5.1.9 Madhësitë probabilitare të ngjashmërive

Në shumë fusha aplikative si përpunimi i imazhit, analiza e ADN-së dhe databazat

multimediale; kompleksiteti i të dhënave shpesh e bën të vështirë përcaktimin e saktë

të funksioneve, pozicioneve metrike për ngjashmëritë. Për të studiuar ngjashmëritë

midis këtyre të dhënave komplekse shfrytëzohen mjete probabilitare mbi ngjashmërinë.

Në përgjithësi funksionet e ngjashmërisë marrin si argument të funksionit të

ngjashmërisë modelet probabilitare të objekteve që krahasohen.

5.1.10 Vlerësimi me metodën e përgjasisë maksimale (MLE) dhe vlerësimi

i maksimumit a-posteriori

Vlerësimet e përftuar nëpërmjet metodës së përgjasisë maksimale janë të përdorshëm

në përshtatjen e modeleve matematikore të të dhënave të disponueshme.

Vlerësuesit MAP lidhen ngushtë me vlerësuesit e metodës së përgjasisë maksimale,

megjithëse në dallim nga përafrimi MLE ku përdoren për vlerësim vetëm madhësitë

eksperimentale të të dhënave, MAP është një përafrim Bejesian ku një shpërndarje

paraprake përdoret gjithashtu për vlerësim. MAP është një metodë më pak e përdorur

si rezultat i kompleksitetit të saj dhe padisponueshmërisë së informacionit paraprak të

zgjedhjes.

Page 112: TEZË DOKTORATURE - api.fshn.edu.al

101

5.2 Kërkimi i ngjashmërive në seri kohore numerike

Distanca Euklidiane është funksioni distancë i parë që është përfshirë në kërkimin e

ngjashmërive midis dy sekuencave të serive kohore të koduar numerikisht. Kjo distancë

ka përparësinë e kryerjes lehtësisht të veprimeve dhe kostoja e tyre është lineare në

lidhje me gjatësinë e sekuencës. Një mangësi e përdorimit të kësaj distance për qëllime

të zbulimit të ngjashmërive midis dy sekuencave numerike është fakti se ajo kërkon që

të dy seritë kohore (sekuencat) të kenë të njëjtën gjatësi dhe kjo gjë nuk përkrah

zhvendosjen kohore lokale.

Zhvendosje kohore lokale kemi në rastin kur një element i një sekuence është

zhvendosur gjatë boshtit të kohës për t’u përputhur me një element të sekuencës tjetër

kohore (madje edhe kur dy elementët e përputhur shfaqen në pozicione të ndryshme të

sekuencave). Kjo është e dobishme kur sekuencat kanë formë të ngjashme por janë

jashtë faze. Është quajtur “lokale”, sepse jo të gjithë elementët e sekuencës që

kontrollohet nevojiten të jenë të zhvendosur. Gjithashtu elementët e zhvendosur nuk

kanë të njëjtin faktor zhvendosje. Në zhvendosjen kohore “globale”, të gjithë elementet

janë zhvendosur gjatë boshtit të kohës me një faktor zhvendosje të fiksuar.

Përgjithësisht, zhvendosja kohore lokale nuk mund të trajtohet nga distanca si ajo

Minkowski, sepse kjo distancë kërkon që elementi i i-të i sekuencës që kontrollohet të

jetë i bashkërenduar me elementin e i-të të sekuencës së dhënë.

Softueri R ofron një funksion të gatshëm për të përllogaritur distancën Euklidiane (por

jo vetëm këtë) midis dy serive kohore me të njëjtën gjatësi. Shembulli më poshtë tregon

si mund të veprohet për dy seri kohore.

Shembull 5.1

> seria_1=c(1,2,1,0,2,1,2,3,2,1)

> seria_2=c(1,0,2,1,0,2,2,1,2,0)

> M=rbind(seria_1,seria_2)

> M

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]

seria1 1 2 1 0 2 1 2 3 2 1

seria2 1 0 2 1 0 2 2 1 2 0

> DistEuklidiane=dist(M,"euclidean")

> DistEuklidiane

seria1

seria2 4

5.2.1 Dynamic Time Warping (DTW)

Një tjetër distancë qëpërdoret për të trajtuar zhvendosjen kohore lokale dhe sekuencat

kohore me gjatësi të ndryshme është DTW. Metoda DTW është propozuar në vitet 1970

në konteksin e zbulimit të zërit. Më vonë DTW është zbatuar si teknikë e zbulimit të

ngjashmërive në analizën e elektro-kardiogramave, biometrik, klasterat e gjeneve etj.

Dynamic Time Warping (DTW) [Keogh dhe Pazzani, 2001] zbulon ngjashmëri

optimale midis dy serive kohore. Është emërtuar “time warping” (prishje e kohës) pasi

karakterizon vetinë që një sekuence ngjarjesh të mos jetë e rregullt në kohë. Zakonisht

Page 113: TEZË DOKTORATURE - api.fshn.edu.al

102

X dhe Y janë dy seri kohore të cilat duhet të ngjeshen ose zgjerohen në kohë me qëllim

zbulimin e ngjashmërive më të forta midis tyre.

Përkufizim 5.3Distanca DTW ndërmjet dy serive kohore T dhe S me gjatësi m dhe n,

respektivisht, është përkufizuar si:

DTW((),())=0

DTW(S,())=D((),T)=∞

DTW(S,T)=dist(ti,si)+min{ DTW(S,T[2:-]); DTW(S[2:-],T); DTW(S[2:-], T[2:-])

ku, () nënkupton bashkësinë boshe; [2:-] nënkupton nënbashkësinë që përfshin

elementin e dytë deri në të fundit; dhe dist(ti,si) nënkupton një funksion distancë i cili

mund të jetë dhe njëra nga distancat më sipër, për shembull distanca Euklidiane.

DTW nuk kërkon që dy seritë kohore të kenë të njejtën gjatësi, dhe mund të trajtojë

zhvendosjen kohore lokale nga dublikimi i elementit të mëparshëm të sekuencës

kohore.

DTW lejon disa elemente të dublikohen me qëllim që të përshtaten rastet kur elementët

janë të ngjashëm por jashtë fazës. DTW mund të trajtojë zhvendosjen kohore lokale, ku

distanca Euklidiane nuk mundet.

DTW për dy seri kohore mund të njehsohet nëpërmjet metodës së programimit dinamik.

Në rastin më të mirë, me programim dinamik, kompleksiteti i DTW është kuadratik,

O(m * n) (m dhe n janë gjatësitë e dy serive që krahasohen, respektivisht). Si rrjedhojë,

kur përmasa e bazës së të dhënave rritet, kërkohet të harxhohet një kohë e pafundme në

kryerjen e DTW. Fatkeqësisht, DTW nuk plotëson mosbarazimin e trekëndëshit.

5.2.2 Aplikime të teknikës DTW në programin R

Paketa dwt [Giorgino, 2009]15 në R ofron disa funksione ndihmëse për të përllogaritur

vlerën DTW midis dy serive kohore si dhe përftimin e paraqitjeve grafike më të

detajuara. Në këtë paketë, funksioni dtw(x, y, ...) llogarit Dynamic Time Warp dhe gjen

ngjashmërinë optimale midis dy serive x dhe y, dhe dtwDist(mx, my=mx, ...) ose

dist(mx, my=mx, method="DTW", ...) llogarit distancat midis serive kohore mx dhe my.

Paketa është përmirësuar dhe varianti më i fundit është hedhur në përdorim në 2013,

Giorgino. Paketa ofron shumë veprime dhe paraqitje grafike të një cilësie të lartë. Në

vijim po tregojmë disa aplikime.

Le të simulojmë dy seri kohore në R dhe të ndërtojmë paraqitjet grafike të tyre për të

zbatuar më vonë teknikën DTW.

> x=seq(-pi,pi,0.1)# simulimi i një sekuence vlerash

> S=ts(sin(x))#seri kohore sinusoidale

> T=ts(cos(x))#seri kohore kosinusoidale

> plot(main="Seri trigonometrike",window(cbind(S,T)),col=”red”)

#paraqitje grafike e dy serive kohore sipas të njëjtit bosht kohor

15http://dtw.r-forge.r-project.org

Page 114: TEZË DOKTORATURE - api.fshn.edu.al

103

Figura 5.1 Dy seri trigonometrike të simuluara në R

Sikurse vihet re edhe nga figura 5.1 dy seritë janë të zhvendosura por duket të kenë

ngjashmëri në sekuenca vlerash. I mbivendosim të dy grafikët e serive kohore në një

sistem boshtesh për të kuptuar më qartë zhvendosjen.

> plot(T,main="Mbivendosje e dy serive kohore"); lines(S,col="blue")

Figura 5.2 Dy seritë kohore trigonometrike (S,T) të mbivendosura

Paketa dtw() në R ofron funksionin warping i cili nëpërmjet një paraqitje grafike tregon

sekuencat ku dy seritë kanë ngjashmëri dhe ku nuk kanë ngjashmëri.

> alignment<-dtw(S,T);

> alignment

DTW alignment object

Alignment size (query x reference): 63 x 63

Call: dtw(x = S, y = T)

-1.0

0.0

1.0

S

-1.0

0.0

1.0

0 10 20 30 40 50 60

T

Time

Seri trigonometrike

Mbivendosje e dy serive kohore

Time

T,S

0 10 20 30 40 50 60

-1.0

-0.5

0.0

0.5

1.0

Page 115: TEZË DOKTORATURE - api.fshn.edu.al

104

> plot(alignment$index1,alignment$index2,main="Warping function");

> lines(1:100-25,col="red")

Figura 5.3 Funksioni warping për dy seritë kohore trigonometrike

Një paraqitje grafike tre-dimensionale e teknikës DTW për shembullin e mësipërm

përftohet në R nga kodi: > dtw(S,T,keep=TRUE)->alignment;

> dtwPlotThreeWay(alignment);

Figura 5.5 Ngjashmëria në sekuencat e dy serive kohore trigonometrike

Për të saktësuar pozicionin e pikave të serive kohore ku fillon ngjashmëria mund të

shfrytëzohet kodi i mëposhtëm. > hq <- (0:8)/8

> hq <- round(hq*100)

0 10 20 30 40 50 60

01

02

03

04

05

06

0

Warping function

alignment$index1

alig

nm

en

t$in

de

x2

Timeseries alignment

d$index1

d$index2

Query index

xts

0 10 20 30 40 50 60

-1.0

1.0

yts

Reference index

1.0 -1.0

0

10

20

30

40

50

60

Page 116: TEZË DOKTORATURE - api.fshn.edu.al

105

> hw <- (alignment$index1 %in% hq)

> hi <- (1:length(alignment$index1))[hw]

> dtwPlotThreeWay(alignment,match.indices=hi,col=”blue”,lwd=3)

Figura 5.6 Ngjashmëria në sekuencat e dy serive kohore trigonometrike

Sikurse vihet re nga grafiku më sipër, dy sekuencat kanë ngjashmëri me njera tjetrën në

intervalet e vrojtimeve S [20:63] dhe T[4:50] (vlerat janë marrë me përafërsi)

Për t’u bindur për këtë ndërtojmë edhe dy paraqitjet grafike 5.6 A) dhe B) të dy pjesëve

të sekuencave. > plot(S[20:63],col="red",main="Sekuencat e ngjashme")

> lines(T[4:50],col="blue")

> legend(20,-0.5,c("Sekuenca S-sinusoid","Sekuenca T-kosinusoid"),

+ fill=c("red","blue"))

Figura 5.6 A) Ngjashmëria në sekuencat e dy serive kohore trigonometrike

Timeseries alignment

d$index1

d$in

dex2

Query index

xts

0 10 20 30 40 50 60

-1.0

0.5

yts

Ref

eren

ce in

dex

1.0 -0.5

010

2030

4050

60

0 10 20 30 40

-1.0

-0.5

0.0

0.5

1.0

Sekuencat e ngjashme

Index

S[20:63]

T[4:50]

Sekuenca S-sinusoid

Sekuenca T-kosinusoid

d$index1

Page 117: TEZË DOKTORATURE - api.fshn.edu.al

106

Figura 5.6 B) Ngjashmëria në sekuencat e dy serive kohore trigonometrike

Në vitet e fundit janë propozuar të tjera distanca efektive për përdorime të ngjashmërive

midis dy serive kohore përmendim këtu: LCSS -Longest Common SubSequences.

LCSS është propozuar si distancë që mund të përdoret për rastet e serive kohore që

përmbajnë zhurmë. Intuita e LCSS është të largojë efektet e zhurmës duke numëruar

vetëm elementët që përputhen midis dy sekuencave.

Distanca Euklidiane dhe DTW janë të ndjeshme ndaj zhurmës sepse:

Distanca Euklidiane dhe DTW kërkojnë që secili element i sekuencës që

kontrollohet të ketë një element korrespondues në sekuencën me të cilën

krahasohet, madje edhe për zhurmën.

Tabela 5.1 Paraqet një krahasim të dy funksioneve distancë bazuar në gjashtë kritere:

aftësia për të trajtuar sekuenca me gjatësi të ndryshme, aftësia për të trajtuar sekuenca

me zhvendosje kohore lokale, aftësia për të trajtuar sekuencat që përmbajnë zhurma,

nëse pragu i përputhjes kërkohet, kompleksiteti (kostoja e veprimeve), dhe funksioni

distancë është një metrikë.

Funksion

i

Distancë

Gjatësi të

Ndyshm

e

Zhvendosj

a

Kohore

Lokale

Zhurm

a

Pragu

Përputhë

s

Kompleksitet

i

Metrik

ë

Lp-norma Jo Jo Jo Jo O(N) Po

DTW Po Po Jo Jo O(N2) Jo

LCSS Po Po Po Po O(N2) Jo

Nga Tabela 5.1, shihet se:

0 10 20 30 40

-1.0

0.0

1.0

Sekuencat e ngjashme ne dy serite

trigonometrike

Index

S[20:63]

0 10 20 30 40

-0.5

0.5

Index

T[5:50]

Page 118: TEZË DOKTORATURE - api.fshn.edu.al

107

Kompleksiteti i Lp – normës është linear dhe është një metrikë, por nuk mund

të trajtojë seri kohore me gjatësi të ndyshme, zhvendosje kohore lokale, ose

zhurmë.

Kompleksiteti i DTW dhe LCSS është kuadratik, ato nuk janë metrika.

DTW mund të trajtojë sekuenca kohore me gjatësi të ndryshme dhe zhvendosje

kohore lokale, por është e ndjeshme ndaj zhurmave.

LCSS i nevojitet një prag përputhje i paracaktuar për të trajtuar zhurmën. Mund

të trajtojë kështu sekuencat kohore me gjatësi të ndryshme dhe zhvendosje

kohore lokale.

5.3 Reduktimi i përmasave të serive kohore

Reduktimi i përmasave të serive kohore është një ndër problemet që është diskutuar

mjaft në vitet e fundit dhe për të cilën janë propozuar shumë teknika. [Andre-Jonsson

H., Badal D., (1997); Chan K., Fu A. W., (1999); Faloutsos C., Ranganathan M.,

Manolopulos Y. (1994); Keogh E., Chakrabarti K., Pazzani M. (2001); Yi B. K.,

Faloutsos C., (2000)]. Disa prej teknikave shfrytëzojnë transformimin e të dhënave në

simbole (kryesisht gërma të alfabetit) me qëllim reduktimin e përmasës së serisë

kohore. Këto teknika kanë tërhequr vëmendjen e komuniteteve të korrigjimeve të

teksteve dhe së fundmi komunitetin e studiuesve biologë. [ Chan K., Fu A. W., (1999);

Apostolico A., Bock M.E., Lonardi S., (2002); Durbin R., Eddy S., Krogh A.,Mitchison

G., (1998); Tompa M., Buhler J., (2001); Lonardi S., (2001)].

Teknika të cilës do ti referohemi në këtë kapitull dhe për të cilën do të prezantojmë disa

modifikime dhe teste numerike është teknika Symbolic Aggregate Approximation

(SAX). Në vazhdim do ti referohemi shkurt SAX.

SAX u propozua për herë të parë në vitin 2002 nga Jessica Lin, Eamonn Keogh, Stefano

Lonardi, Bill Chiu; kjo teknikë bazohet në një tjetër teknikë reduktimi të quajtur

Piecewise Aggregate Approximation (PAA) dhe përdoret më së shumti për reduktimin

e përmasave të serive kohore. Për të shfrytëzuar teknikën SAX në një seri kohore

fillimisht seria kohore transformohet në një përfaqësim PAA dhe më pas simbolizohet

në një sekuencë gërmash, e cila është përfaqësimi SAX i asaj serie kohore. SAX duket

të jetë teknikë shumë e përshtatshme për të punuar me seri kohore me shumë përmasa.

5.3.1 Përkufizime dhe koncepte kryesore

Në dekadat e fundit janë studiuar një numër i madh i transformimeve të serive kohore.

Përmendim këtu: Transformimi Diskret Furie (Discrete Fourier Transform (DFT)),

Transformimi Diskret i valëzave Valor (Discrete Wavelet Transform (DWT)), Modelet

Pjesë-Pjesë Lineare dhe konstante (Piecewise Linear, Piecewise Constant Models

(PAA), (APCA)), dhe Dekompozimi i Vlerës Singulare (Singular Value

Decomposition (SVD)).

Në shkencat kompjuterike, reduktimi i përmasave është procesi i reduktimit të numrit

të ndryshoreve të rastit të marra në konsideratë dhe mund të ndahet në dy pjesë:

përzgjedhje dhe ekstraktim (feature selection;feature extraction).

Përfaqësimi simbolik mund të përkufizohet si dicka e dukshme që prezanton dicka të

padukshme.

Page 119: TEZË DOKTORATURE - api.fshn.edu.al

108

Seri kohore: Një seri kohore reale është 1 2, , , nT X X X është një varg i renditur i

n ndryshoreve të rastit.

Nënsekuencë: një nënsekuencë S e një serie kohore T është një zgjedhje e me gjatësiw<

n e pozicioneve të vazhdueshme nga T.

Sekuencë gërmash: Një sekuencë gërmash është një bashkësi gërmash nga gërmat e

alfabetit, të cilat mund të përsëriten ose jo përgjatë sekuecës.

5.3.2 Teknika SAX (Symbolic Aggregate Approximation) në R

A) Piecewise Aggregate Approximation (PAA) në R

PAA u prezantua në mënyrë të pavarur nga Yi, Faloutsos, dhe Keogh et al në vitin 2001.

Për të reduktuar përmasate një serie kohore Yi, Faloutsos dhe Keogh realizuan

paraqitjen PAA të serisë kohore. Duke aplikuar teknikën PAA, seria kohore ndahet në

w sekuenca me gjatësi të njëjtë (përmasa e serisë kohore pjestuar me gjatësinë e

sekuencës duhet të ketë mbetje zero), më pas njehsohet mesatarja arithmetike e secilës

sekuencë duke ndërtuar në këtë mënyrë një vektor të ri të reduktuar me w vlera

PAA=(c1, c2,..., cw) . Elementi i i-të (ci) i vektorit PAA njehsohet sipas ekuacionit 5.13:

( 1) 1

w

i i in

j iw

wPAA c x

n

(5.13)

Figura 5.3 tregon një vizualizim të teknikës PAA për vektorin e vlerave:

e=(1,2,4,1,1,2,4,1,2,8,7,1,0,2,3,5,7,5) (vija blu)

PAA(e)= (2.333333, 1.333333, 2.333333, 5.333333, 1.666667, 5.666667)

Në total janë n=18 vlera, të ndara në w=6 intervale (sekuenca) dhe mesatarja

arithmetike për secilin interval është njehsuar (vija e kuqe).

Figura 5.3 Vizualizim i teknikës PAA - shembull

5 10 15

0

2

4

6

8

Vizualizim i teknikës PAA

Time

Serie

Page 120: TEZË DOKTORATURE - api.fshn.edu.al

109

Teknika e reduktimit të përmasave të një serie kohore PAA është e thjeshtë dhe e lehtë

për t’u përdorur krahasuar me teknika të tjera si transformimi Furie apo valëzat.

Kodi në R për të përftuar teknikën PAA është ndërtuar bazuar mbi hapat që ndjek

teknika.

Teknika PAA:

Hapi 1

Përcakto gjatësinë e serisë dhe numrin e sekuencave

Hapi 2

Njehso mesataren arithmetike të seciles sekuencë

Hapi 3

Ndërto serinë e reduktuar

Hapi 4

Bëj paraqitjen grafike të serisë së re

Kodi në R për teknikën PAA:

v_abs<-function(x)

{

if (x<0)

x=-x

return(x)

}

paa<-function(seria,ndarje=4,grafiku=FALSE)

{

n=length(seria)

hapi=1

if (n%%ndarje==0)

{hapi=n%/%ndarje}

else

{hapi=(n-n%%ndarje)%/%ndarje+1}

s=0;Y=0;T=0;

j=1;nr=1;shuma=seria[1];

for (i in 2:n)

{

if (i%%hapi==0 || i==n)

{

shuma=shuma+seria[i]

nr=nr+1

s[j]=shuma/nr

Y[2*j-1]=s[j]

Y[2*j]=s[j]

T[2*j-1]=i-hapi+1/2

T[2*j]=i+1/2

shuma=0;nr=0

if (i==n)

{

T[2*j-1]=T[2*j-2]

}

j=j+1

}

else

Page 121: TEZË DOKTORATURE - api.fshn.edu.al

110

{

shuma=shuma+seria[i]

nr=nr+1

}

}

if (grafiku==TRUE)

{

plot(seria,

col="blue",type="l",xlab="koha",main="Vizualizim i teknikës PAA")

points(T,Y,main="PAA", col="red",type="s")

}

s

} 16

B) Teknika Symbolic Aggregate Approximation (SAX) në R

SAX u propozua nga Lin dhe Keogh et al. (2002). Ata e bazuan atë në teknikën PAA

për reduktimin e përmasave të serisë kohore. Për të përftuar përfaqësimin SAX të një

serie kohore ata supozuan normalitetin e vlerave të grumbulluara të përftuara nga PAA.

Në teknikën SAX hapi i parë është transformimi i serisë në përfaqësimin PAA dhe më

pas cdo vlerë e PAA-së përfaqësohet nga një sekuencë gërmash, kjo e fundit është

përfaqësimi SAX i serisë kohore. Për të përftuar përfaqësimin SAX të serisë kohore

përdoret një transformim me qëllim përdorimin e simboleve (gërmave të alfabetit) me

probabilitet të njëjtë. Seria kohore e transformuar ka një shpërndarje Gausiane (normale

me pritje matematike 0 dhe dispersion 1), ndaj është e lehtë të përcaktohen pikat e

këputjes të cilat do të ndajnë zonën nën kurbën normale në pjesë të barabarta.

Përkufizime dhe koncepte

Pika këputje: pikat e këputjes janë një varg numrash 1 2 1, , , aB të tilla që

zona nën kurbën e Gausit nga i deri në

1i është e njëjtë 1/a ( 0 dhe a përcaktohen

si dhe përkatësisht).

Pikat e këputjes përcaktohen sipas numrit të gërmave të alfabetit që duam të përdorim

në përfaqësimin tonë SAX.

Tabela 5.2 tregon lidhjen midis pikave të këputjes dhe numrit të gërmave të alfabetit që

përdoren në gjetjen e përfaqësimit simbolik SAX të serisë kohore.

Sipas numrittë gërmave të alfabetit që duam të përdorim (rekomandohet më pak se 8

gërma), ekuacioni 5.14 tregon simbolet duke u mbështetur në sekuencën PAA të serisë

kohore:

( )iSAX alphabet j , nëse 1j i jPAA (5.14)

ku, alphabet(1) = a, alphabet(2) = b, e kështu me rradhë.

16 © Dhamo E., Puka Ll. (2012A)

Page 122: TEZË DOKTORATURE - api.fshn.edu.al

111

Tabela 5.2 Pikat e këputjes për teknikën SAX (Përmasa e alfabetit: 3 deri në 10)

a 3 4 5 6 7 8 9 10

1 -0.43 -0.67 -0.84 -0.97 -1.07 -1.15 -1.22 -1.28

2 0.43 0 -0.25 -0.43 -0.57 -0.67 -0.76 -0.84

3 0.67 0.25 0 -0.18 -0.32 -0.43 -0.52

4 0.84 0.43 0.18 0 -0.14 -0.25

5 0.97 0.57 0.32 0.14 0

6 1.07 0.67 0.43 0.25

7 1.15 0.76 0.52

8 1.22 0.84

9 1.28

Një paraqitje grafike e teknikës SAX tregohet në Figurën 5.4 (për shembullin e

mësipërm)

SAX(e)=("b" ,"a", "b", "c", "a", "c")

Figura 5.3 Vizualizimi i teknikës SAX në R

Gërmat janë përcaktuar sipas pozicionit të elementit të i-të të serisë PAA në lidhje me

pikat e këputjes. Vini re vijat që ndajnë zonën nën kurbën e Gausit në pjesë të barabarta

(vija gri).

Paraqitja grafike dhe sekuenca e simbolizuar e serisë kohore janë përftuar nëpërmjet

kodit të ndërtuar në gjuhën R.

Kodi në R për teknikën SAX:

sax<-function(Serie, ndarje=5, alfabeti=5, grafiku=FALSE,

normalizo=FALSE)

{

5 10 15

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

Vizualizimi SAX

visualization

Time

Serie

Page 123: TEZË DOKTORATURE - api.fshn.edu.al

112

mes=0;disp=1;n=length(Serie)

if (normalizo==TRUE)

{

Serie=(Serie-mean(Serie))/sd(Serie)

}

else

{

mes=mean(Serie)

disp=sd(Serie)

}

hapi=1

if (n%%ndarje==0)

{

hapi=n%/%ndarje}

else

{

hapi=(n-n%%ndarje)%/%ndarje+1

}

seria_paa=paa(Serie,ndarje,FALSE)

A=c('a','b','c','d','e','f','g','h','i','j','k','l','m','n','p'

,'q','r','s','t','u','v','ë','x','y','z')

p=1/alfabeti

b=0;s=0

for (i in 1:(alfabeti-1))

{

s=s+p

b[i]=qnorm(s,mes,disp)

}

seria_sax='a'; T=0; Y=0;

for (i in 1:ndarje)

{

j=1;dil=FALSE

while(dil==FALSE)

{

if (seria_paa[i] <= b[j])

{

seria_sax[i]=A[j]

dil=TRUE

}

if (j==alfabeti-1)

{

seria_sax[i]=A[alfabeti]

dil=TRUE

}

j=j+1

}

Y[2*i-1]=seria_paa[i]

Y[2*i]=seria_paa[i]

T[2*i-1]=(i-1)*hapi+1/2

T[2*i]=(i)*hapi+1/2

}

if (grafiku==TRUE)

{

plot(Serie,col="blue",type="l",xlab="Time",main="

Vizualizim I teknikës SAX",ylab="Serie",lwd=4)

abline(h=b,col = "lightgray",lwd=5)

points(T,Y,type='s', col="red",lwd=5)

}

seria_sax

Page 124: TEZË DOKTORATURE - api.fshn.edu.al

113

}17

C) Aplikimi dhe Performanca e SAX në R dhe MATLAB

Rezultate eksperimentale

Koha e nevojshme për të zhvilluar një program varet nga një numër faktorësh: sa i

shpejtë është kompjuteri, kapaciteti RAM i tij, OS që përdor kompjuteri, cilësia e kodit

të gjeneruar nga përpiluesi, momenti i ekzekutimit, përmasa e të dhënave hyrëse etj.

Nëse ndonjë prej këtyre faktorëve ndryshon atëherë edhe koha e ekzekutimit ndryshon.

Koha e zbatimit të algoritmit përgjithësisht rritet me rritjen e të dhënave hyrëse; ndaj

në këtë studim kemi aplikuar vlera të ndryshme të përmasës së serisë kohore dhe numrit

të gërmave të alfabetit e sekuencave.

Ka disa rregulla për krahasimin e algoritmeve të shkruar; në këtë studim ne kemi

krahasuar disa prej tyre.

Autorët e SAX kanë ofruar algoritmin e SAX të shkruar në MATLAB për w dhe a të

përcaktuara paraprakisht (përkatësisht 8 dhe 4). Për të testuar performancën e

algoritmeve të shkruar në MATLAB dhe R ne kemi ekzekutuar algoritmin duke mbajtur

të njëjtën përmasë të tre parametrave n, w dhe a. Një grafik i kohës së ekzekutimit

(elapsed time) dhe përmasës së serisë kohore në MATLAB është paraqitur në Figurën

5.4 .

Figura 5.4. MATLAB elapsed time për SAX

Siç vihet re edhe nga grafiku në Figurën 5.4 koha (elapsed time) për algoritmin SAX

rritet linearisht me rritjen e përmasës së serisë kohore.

Funksioni System.time() në R

Algoritmi ynë për teknikën SAX është shkruar në R dhe mund të përballet me situata

kur N/n nuk është një numër i plotë. Një ndër funksionet që mat kohën e ekzekutimit

të një komandë në R është: system.time(). Rezultatet që afishon ky funksion janë:

17 © Dhamo E., Puka Ll., (2012A)

0 500000 1500000 2500000

0

50

100

150

200

250

300

350

MATLAB elapsed time për SAX

N

Elapsed

Time

Page 125: TEZË DOKTORATURE - api.fshn.edu.al

114

Elapsed time, User time dhe System time.

‘Elapsed’ time është koha në sekonda që R ka punuar (psh, RGUI).

‘User’ time është koha e CPU-së që një komandë/script ka shfrytëzuar; kjo është

koha për të cilën ne jemi më shumë të interesuar.

'System' time është koha e CPU-së që sistemi operativ ka përdorur për të

ekzekutuar një skript; në pjesën më të madhe të rasteve kjo kohë duhet të jetë më e

vogël se 'user'.

Përpara ekzekutimeve në R sistemi ka qënë i lirë nga programe të tjera, nuk është duke

skanuar për viruse etj. Në R algoritmi është testuar duke punuar me një seri kohore

zhurmë të bardhë. Përmasa e serisë kohore është ndryshuar duke filluar nga n=10 deri

në n=1 000 000. Rezultatet numerike të ekzekutimeve janë paraqitur në Shtojcë.

Siç vihet re edhe nga të dhënat numerike në shtojcë koha e ekzekutimit të algoritmit

SAX varet nga përmasa e serisë kohore dhe gjithashtu nga numri i sekuencave që seria

kohore është ndarë për të përftuar përfaqësimin PAA. Rezultatet e kohëve të

ekzekutimit të algoritmit SAX në R janë paraqitur grafikisht në grafikët tre-dimensional

dhe dy-dimensional në Figurën 5.4. Vihet re nga grafikët se me rritjen e n (përmasa e

serisë kohore) dhe w (numri i sekuencave) koha e ekzekutimit të algoritmit rritet

gjithashtu. E njëjta gjë ndodh edhe me ekzekutimin e algoritmit në MATLAB, por koha

e ekzekutimit në R është relativisht më e vogël.

Figura 5.4 Lidhja midis: n (përmasa e serisë kohore), w (numri i sekuencave) dhe

Koha

a) System time

0e+00 2e+05 4e+05 6e+05 8e+05 1e+06

0

10

20

30

40

50

60

N

System time

Page 126: TEZË DOKTORATURE - api.fshn.edu.al

115

b) User time

c) Elapsed time

Figura 5.5 Lidhja midis N (përmasa e serisë kohore) dhe koha e ekzekutimit(a, b,

c)

Siç shihet nga Figura 5.5 me rritjen e N, user time dhe elapsed time rriten me shpejtësi;

nuk ndodh njësoj me system time .

Një grafik i kohës së ekzekutimit të algoritmeve të SAX në R dhe në MATLAB tregohet

në Figurën 5.6.

Figura 5.6 R elapsed time vs MATLAB elapsed time për algoritmin SAX

Nga grafiku vëmë re se R është më e qëndrueshme në vlerësimin e kohës së ekzekutimit

krahasuar me MATLAB. Vihet re qartë se me rritjen e N koha e ekzekutimit rritet në

dy programet por kjo rritje në R është më e ngadaltë krahasuar me MATLAB. [Dhamo

, Puka , 2012A]

0e+00 2e+05 4e+05 6e+05 8e+05 1e+06

0

20

40

60

80

N

User Time

0e+00 2e+05 4e+05 6e+05 8e+05 1e+06

0

20

40

60

80

100

N

Elapsed

Time

0 500000 10000

00

150000

0

20000

00

25000

00

3000000 0

50

100

150

200

250

300

350

R elapsed time (Blu) vs MATLAB elapsed time (Kuqe) për SAX

Elapsed Time

N

Page 127: TEZË DOKTORATURE - api.fshn.edu.al

116

5.4 Zbulimi i ngjashmërive në sekuencat e ADN-ve nëpërmjet

teknikës SAX të implementuar në gjuhën R

Për më shumë se një dekadë, metodologjive të kërkimit të ngjashmërive në seri kohore

u është kushtuar një vëmendje e veçantë nga kërkues të fushave të biostatistikës,

bioinformatikës, mjekësisë etj. Përmirësimi i teknikave ekzistuese dhe gjetja e atyre të

reja ka qenë një synim i vazhdueshëm, në veçanti për zbulimin e ngjashmërive në

sekuencat e ADN-ve. Specialistët e gjenetikës, mes të tjerëve, janë tërhequr nga

lehtësitë dhe cilësia e këtyre metodave dhe gjithmonë e më shumë kërkojnë t'i aplikojnë

në kërkimet e tyre.

Në këtë pjesë konsiderohet SAX për zbulimin e ngjashmërive të sekuencave të ADN-

ve. Testet numerike kanë treguar se kjo metodë është mjaft më efektive në zbulimin e

ngjashmërive të sekuencave të ADN-ve krahasuar me algoritmin Needleman- Wursch

(Saul Needleman dhe Christian Wunsch, 1970) (përdorur kryesisht në sekuenca të

AND-ve dhe ARN-ve). Algoritmi nedelman- Wursch është një shembull i programimit

dinamik.

Teknika SAX përdor si funksion distancë, distancën Euklidiane dhe për më tepër ofron

lehtësira në implementim në lidhje me teknika të tjera të krahasimit të sekuencave të

ADN-ve. Përdorimi i vetëm 4 gërmave të alfabetit (në rastin e sekuencave të ADN-ve)

e bën teknikën SAX më të shpejtë në rezultate se algoritmi i sipërpërmendur.

Pas prezantimit të teknikës më të re të simbolizimit të serive kohore SAX, autorët e saj

propozuan një madhësi ngjashmërie (pasi nuk plotëson dy veti të funksionit distancë

për t’u quajtur e tillë: identitetin dhe vetinë e trekëndëshit). Në vijim do i referohemi si

distanca Keogh, shënuar dist_D(). Ata morën në konsideratë distancën më të njohur

dhe më të përdorur distancën Euklidiane.

Për dy seri kohore me të njëjtën gjatësi: 1 2, , , nT t t t dhe 1 2, , , nQ q q q distanca

Euklidiane ndërmjet tyre jepet nga barazimi:

2

1

( , ) ( )n

i i

i

Dist T Q t q

(5.15)

Distanca midis dy përfaqësimeve PAA të këtyre dy serive kohore 1 2, , , wT t t t dhe

1 2, , , wQ q q q jepet nga barazimi:

2

1

( , ) ( )w

i i

i

nDistPAA T Q t q

w

(5.16)

Është provuar se DistPAA() është kufiri më i vogël i Dist(). [Keogh, E., Chakrabarti,

K., Pazzani, M. & Mehrotra, S. (2001)]

Ndërsa distanca ndërmjet dy përfaqësimeve simbolike të këtyre serive kohore jepet nga

barazimi:

2

1

( , ) _ ( , )w

i i

i

nDistSAX T Q dist D t q

w

(5.17)

Ky funksion distancë për dy përfaqësimet simbolike i ngjason funksionit distancë për

dy përfaqësimet PAA (5.16) me përjashtim të faktit se koeficientët e PAA-së janë

Page 128: TEZË DOKTORATURE - api.fshn.edu.al

117

zevendësuar tashme me funksionin dist_D(). Funksioni dist_D() mund të përcaktohet

duke përdorur një tabelë si ajo e treguar më poshtë.

Tabela 5.3 Tabela me vlerat e funksionit dist_D() për sekuencat simbolike të dy

serive kohore

a b c d

a 0 0 0.67 1.34

b 0 0 0 0.67

c 0.67 0 0 0

d 1.34 0.67 0 0

Tabela më sipër tregon vlerat e funksionit dist_D() për sekuencat simbolike SAX të dy

serive kohore. Kjo tabelë jep distancat midis dy gërmave të alfabetit (për rastin kur në

përfaqësimet SAX janë përdorur vetëm 4 gërma). Vihet re edhe nga tabela se për dy

gërma fqinje vlera e funksionit dist_D() është zero dhe për gërmat më të afërta merr

vlerën e pikës së këputjes psh: dist(b,d)=0.67 ose shumën e vlerave të pikave të këputjes

psh: dist(a,d)=0.67+0.67=1.34.

Më saktë vlera në tabelë për çdo dy gërma mund të njehsohet sipas shprehjes më poshtë:

ku, r dhe c janë respektivisht pozicionet alfabetike të gërmave.

Figura 5.7 tregon vizualisht aplikimin e funksioneve distancë për tre rastet: rasti i parë

(A) dy seri kohore me gjatësi të njëjtë, rasti i dytë (B) dy përfaqësime PAA dhe rasti i

tretë (C) dy përfaqësime SAX.

(A)

(B)

0 20

40

60

80

100

120

- 1.5

- 1 - 0.5

0 0.5

1 1.5

C

Q

0 20

40

60

80

100

120

- 1.5

- 1 - 0.5

0 0.5

1 1.5

C

Q

0 nëse | | 1( , )

| - | , max( , )-1 min( , )

r cqeliza r c

ndrysher c r c

Page 129: TEZË DOKTORATURE - api.fshn.edu.al

118

(C)

Figura 5.7A) Distanca Euklidiane midis dy serive kohore B) Distanca Euklidiane midis

dy përfaqësimeve PAA të serive kohore C) Distanca midis dy përfaqësimeve SAX të

dy serive kohore (Figurat: © Eamon Keogh)

5.5 Modifikimi i teknikës SAX për ngjashmëritë në sekuencat e ADN-

ve. Rezultate eksperimentale

Një ndër algoritmet që përdoren në bio-informatikë për ngjashmëritë e dy sekuencave

të ADN-ve është Algoritmi Needleman-Wunsch (1970). Ne propozojmë një modifikim

të teknikës SAX për të zbuluar ngjashmëritë midis dy sekuencave të ADN-së duke i

konsideruar ato si dy përfaqësime simbolike SAX.

Kemi koduar nukleotidet (A, C, T, G) në katër gërmat e para të alfabetit (përkatësisht:

D, C, A, B) dhe kemi përdorur distancën (madhësinë e ngjashmërisë) propozuar nga

Keogh për të zbuluar shkallën e ngjashmërisë midis dy sekuencave të ADN-së me

gjatësi të njëjtë. Për rastin e sekuencave të ADN-së vlerat e n dhe w për ne janë të njëjta

kështu që funksioni i distancës Keogh i modifikuar do të ishte:

2

1

( , ) _ ( , )w

i i

i

DistSAX T Q dist D t q

(5.18)

Shembull 5.3

Në vijim jepen shembujt e tre sekuencave të ADN (sekuencat janë gjeneruar nëpërmjet

një programi kompjuterik të posaçëm).

Sekuenca 1- TGCTAACGTGCA

Sekuenca 2- ACGATCAGTACG

Sekuenca 3- TGCAAACGTCCA

Tabela 5.3 Tabela e ngjashmërisë së dy sekuencave (1,3) sipas algoritmit të modifikuar

SAX

(1,3) T G C A A A C G T C C A

T 0

G 0

C 0

= baabccbc C ˆ

= babcacca Q ˆ

Page 130: TEZË DOKTORATURE - api.fshn.edu.al

119

T 1.34

A 0

A 0

C 0

G 0

T 0

G 0

C 0

A 0

Dist.Keogh (1,3)=sqrt(1.34) = 1.157584

Dist. Keogh(2,3)=sqrt(2.2445) = 1.498166

Tabela 5.4 Tabela e ngjashmërisë së dy sekuencave (1,3) sipas algoritmit N-W

(1,3) T G C A A A C G T C C A

0 0 0 0 0 0 0 0 0 0 0 0

T 0 1 1 1 1 1 1 1 1 1 1 1 1

G 0 1 2 2 2 2 2 2 2 2 2 2 2

C 0 1 2 3 3 3 3 3 3 3 3 3 3

T 0 1 2 3 3 3 3 3 3 4 4 4 4

A 0 1 2 3 4 4 4 4 4 4 4 4 5

A 0 1 2 3 4 5 5 5 5 5 5 5 5

C 0 1 2 3 4 5 5 6 6 6 6 6 6

G 0 1 2 3 4 5 5 6 7 7 7 7 7

T 0 1 2 3 4 5 5 6 7 8 8 8 8

G 0 1 2 3 4 5 5 6 7 8 8 9 9

C 0 1 2 3 4 5 5 6 7 8 9 9 9

A 0 1 2 2 4 5 6 6 7 8 9 9 10

Needleman –Wursch (1,3)=10

Needleman–Wursch (2,3)=6

Page 131: TEZË DOKTORATURE - api.fshn.edu.al

120

Siç vihet re edhe nga ky shembull i thjeshtë të dy algoritmet arrijnë të zbulojnë

ngjashmëri më të madhe midis sekuencave 1 dhe 3 por koha e ekzekutimit është më e

vogël për algoritmin e modifikuar SAX. (kjo vihet re edhe nga lehtësia e plotësimit të

tabelave). [Dhamo, Gjeçka, Mano , 2012]

Shembull 5.4

Kemi konsideruar katër sekuenca ADN-je me gjatësi 50 nukleotide.

1. ACACAGATACTCCGTCTGTCGGAGGTTGACCTACAGCTGGGTTTCGTGGG

2. GGTGCAAAGGTGAGCCAGGGTTCTGCGGCTGCAGGCGACCGATACTCATT

3. GGTGCAGAGGTGATCCAGGGTTCTGCCGTTGCAGGCGACCGATTCTCATT

4. GGTGCAGAGGTGATCCAGGGTTCTGCCGTTGCAAGCGAACGATTCTCATT

Distancat sipas Algoritmit të modifikuar SAX (Distanca Keogh) janë:

Dist.Keogh (1,2)=sqrt(13.9829)= 3.739372

Dist.Keogh (3,2)=sqrt(2.6934)= 1.641158

Dist.Keogh (4,2)=sqrt(3.5912)= 1.895046

Ashtu sikurse pritej ngjashmëria më e lartë është midis sekuencave 2 dhe 3.

Testet numerike treguan se përdorimi i SAX për zbulimin e ngjashmërive në sekuenca

të ADN-ve është më efektiv se një nga teknikat e njohura Needleman –Wursch. Koha

e ekzekutimit të SAX është më e vogël si dhe algoritmi SAX është më i lehtë në aplikim

sesa Needleman –Wursch.

Në vijim të punës sonë jemi duke punuar për ndërtimin e algoritmit të modifikuar të

SAX për zbulimin e ngjashmërive në sekuencat e ADN-ve në gjuhën R. Gjithashtu jemi

duke testuar modifikimin e propozuar nga Marwan M., Fuad M., Marteau P. F., (2010)

në aplikime të sekuencave të AND-ve.

Page 132: TEZË DOKTORATURE - api.fshn.edu.al

121

KONKLUZIONE

Në këtë tezë doktorature janë prezantuar disa nga teknikat më të reja të ndërtimit të

modeleve të serive kohore si dhe aplikime të tyre në softuerin R.

Në modelimin e serive kohore një konsideratë e rëndësishme është parimi i parsimonisë

(principle of parsimony). Ky parim i referohet përfaqësimit të strukturës së një serie

kohore me sa më pak parametra të jetë e mundur. Kjo nënkupton që modele të serive

kohore sa më të thjeshta janë më të kënaqshme sesa modelet e ndërlikuara kur të dy

këto modele janë të përshtatshme. Ky parim çon në përdorimin e modeleve ARIMA në

vend të modeleve të pastra AR ose MA. Modelet ARIMA kanë treguar të jenë mjaft të

përshtatshme në modelimin e serive stacionare dhe jo-stacionare. Ato mund të përdoren

për të modeluar seri kohore me natyra të ndryshme: financiare, demografike,

meteorologjike, energjitike etj. [Dhamo E., Puka Ll., 2010A; Argjiri K., Dhamo E.,

2011; Dhamo E., Xhaja B., Koçi E., Asimi A., 2012; Dhamo E., Xhaja B., Koçi E.,

Shevroja M., 2012]

Në qëndër të pjesës së parë të tezës është seria kohore e numrit të lindjeve për muaj në

Shqipëri (1985-2010). Të dhënat janë marrë nga faqja zyrtare e INSTAT. Nga një

studim i kujdesshëm [Dhamo E., Puka Ll., 2010A; Dhamo E., Puka Ll., 2010B; Dhamo

E., Puka Ll., 2011A; Dhamo E., Puka Ll., 2011B] u vu re se kjo seri kohore mund të

modelohet sipas një modeli SARIMA (Seasonal Autoregressive Integrating Moving

Average). Treguesit e shfrytëzuar për përzgjedhjen e modelit më të mirë ndër modelet

e studiuara tregojnë se bazuar mbi gabimet (MSE, MAPE, AIC, BIC etj) modeli

SARIMA me sezonalitet 12 është modeli më i “mirë”.

Gjithashtu testet krahasuese me të dhënat reale kanë treguar se ky model i përshtatet

më mirë numrit të lindjeve në Shqipëri.

Modeli i propozuar mund të shfrytëzohet nga politikat qeveritare apo institucione, si

dhe kompanitë e sigurimit në Shqipëri të cilat interesohen në evoluimin e numrit të

lindjeve në Shqipëri. Ky model i propozuar mund të ndihmojë gjithashtu në

projektimin e numrit të përgjithshëm të popullsisë në të ardhmen. [Xhaja B., Dhamo

E., 2013]

Teknikat e reduktimit të serive kohore, veçanërisht ato të përfaqësimit simbolik kanë

treguar se kanë zbatime në shumë fusha si: finacë, biologji, biostatistikë, meteorologji,

animacion etj. Teknika SAX (Symbolic Aggregate Approximation) e prezantuar në

vitet e fundit [Keogh et al, 2001b] ka tërhequr vëmendjen e mjaft kërkuesve.

Në këtë pjesë jemi përqëndruar në ndërtimin e një algoritmi në gjuhën e programimit R

i cili bën të mundur afishimin numerik dhe grafik të aplikimit të teknikës PAA

(Piecewise Aggregate Approximation) dhe SAX në një seri numerike. Gjatë punës tonë

zbuluam se algoritmi i ndërtuar në R është më efiçent në kohën e ekzekutimit se ai i

ndërtuar në MATLAB nga autorët. Rezultatet eksperimentale janë afishuar pas

aplikimit të disa serive kohore me përmasa nga 10 në 1 000 000 dhe parametrat e

ndryshuar të numrit të sekuencave dhe numrit të gërmave të alfabetit që mund të

përdoren në përftimin e serisë simbolike. [Dhamo E., Puka Ll., 2012A]

Page 133: TEZË DOKTORATURE - api.fshn.edu.al

122

Gjithashtu ne modifikuam teknikën SAX për qëllime të zbulimit të ngjashmërive në

sekuenca të ADN-ve. Testet numerike treguan se përdorimi i SAX për zbulimin e

ngjashmërive në sekuenca të ADN-ve është më efektiv se një nga teknikat e njohura

Needleman –Wursch. Koha e ekzekutimit të SAX është më e vogël si dhe algoritmi

SAX është më i lehtë në aplikim sesa Needleman –Wursch. [Dhamo E., Gjeçka A.,

Mano G., 2012; Dhamo E., Puka Ll., 2012A; Dhamo E., Puka Ll., 2012B]

Përdorimi i teknikave të modifikuara ARIMA është një ndër synimet tona për t’u

studiuar dhe aplikuar në seri kohore nga vendi me natyrë demografike, financiare dhe

jo vetëm. Gjithashtu, ndërtimi i algoritmit të modifikuar të SAX për zbulimin e

ngjashmërive në sekuencat e ADN-ve në gjuhën R dhe modifikimin e algoritmit SAX

për qëllime të zbulimit të ngjashmërisë në tekste shqip janë ndër çështjet e studimit tonë

në të ardhmen. Më tej, synohet në aplikim të madhësisë së ngjashmërisë propozuar së

fundmi UMD (Updated Minimum Distance-SAX) [Marwan M., Fuad M., Marteau P.

F., (2010)] në situatat e sekuencave të AND-ve, teksteve shqip e më gjerë. Ndërtimi i

algoritmit UMD (Updated Minimum Distance) dhe efiçenca në R.

© Eralda Gjika (Dhamo)

Page 134: TEZË DOKTORATURE - api.fshn.edu.al

123

BIBLIOGRAFIA

[1] Abraham B., & Ledolter J., (1983): Statistical methods for forecasting. New

York7 John Wiley and Sons.

[2] Abraham B., & Ledolter J., (1986): Forecast functions implied by

autoregressive integrated moving average models and other related forecast procedures.

International Statistical Review, 54, 51–66.

[3] Adya M., Collopy F., Armstrong J.S., Kennedy M. (2000): An application of

rule-based forecasting to a situation lacking domain knowledge, International Journal

of forecasting , 16:477-484

[4] Agrawal R., Faloutsos C. &Swami, (1993): A.N. Efficient Similarity Search in

Sequence Databases. FODO 1993: 69-84

[5] Ahlburg, D. A., Chatfield, C., Taylor, S. J., Thompson, P. A., Winkler, R. L.,

Murphy A. H., et al. (1992): A commentary on error measures. International Journal of

Forecasting, 8, 99 – 111.

[6] A. Camerra, Th. Palpanas, J. Shieh, E. Keogh, (2010): iSAX 2.0: Indexing and

Mining One Billion Time Series, ICDM 2010.

[7] Andre-Jonsson H., Badal D., (1997): Using signature files for querying time-

series data. In: Proceedings of principles of data mining and knowledge discovery, 1st

European symposium,Trondheim, Norway. June 24–27, pp 211–220

[8] Apostolico A., Bock M.E., Lonardi S., (2002): Monotony of surprise in large-

scale quest for unusual words. In: Proceedings of the 6th International conference on

research in computational molecular biology, Washington, DC, April 18–21, pp 22–31

[10] Archibald, B. C. (1990): Parameter space of the Holt–Winters model.

International Journal of Forecasting, 6, 199–209.

[10] Archibald, B. C., & Koehler, A. B. (2003): Normalization of seasonal factors in

Winters methods. International Journal of Forecasting, 19, 143– 148.

[11] Argjiri K, Dhamo. E, (2012): Një model matematik mbi rastet e sëmundjeve

kardiovaskulare në popullsinë e Shqipërisë ;Buletini i Shkencave te Natyres NR. 13

[12] Armstrong, J. S. (2001): Suggestions for further research.

www.forecastingprinciples.com/researchers.html

[13] Assimakopoulos V., Nikolopoulos K. (2000): The theta model: a decomposition

approach to forecasting, International Journal of Forecasting, Elsevier, vol. 16(4), 521-

530

Page 135: TEZË DOKTORATURE - api.fshn.edu.al

124

[14] Awartani, B. M. A., & Corradi, V. (2005): Predicting the volatility of the S&P-

500 stock index via GARCH models: The role of asymmetries. International Journal of

Forecasting, 21, 167–183.

[15] Bo Zhou, Dan He;Zhili Sun (2005): Traffic Modeling and Prediction using

ARIMA/GARCH model , http://www.lw20.com/20110308148401937.html

[16] Box G.E.P. , Jenkins G.M. (1970): Time Series Analysis, Holden-Day, San

Francisco

[17] Box, G. E. P. and Jenkins, G. (1976): Time Series Analysis: Forecasting and

Control,Oakland, CA: Holden-Day, (revised edn, 1976).

[18] Box, G. E. P., Jenkins, G. M., & Reinsel, G. C. (1994): Time series analysis:

Forecasting and control (3rd ed.). Englewood Cliffs, NJ7 Prentice Hall.

[19] Chan K., Fu A. W., (1999): Efficient time series matching by wavelets,. In:

Proceedings of the 15th IEEE International conference on data engineering, Sydney,

Australia, March 23– 26, pp 126–133

[20] Chen, C. (1997): Robustness properties of some forecasting methods for

seasonal time series: A Monte Carlo study. International Journal of Forecasting, 13,

269–280."

[21] Chiu, B., Keogh, E. & Lonardi, S. (2003): Probabilistic Discovery of Time

Series Motifs. ACM SIGKDD 2003. pp 493-498.

[22] Cryer J.D., Chan Kung-Sik (2008): Time Series Analysis With Application in

R, Springer, Second edition, ISBN:978-0-387-75958-6

[23] Dhamo, E. Puka, Ll. (2010A): Një vështrim mbi disa kode të paketës forecast

në R, Buletini i Shkencave Natyrore, Tiranë, 10: 5-18.

[24] Dhamo, E. Puka, Ll. (2010B): Using the R-package to forecast time series:

ARIMA models and Application.INTERNATIONAL CONFERENCE Economic &

Social Challenges and Problems 2010 Facing Impact of Global Crisis, Tirana, Albania

[25] Dhamo.E, Xhaja.B, Koci.E,(2011): Modele Matematikore mbi Projeksionin e

Popullsisё Shqipёtare, (parashikimi deri ne vitin 2300); Konferenca kombetare

Universiteti Politeknik I Tiranes

[26] Dhamo E., Puka Ll., (2011 A): An ARIMA birth number per month model for

Albanian population, “1st International Symposium on Computing in Informatics and

Mathematics (ISCIM 2011)” 2-4 June 2011, Tirana, Albania

[27] Dhamo E., Puka Ll., (2011 B): Does the number of marriages affect births

number in Albanian population? “ 2st International Scientific Conference (IFERBR

2011)”, University of Vlora, 17-18, June 2011

Page 136: TEZË DOKTORATURE - api.fshn.edu.al

125

[28] Dhamo E., Xhaja B., (2011): Projeksioni i popullsisë: Çështjet metodologjike

dhe sfidat në Popullsinë e Shqipërisë; Alb-Shkenca takimi I Gjashte 1-4 shtator 2011

[29] Dhamo E.,Gjecka A., Mano G., (2012): Aplikimi i algoritmeve SAX dhe

Needleman mbi ngjashmerite e dy sekuencave simbolike (Përafrimi më i mirë) [ SAX

and Needleman application for similarity of two symbolic sequences (Best match)] ;

Takimi I VII vjetor Shkencor Nderkombetar, IASH 2012 Shkup, 29-31 Gusht

[30] Dhamo E., Puka Ll., (2012 A): SAX Algorithm Applications and Performance in

R and MATLAB, Information Systems and Technology Innovation: their application

in Economy Conference, Tirana June 8-9 , 2012

[31] Dhamo E., Puka Ll., (2012 B): Zbulimi i ngjashmërive në sekuencat e AND-ve

nëpërmjet teknikës SAX të implementuar në gjuhën R ; Konferencë Shkencore

“Fakulteti i Shkencave Natyrore në 100 vjetorin e pavarësisë”, Tiranë, 22-23 Nëntor

2012

[32] Dhamo E., Xhaja B., Koci E., Asimi A., (2012): Defects of fixed-line network,

Modeling and prediction using ARIMA, GARCH models International Journal of

Science, Innovation and New Technology, (IJSINT) February, Vo.1/ 2012

[33] Dhamo E., Xhaja B., Koci E., Shevroja M., (2012): Zbatime te Modeleve

matematikore mbi projeksionin e popullsise Buletini i Shkencave te Natyres NR. 12,

Janar 2012

[34] Dhamo E., Gjecka A., Mano G., (2013): Utilization of information and

communication technoligies by Albanian youth; http://icrae2013.unishk.edu.al/

[35] Durbin R., Eddy S., Krogh A.,Mitchison G., (1998): Biological sequence

analysis: probabilistic models of proteins and nucleic acids, Cambridge University

Press

David J. Sheskin (2004) Handbook of Parametric and Nonparametric Statistical

Procedures: Third Edition

[36] Engle, R. F. (1982).: Autoregressive conditional heteroscedasticity with

estimates of the variance of the United Kingdom inflation. Econometrica, 50, 987–

1008.

[37] Engle R., (2001): GARCH 101: The use of ARCH/GARCH models in applied

econometrics, Journal of Economic Perspectives, Volume 15, Number 4: 157-168

[38] Engle R., (2002): New frontiers for ARCH models. Manuscript prepared for the

conference bModeling and Forecasting Financial Volatility (Perth, Australia, 2001).

Available at http://pages.stern.nyu.edu/~rengle

[39] Engle R., & Russell, J. R. (1998): Autoregressive conditional duration: A new

model for irregularly spaced transactions data. Econometrica, 66, 1127–1162."

Page 137: TEZË DOKTORATURE - api.fshn.edu.al

126

[40] Faloutsos C., Ranganathan M., Manolopulos Y. (1994): Fast subsequence

matching in time- series databases ,SIGMOD Record, vol 23, pp 419–429

[41] Fildes R., Hibon M., Makridakis S., & Meade N., (1998): Generalising about

univariate forecasting methods: Further empirical evidence. International Journal of

Forecasting, 14, 339–358.

[42] Gomez V., Maravall A.(1998): Programs TRAMO and SEATS, Instruction for

the Users. Working paper 97001, Ministero de Economia y Hacienda, Direccion

General de Analisis y programacion Presupuestaria

[43] Gustavo E.A.P.A. Batista, Xiaoyue Wang, Eamonn J. Keogh,(2011): A

Complexity-Invariant Distance Measure for Time Series, SDM

[44] Hamilton, J. D. (1994): Time Series Analysis, Princeton, NJ: Princeton Univ.

Press

[45] Holt, C. C. (1957): Forecasting seasonals and trends by exponentially weighted

averages. O.N.R. Memorandum 52/1957, Carnegie Institute of Technology. Reprinted

with discussion in 2004. International Journal of Forecasting, 20, 5 – 13.

[46] http://CRAN.R-project.org/package=forecasting .

[47] http://cran.r-project.org/web/views/TimeSeries.html

[48] http://www.stat.pitt.edu/stoffer/tsa2/Examples.html

[49] http://www.prb.org/Publications/Datasheets/2009/2009wpds.aspx

[50] Hydman R.J., Kostenko A.V. (2007): Minimum sample size requirements for

seasonal forecasting models

[51] Hyndman R. J., Athanasopoulos G., Song H., Wu D.C., (2008): The tourism

forecasting Competition

[52] Hyndman R.J. ,King M.L., Pitrun I., Billah B. (2005): Local linear forecast

using cubic smoothing splines. Australian & New Zealand Journal of Statistics, Volume

47, Issue 1 87-99

[53] Hyndman R.J., Khandakar Y. (2008): Automatic Time Series Forecasting: The

forecast Package for R, Monash University, Journal of Statistical Software, Volume 27,

Issue 3. (http://www.jstatsoft.org )

[54] Hyndman R. J. (2001): ItTs time to move from what to why. International

Journal of Forecasting, 17, 567– 570.

[55] Hyndman R. J. (2004): The interaction between trend and seasonality.

International Journal of Forecasting, 20, 561–563.

Page 138: TEZË DOKTORATURE - api.fshn.edu.al

127

[56] Hyndman R. J., Koehler, A. B., Snyder, R. D. & Grose, S. (2002): A state space

framework for automatic forecasting using exponential smoothing methods,

International Journal of Forecasting 18, 439–454.

[57] Instat Albania, (www.instat.gov.al )

[58] Jessica Lin , Eamonn Keogh, Li Wei , Stefano Lonardi, (2007): experiencin

SAX: a novel symbolic representation,Data Min Knowl Disc 15:107–144 DOI

10.1007/s10618-007-0064-z

[59] Jessica Lin, Eamonn Keogh, Stefano Lonardi, Bill Chiu (2003): A Symbolic

Representation of Time Series, with Implications for Streaming Algorithms, DMKD'

03, June 13, 2003, San Diego, CA, USA. Copyright 2003 ACM1-58113- 763- x

[60] Keogh E., Chakrabarti K., Pazzani M. (2001a): Locally adaptive dimensionality

reduction for indexing large time series databases. In: Proceedings of ACM SIGMOD

conference on management of data, Santa Barbara, May 21–24, pp 151–162

[61] Keogh E., Chakrabarti K., Pazzani M., Mehrotra S (2001b): Dimensionality

reduction for fast similarity search in large time series databases. J Knowledge Inform

Syst. 3:263–286"

[62] Keogh E., Kasetty S., (2002): On the need for time series data mining

benchmarks: a survey and empirical demonstration. In: Proceedings of the 8th

ACMSIGKDD International conference on knowledge discovery and data mining,

Edmonton, Alberta, Canada, July 23–26, pp 102–111"

[63] Keogh E., Lin J., Fu AW., (2005): HOT SAX: efficiently finding the most

unusual time series subsequence. In: Proceedings of the 5th IEEE international

conference on data mining, Houston, TX, November 27–30, pp 226–233

[64] Keogh E,. Lonardi S., Chiu B., (2002): Finding surprising patterns in a time

series database in linear time and space. In: Proceedings of the 8th ACM SIGKDD

International conference onknowledge discovery and data mining, Edmonton, Alberta,

Canada, July 23–26, pp 550–556

[65] Keogh E., Lonardi S., Ratanamahatana CA., (2004): Towards parameter-free

data mining. In:Proceedings of the 10th ACM SIGKDD international conference on

knowledge discovery and data mining, Seattle. August 22–25, pp 206–215"

[66] Keogh E., Pazzani M., (1998): An enhanced representation of time series which

allows fast and accurate classification, clustering and relevance feedback. In:

Proceedings of the 4th International conference on knowledge discovery and data

mining,NewYork,NY,August 27–31, pp 239–241

[67] Koci E., Beqiri XH., Dhamo E., (2011): Mbi Përdorimin e Ekuacionit

Diferencial me Vonesa në Modelin Matematikor të Projektimit të Popullatës; Revista

Shqiptare Social Ekonomike, Nr.5 (69) fq.147 (2011), ISSN 2222-5846

Page 139: TEZË DOKTORATURE - api.fshn.edu.al

128

[68] Koci E., Beqiri XH., Dhamo E., (2012): Oscillation Criteria of Nonlinear

Dynamic Equations with a Single Delay International Journal of Science, Innovation

and New Technology, (IJSINT) February, Vo.2/ 2013

[69] Koehler, A. B., Snyder, R. D., & Ord, J. K. (2001): Forecasting models and

prediction intervals for the multiplicative Holt– Winters method. International Journal

of Forecasting, 17,269– 286.

[70] Lin J, Keogh E (2006): Group SAX: extending the notion of contrast sets to

time series and multimedia data. In: Proceedings of the 10th European Conference on

principles and practice of knowledge discovery in databases. Berlin, Germany,

September 18–22, pp 284–296

[71] Lin J., Keogh E., Lonardi S., (2005) :Visualizing and discovering non-trivial

patterns in large time series databases. Inform Visual 4:61–82

[72] Lin J., Keogh E., Lonardi S., Lankford JP., Nystrom DM., (2004): Visually

mining and monitoring massive time series. In: Proceedings of the 10th ACM SIGKDD

international conference on knowledge discovery and data mining, Seattle, WA, August

22–25, pp 460–469

[73] Lin J., Keogh E., Patel P., Lonardi S., (2002): Finding motifs in time series, the

2nd Workshop on Temporal Data Mining, the 8th ACM International conference on

knowledge discovery and data mining, Edmonton, Alberta, Canada, pp 53–68

[74] Ljung G. M. & Box G. E. P. (1978): On a Measure of a Lack of Fit in Time

Series Models Biometrika 65: 297–303.

[75] Lonardi S., (2001): Global Detectors of Unusual Words:

Design,Implementation, and Applications to Pattern Discovery in Biosequences. PhD

thesis, Department of Computer Sciences,Purdue University, August, 2001.

[76] Mahmoud E., (1984): Accuracy in forecasting: A survey. Journal of

Forecasting, 3, 139– 159.

[77] Makridakis S., Hibon M., (2000): The M3-Competition: results, conclusions

and implications, International Journal of Forecasting 16 (2000) 451–476 (

http://www.forecastpro.com )

[78] Makridakis S., & Hibon M.,(1991): Exponential smoothing: The effect of initial

values and loss functions on post-sample forecasting accuracy. International Journal of

Forecasting, 7,317– 330.

[79] Makridakis S., Andersen, A., Carbone, R., Fildes, R., Hibon, M., Lewandowski,

R., et al. (1982): The accuracy of extrapolation (time series) methods: Results of a

forecasting competition. Journal of Forecasting, 1, 111 – 153.

[80] Makridakis S., Wheelwright S. C., & Hyndman R. J. (1998): Forecasting:

Methods and applications (3rd ed.). New York, John Wiley and Sons.

Page 140: TEZË DOKTORATURE - api.fshn.edu.al

129

[81] Meng Yi, Wang Zizheng, Sia Wai Leng (2011): Study of Mathematical Models

for Population Projection;. Singapore 259 978.

[9] Max Kuhn & Kjell Johnson (2013) Applied Predictive Modeling (2013)

[82] Ord, J. K., A. B. Koehler and R. D. Snyder (1997): Estimation and prediction

for a class of dynamic nonlinear statistical models, Journal of the American Statistical

Association, 92, 1621–1629.

[83] Pegels, C. C. (1969): Exponential smoothing: some new variations,

Management Science, 12, 311–315

[84] Shumway H. R. & Stoffer S. D. (2006): Time Series Analysis and Its

Applications With R examples. Springer Second edition, ISBN: 978-0-387-75958-6

[85] ShumwayR. H., & Stoffer D. S. (1982): An approach to time series smoothing

and forecasting using the EM algorithm.Journal of Time Series Analysis, 3, 253–264.

[86] Tompa M., Buhler J., (2001): Finding motifs using random projections. In:

Proceedings of the 5th International conference on computational molecular biology,

Montreal, Canada, April, 22–25, pp 67–74

[87] Tompa, M. & Buhler, J. (2001): Finding Motifs Using Random Projections. In

proceedings of the 5th Int’l Conference on Computational Molecular Biology.

Montreal, Canada, Apr 22-25.pp 67-74

[88] Ullah T. A. (1993): Forecasting of multivariate periodic autoregressive moving-

average process. Journal of Time Series Analysis, 14, 645– 657.

[89] Wei L, Keogh E, Xi X (2006): SAXually explicit images: finding unusual

shapes. In: Proceedings of the 2006 IEEE international conference on data mining,

Hong Kong, December 18–22

[90] World Population Data Sheet (2009)

[91] Xhaja B., Dhamo E., (2011): Population projections: methodological issues and

challenges in Albanian Population, 6TH ANNUAL MEETING OF INSTITUTE ALB-

SHKENCA, Prishtina, 1-4 September,2011,Kosovo

[92] Yi B. K., Faloutsos C., (2000): Proceedings of the 26th international conference

on very large databases, Cairo, Egypt, September 10–14, pp 385–394

[93] Marwan M., Fuad M., Marteau P. F., (2010): Towards a faster symbolic

aggregate approximation method, ICSOFT 2010 - Fifth International Conference on

Software and Data Technologies, Athens, Greece.

Page 141: TEZË DOKTORATURE - api.fshn.edu.al

130

SHTOJCA

I) Tabela mbi llogaritjet rekursive dhe parashikimin e 15 modeleve të sheshimit

eksponencial të propozuara nga Hyndman et al (2006).

Page 142: TEZË DOKTORATURE - api.fshn.edu.al

131

II) Komandat në R për simulimet e modeleve dhe grafikët e ACF-së dhe PACf-së.

(Figura 3.7)

> par(mfrow=c(1,2))

> ar1=arima.sim(list(order=c(1,0,0),ar=0.3),n=100)

> acf(ar1,main="ACF per AR(1), phi=0.3",col="blue")

> pacf(ar1,main="PACF per AR(1), phi=0.3",col="blue")

> ar2=arima.sim(list(order=c(2,0,0),ar=c(0.3,-0.8)),n=100)

> acf(ar2,main="ACF per AR(2), phi1=0.3, phi2=-0.8",col="blue")

> pacf(ar2,main="PACF per AR(2), phi1=0.3, phi2=-0.8",col="blue")

> ma1=arima.sim(list(order=c(0,0,1),ma=0.3),n=100)

> acf(ma1,main="ACF per MA(1), theta=0.3",col="blue")

> pacf(ma1,main="PACF per MA(1), theta=0.3",col="blue")

> ma2=arima.sim(list(order=c(0,0,2),ma=c(0.3,-0.85)),n=100)

> acf(ma2,main="ACF per MA(2), theta1=0.3,theta2=-0.85",col="blue")

> pacf(ma2,main="PACF per MA(2), theta1=0.3,theta2=-0.85",col="blue")

> acf(ma1,main="ACF per MA(1), theta=0.3",col="blue")

> pacf(ma1,main="PACF per MA(1), theta=0.3",col="blue")

> acf(ar2,main="ACF per AR(2), phi1=0.3, phi2=-0.8",col="blue")

> arma11=arima.sim(list(order=c(1,0,1),ar=0.2,ma=-0.85),n=100)

> acf(arma11,main="ACF per ARMA(1,1), phi1=0.2, theta=-0.85",col="blue")

> pacf(arma11,main="PACF per ARMA(1,1), phi1=0.2, theta=-0.85",col="blue")

Komandat në R për të përftuar paraqitjet grafike të ACF-së dhe PACF-së për seritë me

të dhëna mbi Shqipërinë (Figura 3.8)

> acf(Ls,main="ACF e zgjedhjes per serine e lindjeve '85-'08",col="blue")

> pacf(Ls,main="PACF e zgjedhjes per serine e lindjeve '85-'08",col="blue")

> acf(Ms,main="ACF e zgjedhjes per serine e martesave '85-'08",col="blue")

> pacf(Ms,main="PACF e zgjedhjes per serine e martesave '85-'08",col="blue")

> acf(Demets,main="ACF e zgjedhjes per serine e demeve",col="blue")

> pacf(Demets,main="PACF e zgjedhjes per serine e demeve",col="blue")

Page 143: TEZË DOKTORATURE - api.fshn.edu.al

132

> acf(TFR,main="ACF e zgjedhjes per serine e TFR",col="blue")

> pacf(TFR,main="PACF e zgjedhjes per serine e TFR",col="blue")

III) Koha e ekzekutimit të algoritmit SAX në R. (përmasa e alfabetit = 3

)

Shënim: Parametrat e kompjuterit

CPU 520, 1.60GHz, RAM 1.00 GB,

Page 144: TEZË DOKTORATURE - api.fshn.edu.al

133

IV) Seria me vrojtimet reale të numrit të lindjeve në Shqipëri 1990- 2008 (INSTAT)

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

1990 6077 6488 7720 7555 8130 7555 7473 7145 6981 6324 5257 5420

1991 6790 6843 7610 7772 7774 7023 7128 6347 5625 5153 4416 4881

1992 6215 6366 6713 6306 6019 6554 6690 6170 6094 5755 5008 5597

1993 5920 5845 6583 5920 5561 5344 5141 4768 4308 4795 5601 7057

1994 5630 5825 7153 7666 7572 7297 7139 5810 4222 4865 5269 3096

1995 5521 5637 6105 6069 6458 6531 6848 6826 6646 5932 4858 4498

1996 5195 4908 5585 5571 5797 6391 7116 6822 6255 5455 4587 4587

1997 4797 4445 4809 4964 5137 5544 5933 5896 5723 5297 4495 4612

1998 4390 4095 4547 4781 5046 5533 6014 6008 5773 5238 4372 4342

1999 4137 3877 4335 4578 4850 5343 5824 5830 5615 5094 4248 4219

2000 3820 3548 3983 4265 4516 4618 5166 4922 4647 4270 3697 3700

2001 4369 3926 4209 4094 4450 4678 5209 5196 5098 4744 4017 4225

2002 4142 3561 3643 3516 3694 3916 3663 3455 3870 4101 3833 4121

2003 3358 3469 3895 3495 4127 4189 4503 4060 4114 4058 3787 3957

2004 3588 3174 3221 3073 3645 3973 3996 3879 4458 3919 3183 2913

2005 3092 2887 2957 2991 3419 3245 3307 3586 4177 3795 3034 3122

2006 3191 2621 2815 2733 3268 3184 3183 2505 3033 2825 2436 2435

2007 2542 2188 2298 2324 2785 2834 3187 3130 3611 3287 2442 2535

2008 2773 2408 2603 2620 3160 3002 3388 3263 3760 3362 2906 3006

Parashikimet për serinë e lindjeve sipas modeleve të propozuara.

A) Parashikimet sipas modelit ETS për serinë e vrojtimeve 1990-2008

Point Forecast Lo 80 Hi 80 Lo 95 Hi 95

Jan 2009 3236.249 2837.3401 3635.158 2626.170326 3846.328

Feb 2009 3033.215 2561.5845 3504.845 2311.918482 3754.511

Mar 2009 3347.079 2737.1351 3957.023 2414.250425 4279.907

Apr 2009 3384.834 2688.7673 4080.901 2320.291681 4449.377

May 2009 3624.962 2802.9759 4446.948 2367.842716 4882.081

Jun 2009 3653.705 2754.2840 4553.126 2278.159204 5029.251

Jul 2009 3842.894 2827.4154 4858.372 2289.853756 5395.934

Aug 2009 3593.960 2583.1288 4604.791 2048.027112 5139.893

Sep 2009 3574.264 2511.3451 4637.183 1948.669748 5199.859

Page 145: TEZË DOKTORATURE - api.fshn.edu.al

134

Oct 2009 3346.515 2299.8768 4393.154 1745.819937 4947.211

Nov 2009 2930.354 1970.7076 3890.000 1462.701643 4398.006

Dec 2009 3001.725 1976.1706 4027.279 1433.275037 4570.175

Jan 2010 3236.251 2086.2941 4386.209 1477.543384 4994.960

Feb 2010 3033.217 1915.2440 4151.190 1323.424824 4743.009

Mar 2010 3347.081 2070.4182 4623.744 1394.593572 5299.569

Apr 2010 3384.837 2051.4744 4718.199 1345.634978 5424.039

May 2010 3624.965 2152.8705 5097.059 1373.590988 5876.338

Jun 2010 3653.708 2126.5160 5180.899 1318.069570 5989.346

Jul 2010 3842.896 2191.9791 5493.814 1318.036287 6367.756

Aug 2010 3593.962 2009.1146 5178.810 1170.146875 6017.778

Sep 2010 3574.267 1958.2653 5190.268 1102.805788 6045.728

Oct 2010 3346.518 1796.8887 4896.147 976.564617 5716.471

Nov 2010 2930.356 1541.9589 4318.753 806.985901 5053.726

Dec 2010 3001.727 1547.8191 4455.635 778.166720 5225.287

Jan 2011 3236.254 1635.1206 4837.387 787.531871 5684.976

Feb 2011 3033.219 1501.5074 4564.931 690.668166 5375.770

Mar 2011 3347.084 1623.1363 5071.031 710.533674 5983.633

Apr 2011 3384.839 1607.7997 5161.879 667.091833 6102.587

May 2011 3624.967 1686.3077 5563.627 660.043342 6589.891

Jun 2011 3653.710 1664.3004 5643.120 611.170393 6696.250

Jul 2011 3842.899 1713.7213 5972.077 586.602638 7099.196

Aug 2011 3593.965 1568.7368 5619.193 496.645771 6691.284

Sep 2011 3574.269 1526.7313 5621.807 442.830148 6705.708

Oct 2011 3346.520 1398.5064 5294.534 367.290218 6325.750

Nov 2011 2930.358 1197.7781 4662.938 280.605660 5580.110

Dec 2011 3001.729 1199.7562 4803.702 245.849456 5757.609

Jan 2012 3236.256 1264.4477 5208.064 220.635367 6251.877

Feb 2012 3033.221 1158.1532 4908.289 165.552070 5900.890

Mar 2012 3347.086 1248.5014 5445.670 137.577895 6556.594

Apr 2012 3384.842 1233.0147 5536.669 93.906326 6675.777

May 2012 3624.970 1289.0809 5960.859 52.535936 7197.404

Jun 2012 3653.713 1267.8984 6039.527 4.924496 7302.501

Jul 2012 3842.902 1300.7738 6385.030 -44.947538 7730.751

Page 146: TEZË DOKTORATURE - api.fshn.edu.al

135

Aug 2012 3593.968 1186.0868 6001.848 -88.568304 7276.503

Sep 2012 3574.272 1149.5443 5998.999 -134.028909 7282.573

Oct 2012 3346.522 1048.3628 5644.682 -168.209412 6861.254

Nov 2012 2930.360 893.6956 4967.024 -184.449393 6045.169

Dec 2012 3001.731 890.7351 5112.727 -226.758654 6230.221

Jan 2013 3236.258 933.8296 5538.687 -285.002526 6757.519

Feb 2013 3033.223 850.5634 5215.883 -304.867072 6371.314

Mar 2013 3347.088 911.5015 5782.675 -377.820225 7071.997

Apr 2013 3384.844 894.5586 5875.129 -423.718815 7193.407

May 2013 3624.972 929.0243 6320.920 -498.124408 7748.069

Jun 2013 3653.715 907.3196 6400.111 -546.534524 7853.965

Jul 2013 3842.905 923.8813 6761.928 -621.356212 8307.165

Aug 2013 3593.970 835.7273 6352.213 -624.398191 7812.338

Sep 2013 3574.274 803.1311 6345.418 -663.823489 7812.372

Oct 2013 3346.525 725.8478 5967.202 -661.454817 7354.504

Nov 2013 2930.362 612.8255 5247.899 -614.004349 6474.729

Dec 2013 3001.733 604.5409 5398.926 -664.456144 6667.923

B) Parashikimet sipas modelit ETS për serinë e vrojtimeve 1990-2005

Point Forecast Lo 80 Hi 80 Lo 95 Hi 95

Jan 2006 3298.174 2682.039148 3914.308 2355.87724 4240.470

Feb 2006 3246.924 2375.631499 4118.217 1914.39685 4579.452

Mar 2006 3726.960 2659.869448 4794.050 2094.98608 5358.933

Apr 2006 3722.384 2490.227201 4954.541 1837.96266 5606.806

May 2006 3982.940 2605.355060 5360.525 1876.10555 6089.775

Jun 2006 4099.946 2590.883496 5609.009 1792.03391 6407.859

Jul 2006 4378.943 2748.973566 6008.912 1886.11989 6871.766

Aug 2006 4080.775 2338.268233 5823.282 1415.84084 6745.709

Sep 2006 3888.651 2040.446872 5736.856 1062.06652 6715.236

Oct 2006 3592.625 1644.449383 5540.801 613.14733 6572.103

Nov 2006 3055.692 1012.411135 5098.972 -69.23623 6180.619

Dec 2006 3122.000 987.866237 5256.133 -141.87569 6385.875

Jan 2007 3298.174 1076.900429 5519.447 -98.97058 6695.318

Feb 2007 3246.924 941.803134 5552.046 -278.45440 6772.303

Mar 2007 3726.960 1340.934750 6112.984 77.84953 7376.070

Apr 2007 3722.384 1258.110728 6186.658 -46.39687 7491.165

May 2007 3982.940 1442.827235 6523.053 98.17267 7867.708

Jun 2007 4099.946 1486.193524 6713.699 102.55639 8097.336

Page 147: TEZË DOKTORATURE - api.fshn.edu.al

136

Jul 2007 4378.943 1693.569020 7064.317 272.01792 8485.868

Aug 2007 4080.775 1325.641115 6835.909 -132.83869 8294.389

Sep 2007 3888.651 1065.480650 6711.822 -429.01564 8206.318

Oct 2007 3592.625 703.019386 6482.231 -826.64560 8011.896

Nov 2007 3055.692 101.131060 6010.252 -1462.91883 7574.302

Dec 2007 3122.000 103.894514 6140.105 -1493.79378 7737.793

Jan 2008 3298.174 217.834754 6378.513 -1412.79816 8009.145

Feb 2008 3246.924 105.584417 6388.265 -1557.34057 8051.190

Mar 2008 3726.960 525.780489 6928.139 -1168.82133 8622.740

Apr 2008 3722.384 462.464468 6982.304 -1263.23282 8708.001

May 2008 3982.940 665.319530 7300.561 -1090.92275 9056.803

Jun 2008 4099.946 725.611315 7474.281 -1060.65372 9260.546

Jul 2008 4378.943 948.831274 7809.055 -866.96017 9624.846

Aug 2008 4080.775 595.779212 7565.771 -1249.06615 9410.616

Sep 2008 3888.651 349.622414 7427.680 -1523.82633 9301.129

Oct 2008 3592.625 0.375964 7184.875 -1901.24598 9086.497

Nov 2008 3055.692 -589.011533 6700.395 -2518.40085 8629.784

Dec 2008 3122.000 -574.402892 6818.402 -2531.16014 8775.159

Jan 2009 3298.174 -449.214869 7045.562 -2432.96252 9029.310

Feb 2009 3246.924 -550.765656 7044.615 -2561.14138 9054.990

Mar 2009 3726.960 -120.374644 7574.294 -2157.03033 9610.949

Apr 2009 3722.384 -173.961472 7618.730 -2236.56230 9681.331

May 2009 3982.940 38.191800 7927.689 -2050.03185 10015.912

Jun 2009 4099.946 107.382011 8092.511 -2006.15385 10206.046

Jul 2009 4378.943 339.128712 8418.757 -1799.41978 10557.306

Aug 2009 4080.775 -5.742904 8167.293 -2169.01484 10330.565

Sep 2009 3888.651 -244.042543 8021.345 -2431.75854 10209.061

Oct 2009 3592.625 -585.734217 7770.985 -2797.62415 9982.875

Nov 2009 3055.692 -1167.848844 7279.232 -3403.65612 9515.039

Dec 2009 3122.000 -1146.234747 7390.234 -3405.70150 9649.701

Jan 2010 3298.174 -1014.291272 7610.639 -3297.17230 9893.520

Feb 2010 3246.924 -1109.321995 7603.171 -3415.37959 9909.229

Mar 2010 3726.960 -672.632866 8126.552 -3001.63639 10455.555

Apr 2010 3722.384 -720.131139 8164.900 -3071.85673 10516.625

May 2010 3982.940 -502.087444 8467.968 -2876.31765 10842.198

Jun 2010 4099.946 -427.194367 8627.087 -2823.71786 11023.610

Jul 2010 4378.943 -189.922561 8947.808 -2608.53387 11366.420

Aug 2010 4080.775 -529.437741 8690.988 -2969.93697 11131.487

Sep 2010 3888.651 -762.541165 8539.844 -3224.73375 11002.036

Oct 2010 3592.625 -1099.188977 8284.440 -3582.88544 10768.136

Nov 2010 3055.692 -1676.403796 7787.787 -4181.42380 10292.807

Dec 2010 3122.000 -1650.029056 7894.028 -4176.18840 10420.187

Page 148: TEZË DOKTORATURE - api.fshn.edu.al

137

C) Parashikimet sipas modelit ARIMA(1,1,1)(1,0,1)[12] për serinë e

lindjeve 1990- 2008

Point Forecast Lo 80 Hi 80 Lo 95 Hi 95

Jan 2009 2932.194 2375.1169 3489.270 2080.2184 3784.169

Feb 2009 2560.444 1867.3898 3253.499 1500.5089 3620.380

Mar 2009 2645.377 1886.2038 3404.549 1484.3220 3806.431

Apr 2009 2578.757 1783.3317 3374.183 1362.2589 3795.256

May 2009 2926.985 2110.0733 3743.897 1677.6262 4176.344

Jun 2009 2901.449 2070.9064 3731.991 1631.2438 4171.654

Jul 2009 3077.219 2237.4431 3916.995 1792.8926 4361.545

Aug 2009 2929.827 2083.3841 3776.270 1635.3043 4224.350

Sep 2009 3251.426 2399.8695 4102.983 1949.0826 4553.770

Oct 2009 2988.990 2133.2906 3844.688 1680.3110 4297.668

Nov 2009 2519.616 1660.3999 3378.832 1205.5583 3833.674

Dec 2009 2564.050 1701.7283 3426.371 1245.2430 3882.856

Jan 2010 2583.624 1699.4479 3467.800 1231.3934 3935.854

Feb 2010 2296.229 1397.6075 3194.851 921.9059 3670.553

Mar 2010 2420.928 1512.1032 3329.753 1031.0005 3810.855

Apr 2010 2389.695 1473.1990 3306.192 988.0351 3791.356

May 2010 2740.331 1817.7276 3662.935 1329.3306 4151.332

Jun 2010 2732.061 1804.3470 3659.775 1313.2449 4150.877

Jul 2010 2908.953 1976.7807 3841.124 1483.3187 4334.586

Aug 2010 2777.907 1841.7143 3714.101 1346.1235 4209.691

Sep 2010 3086.697 2146.7801 4026.614 1649.2180 4524.176

Oct 2010 2843.241 1899.8059 3786.675 1400.3816 4286.100

Nov 2010 2403.533 1456.7253 3350.340 955.5156 3851.550

Dec 2010 2447.406 1497.3286 3397.482 994.3883 3900.423

Jan 2011 2467.262 1497.1240 3437.399 983.5642 3950.959

Feb 2011 2197.308 1213.2434 3181.373 692.3109 3702.305

Mar 2011 2315.572 1321.1949 3309.949 794.8036 3836.340

Apr 2011 2286.623 1284.1476 3289.099 753.4689 3819.778

May 2011 2617.542 1608.3672 3626.717 1074.1421 4160.943

Page 149: TEZË DOKTORATURE - api.fshn.edu.al

138

Jun 2011 2609.994 1595.0297 3624.958 1057.7402 4162.248

Jul 2011 2776.937 1756.7901 3797.084 1216.7569 4337.117

Aug 2011 2653.517 1628.5988 3678.435 1086.0400 4220.993

Sep 2011 2944.721 1915.3170 3974.125 1370.3834 4519.059

Oct 2011 2715.261 1681.5706 3748.951 1134.3680 4296.154

Nov 2011 2300.763 1262.9296 3338.597 713.5335 3887.993

Dec 2011 2342.156 1300.2823 3384.030 748.7474 3935.565

Jan 2012 2360.898 1299.5288 3422.268 737.6738 3984.123

Feb 2012 2106.411 1031.0322 3181.789 461.7612 3751.060

Mar 2012 2217.917 1131.8266 3304.007 556.8852 3878.948

Apr 2012 2190.633 1095.8855 3285.380 516.3613 3864.905

May 2012 2502.618 1400.5321 3604.703 817.1233 4188.112

Jun 2012 2495.505 1386.9511 3604.059 800.1180 4190.892

Jul 2012 2652.896 1538.4594 3767.333 948.5123 4357.280

Aug 2012 2536.542 1416.6244 3656.459 823.7760 4249.307

Sep 2012 2811.081 1685.9637 3936.197 1090.3628 4531.798

Oct 2012 2594.754 1464.6370 3724.872 866.3891 4323.119

Nov 2012 2203.981 1069.0070 3338.955 468.1881 3939.774

Dec 2012 2243.005 1103.2801 3382.730 499.9460 3986.064

Jan 2013 2260.675 1102.0449 3419.304 488.7033 4032.646

Feb 2013 2020.753 848.1237 3193.382 227.3713 3814.134

Mar 2013 2125.877 942.2478 3309.506 315.6723 3936.082

Apr 2013 2100.155 907.4221 3292.888 276.0274 3924.283

May 2013 2394.284 1193.6807 3594.886 558.1199 4230.447

Jun 2013 2387.578 1179.9276 3595.229 540.6359 4234.520

Jul 2013 2535.961 1321.8222 3750.100 679.0958 4392.826

Aug 2013 2426.266 1206.0262 3646.506 560.0703 4292.462

Sep 2013 2685.092 1459.0243 3911.160 809.9832 4560.201

Oct 2013 2481.147 1249.4467 3712.847 597.4239 4364.870

Nov 2013 2112.739 875.5487 3349.930 220.6196 4004.859

Dec 2013 2149.530 906.9550 3392.105 249.1755 4049.885

Page 150: TEZË DOKTORATURE - api.fshn.edu.al

139

D) Parashikimet sipas modelit Holt- Winters për serinë e lindjeve 1990- 2008

Jan Feb Mar Apr May Jun

2009 2628.41999 1928.58075 1946.62761 1947.03053 2568.31855 2726.77941

2010 2138.65600 1438.81676 1456.86362 1457.26655 2078.55456 2237.01543

2011 1648.89202 949.05278 967.09963 967.50256 1588.79057 1747.25144

2012 1159.12803 459.28879 477.33565 477.73858 1099.02659 1257.48746

2013 669.36404 -30.47519 -12.42834 -12.02541 609.26260 767.72347

Jul Aug Sep Oct Nov Dec

2009 3256.54929 3277.87721 3868.79381 3483.31220 2730.74002 2516.23601

2010 2766.78530 2788.11322 3379.02982 2993.54822 2240.97603 2026.47203

2011 2277.02132 2298.34923 2889.26584 2503.78423 1751.21205 1536.70804

2012 1787.25733 1808.58525 2399.50185 2014.02024 1261.44806 1046.94406

2013 1297.49335 1318.82126 1909.73786 1524.25626 771.68407 557.18007

Page 151: TEZË DOKTORATURE - api.fshn.edu.al

ABSTRAKT: Në pjesën e saj të parë teza e doktoratës prezanton një vështrim të përgjithshëm teorik të

koncepteve dhe natyrës së serive kohore të gërshetuara me praktikën. Janë studiuar disa seri kohore me

të dhëna nga vendi për qëllimet e gjetjes së modelit më të mirë dhe të parashikimit nëpërmjet tij. Modelet

trajtohen në softuerin R. Midis modeleve të shqyrtuara (Holt-Winters, ETS, ARIMA etj) është zgjedhur

më i miri duke përdorur disa kritere informacioni (AIC, AICc, BIC etj). Është përdorur seria e lindjeve

për muaj në Shqipëri për qëllime aplikative. Në pjesën e saj të dytë, kjo tezë prezanton disa nga teknikat

e zbulimit të ngjashmërive të serive kohore dhe reduktimit të përmasave. Janë ndërtuar në programin R

algoritmet për të dy teknikat PAA (Piecewise Aggregate Approximation) dhe SAX (Symbolic Aggregate

Approximation) dhe është krahasuar efektshmëria e tij në raport me algoritmet ekzistuese në MATLAB.

Rezultatet eksperimentale kanë treguar se algoritmi SAX i ndërtuar në R është më efikas në kohën e

ekzekutimit sesa ai i ndërtuar në MATLAB. Më tej është synuar modifikimi i teknikës SAX duke e

aplikuar atë në seri kohore me natyra të ndryshme. Për më tepër rezultatet eksperimentale kanë treguar

se zbulimi i ngjashmërive në sekuencat e ADN-ve, duke aplikuar teknikën SAX, është më i lehtë dhe më

i shpejtë krahasuar me algoritmin Needleman – Wursch.

Fjalët kyçe: seri kohore, parashikim, ARIMA, reduktim, ngjashmëri, R.

ABSTRACT: In the first part, the thesis provides a theoretical overview of the concepts and the nature

of time series combined with practice. We have studied a variety of time series models, construction of

models through R software and forecast. We choose among many models (Holt- Winters, ETS, ARIMA

etc ) the one that best fits our data (time series of birth numbers per month in Albania is at the center of

our attention) based on many accuracy measurements. In the second part, the thesis presents some of the

similarity techniques and size reduction in time series. We have built the PAA (Piecewise Aggregate

Aproximation) and SAX (Symbolic Aggregate Approximation) algorithm in R. Then we compare its

efficiency with the algorithms writen in MATLAB by the authors. The experimental results show that

the algorithm written in R is more efficient in time execution than in MATLAB. Further, it is intended

to modify SAX (Symbolic Aggregate Approximation) technique by applying them to different time

series nature. Moreover, the experimental results show that the detections of the similarities in DNA

sequences applying SAX algorithm is easy and faster than Needleman-Wursch algorithm.

Key words: time series, forecast, ARIMA, reduction, similarity, R.

© Eralda Gjika (Dhamo)