nattfågeldata workshop, 21-22 maj 2014
Post on 05-Jan-2016
42 Views
Preview:
DESCRIPTION
TRANSCRIPT
NattfågeldataWorkshop, 21-22 maj 2014
Claudia von Brömssen, SLU
Antalsdata
Om någonting händer slumpmässigt i tid och rum, t.ex.:
• antal åskväder under en sommar, • antal fåglar som ses under en timme,• antal olyckor i en korsning under ett år• antal växter av en viss sort i ett område• …
Poisson fördelningen används för att beskriva dessa typer av data. Det krävs att uppkomsten av åskväder, fåglar,…är oberoende händelser i tiden eller i rummet.
År Antal svarthättor År Antal starar
1999 6 1999 42000 3 2000 502001 6 2001 02002 - 2002 -2003 - 2003 -2004 5 2004 12005 4 2005 02006 5 2006 522007 4 2007 22008 14 2008 1002009 5 2009 3
Exempel: Fågelräkning på en sträcker i Svensk Fågeltaxering:svarthätta och stare
Medel: 5.78 23.6
Oberoende händelser Ej oberoende
En Poissonfördelning som skulle kunna passa för att beskriva antal svarthättor under den tid det tar att observera sträckan.
En diskret sannolikhets-fördelning. Enbart heltalsvärden är tillåtna.
Inlägg: Binära data – 0/1 data
Om man bara observerar om någonting inträffar eller ej kallar man variabeln binär. T.ex. fågeln observeras /observeras inte
Binära data modelleras ofta med Binomialfördelningen. För att kunna göra så måste enheterna vi observera vara oberoende.
Nattfågeldata:
Observationer mellan 2003 och 2013. 2 perioder per år.
T.ex. Rördrom:
Röd: period 1Blå: period 2
2004 2006 2008 2010 2012
05
10
15
20
25
30
nattfP1$År
na
ttfP
1$
Rö
rdro
m
Trend analys: - Mann-Kendall test fungerar även på antalsdata, eftersom
Mann-Kendall test enbart beräknas på ranger. - Eftersom data är insamlade under 2 perioder ska det tas
hänsyn till också – en test beräknas för varje period och en övergripande test för båda perioder tillsammans.
Separat för de 2 perioderna:
Kombinerad:
Response variable Period MK statistic p-value (twosided) Significance code Slope (change/unit) MedianRördrom 1 -39 0.0024-- -1.833333333 22Rördrom 2 -16 0.2078 -1 9
Response variable Period MK statistic
p-value (twosided)
Significance code
Slope (change/unit) Median
Rördrom All categories -55 0.0120- -1.354166667 14.5
Trend analys: - Mann-Kendall test fungerar även på antalsdata, eftersom
Mann-Kendall test enbart beräknas på ranger. - Eftersom data är insamlade under 2 perioder ska det tas
hänsyn till också – en test beräknas för varje period och en övergripande test för båda perioder tillsammans.
Separat för de 2 perioderna:
Kombinerad:
Response variable Period MK statistic p-value (twosided) Significance code Slope (change/unit) MedianRördrom 1 -39 0.0024-- -1.833333333 22Rördrom 2 -16 0.2078 -1 9
Response variable Period MK statistic
p-value (twosided)
Significance code
Slope (change/unit) Median
Rördrom All categories -55 0.0120- -1.354166667 14.5
Modellering av fågeldata:
Vill man modellera antalsdata så använder man vanligtvis Poisson-fördelningen. Om antalen är höga kan också normalfördelningen fungera.
För Rördromen skulle vi kunna ansätta modellen med en linjär trend och en skillnad mellan perioderna.
Antal Rördrommar = År + Period
Eller
Antal Rördrommar= År + Period+ År*Period
Modellering av fågeldata:
Antal Rördrommar = År + Period
Antalet rördrommar påverkas av år (=trend) och period under året. De två effekterna är additiva, dvs påverkar inte varandra
Eller
Antal Rördrommar= År + Period+ År*Period
Det finns dessutom en interaktion mellan år och period, dvs trenderna ser olika ut för olika perioder (realistisk?)
Modellering av fågeldata: Beroende i data
Eftersom samma plats observeras under 11 år och dessutom 2 gånger varje år så är data inte oberoende.
Beroendet finns i första hand mellan observationerna gjorda samma år.
Finns många under period 1, så finns ocksåmånga under period 2.
2004 2006 2008 2010 2012
05
10
15
20
25
30
nattfP1$År
na
ttfP
1$
Rö
rdro
m
Modellering av fågeldata: Beroende i data
Beroende kan också finnas över åren. Samma fåglar bor kvar eller återvänder.
2004 2006 2008 2010 2012
05
10
15
20
25
30
nattfP1$År
na
ttfP
1$
Rö
rdro
m
Modellering av fågeldata: Beroende i data
Mann-Kendall testet skattar beroende mellan de två perioderna, men olika år antas vara oberoende. Detta är ofta en rimligt förenkling av modellstrukturen, men bör kunna motiveras.
Om man modellera fågeldata med en linjär modell måste även då beroenden anges. För att kunna göra det måste man gå från vanliga linjära modeller (regression, ANOVA) över till mixed models . Är data dessutom antalsdata (eller 0/1 data) så använder man generaliserade linjära mixed modeller (GLIMM).
Modellering av fågeldata: RördromBasmodell (linjär modell, normalfördelade data, inga beroenden tas hänsyn till):
model1<-lm(Rördrom~År+Period, data=nattf)
lm … linear model
Rördrom~År+Period … modellformel
data=nattf … datamaterialet nattf används (tidigare inläst från ett .txt fil
Modellering av fågeldata: Rördrommodel1<-lm(Rördrom~År+Period, data=nattf)
Call:lm(formula = Rördrom ~ År + Period, data = nattf)
Residuals: Min 1Q Median 3Q Max -11.5636 -2.7773 -0.3864 4.1750 7.6455
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2449.9455 716.0068 3.422 0.00286 ** År -1.2091 0.3566 -3.391 0.00307 ** Period2 -13.3636 2.2552 -5.926 1.05e-05 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.289 on 19 degrees of freedomMultiple R-squared: 0.7104, Adjusted R-squared: 0.6799 F-statistic: 23.31 on 2 and 19 DF, p-value: 7.706e-06
Modellering av fågeldata: Rördrom
Normalfördelning användes här och residualplottarna ska kontrolleras för att se om detta antagandet var uppfyllt.
5 10 15 20 25
-10
-50
510
Fitted values
Res
idua
ls
Residuals vs Fitted
4
12
6
-2 -1 0 1 2
-2-1
01
2
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q-Q
4
6
12
5 10 15 20 25
0.0
0.5
1.0
1.5
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale-Location4
612
0.00 0.05 0.10 0.15 0.20
-2-1
01
2
Leverage
Sta
ndar
dize
d re
sidu
als
Cook's distance 0.5
Residuals vs Leverage
4
6
19
Modellering av fågeldata: Rördrom
Residualerna är någorlunda normalfördelade och möjligtvis skulle normalfördelningen kunna användas för att modellera antalet rördrommar. Vi har dock ett till problem med normalfördelningen:
När vi gör ett konfidensintervall:
predict(model1,interval='confidence')
fit lwr upr…17 18.463636 14.4445664 22.48270618 5.100000 1.0809300 9.11907019 17.254545 12.7766101 21.73248120 3.890909 -0.5870263 8.36884421 16.045455 11.0389706 21.05193822 2.681818 -2.3246658 7.688302
Modellering av fågeldata: Poissonregression
Generellt är det bättre att använda Poisson-fördelningen för dessa data: model2<-glm(Rördrom~År+Period, family=poisson, data=nattf)
glm … generalised linear model (generaliserad linjär modell)
family=poisson … anger vilken fördelning data har
I samband med poissonregression används log-transformation av responsen.
Modellering av fågeldata: Poissonregression
> predict(model2, interval='confidence') 1 2 3 4 5 6 7 8 3.461132 2.532419 3.381664 2.452950 3.302195 2.373482 3.222727 2.294014 9 10 11 12 13 14 15 16 3.143259 2.214545 3.063790 2.135077 2.984322 2.055609 2.904854 1.976141 17 18 19 20 21 22 2.825386 1.896672 2.745917 1.817204 2.666449 1.737736
Modellering av fågeldata: Poissonregression
Call:glm(formula = Rördrom ~ År + Period, family = poisson, data = nattf)
Deviance Residuals: Min 1Q Median 3Q Max -3.4937 -1.1050 0.0838 1.0331 2.5218
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 162.63615 35.13731 4.629 3.68e-06 ***År -0.07947 0.01751 -4.540 5.64e-06 ***Period2 -0.92871 0.12055 -7.704 1.32e-14 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 140.685 on 21 degrees of freedomResidual deviance: 53.772 on 19 degrees of freedomAIC: 153.85
Number of Fisher Scoring iterations: 5
Modellering av fågeldata: Poissonregression
I poisson-fördelningen finns bara en parameter (l), som står för både väntevärde och varians i fördelningen. (Jämför normalfördelningen där 2 parametrar finns: väntevärde m och varians s2). I Poisson regression kan man får problem med överspridning, dvs variationen är större än modellen tillåter.
Null deviance: 140.685 on 21 degrees of freedomResidual deviance: 53.772 on 19 degrees of freedomAIC: 153.85
Eftersom kvoten mellan residual deviance och degress of freedom är 53.772/19 = 2.83 som är betydligt större än 1 så finns det problem med överspridning (standard error blir felaktiga)
Modellering av fågeldata: Poissonregression med beroenden
I vårt fall kan det vara en effekt av att vi har ignorerat beroenden i datamaterialet. För att modellera beroendet använder vi:
library(MASS)
model4<-glmmPQL(Rördrom~År+Period, random=~1|År/Period, family='poisson', data=nattf)
glmmPQL … model som kan hantera poisson fördelning och beroende mellan data
random=~1|År/Period … skattar beroendet mellan perioderna inom samma år
Modellering av fågeldata: Poissonregression med beroendenLinear mixed-effects model fit by maximum likelihood Data: nattf AIC BIC logLik NA NA NA
Random effects: Formula: ~1 | År (Intercept)StdDev: 3.073866e-15
Formula: ~1 | Period %in% År (Intercept) ResidualStdDev: 7.274755e-06 1.457754
Variance function: Structure: fixed weights Formula: ~invwt
Fixed effects: Rördrom ~ År + Period Value Std.Error DF t-value p-value(Intercept) 162.63615 55.11721 10 2.950732 0.0145År -0.07947 0.02746 9 -2.894019 0.0178Period2 -0.92871 0.18909 10 -4.911361 0.0006 Correlation: (Intr) År År -1.000 Period2 -0.001 0.000
Standardized Within-Group Residuals: Min Q1 Med Q3 Max -1.9362271 -0.7191128 0.0577341 0.7533531 1.9399027
Modellering av fågeldata: Poissonregression med beroenden
Bästa modellFixed effects: Rördrom ~ År + Period Value Std.Error DF t-value p-value(Intercept) 162.63615 55.11721 10 2.950732 0.0145År -0.07947 0.02746 9 -2.894019 0.0178Period2 -0.92871 0.18909 10 -4.911361 0.0006
Signifikanta skillnader mellan perioderna. Signifikant trend. För log-transformerade data är minskningen per år 0.07947.
Modellering av fågeldata: Poissonregression med beroenden
2004 2006 2008 2010 2012
05
10
15
20
25
30
År
Rö
rdro
mm
ar
Modellering av fågeldata: Poissonregression med beroenden
Samma modell för Vaktel:
Utan interaktion med interaktion
2004 2006 2008 2010 2012
05
10
15
År
Va
kte
l
2004 2006 2008 2010 2012
05
10
15
År
Va
kte
l
top related