college 1 · value of adequately described property as of a specifica data, supported by the...

College 1

Substantive issue - Property Valuation

Importance of Property Valuation/Appraisal in Real Estate Practice

• Transactions/ Hold-Sell

• Finance & Performance

• Real estate Investment

Property Valuation or Appraisal (Waarderen):

“Appraisal means a written statement independently

and impartially -on objective criteria- prepared by a

qualified appraiser setting forth an opinion of defined

value of adequately described property as of a

specifica data, supported by the presentation and

analysis of relevant market information”

Property Value (Taxeren):

Market value is the expected selling price of the

specified real property rights in an arm’-length

transaction, as of the date of the appraisal, and

assuming a reasonable exposure to the market

De expeted selling price is het gemiddelde, bij een (on)gelijke verdeling, de mediaan.

Arm’-length transaction is het geval bij executie verkoop of koop door familie.

Reasonable exposure is de kans op veel eigen interpretatie

Worth is de interne waarde

Price = market value = worth ?

› Price – observed transaction price

› Value – estimate of the likely price

› Worth – internal value based on discounted NOI

Stap 1

- Doel versus Waarde

- Type vastgoed

- Tenure type (pacht/huur/dienstverhoudigen)

Stap 2

- Waardebalende factoren

o Subject

o Buurt

o Gebied

o Verbeteringen aan het huis

Stap 3

- Residual Approach

- Accounts/Profit Approach

- Cost Approach

- Income Approach

- Sales Comparative Approach

Stap 4

- Opstellen rapport en verantwoording van bevindingen en keuzes

Methodology - Applied Statistics

- Data checking

o Summary statistics

o Scatter plots and distributions

o Infuential observations vs Outliers

o Transformations & Recoding

- Exploratory Analysis

o Correlations

o Groups and Segmentation

o Annova Methods

College 2

(Internal) Appraisals:

• investment analyses

• hold-sell analyses

(External) Valuation

• Quarterly basis

• Market Value – Net asset value for entry and redemption

• Different Valuators

Valuation

Bij Valuation zijn er geen ‘markt’ discountrate’s of IRR’s waardoor de DCF-methode in dit deel niets

waard is. Echter bij waarderen is dit wel het geval.

Voor markt-valuation heb je marktyields nodig, bar (op basis van contract of markt huur)/nar

Problems with Yield Method

There are a lot of yields, but which one is appropriate?

ROZ/IPD index: Reversionary Yield with corrections Problems:

• Discount rate correction

• Which corrections

• This is all related to the main problem: WHAT IS THE (MARKET) REFERENCE?

Aangezien de markt referenties alleen verwijzen naar de bruto yield, gebaseerd op overgangshuren

zou dit de basis moeten zijn voor taxeren. Still Remaining Problems:

• Valuators always make corrections in the valuation for the

difference between market rent and passing rent, but never for

the references

• Quality of the reference judgement

Taxaties lopen achter op de markt omdat taxaties gebasseerd zijn op transacties uit het verleden en

minder actueel zijn dan de marktprijzen op dit moment. Dit wordt ook wel lagging genoemd.

Daarnaast bestaat er nog het fenomeen van smoothing dat wordt veroorzaakt doordat taxaties

worden gebaseerd op eerdere/voorgaande taxaties. De voorgaande taxaties hebben (te) grote

invloed en zullen slechts ten dele worden aangepast. Bij economische groei zullen taxateurs wat

voorzichtig zijn en bij neergang ook. De taxaties bieden hierdoor een gedempte reflectie van de

werkelijkheid.

Een nieuwe taxateur begint laag zodat hij gedurende jaren een kleine waardestijging kan toevoegen.

Appraisel

Appraisal has usually an internal objective:

• Acquisition

• Investment in existing portfolio

• Hold Sell analyses

• Disinvestments

Appraisals can be external; but an internal value is always necessary

More appropriate approaches on building-level:

• SWOT analyses

• LOH judgement model (L=Location; O=Building; H=Tenant))

• Vacancy as risk indicator

• Risk-return analysis

De IRR-target wordt gebaseerd op de rente, marktrisico en liquiditeitsrisico.

IRR target en BAR-target verschillen van elkaar, waarom?

Hogere BAR betekent lagere investeringwaarde

Systematische benadering vastgoed erg belangrijk

College 3

Appraisel methods

Reconciliation is het verantwoorden en inschatten van de werkelijke waarde op basis van de reange

van waarden die gevonden worden door de verschillende waarderingsmethoden.

Residual Approach

- Investeringsbeslissingen

- Het doel is om onbewerkt land te waarderen zonder directe markt kennis/bewijzen

- Factoren die de waarde beïnvloeden zijn locatie/toegang tot het terrein/ontwikkelbaar

gebied/bestemmingplannen/bouwregels/voorgestelde ontwikkeling

- Waarde heeft betrekking op de ontwikkelingswaarde en de kosten van ontwikeling

- Waarde wordt vastgesteld door de waarde van de opstal (na herontwikkeling) – de

bouwkosten. (Residuele grondprijs methode)

Account/Profit Approach

- Heeft betrekking op waardering van ongebruikelijke vastgoed objecten

- Het doel is om de waarde vast te stellen van het object waarbij wordt gekeken naar de

opbrengst/handel van de betrokken bedijvigheid.

- Waardebeinvloedende factoren zijn final accounts/winst en verlies rek./balance sheets

- De waarde is gerelateerd aan de cash-flow of turnover rent, de waarde is een fractie van de

winst/omzet van het te verwachten gebruik

- Deze benadering heeft een sterke relatie met de ‘income benadering’

Cost Approach

- Methode kan gebruikt worden als er geen markt transacties zijn (public buildings)

- Het doel is om te taxeren voor de waarde van een object op de balans

- De waarde heeft betrekking op de geschatte kosten van de bouw (Construction)/ de waarde

van het land in het huidige gebruik/ aanpassing of toevoeging voor onderhoud, schade en

slijtage, afschrijvingen.

- Waarde is de bouwkosten + het land – de afschrijvingen

Income Approach

- Wat is een inversteerder bereid te betalen op bais van de te verwachten cashflows

- De waarde is afhankelijk van de kapitalisatie rate en het Net Operating Income van het object

- Cape rate is rendment risico vrij + risico premie + groei ratio huur + waardevermindering

- Aanvangsrendement is kleiner dan het exit rendement

- Variants:

• Capitalisation rate based on direct comparison using transaction values and rental income.

• Capitalisation rate based on return, rental growth rate and depreciation

Sale Comparative Approach

- Het doel is om de waarde te bepalen op basis van marktgegevens

- De waarde is afhankelijk van vergelijkbare referenties

- Varianten hierbij zijn de directe verkoop vergelijking, statistische anlayse en de

regressieanlayse

- Statischtische analyse lijkt om de ‘exploratory anlaysis’ hierbij wordt gekeken naar normaal

verdelingen, gemiddelde, midden, modus, etc.

- Regressieanlyse, analyse van transactieprijzen, regressie modellen.

Lineaire regressie modeling

Research Design – Sample design/Model specifications

Sample size vs Power – Als er zwakke verbanden worden verwacht dan moet de sample size groter

zijn. Zodat de ‘Power’ groter wordt. Power = waarschijnlijkheid van het ontdekken van een

statistische significante verhouding

Exploring Data

• Scatterplots/Distributions

• Segmentation to account for heterogeneity between properties

• Anova – like age vs rent

• Manova – like age & location vs rent (allows for interaction)

• Association among variables of interest

Multivariate Model

Y =Constant + a * X1 + b * X2 + epsilon

Y =Constant + a * X1 + b * X2 + Bk*Xk +epsilon

Nulhypothese bij lineaire regressie = Er is geen liniear verband tussen de onafhankleiljke en de

afhankelijke variabelen.

Nulhypothese = regressiecoefficient is nul (geen verband)

Alternatieve hypothese = Beta is niet gelijk aan 0

College 4

TOWARDS REGRESSION MODELING

Step 1 – Preparing data

Step 2 – Transforming/Rescaling data

Step 3 – Descriptive analysis

Step 4 – Segmentation, Analysis of Variance, Cross-tabulation and Association

Step 5 – Explanatory analysis – Model building

Single measure heeft betrekking op individuele 'measurements', zoals individele scores op items,

leeftijd van individuen, etc. Average measure heeft betrekking op gemiddelde 'measurements', zoals

de gemiddelde score op een test met meerdere items, de gemiddelde rating van een aantal

beoordelaars, etc.

Preparing Data

- Checking Data Values

o Single and multiple measures/ratio’s

- Oulier bepalend

o Buiten de kwartielen

o Negatieve waarden (als dit niet kan)

o Error’s

o Influential observations

Als e hellingshoek te veel wordt bepaald door een enkele variabele

Weggooien

Verklaren om hij afhankelijk is van een andere varaibele

Transforming/Rescaling data

- Checking data values

o Descriptisves /Plots/Histogram

Descriptive analysis

- Correlaties bekijken

- Descriptive (or "disinterested") approach which aims primarily at gathering knowledge (i.e.

descriptions and explanations) about the object of study but does not wish to modify the

object. The target is to find out how things are, or how they have been.

Segmentation, Analysis of Variance, Cross-tabulation and Association

- Exploring Data

o Scatterplots/Distributions

o Segmentation to account for heterogeneity between properties

o Anova – like age vs rent

o Manova – like age & location vs rent (allows for interaction)

o Association among variables of interest

Explanatory analysis – Model building

- True model: Y =Constant + a * X1 + b * X2 + epsilon

- Model assumptions

o 1. Linearity in parameters

o 2. Constant variance in epsilon (homoscedasticity)

o 3. Independence of epsilon

o 4. Normality

Model Assumptions

- Multicollineariteit. Er zijn geen onafhankelijke variabelen in het model die (ongeveer)

hetzelfde meten. Er is sprake van multicollineariteit als er correlatie van groter dan 0,9

voorkomen. In dit geval moet 1 van beide worden weggelaten. Afhankelijkheid van residuen

heeft geen invloed op de regressiecoëfficiënten. De geschatte standaardfouten zijn echter

niet meer zuiver: meestal te klein. Te kleine standaardfouten leiden er toe dat toetsen te

gemakkelijk een significant resultaat geven, en betrouwbaarheidsintervallen te smal zijn

- Homoscedasitie. Is er voor elke combinatie van waarden van alle onafhankelijke variabelen in

de populatie een normale verdeling van y-waarden met een constante variantie. De

variantie van de residuen mag dus niet afhangen van de waarden van de onafhankelijke

variabelen. Is dit wel het geval dan spreekt men van heteroscedasticiteit. Als alle punten

evenwichtig rond de horizontale nullijn liggen is de variantie constant (homoscedastisch of

homogeen). Als de punten een ‘toeter’vormen is de variantie niet constant. Homogeniteit =

contante variantie in de foutterm (epsilon/residuen). Heteroscedasticiteit heeft geen invloed

op de schattingen van de regressiecoëfficiënten, maarleidt wel tot onzuivere schattingen van

de standaardfouten. Dit heeft onjuiste toetsen en betrouwbaarheidsintervallen tot gevolg.

- Normaal verdeeld. De residuen moeten in de populatie normaal verdeeld zijn, met een

gemiddelde van 0. Schending van de normaliteitassumptie heeft geen invloed op de

schattingen van de regressiegewichten.Wel leidt het tot onjuiste toetsen en

betrouwbaarheidsintervallen. Een q-qplot kan hier worden gebruikt om te toetsen.

- Linieariteit. Het regressiemodel moet lineair zijn. Dit kan tevens gecontroleerd worden met

het spreidingsdiagram van de residuen met de voorspelde waarden, een residual plot of een

partial plot. Indien het regressiemodel niet lineair is, is er sprake van een duidelijke patroon,

zoals een parabool of andersoortige kromme.

Door middel van een residual plot kun je kijken of je data lineair is (de residuen zouden dan random

verdeeld moeten zijn om de middenlijn) en of je data homogeen is (de residuen liggen dan op elk

punt ongeveer evenver van de middenlijk verspreid). Wanneer je data niet homogeen is of niet

lineair dan zou je kunnen proberen om de data te transformeren.

College 5

Correlatie

Als de correlatie dicht bij de 1 ligt moet je maar 1 variabele meenmen. Waarom?

Bij een correlatiematrix zegt het significantie niveau dat een bepaalde variablee wel of niet significant

correleert maar er kan zonder significantie alsnog wel een positief of negatief verband zijn. Deze

situatie kan zich voordoen bij een grote spreiding waarbij sommige cases een negatief verband

hebben maar ook cases zonder verband bijvoorbeeld.

Chow test

Bij de Chow test gaat het er om, om te kijken of er structurele verschillen zijn in de bijdrage van de

x’en op de y. Er wordt gekeken of er verschil is in verschillende groepen.

Nul hypothese = Er is geen verschil in variabelen in de verschillende groepen

Residual (overblijvend), de residual van een steekproef is het verschil tussen de steekproef en de

geschatte regressielijn.

Residu is de afwijking van de regressielijn.

De (sum of squares) is de som van de gekwadrateerde afwijkingen van het gemiddelde.

Standard Error of the Estimate’ (= de standaarddeviatie van de residuele scores)

Unristricted (onbeperkt/onbegrensd), alle niet pooled bij elkaar optellen.

Restricted (beperkt), is altijd de pooled.

Als de F-waarde kleiner is dan de waarde die de tabel aangeeft dan moet de H0 niet worden

verworpen. Een hoge F-waarde komt dus ten gusnte aan het vewerpen van de H0. Als de F waarde

hoger is dan de kritieke waarde moet H0 verworen worden.

College 6

Discrete Keuze Modellen/Dicreet Choise Model

Conjoint analysis – Design

- Stappen

o Opstellen van een theoretisch model

o Maken van vignetten

o Veldwerk

o Analyse en rapportage

- Aantal atributen beperken tot 6

- Aantal vigentten beperken tot 15 per respondent

- Vignetten zijn reële combinaties van attributen

- Statistisch Design om steekproef uit set vignetten te trekken

Bij het DKM is er geen R² maar wel een inschatting van de verklarende kracht achter het model,

percentage corret, de Nagelkerke R². Deze mag echter niet geïnterpreteerd worden als het

percentage verklaarde variantie.

Statistische Analyse

› Keuze ja/nee -> Discrete keuzemodellen

› Rangordening -> Discrete keuzemodellen

› Rapportcijfer -> Lineaire Regressie

Voorwaarden Discrete Keuze Modellen (voor Y)

- Elkaar uitsluiten (het is 0 of 1, geen andere mogelijkheid)

- Alle cases moeten aanwezig zijn, uitputtend zijn (bij koop en huur maar 1 van beide

meenemen)

- Het moet een beperkt aantal cases zijn, een eindig aantal cases

Kritiek Discreet Keuze Model

- Keuzes zijn niet altijd rationeel, dus niet alle rangorden kunnen gedaan/gemaakt worden

- Meten we alles wel? Niet elk detail is mee te nemen

- Er wordt alleen maar iets gezegd over nut of welbeining maar niet over mogelijkheden om

dit nut te bereiken (bijvoorbeeld een begrensd inkomen)

Discreet Keuze Model kijkt naar de kans dat iemand in een huur/koop woning zit. Of de kans dat

iemand een actieve VvE heeft. De bijdrage van verschillende variabelen op de kans dat iets aanwezig

is of niet.

Is de afhankelijke variabele een dichotome variabele (een variabele met slechts twee waarden), dan

gebruik je logistische regressie. Dit gaat om de berekening van de kansen op een gebeurtenis.

College 7

Y* = latente variabele, de variabele kan continu zijn, we observeren hem niet. We observeren alleen

of hij 0 of 1 is. Rangorde die in je hoofd gemaakt wordt maar die we niet observeren. We zien de

afwegingen (variabelen) niet maar de beslissing wel. Een groot deel van de variabelen die worden

gebruikt in economische modellen zijn theoretische constructies. Het is vaak moeilijk om hieraan

getalswaarden toe te kennen, aangezien ze niet direct waarneembaar zijn. Dit type variabelen wordt

latente variabelen genoemd. Andere variabelen, die wel kunnen worden waargenomen, zijn dan

nodig om te dienen als indicatoren voor de niet waarneembare variabelen.

Laten = niet direct merkbaar/meetbaar

Met logistische regressie wordt berekend hoe groot de kans is op 1 van de 2 categoreien van een

dichotome variable, op basis van onafhankelijke variabelen. Hierbij wordt aan de hand van kansen en

kansverhoudingen het verband tussen afhankelijke variabele en onafhankelijke variabelen bepaald.

Dit verband blijkt niet lineair en wordt grafisch weergegeven in een S-curve. Als je lineaire regressie

zou toepassen, kunnen de voorspelde Y-waarden groter dan 1 of kleiner dan 0 worden. Hierdoor

zouden de residuen erg groot kunnen worden en zijn deze niet normaal verdee. (Linieaire regressie

gaat voorbij de 1, dus de kan is dan groter dan 100% dat kan dus niet).

Bij lineaire regressie worden de parameters berekend met de kleinste kwadraten methode. Bij

logistische regressie is dit niet mogelijk. De parameters worden geschat volgens de methode van

maximum-likelihood. Gezocht wordt naar paramters die de verdeling van de afhankelijke variabele

(categorieën 0 en 1) het beste representeren. Discreet maken naar 0 of 1 door naar boven of naar

beneden af te ronden.

Bij het DCM wordt niet geschat (bij linieare regressie wel), wel wordt er gekeken of hij de case in de 0

of in de 1 categorie valt. De tabel Dependent Variable Encoding toont welke waarde van afhankelijke

variabele in het model de categorie 0 respectievelijk 1 heeft. De voorspelde kansen P (en logit)

hebben dus betrekking op categorie 1.

Blz 222 e.v. Basishandboek SPSS 17 voor uitleg en interpretatie Logistische regressie.

De intercept (constante) en alle onafhankelijke variabelen moetwn orden opgenomen in de

logistische regressievergelijking. Ook als ze niet significant zijn.

De Wald Statistic (B/S.E.) is een indicator voor het relatieve belang van elke onafhankelijke varibale

voor de voorspelling. De variabele met de hoogste score is het belangrijkst.

De coefficient Exp(B) is de exponentiële B-coefficient. Dit geeft de invloed weer van de

onafhankelijke variable op de kansverhouiding. Deze laat zich alleen goed interpreteren voor

categorale variabelen.

Om in te kunnen schatten of het model (de classification table) goed voorspeld, of dit een hoog

percentage is, moet je de classification table van block 0 (kale model) vergelijken met de

classification table van Block 1. Op basis van toeval (kale model) werd 57% goed voorspeld. Het

logistische regressiemodel zorgt (in het voorbeeld) dus voor een verbetering van 82%-57%=24%.

Logistic distribution – logit model (natuurlijek logaritmen van de odds/kansen/logt (synoniemen)).

Normal distriubtion – probit model (verklaarende variabele moet continu zijn)

Positief effect, omgekeerde s-curve verbeeld een negatief effect.

Verwachte nutswaarde

Uji = a + B1*x1 + B2*x2 + Epsilon

U =Nut

i = persoon

j = object

Begrippen

Regressie

Met regressie en variantie-analyse analyseren we experimenten en waarnemingen om te weten te

komen of en in welke mate een bepaalde eigenschap door een andere eigenschap wordt verklaard of

voorspeld.

Sum of Squares

De kwadratensom (sum of squares) is de som van de gekwadrateerde afwijkingen van het

gemiddelde. De kwadratensom gaat uit van een enkele observatie (x) uit een steekproef die

vergeleken wordt met de gemiddelde waarde van die steekproef (xgem.). Het verschil tussen deze

twee waarden wordt gekwadrateerd. Dit gebeurt voor alle gevonden waarden voor x binnen de

steekproef. De som van al deze waarden vormt de kwadratensom.

De residuen vertegenwoordigen het niet door het regressiemodel verklaarde deel van de totale

variatie in de waarnemingen en de verschillen, ook wel ‘toeval’ genoemd.. Regressie staat voor het

wel door het model verklaarde deel van de totale variatie.

Door de kwadratensom door het aantal metingen -1 (n-1) te delen, bereken je de variantie binnen

een steekproef. De standaarddeviatie kun je berekenen door de wortel te nemen van de variantie.

Variantie

De variantie is in de statistiek een maat voor de spreiding van de waarden. Onder de spreiding van de

waarden verstaat men de mate waarin de waarden onderling verschillen. Hoe groter de variantie,

hoe meer de waarden onderling verschillen, en dus ook hoe meer de waarden van het "gemiddelde"

afwijken. De variantie meet min of meer het gemiddelde van het kwadraat van deze afwijkingen.

F-waarde

Als maatstaf voor de onderlinge verhouding tussen verklaarde en niet-verklaarde variantie gebruiken

we de F-statistiek of F-ratio. De totale variantie is per definitie gelijk aan 1. De verklaarde variantie

wordt uitgedrukt door de determinatiecoëfficiënt (R2). De niet-verklaarde variantie is dus 1 - R2. De F-

waarde is de verklaringskracht van alle variabelen tezamen. Hoge waarde van F betekent eerder kans

op significante uitkomsten.

De Anova F geeft de prestatie van je model weer en de Chow- F geeft je de mogelijkheid om

significantie te beaplen.

Vrijheidsgraden

Het aantal vrijheidsgraden (Degrees of Freedom) is gelijk aan het aantal waarnemingen min 1 Het

aantal vrijheidsgraden van Regression is gelijk aan het aantal onafhankelijke variabelen.

Het aantal vrijheidsgraden van ResidualI is gelijk aan het aantal cases minus het aantal onafhankelijke

variabelen minus 1.

R²

De verklaarde variantie (R²) is dat percentage van de totale variantie in de afhankelijke variabele dat

verklaard wordt door het toegepaste model.

De Adjusted R² houdt rekening met het toevoegen van extra variabelen en met hoeveel de df zijn

agenomen. Hoeveel is de verkoopkracht toegenomen.

R is de correlatie tussen de (op basis van de regressieformule) verwachte waarden en de

waargenomen waarden. Deze is altijd positief.

De adjusted R² past aan voor het aantal variabelen dat opgenomen zit in je regressie. De 'gewone' R²

doet dit niet. Hiermee is de gewone R² dus altijd groter of gelijk aan de aangepaste R². Je kan het

beste de aangepaste R² nemen, omdat je zoveel mogelijk wilt verklaren aan de hand van zo min

mogelijk variabelen.

Selectie van variabelen bij meervoudige regressie

B & Beta’s

Als je kijkt naar het volledige model, dan geeft de B-waarde ons informatie over de relatie tussen

variabele Y en elke predictor. Ze geven weer in welke mate de predictor de uitkomsten beïnvloedt,

onder de voorwaarde dat alle andere predictoren gelijk worden gehouden.

De bèta’s zijn de gestandaardiseerde versies van de B’s. Deze zijn vaak makkelijker te interpreteren,

(omdat ze niet afhankelijk zijn van de meetschaal van de variabelen). Alle gestandaardiseerde bèta’s

zijn gemeten in standaarddeviaties en zijn dus direct met elkaar te vergelijken. Hierdoor kan er een

beter inzicht verkregen worden over hoe ‘belangrijk’ een predictor is in het model.

Covariantie en Correlatie

Bij correlaties en covarianties gaat het dus over relaties tussen twee waarden. We kunnen met de

correlatie en de covariantie alleen maar zeggen dat er een relatie is, vervolgens moeten we zelf

nadenken over wat de oorzaak kan zijn voor die relatie.

Waarbij de correlatie iets zegt over de mate waarin de ene variabele de andere beïnvloedt (regen

veroorzaakt paraplus). Werk veroorzaakt inkomen. Terwijl de covariantie iets zegt over de kracht van

de relatie.

De covariantie is in de statistiek en kansrekening een parameter die bij twee toevalsvariabelen

aangeeft in welke mate de beide toevalsvariabelen (lineair) met elkaar samenhangen. De covariantie

geeft aan of en indirect in welke mate de waarden van de ene variabele toe- dan wel afnemen bij

toenemende waarden van de andere.

Een vergelijkbare parameter is de correlatiecoëfficiënt, die aangeeft in hoeverre sprake is van lineaire

samenhang en die direct de sterkte van de samenhang aangeeft. De correlatiecoëfficiënt is

gebaseerd op de covariantie, maar in tegenstelling tot de correlatiecoëfficiënt is de covariantie niet

onafhankelijk van de schaal, zodat aan de grootte van de covariantie niet direct de sterkte van de

samenhang afgelezen kan worden.

Multicollineariteit

Bij meervoudige regressie kan multicollineariteit optreden wanneer de onafhankelijke variabelen

onderling sterk correleren: het effect op de afhankelijke variabele Y wordt dan arbitrair. Immers,

beide onafhankelijke variabelen 'verklaren' vrijwel dezelfde variatie in Y. Er is geen absolute regel

wanneer multicollineariteit 'ernstig' wordt. De oplossing is om één van de twee onderling

correlerende onafhankelijke variabelen uit de analyse te verwijderen.

Gestandaardiseerde regressiecoefficienten

De hoogte van de regressiecoëfficiënten die tot nu toe zijn uitgerekend, was steeds mede afhankelijk

van de absolute waarden van de oorspronkelijke gegevens. Bij multipele regressie zijn hierdoor de

parameters niet rechtstreeks vergelijkbaar. Om de parameters vergelijkbaar te maken, kunnen we de

variabelen in de regressieanalyse standaardiseren (het gemiddelde van iedere variabele wordt nul en

de standaarddeviatie één). De resulterende gestandaardiseerde regressiecoëfficiënten worden door

SPSS automatisch berekend: dit zijn de bèta's uit de tabel. De bèta's kunnen direct met elkaar

vergeleken worden (de constante is bij gestandaardiseerde regressie altijd nul).

Gestandaardiseerd = naar vaste maatstaf, gecorrigeerd voor verschillen in samenstelling en grootte

Associatiemaat (effect maat)

Getal, dat de sterkte en de richting (positief of negatief) van de associatie tussen twee variabelen

aangeeft.

Transformeren

Log-transformatie wordt toegepast voor het 'rechttrekken' van data die rechtsscheve verdeling

hebben: door het logaritmiseren nemen hoge uitkomsten sterker af dan lage. Voorbeeld. De

waarden van x0 in de tabel nemen exponentieel toe (1, 2, 4,...) en de log-getransformeerde waarden,

xt = log(x0) nemen lineair toe: hun verschillen zijn alle gelijk (0.30).

Interactie

Een interactie-effect is een verschil van een verschil of een effect op een effect. Het idee voor

interactie en hoofdeffecten is ontstaan vanuit ANOVA, hetgeen de Analysis of Variance methode is.

Hierover zal meer uitleg gegeven worden op een later moment tijdens de studie. Een hoofdeffect is

een effect van een onafhankelijk variabel op een afhankelijk variabel dat geen interactie heeft met

andere onafhankelijke variabelen. In de meeste gevallen is er slechts een hoofdeffect voor elk

afzonderlijk onafhankelijk variabel binnen een onderzoek. Interactie geschiedt wanneer het effect

van een onafhankelijk variabel op een afhankelijk variabel veranderd naar aanleiding van het effect

van een ander onafhankelijk variabel. Wanneer we naar een hoofdeffect kijken en de hypothese

kunnen maken dat het hoofdeffect kan veranderen als een ander element toegevoegd zou worden

aan het onderzoek, dan weten we dat er een mogelijkheid van interactie is. Om te kunnen bepalen of

er interactie is, moet er eerst gekeken worden naar de afzonderlijke onafhankelijke variabelen (hier

wordt naar verwezen als ‘simple main effects’) waarna ze dan kunnen worden gecombineerd in een

afzonderlijke test. Een simpele manier om interacties of hoofdeffecten te ontdekken is door een ‘line

graph’ (van de gemiddelden) te maken. Hoe minder parallel de twee lijnen zijn, hoe meer kans er is

dat er sprake is van een interactie. Als de lijnen parallel lopen, dan is de bovenste lijn veelal het

hoofdeffect. In dit geval is er geen interactie.

Kansdichtheid (density function)

De kansdichtheid beschrijft mathematisch of grafisch de kansverdeling van een continue

kansvariabele. De normale verdeling is een begrip uit de kansrekening. Deze verdeling vindt onder

meer toepassing in de statistiek. Het is een continue kansverdeling. De bijbehorende kansdichtheid is

hoog in het midden, en wordt naar lage en hoge waarden steeds kleiner zonder ooit echt nul te

worden. Door de vorm wordt deze kansdichtheid o ok wel klokkromme genoemd.

Bij een disrecte variabele kan de kansfunctie beschouwd

worden als de weergave van de kansen uite het

kansexperiment. De kans bij een continue variabele op

een bepaalde gebeurtenis wordt gedefineerd als de

kansdichtheid (fx).

Overig

Als de constante niet significant is betekent dat de intercept net ver van de nul afwijkt. Wel moet

deze altijd worden opgenomen in de formule.

Dummy variable Trap – do include k-1 Dummies in

Om te kijken of je dummies goed zijn kun je een correlatiematrix maken om te chekcen of er geen

verband is tussen de verschillende dummies.

Regressie kent twee doelen

- Effect bepalen (doormiddel van je richtingscoefficient)

- Voorspellen

Duimregel

T waarde = B /S.E.

T waarde => 1,64 = significant

Standaard error of the estimate = gemiddelde grootte van een residu

De standaardfout is in de statistiek de benaming voor de standaardafwijking van het

steekproefgemiddelde. De term is afkomstig uit de foutenleer om de nauwkeurigheid aan te geven

van een berekend gemiddelde. De standaardfout is in principe kleiner naarmate de steekproef groter

is.

Foutterm/Epsilon

De verticale afwijkingen van ieder punt tot de regressielijn vormen de fouttermen (error terms) of

residuen. Alleen wanneer de correlatie perfect is (r = 1), liggen alle punten precies op de lijn.

De rechte die het verband tussen X en Y het beste weergeeft is die lijn, waarbij de fouttermen

minimaal zijn. Omdat positieve en negatieve afwijkingen tegen elkaar weg zouden vallen, worden de

fouttermen gekwadrateerd. De methode voor de berekening van de regressielijn wordt daarom ook

wel de methode van de kleinste kwadraten genoemd.

Log-Linear, Logit, and Probit Models

Overview

Log-linear, logit, and probit models are special cases of general linear models (GLM, which includes

regression and ANOVA models) to better treat the case of dichotomous and categorical variables.

Log-linear analysis deals with association of categorical or grouped data, looking at all levels of

possible main and interaction effects, comparing this saturated model with reduced models, with the

primary purpose being to find the most parsimonious model which can account for cell frequencies

in a table. That is, log-linear analysis is a non-dependent procedure for accounting for the distribution

of cases in a crosstabulation of categorical variables. Log-linear analysis is a type of multi-way

frequency analysis (MFA) and sometimes log-linear analysis is labeled MFA.

Logit modeling is similar to log-linear modeling, but explains one or more dependent categorical

variables. When there is a dependent categorical variable, however, binary and multinomial logistic

regression are more commonly used. Logistic regression is also used when the independents are

continuous (forcing continuous variables into categories attenuates correlation and is not

recommended).

Conditional logit handles matched-pairs and panel data, and data for analyzing choices.

Probit is a variant of logit modeling based on different data assumptions. Logit is the more commonly

used, based on the assumption of equal categories. Probit may be the more appropriate choice when

the categories are assumed to reflect an underlying normal distribution of the dependent variable,

even if there are just two categories.

Log-linear models were developed to analyze the conditional relationship of two or more categorical

values. Log-linear analysis is different from logistic regression in four ways:

The expected distribution of the categorical variables is Poisson, not binomial or multinomial.

The link function is the natural log of the dependent, not the logit of the dependent as in logistic

regression (the natural log of the odds, which is the probability the dependent equals a given value

(usually 1, indicating an event has occurred or a trait is present) divided by the probability it does

not).

Predictions are estimates of the cell counts in a contingency table, not the logit of y.

Logit and probit extend the log-linear model to allow a mixture of categorical and continuous

independent variables to predict one or more categorical dependent variables. Both logit and probit

usually lead to the same conclusions for the same data. Logit regression yields results equivalent to

logistic regression, but with different output options. Many problems can be handled by either logit

or logistic regression, though the latter has become more popular among social scientists.

Note that generalized linear models, discussed separately, represent a more recent set of procedures

which can also analyze categorical dependents and independents, and in this sense represent a

different method of implementing log-linear, logit, probit, Poisson, and other models. See also the

separate section on ordinal regression, which can also implement logit, probit, and other models. See

also the separate section on probit response models, which additionally supports logit response

models.

Traditional approaches to categorical data relied on chi-square and other measures of significance to

establish if a relationship existed in a table, then employed any of a wide variety of measures of

association to come up with a number, usually between 0 and 1, indicating how strong the

relationship was. Loglinear methods are similar in function but have the advantage of making it far

easier to analyze multi-way tables (more than two categorical variables) and to understand just

which values of which variables and which interaction effects are contributing the most to the

relationship. For simple two-variable tables, traditional approaches may still be preferred, but for

multivariate analysis of three or more categorical variables, log-linear analysis is preferred.

Loglinear methods also differ from multiple regression in substituting maximum likelihood estimation

of a link function of the dependent for regression's use of least squares estimation of the dependent

itself. The link function transforms the dependent variable and it is this transform, not the raw

variable, which is linearly related to the model (the terms on the right-hand side of the equation).

The link function used in log-linear analysis is the log of the dependent, y. The function used in logit is

the natural log of the odds ratio. The function used in probit is the inverse of the standard normal

cumulative distribution function.

There are several possible purposes for undertaking log-linear modeling, the primary being to

determine the most parsimonious model which is not significantly different from the saturated

model, which is a model that fully but trivially accounts for the cell frequencies of a table. Log-linear

analysis is used to determine if variables are related, to predict the expected frequencies (table cell

values) of a dependent variable, the understand the relative importance of different independent

variables in predicting a dependent, and to confirm models using a goodness of fit test (the likelihood

ratio). Residual analysis can also determine where the model is working best and worst. Often

researchers will use hierarchical loglinear analysis (in SPSS, the Model Selection option under

Loglinear) for exploratory modeling, then use general loglinear analysis for confirmatory modeling.

SPSS supports these related procedures, among others:

Kaplan – Meier Survival Analysis & Cox Regression

Survival analyse

Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een

bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start

van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn

(vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd

eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is

en dat een event per individu maar hoogstens één keer kan optreden.

Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je

iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-

tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken

gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:

Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie

periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de

tijd-tot-event van deze persoon langer is dan 12 weken.

Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van

deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan

de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient

weten we alleen dat de eventvrije periode langer is dan 8 weken.

Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt.

Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de

studie zonder een relapse gehad te hebben.

Wanneer gebruik ik een Kaplan Meier analyse?

Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak

een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat

wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma

etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:

De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.

Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die

op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben

gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op

een event vlak voordat het event optreedt de studie verlaten. De tijdstippen waarop de events

optreden zijn exact bekend. Patienten worden vanaf het begin van de onderzochte periode gevolgd.

Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van

patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd

zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival

tijd. Survival modellen die rekening houden met dit verschijnsel worden late entry survival modellen

genoemd.

De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder

moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat

door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in

de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of

cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze

manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd

raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve.

De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is

van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van

de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events

waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een

event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival

functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat

op ongeveer 92%.

Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?

We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze

data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar

verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van

elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met

verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende

voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B

significant is:

Cox Regression

Met Cox-regressie kun je in het algemeen afleiden welke variabelen invloed hebben, en hoe sterk die

invloed is, op de 'relative hazard' van een gebeurtenis (de toename van de kans op het optreden van

een gebeurtenis in het onmiddellijk volgende tijdvak/stip.) Dit is een statistisch model (Cox 1972) om

een overlevingscurve te berekenen die rekening houdt met de invloed van co-variabelen en waarbij

niet elke persoon noodzakelijk evenlang aan het onderzoek heeft deelgenomen.

college 1 · value of adequately described property as of a specifica data, supported by the...

Documents