jmp guide

Kom i gang med JMPStatistik og analyse for konomistuderende

Copyright 2011 SAS Institute A/S, Copenhagen DenmarkISBN 978-87-984612-1-0

Gorm GabrielsenLektor i statistik

Jens E. OverLektor i statistik

JMP-guide Side 2

Side1. Indledning

2. Start JMP

3. Datast i JMP 6 Variabeltyper 8 Variabelnavne 8 Tildeling af value labels i JMP 8 Redigering og kommentar til en variabel 9 Cases 9 Beregning af ny variabel 9 Observationsnummer 10 Opslag i fordelinger 12 Fraktiler i normalfordelingen 15 Beregning af ngletal for n variabel 16 Gruppering af en variabel 17 Udvlgelse af en gruppe af respondenter 18

4. Grafer og tabeller (Graphs and Tables) 21 Graph builder 21 Tabulate 27 Gem og udskriv 34 Statistik i JMP 35

5. n variabel (Distribution) 36 Kopiere dele af outputtet 44

6. To variable (Fit Y by X) 45 Sammenhng mellem to kontinuerte variable (simpel liner regression) 45 Fit Mean 47 Fit Line 48 Fit Polynomial 50 Fit Special 50 Sammenhng mellem en kontinuert og en nominal variabel (ensidet variansanalyse) 52 Sammenhng mellem nominale variable (todimensional antalstabel) 58

7. Flere variable (Fit Model) 60 Liner regression med forklarende kontinuerte variable 61 Yderligere udskrifter 63 Liner regression med n forklarende kategorisk variabel (ensidet variansanalyse) 65 Parameter Estimates 66 Liner regression med to forklarende kategoriske variable (tosidet variansanalyse) 68 Tosidet variansanalyse uden vekselvirkning 72 Kovariansanalyse 74

Stikordsregister 78

Links 80

Indhold

JMP-guide Side 3

Denne guide til JMP henvender sig primrt til brugere, som har get eller gr p et grundkursus i statistik. Guiden skal gre brugeren i stand til hurtigt at tilegne sig de frdigheder, som skal til for at kunne hndtere og analysere data i et omfang svarende hertil. Det er alts ikke hensigten at beskrive alle de mange funktioner i JMP. Her henvises til de mere omfattende manualer, som kan findes under Help i menubjlken i JMP.

JMP: Statistical Discovery JMP: Statistical Discovery er et produkt fra SAS Institute Inc. Med JMP 9 kan du udfre datavisualisering, statistisk databehandling og avanceret analytics i samme softwareprodukt. JMP er let at anvende og udnytter interaktiv visualisering af data, grafik og statistiske sammenhnge. JMP er tilgngeligt fra bde Windows, Macintosh og Linux, og med integration til SAS, R og Excel kan JMP benyttes overalt. JMP er et produkt fra SAS Institute Inc. Lr mere om JMP her http://www.jmp.com/software/jmp9.

SAS Institute giver virksomheder verden over The Power to Know SAS er verdens frende leverandr af software og tjenesteydelser til business intelligence og business analytics. SAS er grundlagt i 1976, privatejet og uafhngig af eksterne konomiske interesser. Flere end 45.000 virksomheder over hele verden fr med SAS innovative lsninger grundlag for at trffe bedre beslutninger hurtigere.

SAS leverer business analytics-software og konsulentydelser, der bidrager til at lse forretningsmssige problemstillinger. Det sker, nr SAS omdanner kunders mange data til konkret viden p tvrs af forretningsomrder og funktioner.

1. Indledning

JMP-guide Side 4

Man starter JMP ved at dobbeltklikke p JMP-ikonet. Derved fremkommer JMP-startsiden, som indeholder en menubjlke, en vrktjsbjlke, en opdeling af skrmen i to omrder med overskrifterne Recent Files og Window List samt menuen Tip of the Day.

Figur 2.1 JMP-startside

Indledningsvis anbefales det at starte indlringen af JMP med den gennemgang, man fr ved at klikke p Enter Beginners Tutorial nederst p menuen Tip of the Day. For mere fyldestgrende information om, hvordan man ndrer skala, farver p grafer etc., henvises til hjlpefunktionen i JMP.

Lukkes eller scrolles menuen Tip of the day og klikkes p JMP-ikonet i vrktjslinjen, fremkommer menuen JMP starter.

2. Start JMP

JMP-guide Side 5

Figur 2.2 JMP Starter

For at JMP kan f noget at arbejde med, oprettes en datatabel. Det foregr enten direkte ved indtastning eller ved indlsning fra en fil. En tom datatabel klar til indtastning kan fremkomme p flere mder: Man kan klikke p New Data Table i JMP Starter-menuen, man kan i menubjlken klikke p File > New > Data Table, eller man kan klikke p Data Table-ikonet yderst til venstre i vrktjsbjlken. Uanset hvad man gr, fremkommer flgende skrmbillede:

Figur 2.3 Datatabel

JMP-guide Side 6

Herefter kan man begynde at indtaste et JMP-datast, organiseret som angivet nedenfor. Har man allerede et datast liggende i en fil behver ikke at vre en JMP fil, kan f.eks. vre et Excel-regneark kan man enten hente det ind ved at klikke p Open Data Table i JMP Starter-menuen eller ved i menubjlken at klikke File > Open. Herefter fr man den sdvanlige oversigt over kataloger og filer. Nr man har valgt en fil, klikker man p Open, og s skulle man gerne have datasttet etableret.

Som man kan se i figur 2.2, bydes der p meget andet, ssom indlsning af data fra databaser og faciliteter, som kan benyttes ved oprettelse og arbejde med projekter og rapportskrivning. Et par af disse muligheder vil blive omtalt senere.

JMP-guide Side 7

3. Datast i JMP

Et datast i JMP er i princippet det samme som en ganske almindelig tabel bestende af rkker og kolonner. Kolonnerne (columns) opfattes som variable (variates) og rkkerne (rows) opfattes som observationer.

Bemrk, at JMP i nrvrende version benytter dansk decimalkomma.

Filen Boligdata.jmp indeholder oplysninger fra 69 husannoncer i en sndagsavis i r 2000.

Variablene (columns) er

nr nummeret p annoncengeografi kommune, huset ligger ikontantp kontantprisen i 1000 kr.boligst boligstrrelse i m2 grundst grundstrrelse i m2vaerelse antal vrelser i husetomr omrde angiver, om huset ligger nord (omr = 1) eller syd (omr = 2) for Kbenhavnkvalitet udtryk for herlighedsvrdi vurderet p en skala fra 1 til 5, hvor 5 er hjestkvalitetgr gruppering af kvalitet med niveauerne: lav (kvalitet = 1 eller 2), mellem (kvalitet = 3) og hj (kvalitet = 4 eller 5)

Det anbefales, at du bner filen Boligdata.jmp og flger anvisningerne nedenfor.

Figur 3.1 Boligdata.jmp

4

1

2

3

8

5

7

6

JMP-guide Side 8

Hver rkke svarer til en boligannonce og vrdierne af variablene angiver, at for f.eks. den frste annonce ligger huset i Brndby, kontantprisen er 995.000 kr., boligstrrelsen er 150 m2, grundstrrelsen er 695 m2, der er 2 vrelser og herlighedsvrdien er sat til 1. Variablen nr er blot en tilfldig nummerering af de 69 annoncer, mens variablen omr er en gruppering af variablen geografi.

En oversigt over datasttets variable (columns) vises under pil 1. Oversigten viser ogs typen af de enkelte variable.

VARIABELTYPERVariable i JMP er en af tre typer:

Kontinuert (Continuous) betyder, at vrdierne af variablen er tal, f.eks. variablen grundst, og skal analyseres som tal. Vises som bl kurve (trekant) i variabeloversigten (pil 2).

Ordinal betyder, at vrdierne af variablen kan vre enten tal eller karakterer, og skal analyseres som vrdier af en kategorisk (diskret) variabel, hvor ordningen har betydning. Den vises som grnt histogram i variabeloversigten. Et eksempel p en ordinal variabel er kvalitet (pil 5).

Nominal betyder, at vrdierne af variablen kan vre enten tal eller karakterer, f.eks. variablen geografi, og skal analyseres som vrdier af en kategorisk (diskret) variabel, hvor ordningen ikke har betydning. Vises som rdt histogram i variabeloversigten (pil 3).

I mange tilflde vil vi arbejde med variable af typen Continuous, ogs selv om disse variable i princippet er kategoriske (ordinal eller nominal). Mden at hndtere dem p er at tildele variablens tekst en passende talvrdi (value label), f.eks. Mand = 1, Kvinde = 2. Grunden er, at det i mange tilflde er praktisk at have en talvrdi for hver kategori. Endvidere er det praktisk, nr man skal tegne grafer, foretage visse beregninger etc. Eksempelvis er der i nogle markedsanalyser en svarskala af formen Meget uenig til Meget enig. Her vil man ofte vre interesseret i at regne et tilfredshedsgennemsnit ud baseret p en gruppe af respondenter. I nvnte tilflde kunne Meget tilfreds vre = 5 og Meget utilfreds vre = 1. Et gennemsnit p 4,1 vil s sige noget om den generelle tilfredshed. Teknisk har man samme mulighed for variablen kvalitet, men den beregning er mske knap s informativ.

VARIABELNAVNEEt variabelnavn er ikke altid lige sigende, og det er derfor en meget god id at give sine variable et sigende navn. Specielt nr man selv har beregnet nye variable eller JMP har genereret nye variable. Det kan nemlig senere hen vre svrt at huske, hvad der str i en variabel, hvis den f.eks. hedder var01xc og bestr af noget, der minder om tilfldige tal. S giv derfor hver variabel et sigende navn og nogle kommentarer om, hvad den indeholder.

TILDELING AF VALUE LABELS I JMP (NAVNGIVNING AF VARIABLENS KATEGORIER)I datasttet boligdata har variablen omr vrdierne 1 og 2, men det kan vre nyttigt at tildele disse vrdier navne (value labels), s man kan huske, hvad de enkelte tal betyder. Vi vil derfor hfte et navn eller etiket (label) p de enkelte talvrdier, sledes at 1 = Nord og 2 = Syd. I JMP gres dette p flgende mde: Peg p variabelnavnet omr (figur 3.1, pil 4) og hjreklik. Nu fremkommer en menu, hvor der klikkes p column info. (Eller dobbeltklik p variabelnavnet.) Herved fremkommer en dialogboks, figur 3.2, der indeholder en rkke oplysninger om den pgldende variabel, her omr. For at tilfje value labels tastes 1 i cellen Value (pil 1) og derefter Nord i cellen Label (pil 2). Klik p Add (pil 3). Herefter tastes 2 i cellen Value (pil 1) og derefter Syd i cellen Label (pil 2). Klik p Add (pil 3). Herefter ser det ud som figur 3.2. Hvis du i datavinduet vil have vist labels, sttes hak i Use Value Labels (pil 4). Hvis der ikke er hak, vises talvrdierne. Klik nu p OK (pil 5). Herved lukkes dialogvinduet. Bemrk, at der efter variablen omr str en stjerne (figur 3.1, pil 5). Dette betyder, at der p variablen omr er tildelt labels til talvrdierne.

JMP-guide Side 9

Figur 3.2 Dialogboks for Column Info

REDIGERING OG KOMMENTARER TIL EN VARIABELUdover at angive value labels kan dialogvinduet, figur 3.2, benyttes til en rkke andre ting. Navnet p variablen kan ndres (pil 6), datatype kan ndres (pil 7), variabeltypen (kaldet Modeling Type) kan ndres (pil 8), og man kan vlge i hvilket format (f.eks. antal decimaler), variablen skal vises (pil 9). Desuden kan man bestemme, hvor bred kolonnen i datafilen skal vre (pil 10).Der kan bnes en menu ved at klikke p Column Properties (pil 11), hvor der er en rkke muligheder, hvoraf vi vil se p nogle f senere. Her vil vi blot nvne, at vlges Notes p den menu, der fremkommer, fr man tildelt et omrde, hvor der kan skrives en tekst om variablen.

CASES (OBSERVATIONER, RECORDS, POSTER, RESPONDENTER)Tabellens rkker er observationerne og de kaldes i JMP for Cases. I en markedsanalyse kaldes observationer ogs for respondenter. I generel databaselitteratur kaldes en rkke med observationer ogs for poster eller records.

En god skik er at nummerere sine respondenter (rows) ved indtastningen, sledes at alle cases har et unikt nummer. Hvis man overtager et datast, hvor dette ikke er gjort, kan man f JMP til at tildele de enkelte cases et nummer fra 1 til antallet af respondenter (se nste afsnit).

BEREGNING AF NY VARIABELEn ny variabel dannes ved at dobbeltklikke i det tomme omrde, hvor den nye variabel skal vre, figur 3.1, pil 6. Herved dannes en ny variabel, som fr et forelbigt navn (Kolonnenummeret). For at bestemme, hvad indholdet af den nye variabel skal vre, dobbeltklikkes p det forelbige navn, hvorved dialogboksen figur 3.3 fremkommer, som blot er den verste del af figur 3.2.

6

5

4

7

1

8

2

10

911

3

JMP-guide Side 10

Figur 3.3 Column Info

Her kan man give nyt navn til variablen, datatypen kan bestemmes osv. Indholdet af variablen er p forhnd sat til uoplyst (Missing/Empty), men kan ndres p forskellig mde, som vi giver fire eksempler p:

OBSERVATIONSNUMMERFor at tilfje datasttet en variabel med observationsnumre kan vi ndre navnet til f.eks. obsnummer og derefter klikke p Initial Data Values og fra den bnede menu vlge Sequence Data. JMP foreslr, at variablen fr vrdierne 1 til 69 alts netop observationsnummeret. Klik p OK, dialogboksen lukkes og variablen har fet tildelt vrdierne 1 til 69.

Det er ogs muligt at give den frste observation et givet tal og starte nummereringen derfra, eller at give numre med et andet spring (step) end 1 osv.

KVADRATMETERPRISFor at sammenligne huspriserne kunne man f.eks. beregne prisen pr. m2 bolig. Lav som fr en ny tom variabel. Dobbeltklik p navnet, hvorved dialogboksen bnes. Skriv f.eks. navnet kr_per_m2. Klik p Column Properties (figur 3.2, pil 11) og vlg fra menuen Formula (vi skal bruge en formel). Klik p Edit Formula. Herved bnes en dialogboks, figur 3.4. Klik p kontantp, klik p og klik p boligst. Herved fremkommer formlen som vist i figur 3.4. Klik p OK.

Figur 3.4 Formel-editoren

JMP-guide Side 11

Datafilen har nu fet tilfjet en variabel som vist i figur 3.5. Bemrk, at variablen ogs er tilfjet til variabeloversigten, og at det er markeret, at variablen er kontinuert (bl kurve/trekant). Der er tilfjet et , der indikerer, at variablen kr_per_m2 er beregnet ud fra en formel. Ved at klikke p korset kommer formlen frem. Her kan man dels se, hvordan variablen er dannet, dels f lov til at rette i formlen. Hvis man ndrer tallene i nogle af de variable, der indgr i formlen, vil vrdien af den nye variabel ogs ndres. Dette kan undgs ved at hakke af i Lock i figur 3.3. S er variabelvrdierne lst og kan ikke ndres (fr der er lst op igen).

Figur 3.5 Boligdata.JMP

LOGARITMETRANSFORMATIONI f.eks. regressionsanalyse har man ofte brug for at transformere sig til linearitet. Af forskellige rsager viser det sig, at konomiske data ofte bliver pne, nr man logtransformerer den afhngige variabel (yerne). For at gre dette benyttes Formula. Hvis man nsker at tage den naturlige logaritme til f.eks. kontantp, dannes en ny tom variabel, der f.eks. kan kaldes lnkontantp. bn dernst formel-editoren, klik p log (den hrer til under gruppen transcendental) og klik kontantp ned som argument. Afslut ved at klikke OK.

LAGFUNKTIONEt sidste eksempel p, hvad Formula kan benyttes til i denne forbindelse, er funktionen lag. Denne funktion danner en ny variabel, der er en nsten tro kopi af inputvariablen. Forskellen bestr blot i, at den nye variabel er rykket et skridt nedad, s det der fr var case 1, nu str ud for case 2. Det foregr p flgende mde: Dan en ny tom variabel, der f.eks. kan kaldes lagkontantp. bn formel-editoren, klik p lag (den hrer til under gruppen row) og klik kontantp ned som argument. Afslut ved at klikke OK. Derved rykkes et skridt nedad. nsker man at rykke flere skridt nedad, f.eks. n skridt, erstatter man tallet 1 i lagformlen med tallet n. Laggede variable benyttes ofte i forbindelse med tidsrkker, men har ogs andre anvendelser. Bemrk, at de frste n-observationer i en ny n-lagget variabel er missing.

JMP-guide Side 12

OPSLAG I FORDELINGEROrdet opslag er en overlevering fra den gang, man fandt sandsynligheder og fraktiler i standardfordelingerne ved opslag i papirtabeller. Det kan man stadigvk, men nu har man ogs muligheden for at sl op elektronisk en udvidet mulighed, fordi man i kontinuerte fordelinger ikke lngere behver at interpolere. Vi vil som eksempel foretage opslag i en binomialfordeling og en normalfordeling.

OPSLAG I BINOMIALFORDELINGVi vil f.eks. betragte binomialfordelingen med p = 0,7 og N = 11. Den variabel, x, som flger denne fordeling vil kunne antage vrdierne 0, 1, 2, 10, 11. Vi vil beregne sandsynligheden for, at x = 5. Til det forml oprettes en ny variabel, som f.eks. kaldes p(x). Dobbeltklik p variabel p(x) og vlg column properties. Vlg formula i rullemenuen og dernst edit formula. Under Functions vlges Discrete Probability og herefter Binomial Probability. Klik, s p bliver 0,7. N skal vre 11 og k skal vre 5. Herefter skal det se ud som figur 3.6.

Figur 3.6 Punktsandsynlighed B(N=11, p=0,7, x = 5)

Klik OK, hvorefter man gerne skulle have fet vrdien 0,0566.

Ofte er det ikke punktsandsynlighederne men fordelingsfunktionen, man er interesseret i.

Opslag i f.eks. fordelingsfunktionen for Binomialfordelingen med N = 11 og p = 0,7, igen for vrdien x = 5, frembringer sandsynligheden for hjst at f vrdien x = 5. Opret en ny variabel, som f.eks. kaldes P(x). Dobbeltklik p variabel P(x) og vlg column properties. Vlg formula i rullemenuen og dernst edit formula. Under Functions vlges Probability og herefter Binomial Distribution. Klik, s p bliver 0,7. N skal vre 11 og k skal vre 5. Herefter skal det se ud som figur 3.7.

JMP-guide Side 13

Figur 3.7 Beregning i fordelingsfunktion for B(N=11, p = 0,7)

Klik OK, hvorefter man gerne skulle have fet vrdien 0,0782.

Man kan ogs f brug for at finde sandsynligheden for at f noget strre end eller lig med f.eks. 5. Hvis man skal finde sandsynligheden for at f mindst 5 i en Binomialfordeling med p = 0,7 og N = 11, er dette det samme som 1 minus sandsynligheden for at f hjst 4. Denne findes som vist i figur 3.8 og bliver 0,9784 eller ca. 97,8%.

Figur 3.8 Beregning i 1 - fordelingsfunktion for B(N=11, p = 0,7)

OPSLAG I NORMALFORDELINGENVrdier af ttheden har sjldent interesse, men kan selvflgelig beregnes. nsker man derimod at finde sandsynligheden for vrdier mindre end f.eks. 1,9 i en standardiseret normalfordeling, gres flgende: Opret en ny variabel, som her er kaldt P(x). Dobbeltklik p variablen P(x) og vlg column properties. Vlg formula i rullemenuen og dernst edit formula. Under Functions vlges Probability og herefter Normal Distribution. Klik s vrdien 1,9 ind som argument. Herefter skal det se ud som figur 3.9. Klikkes OK, fs sandsynlighedsvrdien 0,9713.

JMP-guide Side 14

Figur 3.9 Sandsynligheden for i en N(0; 1) at f en vrdi mindre end 1.9

nsker man at finde sandsynligheden for vrdier mindre end f.eks. 2,2 i en normalfordeling med forventning 1,2 og standardafvigelse 2,5, skal man gre plads i formlen til forventning og standardafvigelse. Bemrk det lille hak (^) nederst til hjre for 1,9 i figur 3.9. Dette betyder, at der kan tilfjes flere felter. Klik en gang p (^) i tastaturet i figur 3.9. Herved bnes et nyt felt. Klik en gang til (^) og der bnes endnu et felt. Herefter indtastes som vist i figur 3.10. I rammen skal der alts st: (Vrdi, forventning(mean), standardafvigelse).

Figur 3.10 Sandsynligheden for i en normalfordeling N(1,2;2,52) at f mindre end 2,2 eller i JMP-notation Normal Distribution[2,2, 1,2, 2,5]

Klikkes OK, fs sandsynlighedsvrdien 0,6554.

JMP-guide Side 15

FRAKTILER I NORMALFORDELINGENHvis man vil beregne en fraktil i den standardiserede normalfordeling, f.eks. 5%-fraktilen, gres dette som vist i figur 3.11. (JMP benytter det engelske Quantiles for fraktiler.)

Figur 3.11 Beregning af fraktiler (Quantiles) i en standardiseret normalfordeling

Klikkes OK, fs fraktilvrdien -1,645.

Vil man beregne f.eks. 5%-fraktilen i en N(1; 22), gres dette som vist i figur 3.12 ved at bne to nye felter. Klik to gange p (^) og indtast vrdierne som vist i figur 3.12 alts (vrdi, forventning(mean), standardafvigelse).

Figur 3.12 Beregning af 5%-fraktilen (Quantile) i en N(1; 22)

Klikkes OK, fs fraktilvrdien -2,2897.

JMP-guide Side 16

BEREGNING AF NGLETAL FOR N VARIABELVil man beregne gennemsnittet af (non-missing) tal i en variabel, f.eks. grundst, gres dette ved at oprette en ny variabel, som her er kaldt ngletal. Dobbeltklik p variabel ngletal og vlg column properties. Vlg formula i rullemenuen og dernst edit formula. Under Functions vlges Statistical og herefter Col mean. Klik variablen grundst ind i det aktive felt, s det ser ud som figur 3.13.

Figur 3.13 Beregning af et kolonnegennemsnit

Klik OK. Herefter vil kolonnen ngletal indeholde den gennemsnitlige vrdi p 946,797.

P tilsvarende mde beregnes Standardafvigelsen for en kolonne ved Col STD DEV.Antal non-missing-vrdier i en kolonne beregnes ved Col Number.Antal missing-vrdier (uoplyste) i en kolonne beregnes ved Col NMissing.Summen af non-missing-vrdier i en kolonne beregnes ved Col Sum.Den mindste vrdi i en kolonne beregnes ved Col Minimum.Den strste vrdi i en kolonne beregnes ved Col Maximum.Fraktiler beregnes ved Col Quantile.

Sledes beregnes 75%-fraktilen for grundst som vist i figur 3.14.

Figur 3.14 Beregning af 75%-fraktilen for variablen grundst

Klik OK. Herefter vil variablen ngletal indeholde 75%-fraktilen p 1013,5.Funktionen Formula kan ogs bruges til at generere en ny variabel via logiske operatorer som OR, AND, NOT, IF etc. Som eksempel kan nvnes:

JMP-guide Side 17

GRUPPERING AF EN VARIABELAntag, at man nsker kontantprisen grupperet. Det kan f.eks. gres p flgende mde: Opret en ny variabel, kontantp_gr, der har vrdierne 1, 2, og 3, hvor 1 er ejendomme til en kontantpris p under 1.500.000 kr. og 2 er ejendomme til en kontantpris p mellem 1.500.000 og 2.500.000 kr. og 3 er ejendomme med en kontantpris p over 2.500.000 kr.

Benyt Formula > Conditional > If. Den rde rektangel flyttes nu til else clause nederst (ved at klikke p else clause nederst), hvorefter If anvendes en gang til (og dette gentages lige s mange gange, der skal vre intervaller).

Herefter skal intervallerne og vrdierne defineres: Start i frste expr og benyt Comparison og vlg a < b < = c. Her sttes a til 0, b til kontantp og c til 1500. I feltet then clause skrives 1. Herefter fortsttes med nste interval og s videre, indtil man er frdig. Herefter ser det ud som i figur 3.15.

Figur 3.15 Gruppering af en variabel

Dette er den generelle fremgangsmde. I det konkrete tilflde ville det nok vre lettere at dividere kontantp med 1500, runde af og derefter lgge 1 til.

JMP-guide Side 18

UDVLGELSE AF EN GRUPPE AF RESPONDENTERVed udvlgelse af en gruppe af respondenter skal vi markere de rkker (rows), der skal udvlges eller ikke udvlges. Klik p rows, figur 3.1, enten ved (pil 7) eller (pil 8). P menuen klikkes p Row Selection og videre p Select Where. Herved fremkommer dialogboksen, figur 3.16.

Hvis man f.eks. kun vil se p annoncer for huse fra Nord, peges p omr (pil 1), derefter p does not equal (pil 2) og derefter skrives 1 (pil 3). Derefter klikkes p Add condition (pil 4), hvorefter betingelsen fremkommer (pil 5). Klik p OK.

Herved vil de cases, der ikke er Nord, blive markeret, figur 3.17.

Figur 3.16 Dialogboks for udvlgelse af rkker

2

1

6

5

4

3

JMP-guide Side 19

Figur 3.17 Markering af rkker

Herefter klikkes p Rows og p menuen vlges Exclude/Unexclude, hvorefter datafilen ser ud som figur 3.18. Ved de analyser, der herefter udfres, vil de ekskluderede cases ikke indg. De ekskluderede cases kan inddrages igen ved at klikke Rows og Exclude/Unexclude. Klik herefter p All rows (pil 1) og Selected (pil 2) i figur 3.18.

I ovenstende eksempel er der ved udvlgelse kun anvendt n betingelse. Men der kan naturligvis inddrages flere betingelser, og disse betingelser kombineres ved enten: alle skal vre opfyldt (if all conditions are met), figur 3.16 pil 6, eller: mindst n betingelse skal vre opfyldt (if any condition is met).

Bemrk, at det ofte er lettere at lave et nyt datast, der kun indeholder de cases, man er interesseret i, ved at markere nskede cases, som i figur 3.17. Klik herefter Tables > Subset > Selected rows og OK.

JMP-guide Side 20

Figur 3.18 Udvlgelse af rkker

12

JMP-guide Side 21

4. Grafer og tabeller (Graphs and Tables)

Nr man ser et datast for frste gang og nsker at f et hurtigt overblik, kan det vre hensigtsmssigt at anvende en eksplorativ tilgang. En bde numerisk og visuel undersgelse af data kan ofte lede frem til den bedste mde at gennemfre en egentlig analyse p.

I JMP har man mulighed for interaktivt at lave tegninger, opstille tabeller og beregne ngletal ved brug af Graphs og Tables.

Vi vil illustrere brugen ved at gennemg valgmulighederne Graph Builder og Tabulate i form af et anvisende eksempel:

GRAPH BUILDER

bn datasttet Boligdata.jmp og Graph, figur 4.1. Vlges Graph > Graph Builder, fremkommer figur 4.2.

Figur 4.1

Kolonnerne (variablene) i datasttet str i venstre side under Select Column

Figur 4.2

JMP-guide Side 22

Klik p variablen kontantp, hold musetasten nede, og trk variablen kontantp til en af zonerne rundt om det kommende plot. Bemrk, at s snart variablen er trukket ind i en zone, fremkommer en graf af kontantp. Hold stadig museknappen nede og prv at trkke kontantp ind i en anden zone for at se, hvad der sker. Kontantp bliver frst liggende fast, nr du slipper museknappen. Hvis du fortryder placeringen kan du altid klikke p Start Over-knappen for at begynde igen. Klik nu p kontantp, hold museknappen nede og trk kontantp over i Y drop zone og slip museknappen. Nu br figur 4.3 vise sig.

Figur 4.3

Klik nu p Boligst, hold museknappen nede, og trk Boligst over i X drop zone og slip museknappen. Du har nu lavet et plot af kontantprisen mod boligstrrelsen, figur 4.4. Bemrk, at der er en tendens til at kontantprisen stiger, nr boligstrrelsen stiger, og at der er tilpasset en smoothing-linje (en bld tendenslinje).

Figur 4.4

JMP-guide Side 23

Mske vil du hellere have et andet udseende af grafen end punkter. Hjreklik p punkterne i plottet og menuen i figur 4.5 bnes. Klik p Points > Change to > Contour og figur 4.6 fremkommer.

Figur 4.5

Hvis du synes, at du ikke vil have smootheren med p plottet, hjreklikkes igen p figuren og derefter Smoother > Remove. Herved fremkommer figur 4.7, hvor smootheren er fjernet.

Figur 4.6

Det ses, at selvom der er en tendens til, at kontantprisen stiger med boligstrrelsen, er der tydeligvis mange andre forhold, der betyder noget for kontantprisen.

Figur 4.7

JMP-guide Side 24

Mske er du ikke rigtig tilfreds med plottet og vil vende tilbage til figur 4.4 for at elaborere p det. Klik Start over, hvorved du starter forfra. Trk kontantp over i Y-zone og Boligst over i X-zone. Herved fremkommer figur 4.8 (som er det samme plot som figur 4.4).

Figur 4.8

Klik p omr, hold musetasten nede og trk omr hen p Group X uden at slippe musetasten. Plottet bliver nu opdelt vertikalt i to omrder (fordi omr har to niveauer: Nord og Syd). Trk nu omr hen p Group Y og slip musetasten. Du har nu figur 4.9, hvor boligerne er opdelt efter, om de ligger syd eller nord for Kbenhavn, og der er dannet en smoother til hvert omrde.

Figur 4.9

Mske synes du, at det havde vret lettere at sammenligne boligpriser i syd og nord, hvis boliger og smoothere var i samme plot. Dette kan opns ved at danne et overlay plot, sledes at de to plots i figur 4.9 kommer til at ligge oven p hinanden. Start igen ved plot 4.8. Dette kan du f.eks. gre ved at klikke p knappen Undo.Klik p variablen omr, hold musetasten nede og trk omr over i Overlay-zone. Herved fremkommer figur 4.10.

Figur 4.10

JMP-guide Side 25

Nr der klikkes p Color-zone, bnes en liste over alle elementer i plottet. Nr du dobbeltklikker p denne liste, bnes et vindue, hvor du kan redigere strrelse, form og farve af de enkelte elementer i plottet, figur 4.11

Figur 4.11

For at vurdere om boligerne i dette datast koster mere nord for Kbenhavn sammenlignet med syd for Kbenhavn, kan man lave et nyt plot.Trk kontantp over i Y-zone (eller alternativt marker kontantp og klik p Y-zone). Trk herefter omr over i X-zone. Dette giver figur 4.12.

Figur 4.12

Klik i plottet og der bnes et vindue, klik Add > Box Plot. Herved fs figur 4.13, hvoraf det ses, at der er stor spredning i boligpriser bde nord og syd for Kbenhavn, men at fordelingen af bolig-priserne ligger hjere nord for Kbenhavn sammenlignet med syd for Kbenhavn. Bemrk ogs, at der sammenlignet med de vrige boligpriser syd for Kbenhavn er to rigtig dyre boliger.

Figur 4.13

JMP-guide Side 26

Mske har man lyst til ogs at se, hvordan boligprisen afhnger af herligheds-vrdien, der er registreret som variablen kvalitet. Markr kvalitet og trk variablen hen til den verste del af X-aksen, hvor der bner sig en ny zone, figur 4.14, og placer kvalitet i denne zone.

Figur 4.14

For at gre plottet frdigt kan du redigere og ndre alle elementer i plottet ved at dobbeltklikke i omrdet under Legend.Bemrk, at du ogs kan ndre eller redigere akser ved at dobbeltklikke p dem.Nr du er tilfreds, klikker du p Done og du fr den frdige graf, figur 4.15, som du kan kopiere og indstte i et manuskript eller i et PowerPoint slide show.

Figur 4.15

JMP-guide Side 27

TABULATEFormlet med at benytte Tabulate er at skabe et numerisk overblik over data.

Vlges Tables > Tabulate, fremkommer figur 4.17

Figur 4.16

Tabulate-menupunktet viser et kontrolpanel med datasttets variable (sjler), en liste over ngletal (statistics) og drop-zoner for rkker og kolonner, figur 4.17.

Figur 4.17

JMP-guide Side 28

Klik p bde kontantp og boligst og trk begge variable med over i Drop zone for columns. Nr du slipper museknappen, viser en dialogboks sig.Vlg Add Analysis Columns, figur 4.18.

Figur 4.18

En tabel med summen af kontantprisen og boligstrrelsen for samtlige boliger kommer frem, figur 4.19.

Figur 4.19

For at ndre ngletallet Sum til den gennemsnitlige boligpris Mean klikkes p mean og denne variabel trkkes over og placeres over (den ene) Sum, figur 4.20. Slip musetasten og begge Sum ndres til Mean, figur 4.21.

Figur 4.20

Figur 4.21

JMP-guide Side 29

Antag, at man nsker at lave en yderligere opdeling efter omrde.Klik p omr og trk den over i Drop zone for rows. Se pilen i figur 4.22.Herved fremkommer figur 4.23, hvoraf det fremgr, at bde den gennemsnitlige kontantpris og boligstrrelse er strre nord for Kbenhavn.

Figur 4.22

Antag, at man nsker en yderligere opdeling efter kvalitet.Klik p kvalitet, hold musetasten nede og trk kvalitet over i Drop zone for rows. Se pilen i figur 4.23. Herved fremkommer figur 4.24.

Figur4.23

Antag, at man nsker at redigere lidt i tabellen.Klik Change Format og en dialogboks bnes, figur 4.25.

Figur 4.24

JMP-guide Side 30

Klik i Use the same decimal format og en ny dialogboks bnes, figur 4.26.

Figur 4.25

Her er valgt Fixed Dec med Field Width 10 og ingen decimaler. Klik OK.

Figur 4.26

Dette giver den nsten frdige tabel, figur 4.27.

Figur 4.27

JMP-guide Side 31

Fr der laves for vidtlftige konklusioner, var det mske en id at angive, hvor mange boliger der ligger bag hver af de 10 grupper i tabellen.Der tilfjes en kolonne med antal boliger for hver rkke i tabellen.Klik p N og trk den over lige til hjre for tabellen. Herved bnes en ny sjle, hvor du placerer N i samme rkke som Mean, figur 4.28.Hvis tabellen er frdig, klikkes p Done, og man fr figur 4.29, den frdige tabel, som kan kopieres ind i et manuskript eller en rapport eller mske et PowerPoint slide show.

Figur 4.28

Figur 4.29

JMP-guide Side 32

Man kan ogs lave tabellen om til et nyt JMP-datast, som kan bruges til nye analyser.Klik p den rde trekant ved siden af Tabulate. I dialog-boksen, der fremkommer, klikkes p Make Into Data Table, figur 4.30.Herved dannes et nyt datast, figur 4.31.

Figur 4.30

Datasttet kan nu gives et navn og gemmes til videre analyse.Man kan f.eks. nske at illustrere de netop beregnede ngletal.

Figur 4.31

JMP-guide Side 33

Klik Graph > Graph Builder.Klik kvalitet og trk kvalitet over i X drop-zone.Klik Mean(kontantp) og trk denne variabel over i Y drop-zone.Du har nu figur 4.32. Hjreklik p punkterne i plottet. Herved bnes en dialogboks, figur 4.33.

Figur 4.32

I dialogboksen vlges Points > Change to > Bar. Herved fremkommer figur 4.34.

Figur 4.33

P nr den laveste kvalitet ses, at den gennemsnitlige kontantpris stiger, nr kvaliteten vokser. For yderligere at illustrere forskellen mellem nord og syd kan man lave et overlay-plot.Klik omr og trk denne variabel over i Drop-Zone Overlay. Herved fs figur 4.35.

Figur 4.34

JMP-guide Side 34

Det ses, at for samme kvalitet er boligerne dyrere i nord end i syd. Det ses endvidere, at det specielt er for boligerne nord for Kbenhavn, at kvalitets-variablen er lidt mrkelig. Enten er der fejl i data, eller prisen p et hus bestemmes af andre ting, som kvalitetsvariablen ikke opfanger.Plottet kan naturligvis redigeres og frdiggres som tidligere beskrevet under Graph Builder.

Figur 4.35

Gem og udskriv

DATATABELLENEt datast gemmes mest bekvemt som en JMP-fil (.jmp), men datatabellen kan ogs gemmes i andre formater, f.eks. som en Excel-fil (.xls) eller som en tekstfil (.txt).

Undertiden kan man ogs have brug for at gemme som en dBSASE-fil (.dbf).

OUTPUTFILOutput kan gemmes som en Report p et utal af mder, f.eks som: JMP Report (.jrp), hvor filen kan bnes og yderligere analyser foretages Htm- og html-filer Rich Text Format (.rft) Tekstfil (.txt), ingen billeder Word-fil (.doc) Journal (.JRN). Dette er ofte et smart format at gemme resultaterne af analyser i, idet

filen navngives og kan genbnes, og der kan foretages (visse) yderligere redigeringer.

MIDLERTIDIG AFBRYDELSE AF EN ANALYSESESSIONHvis JMP forlades med filer (f.eks. outputfiler) bne, vil JMP sprge, om bne filer skal gemmes. Hvis man svarer Yes, vil JMP nste gang den pgldende session bnes, bne de samme vinduer igen dvs. stille sig p samme mde, som da sessionen blev afbrudt.

KOPIERING AF (DELE AF) OUTPUTHvis man vil gemme noget af outputtet kan man skifte cursor: Tryk p korset til hjre for cursor-pilen, og markr det, du vil gemme, hjreklik og vlg copy. Det kopierede kan nu pastes ind i et Word-dokument eller i et Excel-regneark (eller et andet program).

JMP-guide Side 35

STATISTISK ANALYSE (ANALYZE)JMP har flere menupunkter til at udfre statistiske analyser. Menupunkterne kan findes i menuen under Analyze eller ved ikonerne p vrktjsbjlken. Her gennemgs kun menupunkterne. Distribution, der kan lave tegninger og udregne ngletal for de enkelte variable afsnit 5. Fit Y by X, der kan lave tegninger og udregne ngletal for et eller flere par af variable

afsnit 6. Fit Model, der kan foretage beregninger i en rkke modeller afsnit 7.

Menupunktet Matched Pairs og menupunkterne Modeling, Multivariate Methods og Reliability kan man f oplysninger om i manualen til JMP.

Statistik i JMP

JMP-guide Side 36

Man kan f en beskrivelse af enkelte variable (de skaldte marginale fordelinger) ved at benytte menupunktet Distribution.

Klik Analyze > Distribution, hvorved dialogboksen figur 5.1 fremkommer. Vi nsker f.eks. at se fordelingen af variablene kontantp, boligst og omr. Disse variable fres derfor over i det hjre felt, figur 5.1, ved at markere dem og klikke p Y, Columns. Klik derefter OK.

Figur 5.1 Distribution

Dette vil give outputtet i figur 5.2.

Figur 5.2 Beskrivende statistik

Hvis man hellere vil have fordelingerne vandret, klikkes p den rde trekant foran Distribution, figur 5.2, og derefter p Stack. Herved fremkommer figur 5.3.

5. n variabel (Distribution)

JMP-guide Side 37

Figur 5.3 Marginale fordelinger

For hver variabel fr man et histogram. For de to kontinuerte variable fs desuden fraktiler (Quantiles), boksplot og momenter (dvs. gennemsnit, standardafvigelse etc.), mens man for den nominale variabel omr fr frekvenser (relative hyppigheder).

Histogrammet kan redigeres ved at hjreklikke p figuren og vlge mulighederne fra den derved fremkomne menu. Man kan ogs vlge hnden oppe i vrktjsbjlken, placere hnden p figuren, holde museknappen nede og flytte hnden fra side til side og op og ned.

Boksplottet over histogrammet er en grafisk reprsentation af de forskellige ngletal. De lodrette streger i selve boksen angiver hhv. nedre kvartil (25%-fraktilen), median (50%-fraktilen) og vre kvartil (75%-fraktilen). Grafen er et skaldt Outlier Box Plot, idet punkter i forlngelse af de stiplede linjer markerer mulige outliers, dvs. atypiske vrdier ssom tastefejl o.l. vre og nedre hjrne i diamanten angiver middelvrdi (mean). Venstre og hjre hjrne i diamanten angiver hhv. nedre og vre konfidensgrnse i et 95% konfidensinterval. Boksen refererer sledes til vrdierne under Quantiles og diamanten til vrdierne under Moments . Diamantens placering i forhold til medianen fortller noget om graden af skvhed. Betragt grafikken, eksempelvis variablen boligst i figur 5.3. Her ser man tydeligt, at middelvrdien er strre end medianen, hvilket antyder en vis grad af hjreskvhed, alts at fordelingen har lang hale til hjre. Det samme ses p histogrammet og direkte p talvrdierne for median og middelvrdi.

nsker vi flere tegninger eller beregninger for f.eks. variablen boligst, kan dette fs ved at klikke p den rde trekant til venstre for variabelnavnet, hvorved der bnes en menu, figur 5.4.

JMP-guide Side 38

Figur 5.4 Menu

Her er der et vld af muligheder. Lad os se p nogle af dem:

Vi kan prve at tilpasse en fordeling ved at vlge Continuous Fit, da vi jo betragter en kontinuert variabel. Herved fremkommer en ny menu med en liste over fordelinger, man kan vlge imellem, figur 5.5.

Figur 5.5 Fordelingsliste

Vlges Normal, fr man normalfordelingen med den estimerede middelvrdi p 164,5 og den estimerede standardafvigelse p 50,2 lagt ind over histogrammet, som vist i figur 5.6.

JMP-guide Side 39

Figur 5.6 Tilpasning af normalfordeling

Det drejer sig om en stikprve af boliger. Det, der sprges om, er, om histogrammet som er udarbejdet p grundlag af stikprven p de 69 boliger giver os belg for at pst, at boligstrrelser i regionen som helhed er normalfordelt. Dvs., hvis vi dannede et histogram p grundlag af samtlige boliger i regionen, s ville vi f en histogramprofil svarende til den rde kurve. Umiddelbart ser det jo ikke for godt ud. Man kan ogs teste normalfordelingsantagelsen grafisk ved at opstille et normalfraktildiagram. Det gr man ved at vlge Normal Quantile Plot p menuen. Derved fremkommer figur 5.7.

Figur 5.7 Normalfraktildiagram

For at kunne acceptere pstanden om normalitet skal punkterne i diagrammet helst sno sig tt omkring den fuldt optrukne rde linje, i hvert fald befinde sig mellem de to stiplede rde kurver. Det sidste synes nogenlunde opfyldt i det konkrete tilflde.

Hvis man nsker at se fordelingsfunktionen, vlges CDF plot p menuen.

Vi vil hellere prve at teste. Antag at vi har godkendt, at boligstrrelser er normalfordelt, og at vi nsker at teste den pstand, at populationsmiddelvrdien for boligstrrelser i regionen er 150 m2. For at gennemfre denne test vlges Test Mean p menuen. Derved fremkommer dialogboksen, figur 5.8

JMP-guide Side 40

Figur 5.8 Dialogboks for Test Mean

Det verste felt i dialogboksen er blevet udfyldt med pstanden/hypotesen om, at populationsmiddelvrdien er 150. Feltet nedenunder er tomt. Det udfyldes kun, hvis man kender populationsvariansen og dermed ogs populationsstandardafvigelsen. Det gr vi jo ikke. Vi har kun et skn over den, baseret p den forholdsvis lille stikprve p 69 boliger, ikke den sande vrdi. Herefter beregner JMP en teststrrelsesvrdi, som sammenlignes med fraktiler i t-fordelingen, hvorfor testen kaldes en t-test. Skulle vi p mystisk vis have kendt populationsstandardafvigelsen, skulle den derp beregnede teststrrelsesvrdi have vret sammenlignet med fraktiler i standardnormalfordelingen. Denne fordeling betegnes ofte z-fordelingen, hvorfor testen ofte kaldes en z-test. Bde z-test og t-test tager udgangspunkt i normalfordelingen. Hvis man som her stter hak i feltet ud for Wilcoxon Signed Rank, fr man en test, som ikke tager udgangspunkt i normalfordelingen men i en rangordning af observationerne, og en teststrrelse baseret p disse og p kombinatorik. Klikkes OK, fremkommer figur 5.9:

Figur 5.9 Output fra Test Mean

Udskriften indeholder som man kan se den fremfrte pstand/hypotesen p de 150 m2 samt estimaterne p 164,5 og 50,2 for henholdsvis populationsmiddeltal og populationsstandardafvigelse. Desuden indeholder udskriften teststrrelsesvrdierne 2,4 og 288,5 ved henholdsvis t-test og Wilcoxon Signed Rank-test samt tre st sandsynligheder. Disse sandsynligheder kaldes signifikanssandsynligheder eller p-vrdier Signifikans-sandsynligheden angiver sandsynligheden for at f teststrrelsesvrdier, der er mindst lige s ekstreme som den anfrte vrdi beregnet under forudstning af, at testhypotesen er sand. Det er vist i figuren nederst, der vedrrer t-testen. Den angiver gennemsnitsfordelingen med teststrrelsesvrdien 150 som middelvrdi. Den i stikprven beregnede middelvrdi, dvs. stikprvegennemsnittet, p 164,5 er i figuren markeret med en rd streg.

JMP-guide Side 41

Hvis alternativet til testhypotesen er, at populationsmiddelvrdien er strre end 150, s er signifikanssandsynligheden, p-vrdien, lig med arealet under den bl kurve til hjre for den rde streg. Det svarer til arealet under t-fordelingen til hjre for teststrrelsesvrdien t = 2,4, i udskriften betegnet Prob>t. Hvis denne sandsynlighed er lille, i dette tilflde = 0,0095, s er et resultat p 2,4 eller derover et usandsynligt resultat under den antagelse, at testhypotesen er sand. Derfor vil man hellere forkaste testhypotesen frem for at acceptere noget usandsynligt. Men hvad er stort og hvad er smt? Kriteriet herfor m man have specificeret p forhnd. Det er alts noget, man specificerer, ikke noget man beregner. Dette kriterium betegner signifikansniveauet og faststtes ofte til 0,05 (5%). Signifikanssandsynlighedsvrdier, p-vrdier, mindre end 0,05 er hermed pr. definition sm og medfrer, at testhypotesen forkastes. P-vrdier over 0,05 er store og frer til accept af testhypotesen. I det konkrete tilflde er p-vrdien lig med 0,0095 og alts vsentlig mindre end 0,05, hvorfor testhypotesen forkastes til fordel for alternativet. Man kan ogs udtrykke det p den mde, at den estimerede populationsmiddelvrdi p 164,5 er signifikant strre end den pstede p 150, og ikke bare et tilfldigt udsving. Signifikans er i udskriften markeret med stjernemrkede p-vrdier. Hvis alternativet til testhypotesen er, at populationsmiddelvrdien er mindre end 150, s er p-vrdien lig med arealet under den bl kurve til venstre for den rde streg. Det svarer til arealet under t-fordelingen til venstre for teststrrelsesvrdien t = 2,4, i udskriften betegnet Prob|t|. Da denne sandsynlighed p 0,019 (=2*0,0095) er betydelig mindre end 0,05, forkastes testhypotesen, igen markeret med en stjernemrket p-vrdi. I stedet for at gange den ensidet bestemte p-vrdi med to og sammenligne dette tal med niveauet, kan man naturligvis vlge at sammenligne den ensidet bestemte p-vrdi med det halve niveau, i det konkrete tilflde at sammenligne 0,0095 med 0,025.

Tolkningen af Signed Rank-testens p-vrdier vil blot vre en gentagelse af tolkningen af t-testens p-vrdier. Bemrk, at de sm p-vrdier for Signed Rank-testen er strre end de tilsvarende sm p-vrdier for t-testen (omvendt for den store p-vrdi). Det skyldes, at Signed Rank-testen er en grovere, mindre fintflende, test end t-testen som flge af, at man i Signed Rank-testen har erstattet de oprindelige observationer med range. Der vil altid g information tabt i en sdan proces.

Som det fremgr af menuen, kan man ved at vlge Test Std Dev komme til at teste hypoteser om standardafvigelsen. Vi vil dog som et sidste eksempel p valg fra menuen f JMP til at opstille konfidensintervaller. Vlges Confidence Interval, fr man dialogboksen i figur 5.10.

JMP-guide Side 42

Figur 5.10 Dialogboks til Confidence Interval

Her kan man selv f lov til at bestemme typen af konfidensintervaller. Vlges 0,95, fr man 95% konfidensintervaller, som det fremgr af figur 5.11.

Figur 5.11 Output fra Confidence Interval

Vi fr konfidensintervaller for normalfordelingens to parametre middelvrdi og standardafvigelse. Begge konfidensintervaller har vret vist fr. Konfidensintervallet for middelvrdien har hele tiden stet under Moments, og konfidensintervallet for standardafvigelsen fremkom i forbindelse med Continuous Fit > Normal. Tolkningen eksemplificeret ved konfidensintervallet for middelvrdien er, at intervallet, som strkker sig fra 152,5 til 176,6 med en sandsynlighed p 0,95, vil indeholde populationsmiddelvrdien. Der er en snver forbindelse mellem konfidensintervallet for middelvrdien og t-testen, da begge tager udgangspunkt i de samme beregninger. Forbindelsen er, at konfidensintervallet indeholder alle de specifikationer af testhypotesen, som vil blive accepteret af en tosidet test med et testniveau p 0,05. Vi kunne alts have testet pstanden om en populationsmiddelvrdi p 150 ved blot at se, om tallet ligger inden for eller uden for intervallet. Da det ligger uden for intervallet, forkastes pstanden. Det anbefales hvis det ikke ligefrem strider mod sagens natur at man tester tosidet, enten ved brug af konfidensinterval eller ved at vlge testfunktionerne p menuen.

Lad os til slut se, hvordan man ved hjlp af Distribution kan teste hypoteser om en populationshyppighed Vi danner en ny ordinal variabel kvalitetgr2 med vrdierne lav og hj ved at gruppere variablen kvalitet, sledes at lav omfatter kvalitetsvrdierne 1, 2 og 3 og hj omfatter vrdierne 4 og 5 (se afsnittet Gruppering af variabel). Benyttes Analyze > Distribution og indsttes kvalitetgr2 i Y, Columns-omrdet, fr man figur 5.12.

JMP-guide Side 43

Figur 5.12 Dialogboks

Klikkes OK efterfulgt af Stack under den rde trekant ved Distribution, fs figur 5.13.

Figur 5.13 Histogram og frekvenser

Klikkes p den rde trekant ved kvalitetgr2, fremkommer menuen i figur 5.14

Figur 5.14 Menu

Vlges Test Probabilities, fr man dialogboksen i figur 5.15. Det antages, at vi nsker at teste en pstand om, at populationsandelen af boliger med kvalitetsptegningen hj er lig med 0,25 mod alternativet, at den er strre. Det er i dialogboksen blevet markeret ved at stte 0,25 ind i den hvide boks ud for hj og ved at stte mrke ud for probability greather than hypothesized value.

JMP-guide Side 44


Klikkes Done, fs udskriften i figur 5.16.

Figur 5.16 Hypotesetest i binomialfordelingen

Vi fr at vide, at det er en Binomial Test, dvs. en test i binomialfordelingen. Det antages med andre ord, at antal boliger med kvalitetsptegningen hj i stikprven p 69 boliger er binomialfordelt med antalsparameter 69 og sandsynlighedsparameter 0,25. Vi nsker sledes at teste, om den i stikprven observerede hyppighed af kvalitetsptegningen hj p 0,29 er signifikant strre end hypotesevrdien 0,25. Det er den tilsyneladende ikke, eftersom p-vrdien er p 0,26, alts vsentlig strre end standardniveauet p 0,05. Forskellen kan tilskrives stikprveusikkerhed.

KOPIERE DELE AF OUTPUTHvis man vil gemme noget af outputtet, kan man skifte cursor: Tryk p korset til hjre for cursorpilen, figur 5.16, og marker det, du vil gemme, hjreklik og vlg copy. Det kopierede kan nu pastes ind i et Word-dokument eller i et Excel-regneark (eller et andet program).

JMP-guide Side 45

6. To variable (Fit Y by X)

Menupunktet benyttes til at beskrive eller analysere sammenhngen mellem to variable. (Er der flere end to variable, benyttes menupunktet Fit Model, se senere.) Menupunktet fremkommer ved at klikke Analyze > Fit Y by X. Herved fremkommer dialogboksen som vist i figur 6.1. Hvilken analyse JMP gennemfrer, afhnger af, hvilken type variable man anvender.

Figur 6.1 Dialogboks for Fit Y by X

SAMMENHNG MELLEM TO KONTINUERTE VARIABLE (LINER REGRESSION MED N FORKLARENDE VARIABEL)Den afhngige kontinuerte variabel Y klikkes (eller flyttes) over i Y, Response-omrdet, og den forklarende kontinuerte variabel X klikkes over i X, Factor-omrdet.

Flyttes der flere end n variabel over i Y, Response-omrdet, vil JMP udfre en analyse for hver Y-variabel og tilsvarende, hvis der benyttes flere end n X-variabel.

Block benyttes ikke ved analyse af sammenhng mellem to kontinuerte variable.

Vi benytter indtil videre ikke knapperne: Weight, Freq og By.

Benyttes datasttet Boligdata.jmp, og nsker man at forklare kontantprisen ud fra boligstrrelsen, indsttes kontantp som Y-variabel og boligst som X-variabel. Herefter klikkes OK, hvorefter plottet i figur 6.2 fremkommer.

JMP-guide Side 46

Figur 6.2 Plot af kontantpris mod boligstrrelse

Klikkes der p den rde trekant, fremkommer fanebladet som vist i figur 6.3.

Figur 6.3 Faneblad for Fit Y by X

Som default er der sat hak ved Show Points svarende til, at punkterne vises.

JMP-guide Side 47

FIT MEANSttes hak ved Fit Mean (Tilpas gennemsnit), vises der en vandret linje, der er gennemsnittet af non-missing-vrdier af Y-variablen, figur 6.4. Klikkes der herefter p diamanten til venstre for Fit Mean, fremkommer udskriften som vist i figur 6.4.

Figur 6.4 Fit Mean

Mean er gennemsnittet af Y-variablen.Std Dev er standardafvigelsen til Y-variablen.Std Error er standardafvigelsen til gennemsnittet.SSE (Sum of Squared Errors) er SAK-vrdien for Y-variablen. (SAK = Sum af Afvigelsernes Kvadrat).

Udskriften svarer til en model, hvor den forventede vrdi af Y er den samme for alle observationer (rkker).

JMP-guide Side 48

FIT LINESttes hak ved Fit Line, tilpasses en linje, figur 6.5. Desuden fremkommer udskrifterne: Linear Fit, der viser ligningen for den tilpassede linje. Summary of Fit, der angiver forklaringsgraden R2 (Rsquare), justeret R2 (Rsquare Adj),

standardafvigelsen (Root Mean Square Error), som er det samme som kvadratroden af variansestimatet i regressionsmodellen, Y-streg (Mean of Response) som er gennemsnittet af Y-variablen og antallet af observationer (Observations).

Lack of Fit benytter vi ikke.

Figur 6.5 Tilpasning af en linje

Analysis of Variance, variansanalysetabellen, indeholder C.Total (Corrected Total), den totale variation dvs. SAK-vrdien i modellen, hvor alle observationer har samme middelvrdi splittet op p en ikke-forklaret del (Error) og en forklaret del (Model). Divideres igennem med antal frihedsgrader (DF), fs den gennemsnitlige kvadratafvigelse (Mean Square), hvor der ud for Error er et estimat for residualvariansen. Tager man kvadratroden af denne vrdi, fr man Root Mean Square Error-vrdien oppe i Summary of Fit. Dannes forholdet mellem Mean Square-vrdierne, fr man F-teststrrelsen F Ratio med tilhrende p-vrdi Prob > F. Denne F-test tester den hypotese, at alle koefficientparametre er lig med nul. Her er der kun n, nemlig koefficienten til variablen boligst. Derfor bliver der i dette tilflde sammenfald mellem F-testen og t-testen ud for boligst i Parameter Estimates-tabellen, som marginalt tester hypotesen, at koefficienten til boligst er lig med nul. Som man ser, har de to test samme p-vrdi (0,0001), og hvis man kvadrerer t-testtrrelsen t Ratio fr man F-teststrrelsen F Ratio.

JMP-guide Side 49

Parameter Estimates indeholder estimater for de to parametre: Konstanten (Intercept) og hldningen, deres standardafvigelse (Std Error), t-teststrrelse (t Ratio) og tosidet signifikanssandsynlighed (Prob>|t|).

Klikkes der p trekanten til venstre for Linear Fit, fremkommer et faneblad, figur 6.6.

Figur 6.6 Redigering af linje

Ved hjlp af dette faneblad kan figuren redigeres. Der kan tilfjes konfidenskurver for linjen (Confid Curves Fit) eller konfidensintervaller for individuelle observationer (Confid Curves Fit Indv). I begge tilflde skal der naturligvis vlges en konfidensgrad, hvor det typisk er 95%, der vlges.

Alternativt kan konfidensgrnserne vises som skygger benyt Confid Shaded Fit eller Confid Shaded Indv.

Linjen kan farvelgges (Line Color). Der kan vlges linjetype (Line Style) eller linjebredde (Line Width).

Der er som default sat hak ved Report, hvilket svarer til udskriften i figur 6.5.

Man kan gemme de tilpassede vrdier (Fitted Values eller Predicted Values). Save Predicted tilfjer en kolonne til datasttet indeholdende de tilpassede (fittede) vrdier. P tilsvarende mde kan man gemme residualerne ved brug af Save Residuals.

Plot Residuals giver et plot af residualerne mod den forklarende variabel (her Boligst).

JMP-guide Side 50

FIT POLYNOMIALHer kan der vlges at tilpasse op til sjettegradspolynomier. Det mest almindelige er dog et andengradspolynomium en parabel. Udskrifterne svarer til Fit Line.

FIT SPECIALKlikkes der p Fit Special, bnes en dialogboks, figur 6.7, hvor der kan foretages transformationer af Y-variablen og/eller X-variablen. Desuden kan der foretages tilpasning med et polynomium centreret eller ikke-centreret. Der kan ogs lgges begrnsninger p konstanten og hldningen.

Figur 6.7 Dialogboks for Fit Special

Fit Spline, Fit Each Value og Fit Orthogonal er andre tilpasningsmetoder, som vi ikke vil benytte her.

DENSITY ELLIPSEDet kan undertiden vre nyttigt at se p et todimensionalt billede af observationerne. Klikkes p Density Ellipse, kan man indlgge niveaukurver i den todimensionale normalfordeling, figur 6.8. Figuren viser punkterne med 50%-, 90%- og 95%-niveaukurverne indlagt. Desuden fr man gennemsnit (Mean) og standardafvigelse (Std Dev ) for hver af de to variable. Endvidere vises den beregnede korrelation samt signifikanssandsynligheden for test af hypotesen om, at korrelationen er nul alts, at der ikke er nogen signifikant korrelation mellem de to variable.Signifikanssandsynligheden aflses til p = 0,0001, hvorfor hypotesen forkastes. Endelig angives, at testen er baseret p 69 observationer.

JMP-guide Side 51

Figur 6.8 Niveaukurver

Klikkes p Group By, figur 6.3, fremkommer en dialogboks, hvor man kan vlge en variabel, sledes at de efterflgende analyser gennemfres for hver vrdi af den valgte variable. F.eks. kan man opdele analysen efter omrde, figur 6.9.

Figur 6.9 Opdeling af analysen

Herefter kan man f.eks. benytte Fit Line, hvorefter der tilpasses en linje til hvert af de to omrder, figur 6.10.

JMP-guide Side 52

Figur 6.10 Tilpassede linjer til hver af de to omrder

SAMMENHNG MELLEM EN KONTINUERT OG EN NOMINAL VARIABEL (ENSIDET VARIANSANALYSE)Vi vil i frste omgang undersge, hvordan kontantprisniveauet afhnger af kvalitetsniveauet. Forinden er en ny ordinal variabel kvalitetgr med vrdierne lav, mellem og hj blevet dannet ved at gruppere variablen kvalitet, sledes at kvalitetsvrdierne 1 og 2 sttes til lav, vrdien 3 til mellem og vrdierne 4 og 5 til hj. (Se afsnittet Gruppering af variabel.) Kontantp flyttes over i Y, Response-omrdet som Y-variabel, og kvalitetgr flyttes over i X, Factor-omrdet som X-variabel, figur 6.11


Da kvalitetgr er en nominal variabel, udfrer JMP en ensidet variansanalyse, hvor der frst vises et plot, figur 6.12.

JMP-guide Side 53

Figur 6.12 Ensidet variansanalyse, plot

Der kan nu foretages nogle beregninger og nogle yderligere tilfjelser til plottet.Klik p den rde trekant. P fanebladet, der herved fremkommer, klikkes p Display Options. Herved fremkommer endnu et faneblad med en mngde muligheder, figur 6.13.

JMP-guide Side 54

Figur 6.13 Display options

Box Plots tilfjer Box Plots til figuren.Mean Diamonds tilfjer for hver gruppe en diamant, der viser gruppegennemsnittet og 95% konfidensintervallet for gennemsnittet.Mean Lines tilfjer for hver gruppe en linje i gennemsnittet.Mean CI Lines tilfjer linjer for 95% konfidensintervallet for gruppegennemsnittene.Mean Error Bars tilfjer linjer +/- en standardafvigelse over/under gennemsnittet.Grand Mean tilfjer en gennemsnitslinje for alle observationer af Y-variablen.Connect Means tilfjer en linje, der forbinder gruppegennemsnittene.

Means/Anova i det frste faneblad giver en standardudskrift, der som regel indeholder det, der er ndvendigt, figur 6.14, dvs. en udskrift tilsvarende den, der fremkommer ved regressionsanalyse.

JMP-guide Side 55

Figur 6.14 Standardudskrift

Det glder Summary of Fit og Analysis of Variance. F-testen tester her en hypotese om, at prisniveauerne er ens for boliger i de tre kvalitetskategorier. Da p-vrdien er lille, 0,0001, forkastes denne hypotese. Derudover fr man en tabel Means for Oneway Anova, som indeholder gennemsnit og standardafvigelser for kontantpriserne for de tre kvalitetskategorier, samt 95% konfidensintervaller for kontantprisniveauerne. Som man ser, er det kategorien hj, der skiller sig ud og giver anledning til, at hypotesen ovenfor forkastes. Konfidensintervallerne knyttet til lav og mellem overlapper hinanden, mens konfidensintervallet knyttet til hj ligger forskudt. Det ses ogs tydeligt p figuren, hvor konfidensintervallerne er indtegnet.

Udover valgmuligheden Means/Anova p det frste faneblad tilbydes flere andre muligheder:

Quantiles viser nogle fraktiler (Quantiles).Means and Std Dev viser en del af udskriften af Means/Anova.Compare Means benytter vi ikke.Nonparametric giver mulighed for nogle test til sammenligning af de forventede vrdier mellem grupperne, hvis antagelsen om normalfordeling ikke kan opretholdes benyttes ikke her.Unequal Variances viser test for, om varianserne i de enkelte grupper kan antages at vre ens, herunder Bartletts test. Desuden vises Welchs test for, om de forventede vrdier er ens selvom varianserne er forskellige.Normal Quantile Plot viser et normalfraktildiagram for hver gruppe.CDF Plot viser fraktildiagram for hver gruppe.

JMP-guide Side 56

Save tilfjer en sjle med residualer (Save Residuals) eller standardiserede residualer (Save Standardized) eller normalfraktiler (Save Normal Quantiles) eller tilpassede vrdier (Save Predicted).

I de fleste grundbger i statistik gres der en del ud af det specialtilflde, hvor den forklarende variabel kun har to kategorier. Det behandles i disse bger som en t-test, lsrevet fra variansanalysen. Lad os se, hvordan udskriften ser ud i JMP. F.eks. kan vi undersge, om kontantprisniveauet er det samme i de to omrder nord og syd. Flyttes kontantp over i Y, Response-omrdet som Y-variabel, og omr over i X, Factor-omrdet som X-variabel, fremkommer figur 6.15.

Figur 6.15 Ensidet variansanalyse

Klikkes OK, fr man en gentagelse af figur 6.12. Klikkes p den rde trekant, fremkommer fanebladet, figur 6.16.

Figur 6.16 Display options

JMP-guide Side 57

Bemrk, at valgmuligheden Means/Anova er ndret til Means/Anova/Pooled t, og at der er tilfjet valgmuligheden t Test. Vlges Means/Anova/Pooled t, fr man udskriften, figur 6.17.

Figur 6.17 Standardudskrift

Som man ser, fr man den sdvanlige variansanalyseudskrift samt de beregninger, der er knyttet til en t-test. T-testen og F-testen under Analysis of Variance tester begge en hypotese om, at kontantprisniveauerne i de to omrder er ens. Derfor er de to test ogs ens. Det illustreres af, at p-vrdierne Prob>|t| og Prob > F er ens, og at teststrrelsesvrdien t Ratio kvadreret er lig med teststrrelsesvrdien F Ratio. Baggrunden for t-testen er, at specialtilfldet med kun to grupper giver mulighed for en lidt simplere databehandling. Man kan njes med at betragte de to stikprvegennemsnit og vurdere ved hjlp af t-testen, om afstanden mellem dem er s stor, at den nppe kan skyldes tilfldigheder, men m skyldes en reel forskel p kontantprisniveauet i de to omrder.

JMP-guide Side 58

SAMMENHNG MELLEM NOMINELLE VARIABLE (ANTALSTABEL/KONTINGENSTABEL/TOVEJSTABEL)Vil man undersge, om der er en sammenhng mellem boligens kvalitet og om boligen ligger nord eller syd for Kbenhavn, indsttes kvalitetgr i Y, Respons-omrdet som Y-variabel og omr i X, Factor-omrdet som X-variabel, figur 6.18.

Figur 6.18 Tovejstabel

Klik OK. Herved fremkommer udskriften, figur 6.19. Der vises frst et skaldt Mosaic Plot, der angiver kvalitetsfordelingen for hvert af de to omrder. Herefter vises selve tabellen, med rkke-, sjle- og totalprocenter. Ved at klikke p den rde trekant kan nogle procenter fjernes, og der kan f.eks. tilfjes de forventede antal under antagelsen om uafhngighed. Den del af tabellen Tests, som vedrrer -LogLike, bruger vi ikke. Den sidste del af tabellen viser Pearsons test. Desuden vises en variant af Pearsons test, nemlig Likelihood Ratio-testen, der ofte giver en bedre tilnrmelse til 2-fordelingen. Pearsons test tester en hypotese om, at der er uafhngighed mellem de to inddelingskriterier eller udtrykt p en anden mde: at kvalitetsfordelingerne er ens i de to omrder. Hvis p-vrdien er lille sdan som den er her, nemlig 0,0193 m vi forkaste hypotesen om ens kvalitetsfordelinger. De ser heller ikke srlig ens ud p mosaikplottet.

JMP-guide Side 59

Figur 6.19 En tovejstabel

Klikkes p den rde trekant til venstre for Contingency Analysis, ses det, at der kan udfres andre analyser, nemlig Correspondence Analysis, Cochran Mantel Haenszel, som vi ikke benytter her.

Hvis tabellen er en 22-tabel, kan man ogs udfre Relative Risk og Odds Ratio, som vi indtil videre ikke benytter.

JMP-guide Side 60

7. Flere variable (Fit Model)

Menupunktet Fit Model fremkommer ved at klikke p Analyze > Fit Model. Herved fremkommer dialogboksen som vist i figur 7.1. Dette menupunkt er meget omfattende, men vi vil begrnse os til at se p en skaldt generel liner model. Dette betyder (bredt sagt), at hver enkelt observation af responsvariablen antages at vre normalfordelt med en forventet vrdi, der er en funktion af nogle forklarende variable. Analysen bestr nu i at fastlgge den funktion, der beskriver den forventede vrdi alts, hvilke forklarende variable der har betydning for den forventede vrdi. Desuden antages det, at alle observationer af responsvariablen har samme varians. Denne sidste antagelse kan ofte ikke testes, men m vurderes, f.eks. ved forskellige plot. I de tilflde, hvor antagelsen kan testes (f.eks. Ensidet Variansanalyse), benyttes Bartletts test. Det er imidlertid vigtigt at gre sig klart, at selvom antagelsen om varianshomogenitet mske ikke er opfyldt helt, kan man godt benytte de sdvanlige test til fastlggelse af middelvrdifunktionen. Man skal alts ikke vre alt for streng med at forkaste hypotesen om varianshomogenitet. Sagt p en anden mde, kan man benytte et lavere signifikansniveau, f.eks. 1% eller mske 0,1%.

Figur 7.1 Dialogboks til Fit Model

Y angiver responsvariablen, som antages at vre kontinuert. Angives der flere variable, udfrer JMP en analyse for hver variabel.Weight angiver en kolonne, der indeholder vgte for de enkelte rkker benyttes ikke her.Freq angiver en kolonne, der viser, hvor mange gange hver rkke skal indg i en analyse, benyttes ikke her.By benyttes til at vlge en (typisk ordinal eller nominal) variabel, sledes at de efterflgende analyser gennemfres for hver vrdi af den valgte variabel. Personality (verst til hjre) afhnger af typen af responsvariablen (Y). Er

responsvariablen kontinuert vil Personality skifte som vist i figur 7.2 og lad den indtil videre blive stende sledes.

Add tilfjer variable/faktorer til modellen.

JMP-guide Side 61

Cross tilfjer vekselvirkningsled til modellen. Hvis det er to kontinuerte variable, dannes Produktvariablen. Hvis det er en faktor og en kontinuert variabel, svarer dette til, at der estimeres en regressionskoefficient for hvert niveau af faktoren (ikke-parallelle regressionslinjer).

Nest benyttes, hvis to faktorer ligger inde i hinanden benyttes ikke her.Macros indeholder en rkke hjlpeprocedurer (makroer) til at lette opskrivningen af

store modeller.Degree vedrrer flere af hjlpeprocedurerne i Macros.Attributes vedrrer nogle specielle modeller, der ikke benyttes her.Transform gr det muligt at transformere bde respons- og forklarende variable i

modellen. Marker en variabel i skemaet klik Transform og vlg den transformation, der nskes.

No Intercept Hvis man ikke nsker konstantled i modellen, hakkes der af her (benyttes normalt ikke).

LINER REGRESSION MED FORKLARENDE KONTINUERTE VARIABLEVi ser igen p datasttet boligdata.JMP og nsker at vurdere, om kontantprisen afhnger af boligstrrelsen og grundstrrelsen.

Variablen kontantp klikkes over i Y, og de to variable boligst og grundst klikkes ved knappen Add over som forklarende variable. Herved fremkommer dialogboksen i figur 7.2. Klik herefter p Run Model.

Figur 7.2 Dialogboks til regressionsanalyse

Dette vil give en standardudskrift, som gennemgs i det flgende, og som er klippet lidt i stykker, for at det hele kan vre der.

Tabellen Parameter Estimates indeholder estimater for modellens parametre, dvs. for konstantleddet (Intercept) og for koefficientparametrene knyttet til variablene boligst og grundst.

JMP-guide Side 62

Den estimerede forventede pris er alts:579,1194 + 5,8412313*boligstrrelse + 0,7552888*grundstrrelse

Desuden viser deltabellen standardafvigelser (Std Error) for parameterestimater, t-teststrrelser (t Ratio) og de tilhrende tosidede signifikanssandsynligheder (Prob>|t|) for hypotesen om, at parameteren er nul.

Tabellen Effect Tests viser F-teststrrelserne for hypotesen om, at de forklarende variable enkeltvis kan udelades af modellen. I dette tilflde bliver signifikanssandsynlighederne de samme som ved benyttelse af t-testene.

Variansanalysetabellen viser opspaltningen af den totale Sum of Squares (SAK) i den del, der kan forklares af modellen (Source = Model), og resten, der er residualen (Source = Error). Desuden vises teststrrelsesvrdi (F Ratio) med tilhrende p-vrdi (Prob > F) for en F-test, som tester en hypotese om, at samtlige koefficientparametre i modellen er lig med nul svarende til, at ingen af de forklarende variable, boligstrrelse og grundstrrelse, forklarer noget om variationen i kontantprisen. Da p-vrdien er meget lav (0,0001), forkastes hypotesen. Ikke alle koefficientparametre kan vre lig med nul svarende til, at mindst n af de forklarende variable yder et signifikant bidrag til forklaring af variationen i kontantprisen.

Endelig viser tabellen Summary of Fit, hvor meget de forklarende variable forklarer.

RSquare er R2, som er SAK(Model)/SAK(CTotal). R2 er her lig med 0,53 svarende til, at de forklarende variable forklarer 53% af variationen i kontantprisen mlt p kvadratafvigelsessum. For at tage hjde for, at der kan vre forskellige antal frihedsgrader i en model, benyttes sommetider.

RSquare Adj (Adjusted R-square), som er: 1 (Mean Square(Error)/Mean Square(CTotal). Denne strrelse forklarer nsten det samme som R2. Her er variationen blot mlt i varians, hvor den fr blev mlt i kvadratafvigelsessum, SAK.

Root Mean Square Error er den estimerede standardafvigelse i modellen (kvadratroden af variansestimatet).

Mean of Response er gennemsnittet af responsvariablen.Observations er antallet af gyldige vrdier af responsvariablen.(or Sum Wgts)

JMP-guide Side 63

Plottet Actual by Predicted Plot viser responsvariablen plottet mod de beregnede eller forudsagte vrdier. Desuden vises R2 og Root Mean Square Error.

Vi vil ikke benytte Leverage Plot her.

I plottet Residual by Predicted Plot er residualerne tegnet op mod de forudsagte vrdier.

LACK OF FITJMP vil nogen gange give en test for Lack of Fit. Dette skal man vre lidt forsigtig med, og vi benytter det ikke her.

YDERLIGERE UDSKRIFTERKlikkes i udskriften p den rde trekant til venstre for Response , er der mulighed for at f en rkke yderligere beregninger eller plot. De vigtigste vil blive nvnt her.

Et klik p Estimates og derefter p Show Prediction Expression viser den estimerede formel for den forventede vrdi.

JMP-guide Side 64

Et klik p Estimates og derefter p Expanded Estimates giver i dette tilflde det samme som Estimates.

Et klik p Estimates og derefter p Correlation of Estimates giver korrelationsmatricen for parameterestimaterne.

Et klik p Factor Profiling og derefter p Profiler illustrerer den marginale effekt af de to forklarende variable, hvor man interaktivt

kan studere effekten af de to variable.

Et klik p Factor Profiling og derefter p Contour Profiler illustrerer ud fra et tredimensionalt plot, hvordan responsen afhnger

af de forklarende variable. Desuden illustreres denne sammenhng interaktivt ud fra niveaukurver, dvs. hvilke sammenhrende vrdier af boligstrrelse og grundstrrelse der giver den samme kontantpris.

Et klik p Save Columns og derefter p Predictions Formula tilfjer en kolonne til datasttet med prediction-formlen. Formlen er

sledes aktiv, og der kan indtastes nye vrdier, der naturligvis udregnes. Predicted Values tilfjer en kolonne til datasttet med de tilpassede vrdier af

responsvariablen. Residuals tilfjer en kolonne til datasttet med residualerne til modellen. Mean Confidence Interval tilfjer kolonner til datasttet med konfidensinterval for de

tilpassede vrdier. Indv Confidence Interval tilfjer kolonner til datasttet med konfidensinterval for en ny

observation.

JMP-guide Side 65

Studentized Residuals tilfjer en kolonne til datasttet med de standardiserede residualer til modellen.

Std Error of Predicted tilfjer en kolonne til datasttet med standardafvigelser for de tilpassede vrdier.

Std Error of Residual tilfjer en kolonne til datasttet med standardafvigelser for residualerne. (De benyttes til at beregne de standardiserede residualer.)

Std Error of Individual tilfjer en kolonne til datasttet med standardafvigelse for en individuel observation.

Cooks D Influens tilfjer en kolonne til datasttet med Cooks afstand. (Den mler, hvor stor indflydelse hvert enkelt punkt har p estimationen af modellens parametre.)

StdErr of Pred Formula tilfjer en kolonne til datasttet med formlen for standardafvigelsen for de tilpassede vrdier som funktion af de forklarende variable.

Normalfraktildiagram kan ikke opns direkte, men kan tegnes ved at gemme de standardiserede residualer (Studentized Residual) og herefter benytte Distribution p variablen, hvor de standardiserede residualer er gemt, og tegne et Normal Quantile Plot (se afsnit 5).

LINER REGRESSION MED EN FORKLARENDE KATEGORISK VARIABEL (ENSIDET VARIANSANALYSE)I datasttet Boligdata.jmp har vi dannet en ny variabel kvalitetgr med tre niveauer, lav svarende til kvalitetskategorierne 1 og 2, mellem svarende til kvalitetskategorien 3 og hj svarende til kvalitetskategorierne 4 og 5. Som respons (Y) benyttes kontantpris og kvalitetgr klikkes via Add over i modellen som forklarende nominel variabel (faktor), figur 7.3.

Figur 7.3 Ensidet variansanalyse

Udskriften ligner den, der fremkommer ved kontinuerte forklarende variable:

JMP-guide Side 66

PARAMETER ESTIMATES Ved parametricering af faktorer benytter JMP den skaldte Sum to Zero-parametricering. Dette betyder, at parameteren for det sidste niveau af faktoren i JMP er summen af de vrige med modsat fortegn. JMP vil ikke inkludere det sidste niveau af faktoren kvalitetgr i tabellen.

For at se alle parameterestimaterne kan man klikke p Estimates og derefter p Expanded Estimates. Dette vil give flgende tabel, hvor summen af parameterestimaterne for faktoren kvalitetgr er nul:

Alternativt vil man ofte benytte cornerpoint-parametriceringen. Den fremkommer ved at klikke Estimates og derefter Indicator Function Parameterization. Her vlges et af niveauerne for faktoren her niveauet hj som referencegruppe, og parametrene for de vrige niveauer angiver nu afstanden til referencegruppen. Herved bliver interceptet netop niveauet i referencegruppen, og parameteren for de vrige niveauer bliver afstanden til interceptet. Herved bliver t-testene netop test for, om de enkelte grupper er forskellige fra referencegruppen.

Her er hj som referencegruppe sat til 0.

Effect Test viser F-teststrrelsen for, at faktoren ikke har nogen indflydelse p kontantprisen svarende til, at alle parametrene har samme parametervrdi, her nul.

Least Squares Means Table viser gennemsnittet i de enkelte grupper. Kolonnen Std Error viser standardafvigelsen for de enkelte niveauer af faktoren kvalitetgr. Hvis der kun er n faktor inkluderet i modellen, er kolonnen Least Sq Mean og Mean ens.

JMP-guide Side 67

For at forst modellen kan det ofte vre nyttigt at se p, hvordan den forventede vrdi afhnger af de forklarende variable (faktorer). Denne funktion findes ved at klikke p Estimates og derefter Show Prediction Expression.

Modellen er her opskrevet i Sum to Zero-parametriceringen. nsker man f.eks. at bestemme kontantprisniveauet for en bolig af gennemsnitsstrrelse i kvalitetsgruppen mellem, anvendes modellen sledes:

Kontantpris = intercept + Match(kvalitetgr 2) = 2308,86 304,99 = 2003,87

JMP-udtrykket Match kan oversttes som tillg for. I cornerpoint-parametriceringen fr man naturligvis samme resultat:

Kontantpris = intercept + Match(kvalitgr(mellem)) = 3077,1 1073,23 = 2003,87

I begge tilflde fr man som man kan se i tabellen Least Squares Means Table gennemsnittet i kvalitetsgruppen mellem. Nr der sledes kun er en forklarende faktor i spil, kan det virke overfldigt at opskrive variansanalysemodellen p regressionsanalyseform, som det er tilfldet under Fit Model. Man bliver ikke bedre oplyst end ved at benytte Fit Y by X.

Effekten af faktoren kan illustreres ved at klikke p Response og derefter Factor Profiling og derefter Profiler. Dette vil give plottet (der er interaktivt):

JMP-guide Side 68

LINER REGRESSION MED TO FORKLARENDE KATEGORISKE VARIABLE (TOSIDET VARIANSANALYSE MED VEKSELVIRKNING)Vi vil undersge, om kontantprisen hnger sammen med kvalitet og beliggenhed.

Som respons benyttes kontantpr (Y) og kvalitetgr og omr klikkes via Add over i modellen som forklarende nominelle variable (faktorer). Desuden markeres bde kvalitetgr og omr (evt. ved benyttelse af Ctrl-knappen p tastaturet) og der klikkes p Cross, figur 8.4. Denne model tillader, at effekten af kvalitet p kontantprisen kan vre forskellig i de to omrder (nord og syd).

Figur 7.4 Tosidet variansanalyse med vekselvirkning

Klikkes p Run Model, fr man en omfattende udskrift, bl.a.:

Heraf fremgr det, at forklaringsgraden er p 0,53, dvs. at de to faktorer kvalitet og beliggenhed kan forklare 53% af variationen i kontantprisen. Endvidere fremgr det, at de inkluderede faktorer tilsammen giver et signifikant bidrag til at forklare den forventede kontantpris, idet p-vrdien Prob > F er meget lille (0,0001).

JMP-guide Side 69

Ved parametricering af faktorer benytter JMP den skaldte Sum to Zero-parametricering. Dette betyder, at parameteren for det sidste niveau af hver faktor i JMP er summen af de vrige med modsat fortegn. JMP inkluderer ikke det sidste niveau af faktorerne kvalitgr og omr i tabellen. Desuden lgges der en rkke bnd p vekselvirkningsparametrene, hvilket gr, at det bliver svrt at overskue:

For at se alle parameterestimaterne kan man klikke p Estimates og derefter Expanded Estimates. Dette vil give flgende tabel, hvor summen af parameterestimaterne for faktoren kvalitetgr er nul, og hvor summen af parameterestimaterne for faktoren omr er nul. Desuden er der flere bnd p vekselvirkningsparametrene:

For at forst modellen og ikke mindst fortolke den kan det ofte vre nyttigt at se p, hvordan de forventede vrdier afhnger af de forklarende variable (faktorer). Denne funktion findes ved at klikke p Estimates og derefter Show Prediction Expression:

JMP-guide Side 70

JMP-udtrykket Match kan oversttes som tillg for. nsker man f.eks. at bestemme kontantprisniveauet for en bolig af gennemsnitsstrrelse i kvalitetsgruppen hj beliggende i omrde Nord, anvendes modellen sledes:

Kontantpris = intercept + Match(kvalitetgr 3) + Match(omr 1) + Match(omr 1 og kvalitetgr 3)= 2331,347 + 732,764 + 183,198 53,309 = 3194

Man kan ogs illustrere effekten af faktorerne ved at klikke p Response, derefter p Factor Profiling og derefter p Profiler. Dette vil give plottet (der er interaktivt):

Vil man illustrere effekten af vekselvirkningen, klikkes p Response og derefter Factor Profiling og derefter Interaction Plots. Dette vil give plottet (der er interaktivt):

Least Squares Means Table viser for hver faktor effekten af faktorniveauerne. Betingelsen for at kolonnen Least Sq Mean er den samme som Mean, er (groft sagt), at der skal vre lige mange observationer i alle kombinationer af de to faktorer.

JMP-guide Side 71

Least Squares Means Table for vekselvirkningerne er svr at fortolke.

Af strre interesse for variansanalysen er tabellen Effect Test. Tabellen viser for hver effekt (dvs. hovedvirkning for hver af faktorerne kvalitetsgr og omr og vekselvirkningen mellem kvalitetsgr og omr) antallet af estimerede parametre (Nparm), antallet af frihedsgrader (DF), bidraget til SAK (Sum of Squares), nr der er taget hjde for, hvad de vrige effekter bidrager med, F-teststrrelsen (F Ratio) og signifikanssandsynligheden, p-vrdien, for hypotesen om, at parametrene svarende til effekten er nul (Prob > F).

Da modellen netop bestr af de tre viste effekter, skulle man forvente, at summen af effekterne netop var effekten af hele modellen. Dette er imidlertid kun tilfldet, hvis effekterne helt kan separeres fra hinanden. Betingelsen for dette er, at der skal vre lige mange observationer i alle kombinationer af de to faktorer. Det vil som regel kun vre tilfldet, hvis data er fremkommet som resultat af et kontrolleret eksperiment.

Ud fra tabellen fremgr det, at vekselvirkningen ikke er signifikant svarende til, at effekten af faktoren kvalitet er den samme i de to omrder (der er alts ingen synergieffekt). Teststrrelsen er F = 2,3955, der med (2, 63) frihedsgrader ikke er signifikant, p = 0,0994. Det vil derfor vre rimeligt at fjerne vekselvirkningen fra modellen. Derved fremkommer figur 7.5.

JMP-guide Side 72

TOSIDET VARIANSANALYSE UDEN VEKSELVIRKNINGKlikkes p Analyze > Fit Model fremkommer dialogboksen figur 7.5. Som respons (Y) benyttes kontantp, og de nominale variable kvalitetgr og omr klikkes via Add over i modellen som forklarende faktorer. Klik derefter p Run.

Figur 7.5 Tosidet variansanalyse uden vekselvirkning

Dette giver:

Heraf fremgr det, at forklaringsgraden er faldet fra 0,53 i modellen med vekselvirkning til 0,5 i modellen uden. Faktoren kvalitet har en signifikant effekt p kontantprisen for boligen, F Ratio = 28,2796, p-vrdi = Prob > F < 0,0001. Ogs faktoren omrde har signifikant effekt p kontantprisen for boligen, F Ratio = 7,8872, p-vrdi = Prob>F = 0,0066, men der er stor variation.

JMP-guide Side 73

Ud fra tabellen over Expanded Estimates eller Prediction Expression ses, at ovenstende svarer til, at jo hjere kvalitet, jo hjere kontantpris, og huse i omrde 1 (Nord) er i gennemsnit 423.000 kroner dyrere end huse i omrde 2 (Syd).

JMP-udtrykket Match kan oversttes som tillg for. nsker man f.eks. at bestemme kontantprisniveauet for en bolig af gennemsnitsstrrelse i kvalitetsgruppen hj beliggende i omrde Nord, anvendes modellen sledes:

Kontantpris = intercept + Match(kvalitetgr 3) + Match(omr 1)= 2278,2 + 777,73 + 211,731 = 3267.66

Alternativt vil man ofte benytte Indicator Function Parameterization (ogs kaldet cornerpoint). For hver af faktorerne vlges et af niveauerne for faktoren som referencegruppe. For faktoren kvalitetgr vlges hj som referencegruppe, og for omr vlges Syd. For hver faktor angives de vrige niveauer som afstanden til referencegruppen.

(kvalitetgr (hj) og omr (Syd) er sat til 0).

Heraf fremgr det direkte, at boliger i Nord i gennemsnit er 423.000 kroner dyrere end boliger i Syd.

JMP-guide Side 74

KOVARIANSANALYSEI en kovariansanalyse er der bde nominale variable (faktorer) og kontinuerte variable blandt de forklarende variable, og sdanne modeller kan vre meget omfattende og svre at overskue. En simpel model er parallelle regressionslinjer: Kontantprisen afhnger af boligstrrelsen bde nord og syd for Kbenhavn, men evt. p forskelligt niveau. Dette svarer til modellen vist i figur 7.6.

Figur 7.6 Parallelle regressionslinjer

Efter klik p Run fs et plot af de to estimerede linjer samt de sdvanlige standardudskrifter.

JMP-guide Side 75

Af udskrifterne Summary of Fit, Analysis of Variance og Effect Tests fremgr det, at forklaringsgraden er nede p 0,37, at omr og boligst tilsammen yder et signifikant bidrag til forklaring af variationen i kontantprisen p-vrdi = Prob > F < 0,0001 men at omr marginalt ikke yder et signifikant bidrag, idet p-vrdi = Prob>|t| = 0,2309. Den frste p-vrdi er vsentlig mindre, den anden vsentlig strre end det sdvanlige testniveau p 0,05.

Udskrives modellen med alle parameterestimater i Sum to Zero-parametriceringen, fs:

Her ses, at kontantprisen stiger med samme belb, nr boligstrrelsen vokser bde nord og syd for Kbenhavn, men at niveauet ligger hjere nord for end syd for. nsker man f.eks at bestemme kontantprisniveauet for en bolig p 130 m2 beliggende i omrde Nord anvendes modellen sledes:

Kontantpris = Intercept + Match(omrde 1) + 9,1*boligstrrelse = 745,11 + 98,06 + 9,1*130= 2026,17 alts godt 2.000.000 kr.

Nu s vi fr, at omrdebidraget ikke var signifikant. I andre sammenhnge, hvor boligstrrelsen ikke har vret inde i billedet, har vi set det modsatte. Forskellen kunne skyldes, at boligerne gennemgende er strre i nord end i syd, mens boliger af samme strrelse koster nogenlunde det samme begge steder, alts ingen snobeffekt. Forklaringen kunne dog ogs vre, at kvadratmeterprisen er forskellig i de to omrder. Det kunne man undersge ved at inddrage en vekselvirkning i modellen som vist i figur 7.7.

JMP-guide Side 76

Figur 7.7 Kovariansanalyse med vekselvirkning

Efter klik p Run fs et plot af de to estimerede linjer samt de sdvanlige standardudskrifter.

Af udskrifterne Summary of Fit, Analysis of Variance og Effect Tests fremgr det, at forklaringsgraden er nsten undret 0,376, at omr, boligst og boligst*omr tilsammen yder et signifikant bidrag til forklaring af variationen i kontantprisen p-vrdi = Prob > F < 0,0001 men at hverken omr eller boligst*omr marginalt yder et signifikant bidrag, idet p-vrdierne er p hhv. Prob>|t| = 0,1743 og Prob>|t| = 0,3411. Den frste p-vrdi er vsentlig mindre, de to andre vsentlig strre end det sdvanlige testniveau p 0,05.

JMP-guide Side 77

Udskrives modellen med alle parameterestimater i Sum to Zero-parametriceringen, fs:

Vekselvirkningsparametrene udtrykker ndringen i koefficienten til boligstrrelsen dvs. ndringen i kvadratmeterprisen afhngigt af, om boligen ligger nord eller syd for Kbenhavn. nsker man f.eks. at bestemme kontantprisniveauet for en bolig p 130 m2 beliggende i omrde Nord, anvendes modellen sledes:

Kontantpris = intercept + omr(Nord) + 7,96*boligst + 1,925*(boligst 164,64) = 910,4 +113,67 +7,96 *130 + 1,925*(130 164,64) = 1991,8 alts knap 2.000.000 kr.

Tabellen Expanded Estimates er, som den nu engang skal vre, mens udtrykket i Prediction Expression er nrmest ulseligt i dette tilflde, hvis ikke man ved, hvad der foregr.

JMP-guide Side 78

AAdd, 61Add condition, 18All rows, 19Analysis of Variance, 48AND, 16

BBartletts test, 55Binomial Distribution, 12Binomial Probability, 12Binomial Test, 44Binomialfordeling, 12Boligdata.jmp, 7Box Plot, 37, 54By, 60

CCases, 9CDF plot, 39Col Maximum, 16Col Mean, 16Col Minimum, 16Col NMissing, 16Col Number, 16Col Quantile, 16Col STD DEV, 16Col Sum, 16Column Info, 8, 11Column Properties, 9, 10Columns, 8Comparison, 17Conditional, 17Confidence Interval, 41Continuous, 8Continuous Fit, 38Cornerpoint, 66, 73Correlation of Estimates, 64Cross, 61, 68

DData Table, 5Datast i JMP, 7Density Ellipse, 50Discrete Probability, 12Display Options, 53, 54Does not equal, 18

EEdit Formula, 10Effect Test, 62, 66, 71 Enter Beginners Tutorial, 4

Estimates, 66, 69, 73, 77Estimerede model, 62Exclude/Unexclude, 19Expandad Estimates, 66, 69, 73, 77

FFactor Profiling, 64, 67, 70Fit Line, 48Fit Mean, 47Fit Polynomial, 50Fit Special, 50Forklaringsgrad, 48Formel-editoren, 10Formula, 10, 11, 16Fraktiler i normalfordelingen, 15Freq, 60Frihedsgrader, 48 F-test, 48, 62, 68, 71Functions, 12

GGenerel liner model, 60Grand Mean, 54Graph Builder, 21Group BY, 51

HHypotese, 40

IIF, 16If all conditions are met, 19If any condition is met, 19Indicator Function Parameterization, 66Initial Data Values, 10Interaction Plots, 70

JJMP starter, 5

KKonfidensgrad, 49Konfidensinterval, 41, 49Konfidenskurver, 49Kontinuert, 8Kopiere dele af output, 44Korrelationsmatrix for parameterestimater, 64

Stikordsregister

JMP-guide Side 79

LLag, 11Likelihood Ratio-testen, 58Linear Fit, 48Lock, 10Log, 11

MMatch, 67, 69, 73, 77Mean CI Lines, 54Mean Diamonds, 54Mean Error Bars, 54Mean Lines, 54Means/Anova/Pooled t, 57Missing, 10Moments, 37Mosaikplot, 59

NNavngivning af variablens kategorier, 8New Data Table, 5No Intercept, 61Nominal, 8Normal Distribution, 13Normal Quantile Plot, 39Normalfordelingen, 13Normalfraktildiagram, 39, 55NOT, 16Notes, 9

OObservationer, 9Odds Ratio, 59Open Data Table, 6Opslag i binomialfordeling, 12Opslag i normalfordelingen, 13OR, 16Ordinal, 8Outlier Box Plot, 37

PParallelle regressionslinjer, 74Parameter Estimates, 49Pearsons test, 58Prediction Expression, 63, 67, 69, 73, 77Predictions Formula, 64P-vrdier, 41

QQuantiles, 15, 37, 55

RR2, 48, 62Referencegruppe, 66, 73 Relative Risk, 59Residualplot, 63Respondenter, 9

Row Selection, 18Rows, 7RSquare, 62RSquare Adj, 62

SSave, 64Save Predicted, 64Save Residuals, 64Save Standardized, 64Select Where, 18Selected, 19Sequence Data, 10Signed Rank-testen, 41Signifikanssandsynligheder, 40Stack, 36Start JMP, 4Statistical, 16Sum of Squares, 62Sum to Zero, 66, 67, 69, 75, 77

TTabulate, 21, 27Test af populationshyppighed, 43Test i binomialfordelingen, 44Test Mean, 39Test Probabilities, 43T-fordelingen, 40Tildeling af value labels, 8Transform, 61T-test, 40, 48, 57, 64, 66

UUnequal Variances, 55

VValue label, 8Variabelnavne, 8Variabeltyper, 8Variable, 7Variansanalysetabel, 48Variates, 7Vekselvirkning, 68, 76Vekselvirkningsparametre, 69, 77

WWeight, 60Wilcoxon Signed Rank, 40

XX, Factor, 45, 52, 58

YY, Response, 45, 52, 58

ZZ-test, 40

JMP-guide Side 80

SAS INSTITUTE A/S . WWW.SAS.COM/DK

Kbmagergade 7-9 . DK-1150 Kbenhavn K . Telefon +45 70 28 28 70 . Kr. Kielbergsvej 3 . DK-8660 Skanderborg . Telefon +45 70 28 28 70

SAS er verdens frende leverandr af software og tjenesteydelser til business intelligence og business analytics. SAS er grundlagt i 1976, privatejet og uafhngig afeksterne konomiske interesser. Flere end 45.000 virksomheder over hele verden fr med SAS innovative lsninger grundlag for at trffe bedre beslutninger hurtigere. SAS og alle SAS Institute Inc.s produkter og ydelser er varemrker eller registrerede varemrker af SAS Institute Inc., Cary, NC, USA. indikerer registrering i USA og andre lande. SAS Institute A/S er et datterselskab af SAS Institute Inc., Cary, NC, USA. Copyright 2011. 01055/DK/0911

HVIS DU NSKER AT VIDE MERE OM JMP, KAN DU FLGE NEDENSTENDE LINK:

JMP information http://www.jmp.com JMP software http://www.jmp.com/softwareJMP 9 http://www.jmp.com/software/jmp9JMP for Academics http://www.jmp.com/academicJMP Events http://www.jmp.com/about/events

jmp guide

Documents

guide til jmp

statistical discovery

statistik jmpguide side

sas institute

know sas

integration til sas

nr sas

variable fit model