statistik med r - diva portal1378839/fulltext02.pdf · statistik med r lektionsserie i statistik...

Statistik med R

Lektionsserie i statistik för gymnasieskolans matematikkurs 2B och 2C

Statistics in R: Lectures in statistics for course 2B and 2C in mathematics at the Swedish gymnasium

Katarina Ekholm Selling

Fakultet: Fakulteten för hälsa, natur- och teknikvetenskap

Ämne/Utbildningsprogram: Matematik

Nivå/Högskolepoäng: 15 hp

Examinatorns namn: Eva Mossberg

Handledarens namn: Yvonne Liljekvist

Datum: 2019-12-07

Statistik med R Katarina Ekholm Selling


© 2019 – Katarina Ekholm Selling – (f. 1976)

Statistik med R: Lektionsserie i statistik för gymnasieskolans matematikkurs 2B och 2C

[Statistics in R: Lectures in statistics for course 2B and 2C in mathematics at the Swedish

gymnasium]

The author, Katarina Ekholm Selling, has made an online version of this work available un-

der a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.

Creative Commons-licensen: http://creativecommons.org/licenses/by-nc-nd/3.0/deed.sv


Till Jonas, Jelmer och Antero

för att ni på olika sätt bidrog till

uppkomsten av den här uppsatsen


Abstract

Statistical literacy – the ability to interpret, critically judge, and communicate

statistical information – is of major importance in today’s society as the ma-

jority of us are continuously exposed to conclusions drawn from statistics both

in media, at our workplace, in our community, and in school. In Sweden, sta-

tistics is part of the mathematics curriculum in school at different levels, in-

cluding in the gymnasium (years 10 to 12). The learning outcomes of the math-

ematics curriculum also include the use of programming in mathematical prob-

lem solving.

The aim of this thesis is to construct a realistic, structured, and appealing ses-

sion of statistics within the mathematics courses 2B and 2C in the gymnasium,

with aims in adherence with the expected learning outcomes in the curriculum.

Thus, this series of five lessons include an introduction to correlation and re-

gression analysis, but also common graphical representations and displays of

descriptive statistics such as the mean, median, and standard deviation; all cal-

culated by using the much utilized non-commercial and open-source statistical

software and programming language R. Throughout the series of lessons, the

learning activities are anchored in the general process of statistical problem

solving. The activities are primarily based on interactions with a dynamic soft-

ware, enabling the students to explore and interact with properly introduced

real world data from different disciplines. Other key activities include teacher-

moderated discussions in both smaller groups and in class, with special em-

phasis on critical thinking and related terms such as causality, as this is an

important part of becoming statistically literate.

The goals and learning activities of the proposed series of five lectures in sta-

tistics are founded in scientific literature concerning the didactics of statistics,

in particular the competencies required in developing statistical literacy. Thus,

the proposed series may enhance the student’s statistical literacy; a competence

that they will have use of in their everyday lives irrespective of future career

path.


Sammanfattning

Som medborgare dagens samhälle är det viktigt att behärska statistical literacy

– statistisk “läskunnighet”, eller -förståelse. Vi omges ständigt av statistisk in-

formation; statistik beräknas, tolkas och diskuteras av forskare och av politiker,

på arbetsplatser och i skolor och används som grund vid fattandet av beslut på

olika nivåer. Att förstå och värdera den statistik som presenteras i till exempel

media är också speciellt viktigt nu i tider av ”fake news” och ”alternativa

fakta”.

Sedan slutet av 1960-talet ingår statistikämnet i matematikämnet i läroplanerna

för både grundskolan och gymnasiet. Statistikdelarna i ämnesplanen i matema-

tik för gymnasieskolan handlar om orientering i hur statistiska metoder och

resultat används i dagligt bruk, med inslag av kritiskt ifrågasättande i form av

diskussion kring kausalitet. Specifika statistiska metoder som ska täckas är

regressionsanalys, korrelation och läges- och spridningsmått, med hjälp av di-

gitala verktyg. Vidare innehåller statistikdelen genomgång av moment för be-

räkning av sannolikheter.

Syftet med min uppsats är att skapa en genomförbar, strukturerad och engage-

rande lektionsserie om fem lektioner inom statistikdelen i matematikämnet för

elever i gymnasiet, som täcker tre av fyra mål i läroplanerna för matematikkur-

serna 2B och 2C. I lektionsserien används det digitala verktyget R vid beräk-

ningar. Lektionsserien omfattar beräkning av regressionsanalys, korrelation

samt läges- och spridningsmått med hjälp av R, men också inslag av kritiskt

ifrågasättande i form av diskussion kring kausalitet och rimlighet i tolkning av

statistiska analyser. Lektionsserien förankras i den generella processen vid

statistisk problemlösning och tar avstamp i statistikdidaktisk forskning. Verk-

liga data från olika källor används genomgående i lektionsserien, för att knyta

matematik- och statistikämnet till olika tillämpningsområden och för att syn-

liggöra statistikens roll i samhällsdebatten. Lektionsserien kommer med lärar-

handledning för de olika momenten inklusive inläsningstips och länkar, färdig-

preparerad R kod med förklarande kommentarer för de olika momenten, fär-

diga datamaterial att använda både i genomgångar men också i datalaborat-

ioner som eleverna genomför i mindre grupper.

Aktiviteterna och momenten i lektionsserien har planerats i relation till kurs

2B och 2C i gymnasiet, men också för att främja elevernas statistical literacy;

en kompetens som är av stort värde för eleverna i deras vardag nu, men även i

framtiden.


Innehållsförteckning

1 INLEDNING ........................................................................................... 1

1.1 VAD ÄR STATISTIK? .............................................................................. 1

1.1.1 Statistik och matematik ................................................................ 1

1.1.2 Statistik och digitala verktyg ........................................................ 2

1.2 STATISTIK I ÄMNESPLAN FÖR MATEMATIK ............................................ 2

1.2.1 Är det viktigt att lära sig statistik i skolan? .................................. 3

1.2.2 Mer ”passande” inom andra ämnen? ........................................... 4

1.3 SYFTE.................................................................................................... 4

2 LITTERATURGENOMGÅNG ............................................................ 5

2.1 STATISTIKDIDAKTISK FORSKNING ......................................................... 5

2.2 VAD MENAS MED STATISTISK PROBLEMLÖSNING?................................. 6

2.3 EN MODELL OM STATISTISKT TÄNKANDE .............................................. 7

2.3.1 Transnumeration .......................................................................... 9

2.4 LITERACYBEGREPP INOM STATISTIKDIDAKTIK .................................... 11

2.4.1 Data literacy ............................................................................... 11

2.4.2 Statistical literacy ....................................................................... 12

2.5 SAMMANFATTNING AV BEGREPP OCH MODELLER ................................ 13

2.6 HUR KAN TEORIERNA ANVÄNDAS I SKOLAN? ...................................... 14

3 PRESENTATION AV LEKTIONSSERIE ....................................... 17

3.1 FÖRVÄNTADE FÖRKUNSKAPER ............................................................ 17

3.2 UPPBYGGNAD AV LEKTIONSSERIEN ..................................................... 17

3.2.1 Teoretiska ramar och övergripande mål ..................................... 17

3.2.2 Mål, innehåll och aktiviteter med koppling till teorier .............. 18

3.2.3 Lektionsserien – koppling till bilagor ........................................ 22

4 DISKUSSION ....................................................................................... 25

4.1 VAL AV UPPLÄGG FÖR LEKTIONSSERIE ................................................ 25


4.1.1 Utmaningar i genomförandet av lektionsserien ......................... 26

4.2 STATISTIKÄMNET I SKOLAN ................................................................ 27

4.2.1 Motstånd till statistikämnet hos lärare? ..................................... 27

4.2.2 Skilja på statistisk beräkning och statistisk tolkning? ................ 29

4.3 AVSLUTANDE KOMMENTARER ............................................................ 30

REFERENSER ............................................................................................. 31

BILAGA 1: FÖRBEREDELSER ............................................................... 35

BILAGA 2: R KOD, FÖRBEREDELSER ................................................ 39

BILAGA 3: ELEVFÖRBEREDELSER, LEKTIONER .......................... 41

BILAGA 4: LÄRARHANDLEDNING, LEKTIONER ............................ 43

BILAGA 5: PRESENTATION AV EXEMPEL ....................................... 53

BILAGA 6: R KOD, LEKTIONER ........................................................... 57

BILAGA 7: FORMATIVA UTVÄRDERINGAR .................................... 65

BILAGA 8: LÄRARHANDLEDNING, LABORATION ......................... 69

BILAGA 9: INTRODUKTION DATA, LABORATION ......................... 73

Figur- och tabellförteckning

Tabell 1. Centralt innehåll under rubriken sannolikhet och statistik……………….....2

Figur 1. Generella steg i en statistisk undersökning…………………………………6

Figur 2. Förenklad version av Wild and Pfannkuchs modell………………………..8

Figur 3. Transnumeration i den undersökande cykeln……………………………..10

Figur 4. Exempel: data literacy……………………………………………………11

Figur 5. Exempel: statistical literacy……………………………………………...12

Figur 6. Sammankoppling av genomgångna begrepp och modeller……………….13

Tabell 2. Övergripande mål och moment i lektionsserien…………………………..20

Tabell 3. Mål och huvudsakliga aktiviteter i de fem lektionerna……………………21

Figur 7. Lektionsserien – koppling till bilagor……………………………………..23


1

1 INLEDNING

1.1 Vad är statistik?

Statistiken är, som vetenskap, interdisciplinär och statistiska metoder används

i stort sett inom alla discipliner (Nationalencyklopedin). Statistiska resultat och

tolkningar rapporteras således därför dagligen i till exempel media. Om jag

skulle sammanfatta vad statistik är för mig, skulle jag säga att statistisk analys

handlar om att med digitala verktyg dynamiskt analysera data med hjälp av

beskrivande statistik, visualiseringar och statistiska modeller av olika slag; för

att identifiera och hantera osäkerhet i data, söka mönster, samband eller skill-

nader och för att prediktera nya observationer. Dessa statistiska analyser görs

i syfte att svara på frågeställningar och hypoteser som ofta har sin bas i ett

annat område. En annan viktig del inom statistiken innefattar planering av stu-

dier och experiment inklusive insamlandet av data; denna planering är en för-

utsättning för de statistiska analyserna. Sist men inte minst handlar statistik om

att göra tolkningar och rimlighetsbedömningar av olika analysresultat, omsatta

i den verklighet som studeras. Jo Hardin, professor vid institutionen för ma-

tematik och statistik vid Pomona College, Kalifornien, USA sammanfattar det

så här: ”Statistics is using data and knowledge about randomness to condense,

communicate, and contextualize information and provide insight to the setting

from which the data came.” (Hardin, American Statistical Association).

1.1.1 Statistik och matematik

Statistikämnet har sin naturliga bas inom matematiken men betraktas sedan

länge som en egen disciplin. Detta sammanfattas som följer av en känd statisti-

ker vid namn John Tukey, som var verksam bland annat vid Princeton Univer-

sity, New Jersey, USA: ”Statistics is a science, not a branch of mathematics,

but uses mathematical models as essential tools” (Brillinger). Att statistiken

har sin bas inom matematiken kan exemplifieras med att det i en statistikex-

amen ofta ingår matematikkurser som algebra, en- och flervariabelanalys och

diskret matematik, eftersom denna matematiska bas är nödvändig i yrkesutö-

vandet oavsett senare inriktning i yrkeslivet som statistiker. En väsentlig skill-

nad mellan matematisk och statistisk metodutveckling är dock att för statisti-

ken gäller att den, till skillnad från matematiken, inspirerats av problem inom

andra vetenskapliga discipliner (medicin, biologi, industriell teknik, beteende-

vetenskap, samhällsvetenskap för att nämna några) (Nationalencyklopedin).


2

1.1.2 Statistik och digitala verktyg

Den absoluta majoriteten av alla statistiska beräkningar och studier idag inne-

fattar digitala verktyg i form av olika statistiska programvaror. Två program-

varor och programmeringsspråk som på senare tid blivit alltmer populära inom

statistik och ”data science”, och som numera dominerar räknat i antalet använ-

dare är R och Python (R Core Team, 2019; Python, 2019). R är både ett pro-

grammeringsspråk och en kraftfull statistisk icke-kommersiell programvara

med öppen källkod. Majoriteten av den metodutveckling som sker inom sta-

tistik och data science, inklusive metoder inom artificiell intelligens och ma-

skininlärning, publiceras i paket (moduler) i R. Med vissa förkunskaper i pro-

grammering är R ett relativt enkelt verktyg att använda för ämnesberäkningar.

1.2 Statistik i ämnesplan för matematik

Sedan slutet av 1960-talet ingår statistikämnet i matematikämnet i läroplanerna

för både grundskola och gymnasiet och sedan 2018 ska programmering använ-

das som ett verktyg vid problemlösning (Skolverket, 2011a och 2011b). I äm-

nesplanen för gymnasiet ingår sannolikhet och statistik i matematikkurserna

1B och 1C samt 2B och 2C, och både B- och C-kurserna har i princip samma

innehåll med avseende på statistik, se Skolverket (2011b). Det centrala inne-

hållet i statistik sammanfattas i tabell 1.

Tabell 1. Centralt innehåll under rubriken sannolikhet och statistik.

Kurs 1B/1C -Granskning av hur statistiska metoder och resultat används i samhället och inom vetenskap. -Begreppen beroende och oberoende händelser samt metoder för beräkning av sannolikheter vid slumpförsök i flera steg med exempel från spel och risk- och sä-kerhetsbedömningar.

Kurs 2B/2C -Statistiska metoder för rapportering av ob-servationer och mätdata från undersökningar inklusive regressionsanalys med digitala verk-tyg. -Orientering och resonemang när det gäller korrelation och kausalitet (2B). -Metoder för beräkning av olika lägesmått och spridningsmått inklusive standardavvikelse, med digitala verktyg. -Egenskaper hos normalfördelat material och beräkningar på normalfördelning med digi-tala verktyg.

https://www.skolverket.se/undervisning/gymnasieskolan/laroplan-program-och-am-

nen-i-gymnasieskolan

Kortfattat kan sägas att statistikdelarna i matematik i läroplanen för gymnasie-

skolan handlar om orientering i hur statistiska metoder och resultat används i


3

dagligt bruk, med inslag av kritiskt ifrågasättande i form av diskussion kring

kausalitet (se tabell 1). Specifika statistiska metoder som ska täckas är beräk-

ning av regressionsanalys, korrelation och läges- och spridningsmått, med

hjälp av digitala verktyg. Vidare innehåller både kurs 1 och 2 genomgång och

metoder för beräkning av sannolikheter.

1.2.1 Är det viktigt att lära sig statistik i skolan?

Man kan tänka att statistik är en rättighet för alla. Genom statistik kan vi få reda på mer om vårt samhälle och hur det sköts. Men man behöver kunna förstå och använda statistiken på rätt sätt.

Statistiska centralbyrån (b)

Andemeningen i ovan citat handlar om vikten av statistical literacy – statistisk

läskunnighet eller förståelse – bland medborgare i dagens samhälle. Begreppet

beskrivs av Gal (2002) som förmågan att tolka, kritiskt granska, och kommu-

nicera statistisk information av olika slag.

Som medborgare i dagens samhälle är det viktigt att behärska statistical lite-

racy därför att statistisk information ständigt finns omkring oss och diskuteras

av forskare, politiker, på arbetsplatser och i skolor och används som grund vid

fattandet av beslut på olika nivåer och med olika stora konsekvenser. Att förstå

och värdera den statistik som presenteras i till exempel media är också speciellt

viktigt nu i tider av ”fake news” och ”alternativa fakta”. Statistisk information

misstolkas nämligen ibland; medvetet och omedvetet, se till exempel ”Misle-

ading statististics examples – discover the potential for misuse of statistics and

data in the digital age”, Lebied (2018). En bra sammanfattning kring statisti-

kens roll i politiken på senare tid har skrivits av Harford (2016), i artikeln

”How politicians poisoned statistics”.

Det är svårt att hitta undersökningar om hur svenska gymnasielever ser på sta-

tistikämnet. Eftersom statistik ingår inom matematikämnet kan det förstås vara

så att de ser på statistikämnet och -undervisningen som de gör på matema-

tikämnet och -undervisningen generellt. En undersökning genomförd av det

svenskgrundade mjukvarubolaget Qlik har dock visat att bland ungdomar mel-

lan 16 och 24 år, har nästan 80% svårt att avgöra om statistik i nyhetsrappor-

tering framställs på ett manipulativt sätt eller ej (Karlsson, 2019, originalun-

dersökningen finns tillgänglig här: https://www.qlik.com/us/bi/data-literacy-

report). Man kan därför undra om det är så att statistikdelen i matematikämnet

ändå har utmaningar av delvis annan art?


4

1.2.2 Mer ”passande” inom andra ämnen?

I podcasten ”Didaktorn”, avsnittet ”Förbannad statistik”, intervjuas SO-läraren

Henric Isaksson, som säger att: ”Den svenska skolan har problem med att han-

tera statistik i undervisningen”. Han menar att användandet och tolkningen av

grafer samt beskrivande statistik förstås mycket lättare av eleverna när mo-

mentet faller inom samhällsorienterade ämnen, jämfört med inom matema-

tikämnet. Även om Isaksson inte genomfört en vetenskaplig studie utan ut-

trycker sig utifrån egna erfarenheter, är hans åsikter intressanta att fundera

över, eftersom min uppfattning är att han inte är ensam om att hysa dem. En

av avsikterna med denna uppsats är därför att ta reda på om det finns någon

forskning som stödjer eller motsäger Isakssons åsikter, vilket i så fall kan få

bäring på hur en lektionsserie i statistik skulle kunna konstrueras och läromå-

len i statistik uppnås bäst.

Intressant är också att reflektera över att Isaksson, tillsammans med Statistiska

centralbyrån, arbetat fram en lärarhandledning (Statistiska centralbyrån (b)).

Jag har inte, på Statistiska centralbyråns hemsida, hittat någon lärarhandled-

ning för matematiklärare i högstadiet eller gymnasiet, vilket, tänker jag, skulle

falla sig än mer naturligt eftersom statistik ingår i matematikämnet i grundsko-

lan och gymnasiet.

1.3 Syfte

Syftet med min uppsats är att skapa en genomförbar, strukturerad och engage-

rande lektionsserie om fem lektioner inom statistikdelen i matematikämnet för

elever i gymnasiet. Mer precist kommer jag utgå från av de tre första punkterna

i centralt innehåll för matematikkurserna 2B och 2C i konstruktionen av lekt-

ionsserien, som baseras på det digitala verktyget R. Lektionsserien kommer

således omfatta beräkning av regressionsanalys, korrelation samt läges- och

spridningsmått med hjälp av R, men också inslag av kritiskt ifrågasättande i

form av diskussion kring kausalitet och rimlighet i tolkning av statistiska ana-

lyser. Lektionsserien förankras i den generella processen vid statistisk pro-

blemlösning och tar avstamp i statistikdidaktisk forskning. Verkliga data från

olika källor kommer genomgående att användas i lektionsserien, för att knyta

matematik- och statistikämnet till olika tillämpningsområden och för att syn-

liggöra statistikens roll i samhällsdebatten.


5

2 LITTERATURGENOMGÅNG

I detta avsnitt beskrivs, i huvuddrag, några viktiga teorier och begrepp inom

statistikdidaktisk forskning. I genomgången försöker jag ibland belysa teori-

erna och begreppen med exempel tagna ur mitt arbete som statistiker. Teorige-

nomgången följs av en summering kring hur forskningsresultaten kan använ-

das i skolan. Noteras kan att jag avgränsat litteraturgenomgången till enbart

statistikdidaktik och tar därför inte upp relaterade områden som programme-

ring och digitala verktyg i skolan, matematikdidaktik och matematisk problem-

lösning, samt forskning kring problemlösning i grupp.

2.1 Statistikdidaktisk forskning

Enligt Shoughnessy (2007) har statistikdidaktisk forskning ökat de senaste de-

cennierna och huvudinriktningen på forskningen har varit vuxnas, studenters

och elevers förståelse av statistiska begrepp. Vad som inte varit lika framträ-

dande i forskningen är lärarnas kunskap och undervisningsmetoder i statistik-

ämnet. Shoughnessy sammanfattar det så här:

Our teaching force is undernourished in statistical experience, as statistics has not often been part of many teachers’ own school mathematics programs. In many schools there is a tremendous need for professional development in the area of statistics.

Shoughnessy, 2007 (s. 959)

Shoughnessy (2007) beskriver vidare att det finns tre huvudtyper av modeller

inom statistikdidaktik: modeller gällande statistiskt tänkande, modeller gäl-

lande statistical literacy, samt utvecklings- och kognitiva modeller. I littera-

turgenomgången fokuseras på de första två huvudtyperna. Shoughnessy po-

ängterar att den första typen av modeller, gällande statistiskt tänkande, bör

uppfattas som normativa modeller av vad statistiker tycker är de viktigaste

koncepten och processerna inom sin egen disciplin. Den andra typen av mo-

deller, gällande statistical literacy, hjälper oss att bli informerade samhälls-

medborgare. Litteraturgenomgången nedan kommer dock också visa på att

dessa två typer av modeller är delvis sammanlänkade.


6

2.2 Vad menas med statistisk problemlösning?

Det viktigt att förstå den generella processen vid statistisk problemlösning för

att förstå teorierna och begreppen i följande stycken, därför ges här en intro-

duktion. Tänk dig att du är statistiker och av ett företag som vill anlita dig för

att göra en undersökning får frågan: ”Är vår produkt bättre än andra liknande

produkter som redan finns på marknaden?” (för övrigt en mycket vanlig fråga

inom till exempel läkemedelsindustrin). Hur kan du hjälpa dem att svara på

det? I en statistisk undersökning ingår allmänt de fem generella steg som pre-

senteras i figur 1. Denna process anses vara universell inom statistiken, och

beskrivs således i många läroböcker och dokument, se till exempel Dahmström

(2011), Statistiska centralbyrån (c) och Shoughnessy (2007). En annan variant

av figur 1 presenterad nedan, men med samma innehåll, återfinns i figur 1,

bilaga 4.

Figur 1. Generella steg i en statistisk undersökning.

Utgångspunkten i en statistisk undersökning är ett problem (se figur 1) och

detta problem uttrycks ofta i form av frågeställningar eller hypoteser. Fråge-

ställningarna är sällan kristallklara i början av en statistisk undersökning, de

behöver diskuteras i flera omgångar innan samsyn nås för att kunna operation-

aliseras. Ta till exempel: ”Är vår produkt bättre än andra liknande produkter

som redan finns på marknaden?”; frågan kan tyckas enkel men när den ska

operationaliseras uppstår flera följdfrågor, till exempel: ”bättre på vilket sätt?”,

”hur mycket bättre ska den vara för att klassas som ’bättre’?” och ”vad menas

egentligen med ’liknande produkter’?”. Detaljerade diskussioner och samsyn i

denna fas är dock en förutsättning för kommande delar.

Problem

Planering

DataAnalys

Tolkning


7

I planeringsfasen (figur 1) planeras hur data ska samlas in för att kunna svara

på frågeställningen. I denna fas ingår således bestämmande av studiedesign,

hur mycket data som behövs samlas in, vilka variabler som ska ingå samt hur

de ska definieras och mätas. Det som skiljer planeringsfasen inom statistik från

matematikens är att statistiska data är mycket stökigare på grund av till exem-

pel risken för systematiska fel och bortfall (Shoughnessy, 2007). I datasteget

samlas data in, matas in och checkas i programvara för att till exempel upp-

täcka inmatningsfel; nya variabler behöver också ofta skapas för att bättre ut-

trycka det som frågas. Omkodning av variabler och skapandet av nya variabler

benämns ofta ”data management”.

I analyssteget, se figur 1, analyseras data med hjälp av beskrivande statistik

och grafer för att ”lära känna” data. Vid analyserandet av dessa olika beskri-

vande representationer av data upptäcks ofta oegentligheter i form av till ex-

empel bortfall och inmatningsfel. Kanske upptäcks även att vissa av variab-

lerna inte är uttryckta riktigt på det sätt som önskas. I dessa fall behöver man

backa till datasteget och rätta till felen, för att kunna fortsätta analyserna. Efter

det inledande ”lära känna data” analyserna görs ofta statistiska tester och mo-

deller som tolkas utifrån rimlighet; inte bara beräkningsmässig rimlighet utan

också kontextuell. Detta brukar ingå i begreppet modellvalidering. I valide-

ringssteget är det också vanligt att backa till beskrivande statistik, och kanske

även till datasteget, för att förstå och kunna tolka resultaten.

I sista steget, tolkning (figur 1), tolkas analysresultaten i relation till kontexten,

generaliseringar till större grupper görs med hjälp av till exempel statistisk in-

ferens (p-värden och konfidensintervall), övergripande konklusioner dras,

kvarvarande felkällor, såsom bortfallsproblem eller svagheter i studiedesign,

identifieras och resultaten kommuniceras till mottagare. Tolkning och kon-

klusioner i det sista steget ska givetvis ge svar på problemet i första steget.

Poängteras kan att hela processen ofta är iterativ; cirkeln kan gås igenom mer

än ett varv. Pilarna är heller inte alltid enkelriktade i realiteten, som exempli-

fierats ovan.

2.3 En modell om statistiskt tänkande

Med figur 1, som innehåller för statistiker allmängiltiga problemlösningssteg,

som grund har Wild och Pfannkuch (1999) skapat en modell om tänkandet vid

statistisk problemlösning. Förståelse av denna modell förutsätter att läsaren är

bekant med hur en statistisk undersökning går till. Utgångspunkten i modellen

är den cykel som presenterats i figur 1 och som exemplifierades och förklara-

des i 2.2. Den kallas av Wild och Pfannkuch för undersökande cykel. Förfat-

tarna menar i sin modell att när statistiker arbetar med problemlösning, arbetar


8

de förutom med den undersökande cykeln även simultant i tre andra dimens-

ioner: frågande cykel, disposition och typer av tänkande. I figur 2 presenteras

en förenklad version av författarnas modell, där cykeln till vänster är den

samma som tidigare presenterats i figur 1. Observera att tolkningen och över-

sättningen av termerna är mina egna.

Figur 2. Förenklad version av Wild och Pfannkuchs (1999) modell. Min tolk-

ning och översättning.

Medan basen i modellen, den undersökande cykeln (figur 2; vänster cykel),

handlar om de allmänna stegen i statistisk problemlösning, handlar den frå-

gande cykeln (figur 2; höger cykel) istället om tankeprocesserna kring egna

och andras förutfattade meningar, viljor och känslor kring arbetet med och re-

sultatet av en statistisk undersökning (Wild och Pfannkuch, 1999). Den frå-

gande cykeln pågår simultant med arbetet i den undersökande cykeln och in-

nehåller de fem beståndsdelarna: generera, söka, tolka, kritisera och bedöma.

Dessa fem delar beskriver, enligt Shoughnessy (2007), en metakognitiv pro-

cess som skiljer statistisk problemlösning från matematisk problemlösning.

För att exemplifiera: Jag som statistiker får inte, under arbetet med en under-

sökning, påverkas av kundens önskemål om resultat i analyser och inte heller

mina egna åsikter och önskemål; resultat och tolkningar ska endast baseras på

vad data ”säger”. Det är en utmaning eftersom jag som statistiker måste vara


9

medveten om mina egna eller andras önskemål, men också vara medveten om

att jag är medveten om dem, och hur detta i sin tur påverkar mig i den statist-

iska problemlösningen. Det kan gälla till exempel vid samarbete med läkeme-

delsföretag, då mycket står på spel både ekonomiskt och förstås säkerhets-

samt etikmässigt. Oavsett om jag, som ansvarig statistiker, säger att ”ert läke-

medel är inte bättre än konkurrenternas”, eller ”ert läkemedel är bättre än kon-

kurrenternas” behöver jag vara säker på att det är det som data faktiskt ”säger”

och att den tolkning av de statistiska analyserna jag framför inte har influerats

av mina eller andras önskemål.

De två sista dimensionerna i Wild och Pfannkuchs (1999) modell: typer av

tänkande samt disposition, innehåller, i stort, olika typer av tänkande och stra-

tegier som generellt är närvarande och önskvärda vid universell, matematisk

respektive statistisk problemlösning (figur 2; rutorna). Dimensionen disposit-

ion innehåller de mer universella delarna av problemlösning, som till exempel

kreativitet, nyfikenhet, engagemang och uthållighet. Dimensionen typer av

tänkande delas av författarna upp i en mer generell del och en del som är typisk

vid statistisk problemlösning. Den generella delen beskriver de strategiska de-

larna av matematisk problemlösning, såsom sökandet efter förklaringar, mo-

dellering och applikation av olika tekniker (Shoughnessy, 2007). Den andra

delen i dimensionen typer av tänkande består av delar som, enligt Wild och

Pfannkuch (1999), är specifika för statistisk problemlösning, såsom identifi-

kation av samt behovet av data, beaktandet av variation i data, resonerandet

kring statistiska modeller och statistisk slutledning, integrering av det statist-

iska och det kontextuella och transnumeration. En del av ovan har exemplifi-

erats i 2.2; begreppet transnumeration beskrivs och exemplifieras i nästa

stycke.

2.3.1 Transnumeration

Statistiskt tänkande innefattar utvinnandet av dold information från data, vilket

förutsätter en ständigt pågående dialog mellan data, kontexten och använda-

ren/tolkaren (Pfannkuch, Rubick och Yoon, 2002), för illustration se vänster

cykel i figur 3. Den typ av tänkande som kallas för transnumeration inom

statistikdidaktik agerar, enligt författarna, som en katalysator för denna dialog.

Begreppet har sin bas i Wild och Pfannkuchs (1999) modell om statistiskt tän-

kande (i dimensionen typer av tänkande, se figur 2) och författarna myntade

också begreppet (Shoughnessy, 2007). Begreppet lyfts fram separat eftersom

en hel del av statistikdidaktikforskningen fokuserar på just denna bit av Wild

och Pfannkuchs modell. Transnumeration sker enligt Pfannkuch, Rubick och

Yoon (2002) i tre steg i den, tidigare i figur 1 presenterade, undersökande cy-

keln (se figur 3).


10

Figur 3. Transnumeration i den undersökande cykeln.

Första steget i transnumeration sker, enligt Pfannkuch, Rubick och Yoon

(2002), i de tre första stegen i den undersökande cykeln (se figur 3). Som tidi-

gare nämnts, kan till exempel frågan ”Är vår produkt bättre än andra liknande

produkter som redan finns på marknaden?” tyckas enkel att undersöka vid en

första anblick, men för att översätta den till en statistiskt genomförbar fråge-

ställning behöver den snävas in och konkretiseras för att sedan kopplas till stu-

diedesign och insamling av data. Det finns flera möjliga följdfrågor för att kon-

kretisera frågeställningen, varav en är ”bättre på vilket sätt?”. Är det produk-

tens hållbarhet som testas, eller är det användarnas uppfattning av produkten;

eller är det kanske något annat såsom säkerhetsmässiga aspekter? Vidare är det

viktigt att fastställa om det räcker med ett nedslag (till exempel via en enkät-

undersökning av användare av produkten, alternativt ett hållbarhetstest av ett

slumpmässigt urval av produkten) eller om produkten/användarna bör följas

över tid, vilket är vanligt i till exempel medicinska studier. Det första steget i

transnumeration handlar således om översättandet av problem eller frågeställ-

ningar till precisa statistiska frågeställningar och hypoteser utifrån kontext, för

att därigenom planera studiedesign och datainsamling. För att detta ska bli bra

behövs en dynamisk dialog mellan användare – data – kontext (figur 3).

Det andra steget i transnumeration sker, enligt Pfannkuch, Rubick och Yoon

(2002), då olika, multipla, representationer av data såsom grafer och deskrip-

tiva mått, tabeller, men även resultat av modeller produceras, granskas och tol-

kas för att försöka ”lära känna” data och vad data säger om verkligheten (figur

Användare

KontextData

Problem

Planering

DataAnalys

Tolkning

Transnumeration

1

2

3


11

3). Olika representationer av data kan nämligen visa på olika mönster och sam-

band i data. Det andra steget handlar således till stor del om dynamisk inter-

aktion med data i statistisk programvara. Det tredje steget i transnumeration

sker, enligt författarna, i kommunikation av de statistiska resultaten till motta-

gargruppen; där kommunikationen är anpassad till mottagarna, förståelig, kor-

rekt och övertygande, och där huvudfokus är att svara på själva frågeställ-

ningen i den kontext där den ställdes.

2.4 Literacybegrepp inom statistikdidaktik

Den svenska översättningen av ordet literacy är läs- och skrivkunnighet. Nu-

mera har begreppet vidgats till att även inkludera bland annat siffror, bilder,

digitala medier samt social och kulturell medvetenhet; fokus ligger på kompe-

tenserna som behövs för att vara ”litterat” inom ett område (UNESCO, 2006).

Två delvis relaterade literacybegrepp: data literacy och statistical literacy för-

klaras nedan.

2.4.1 Data literacy

Termen data literacy definieras på Wikipedia som: “…the ability to read, work

with, analyze, and argue with data.” Bryla (2018) förklarar begreppet med föl-

jande exempel: betrakta figur 4 och då speciellt de grönmarkerade sifforna.

Vad säger dessa sammanställningar av data? a) att det är 60% chans att det

regnar mellan 2 och 10 millimeter, b) att det är 60% chans för regn inom de

närmaste 24 timmarna, eller c) att det är 40% chans att det regnar mindre än

två millimeter. (Rätt svar är alternativ b)). Dessa tre alternativ representerar tre

olika tolkningar av informationen som beskriver två utfall – chansen för regn

och förväntad nederbördsmängd. För att tolka informationen korrekt behövs

bland annat en grundläggande uppfattning om begreppet data, hur data rappor-

teras och används - vid väderleksrapporter i detta fall - samt förståelse av be-

greppet ”chans” och sannolikheter.

Figur 4. Exempel: data literacy.

https://www.tableau.com/about/blog/2018/9/data-literacy-critical-skill-21st-century-94221


12

2.4.2 Statistical literacy

Begreppet statistical literacy beskrivs ofta som förmågan att tolka, kritiskt

granska, och kommunicera statistisk information av olika slag (Gal, 2002).

Garfield och Ben-Zvi (2007) beskriver begreppet så här:

[Statistical literacy] involves understanding and using the basic language and tools of statistics: knowing what basic statistical terms mean, understanding the use of simple statistical symbols, and recognizing and being able to interpret different representations of data.

Garfield och Ben-Zvi, 2007 (s. 380)

Bilden i figur 5 kommer från ett föredrag av Gal och Kotelawala (Appleton,

2019). Precis som vid data literacy exemplet i figur 4 behöver tolkaren av figur

5 besitta vissa kompetenser gällande data och begrepp som sannolikheter. Men

för att tolka figur 5 behövs även grundläggande kunskap om olika typer av

datarepresentationer. Dessutom innefattar begreppet statitical literacy även

kompetenser som kritiskt förhållningssätt – det vill säga att tolkaren automa-

tiskt ställer sig frågan ”är det reportern säger överensstämmande med den re-

presentation av data hen använder sig av i sitt argument?”. I exemplet i figur 5

bör tolkaren till exempel uppfatta att närmare inspektion av skalan på y-axeln

leder till ett visst ifrågasättande av reporterns påstående, samt kanske också

reflektera över hur ”school violence” definieras, vilka data som ligger till

grund för påståendet och i vilken kontext uttalandet äger rum.

Figur 5. Exempel: statistical literacy.

http://nyccami.org/civic-statistics-and-statistical-literacy/

Begreppet statistical literacy består av många kompetenser som ska samverka.

I Gals modell av statistical literacy ingår två dimensioner som han kallar kun-


13

skap och disposition (Gal, 2002). Dimensionen kunskap innehåller bestånds-

delar som kompetens, statistiskt och matematiskt kunnande och kunskap om

kontexten. Den andra dimensionen, disposition, innefattar delar som attityder

och kritiskt förhållningssätt. Både närvaron och synergin av alla ovan presen-

terade delar bidrar alltså till statistical literacy. Noteras kan att även om det

finns viss överlappning mellan Gals modell och Wild och Pfannkuchs modell

i avsnitt 2.3, baseras Gals modell på vad ungdomar och vuxna behöver för att

vara informerade samhällsmedborgare, medan Wild och Pfannkuchs modell

baseras på hur statistiker tänker när de löser ett problem (Shoughnessy, 2007).

2.5 Sammanfattning av begrepp och modeller

Figur 6 skapades som ett försök att ställa begrepp och modeller i relation till

varandra och infogas i uppsatsen med förhoppningen att den, trots sina förenk-

lingar och brister, hjälper läsaren. Statistical literacy valdes som ”slutprodukt”

eftersom det är en viktig kompetens att besitta i dagens samhälle, där de flesta

av oss är statistikkonsumenter (Bakker, 2004; Gal, 2002; Garfield och Ben-

Zvi, 2007; Shoughnessy, 2007). Begreppet innefattar både matematiskt- och

statistiskt kunnande, men också kontextuellt kunnande och kritiskt ifrågasät-

tande, där de första två kompetenserna i allmänhet kopplas till beräkningar och

de senare till tolkningar av statistiska analyser; därav valet av orden ”beräk-

ning” och ”tolkning” i figuren.

Figur 6. Sammankoppling av genomgångna begrepp och modeller.


14

Som grundförutsättningar i figur 6 har jag satt data literacy i meningen ”grund-

läggande förståelse för vad data är” samt matematik- och grundläggande sta-

tistikkunskaper, där jag tänker att dessa motsvarar det som står i läroplanerna

för grundskola och gymnasium (Skolverket, 2011a och 2011b). Nästa steg in-

nefattar grundläggande förståelse av den statistiska processen (figur 1), kallad

undersökande cykel av Wild och Pfannkuch (1999), se även figur 2. Hjälpme-

del för att utveckla denna förståelse, men också förståelsen av grundläggande

statistiska begrepp, tänker jag är transnumeration som lärs framför allt via dy-

namisk interaktion med data (Bakker, 2004; Pfannkuch, Rubick och Yoon,

2002; Shoughnessy, 2007); att vara bekant olika representationer av data (pre-

senterad i figur 3). Jag har i figur 6 också infogat delar av den frågande cykeln

(framför allt kritiskt förhållningssätt) (Wild och Pfannkuch, 1999), som även

presenteras i figur 2. Betydelsen av kompetensen kritiskt förhållningssätt inom

statistical literacy betonas också av Gal (2002).

2.6 Hur kan teorierna användas i skolan?

Det finns förstås flera sätt att använda statistikdidaktiska teorier i skolan. Teo-

rin om statistiskt tänkande av Wild och Pfannkuch (1999) kan användas för att

analysera elevernas och lärarnas statistiska tänkande, inte bara hur statistiker

tänker. Detta framförs av till exempel Pfannkuch, Rubick och Yoon (2002) och

Shoughnessy (2007). Vidare är användandet av teorier, enligt Shoughnessy, ett

värdefullt verktyg inte bara inom ämnesdidaktiken och därigenom vid lekt-

ionsplanering, utan också vid utformning av läroplaner. Detta menar också

Bakker (2004), som vill att begreppet statistical literacy lyfts fram som centralt

vid utveckling av framtida läroplaner i statistikämnet i skolan, vilket redan

gjorts i till exempel Nya Zeeland (Ministry of Education, the New Zealand

curriculum online). Ett exempel på ett relativt enkelt sätt att i ökad grad få in

statistical literacy i undervisningen är, enligt Gordon och Nicholas (2009), an-

vändandet av verkliga och välförankrade exempel i statistikundervisningen,

vilket också stöds av andra studier (Merryman, 2006). Enligt författarna kan

detta främja aktivt lärande, förståelsen av statistiska begrepp och kritiskt tän-

kande, och därigenom statistical literacy.

Shoughnessy (2007) menar att en statistisk lärandemiljö som innefattar trans-

numeration skulle kunna uppkomma om lärare och läroplansutvecklare tog till

sig av de forskningsresultat som rekommenderar att elever borde ha större möj-

ligheter att skapa sina egna representationer av data istället för att primärt ar-

beta isolerat och statiskt (och inte verklighetsförankrat) med grafer och tabel-

ler. Detta är möjligt att göra från tidiga skolår och uppåt, hävdar Estrella


15

(2018), då arbetet med transnumeration inte inledningsvis förutsätter kompe-

tenser i programmering eller användandet av digitala verktyg, utan kan anpas-

sas efter kognitiv mognad genom att till exempel konkret respresentation. Men

för att kunna lära ut transnumeration behöver lärarna själva besitta den kom-

petensen. Lee et al. (2014) utförde en studie där de studerade lärares kompe-

tenser inom området och konkluderar att lärarutbildningar i högre grad än vad

som görs idag borde fokusera på att lära ut transnumeration.


16


17

3 PRESENTATION AV LEKTIONSSERIE

Syftet med den lektionsserie i statistik som presenteras nedan är att orientera

eleverna i beräkning av regressionsanalys, korrelation samt läges- och sprid-

ningsmått med hjälp av det digitala verktyget R. Lektionsserien innehåller

också inslag av kritiskt ifrågasättande i form av diskussion kring kausalitet och

rimlighet i tolkning av statistiska analyser. Det övergripande målet med lekt-

ionsserien är att främja elevernas statistical literacy. Lektionsserien i sin helhet

presenteras i bilaga 1 – 9.

3.1 Förväntade förkunskaper

I lektionsserien förutsätts att eleverna har förkunskaper motsvarande statistik-

delarna inom matematikkurs 1B/1C (se tabell 1) och inom de i grundskolan

genomgångna statistikdelarna (Skolverket, 2011a och 2011b). Noteras bör att

innehållet i lektionsserien täcker tre av fyra punkter i centralt innehåll för kurs

2B/2C. Den fjärde punkten ”Egenskaper hos normalfördelat material och be-

räkningar på normalfördelningen” har, med fördel, en egen session (Shoug-

nessy, 2007) och får gärna planeras in innan utförandet av denna lektionsserie.

Vidare är det gynnsamt om de matematikdelar i kurs 2B/2C som innefattar

genomgång av räta linjens ekvation är avklarade. Faktum är att denna lektions-

serie med fördel kan ses som en praktisk tillämpning av räta linjens ekvation.

Läsaren bör här uppmärksammas på att en av punkterna i centralt innehåll:

”Orientering och resonemang när det gäller korrelation och kausalitet”, se ta-

bell 1, egentligen inte explicit ingår som centralt innehåll i 2C. I uppsatsen och

lärarhandledningen till lektionsserien kommer jag dock att inkludera den som

en punkt i både 2B och 2C, eftersom jag hävdar att den är viktig i relation till

förståelse och tolkning av regressionsanalys och en viktig ingång till diskuss-

ioner gällande rimlighet av statistiska resultat och analyser gällande samband.

3.2 Uppbyggnad av lektionsserien

3.2.1 Teoretiska ramar och övergripande mål

Konstruktionen av lektionsserien tar i utformning och moment avstamp i ge-

nomgången litteratur och är uppbyggd utifrån sammanställningen i figur 6. Det

övergripande målet med lektionsserien är således att främja elevernas

statistical literacy eftersom det är en viktig kompetens i dagens samhälle (Bak-

ker, 2004; Gal, 2002; Garfield och Ben-Zvi, 2007; Shoughnessy, 2007). Då


18

begreppet innefattar både matematiskt- och statistiskt kunnande (benämnd be-

räkning i figur 6), men också kontextuellt kunnande och kritiskt ifrågasättande

(benämnd tolkning) har syftet varit att försöka få med, och framför allt sam-

mankoppla, dessa två delar för eleverna igenom hela lektionsserien.

En förutsättning för att lärandet av statistiska begrepp och tolkning av statist-

iska resultat ska upplevas meningsfullt är en grundläggande förståelse av den

statistiska processen – delarna i en statistisk undersökning (figur 1). Därför har

lektionsserien sin grund i denna process, vilket rekommenderas av till exempel

Bakker (2004). Upplägget av lektionsserien har även inspirerats av Gordon och

Nicholas (2009) samt Merrymans (2006) studier om användandet av verklig-

hetsbaserade och engagerande exempel i statistikundervisningen för att främja

statistical literacy.

Begreppet statistical literacy består av många kompetenser som ska samverka

och detta, menar många forskare, uppnås bäst i dynamisk interaktion med, och

i utvecklandet av ifrågasättandet av, data och statistiska resultat (Bakker, 2004;

Gal, 2002; Pfannkuch, Rubick och Yoon, 2002; Shoughnessy, 2007; Wild och

Pfannkuch, 1999). I figur 6 har grundläggande statistisk kunskap satts som en

grundförutsättning eller -kompetens för statistical literacy, eftersom det är så

det presenteras av till exempel Gal (2002). Men det är också så att den dyna-

miska interaktionen med data – transnumeration – kan hjälpa till vid begrepp-

sinlärningen; pilarna kan gå åt båda hållen (Bakker, 2004).

3.2.2 Mål, innehåll och aktiviteter med koppling till teorier

De tre punkterna i centralt innehåll i läroplanen som ligger till grund för upp-

byggnaden av lektionsserien är ”Statistiska metoder för rapportering av obser-

vationer och mätdata från undersökningar inklusive regressionsanalys med di-

gitala verktyg”, ”Orientering och resonemang när det gäller korrelation och

kausalitet” samt ”Metoder för beräkning av olika lägesmått och spridningsmått

inklusive standardavvikelse med digitala verktyg” (Skolverket, 2011b). Lekt-

ionsserien knyter även an till en annan central del inom matematik 2B/2C:

”Matematiska problem av betydelse för samhällsliv och tillämpningar i andra

ämnen”. Operationaliseringen av centralt innehåll i mål, lärandeobjekt, inne-

håll, inbäddning och formativ bedömning sammanfattas i tabell 2.

I tabell 3 presenteras lektionsspecifika mål och huvudsakliga aktiviteter i lekt-

ionsserien om fem lektioner. Den inledande lektionen handlar om att få ele-

verna att, via ett verkligt och engagerande exempel i dagspress (exempel 1, se

bilaga 5), reflektera kring hur en statistisk undersökning går till, som rekom-

menderas av Bakker (2004) samt Gordon och Nicholas (2009). Inför detta mo-

ment förväntas eleverna ha läst korta texter om hur en statistisk undersökning


19

går till, samt även funderat över exempel 1. Efter en lärarledd genomgång får

eleverna diskutera parvis, varefter diskussionen förs i klass. Denna pedagogik

följer den i skolan välbekanta EPA modellen, som främjar aktivt lärande

(Mörk, 2015). I samband med övningen diskuteras också begreppet samband

(i relation till exempel 1), som senare i lektionsserien knyts till korrelation och

linjär regression; och rimlighet, som senare knyts till kausalitet. Aktiviteterna

i lektion 1 utvecklar också elevernas förmåga till transnumeration (Pfannkuch,

Rubick och Yoon, 2002), se även figur 3 och relaterad text.

Den andra lektionens huvudfokus är orientering i användandet av den statist-

iska programvaran R för att ta fram, beräkna och tolka olika representationer

av data (se tabell 3); även denna gång med hjälp av ett exempel i form av ett

verkligt datamaterial (exempel 2, bilaga 5), som rekommenderas av bland

andra Gordon och Nicholas (2009). Just denna dynamiska interaktion mellan

användare och data är en mycket viktig del i utvecklingen den typ av statistiska

tänkande som kallas transnumeration (Bakker, 2004; Pfannkuch, Rubick och

Yoon, 2002; Shoughnessy, 2007). Transnumeration sker, enligt Pfannkuch,

Rubick och Yoon (2002) i tre steg, varav det andra steget är i fokus vid aktivi-

teterna i lektion 2 – 4, se figur 3 inklusive relaterad text. Interaktionen mellan

användare och data är även viktig för att utveckla det kritiska förhållningssätt

som präglar statistiskt tänkande (Wild och Pfannkuch, 1999) och som också är

en viktig kompetens i statistical literacy (Gal, 2002; Garfield och Ben-Zvi,

2007). Vidare är syftet med lektion 2 att introducera eleverna till begreppet

korrelation och måttets koppling till dess grafiska representation punktdia-

gram. Kausalitet introduceras också som begrepp och diskuteras i relation till

kritisk granskning av statistiska resultat.

I den tredje lektionen används exempel 3 (bilaga 5) för att dels återkoppla till

tidigare genomgångna begrepp som korrelation och beskrivande mått, där ele-

verna med fördel själv får prova ta fram och tolka dessa mått i ett nytt data-

material; men också för att introducera regressionsanalys och minstakvadrat-

metoden, koppling till korrelation och räta linjens ekvation (se tabell 3). Både

lektion 2 och lektion 3 genomförs i klass, med tanken att både lärare och elever

använder R vid genomgången. Läraren visar hur kods skrivs i R och eleverna

följer läraren samt provar själva. I samband med att koden körs och resultat fås

fram, tolkas och diskuteras resultaten. För eleverna nya begrepp, som till ex-

empel korrelation och linjär regression, förklaras också mer detaljerat av lära-

ren i anslutning relevanta avsnitt i R koden och problematiseras och diskuteras

gemensamt. Allt detta görs med koppling till de generella stegen i en statistisk

undersökning, presenterad i det inledande exemplet i lektion 1 (se även figur

1). I bilaga 7 finns en formativ utvärdering i två delar, som med fördel kan

läggas in i slutet av lektion 2 respektive 3, alternativt ges som läxa.


20

Tabell 2. Övergripande mål och moment i lektionsserien. Relation till centralt innehåll i ämnesplanen1.

Lärandemål Lärandeobjekt Innehåll Övningar Inbäddning Formativ bedömning

Begreppsförståelse Statistisk undersökning Generella steg Population/urval

Korta sekvenser av programmering i R vid lärargenomgångar (individuellt) Datorlaboration i R i mindre grupper, inklusive samman-fattning och tolkning, att presentera i i större grupp och att diskutera i klass

Lärarledda genom-gångar av begrepp och deras tolkningar, i R Individuella exempelöv-ningar i R Lärobok samt länkar till webbsidor

Två individuella be-dömningar i be-greppsförståelse och tolkning av analysre-sultat som sedan dis-kuteras parvis Interaktiv diskussion i klass vid diskussion av exempel och i samband med presentation av grupparbeten

Grafer Ta fram i R Lådagram/boxplot Histogram Punktdiagram

Lägesmått Spridningsmått

Ta fram i R Medelvärde, median Standardavvikelse Skillnader/likheter/tolkning

Korrelation Princip för uträkning av korrelation Hur tolkas Ta fram i R

Regressionsanalys Princip för uträkning av regressionslinje med minstakvadratmetoden Hur tolkas Ta fram i R

Referensram Flöde i statistisk undersökning Import/inmatning av data, analys av data i R i relation till ovannämnda läran-deobjekt; tolkning av resultat

Kausalitet, samband Korrelation som sambandsmått; Kausalitet – ifrågasättande/rimlighet

Studiedesign Frågeställning i relation till studiedesign

Matematiska funktioner och statistiska modeller

Koppling: korrelation, regressionslinje, räta linjens ekvation

Statistiska fördelningar Symmetrisk/icke-symmetrisk

Statistiken i samhället

Vilka funktioner? Vetenskapliga och myndighetsrapporter Media

1”Statistiska metoder för rapportering av observationer och mätdata från undersökningar inklusive regressionsanalys med digitala verktyg”, ”Orientering och resonemang när det gäller

korrelation och kausalitet”, ”Metoder för beräkning av olika lägesmått och spridningsmått inklusive standardavvikelse med digitala verktyg” (Skolverket, 2011b).


21

Tabell 3. Mål och huvudsakliga aktiviteter i de fem lektionerna.

Mål Aktiviteter

Lektion 1 Orientering i och grundläggande förståelse av: -Processen och delarna i en statistisk undersökning -Statistiska samband

-Genomgång: delar i en statistisk undersökning -Diskussion av exempel 1 enligt EPA modellen -Genomgång: statistiskt samband

Lektion 2 -Orientering i att använda programvara för att ta fram, beräkna och tolka olika repre-sentationer av data (grundläggande grafer, läges- och spridningsmått samt korrelation) -Förståelse av kopplingen mellan korrelationmåttet och dess grafiska representation (punktdiagram) - Grundläggande förståelse för begreppet kausalitet i relation till kritisk granskning av statistiska resultat

Genomgång i programvara med hjälp av exempel 2: -Inmatning av data -Titta på data -Visualisering av data (lådagram, histogram, punktdiagram) -Beskrivande mått (median, medelvärde, standardavvikelse) Genomgång (tavla och i programvara): -Beräkning och tolkning av korrelation -Introduktion; kausalitet

Lektion 3 -Användande av programvara för att ta fram, beräkna och tolka enkel linjär regression -Grundläggande förståelse av statistiska modeller, i synnerhet enkel linjär regression, inklusive principen för minstakvadratmetoden -Förståelse av tolkning av regressionslinjen (lutningskoefficient och intercept) -Förståelse av kopplingen mellan korrelation och enkel linjär regression, samt mellan räta linjens ekvation och enkel linjär regression i relation till dess grafiska representat-ion (punktdiagram)

Genomgång i programvara med hjälp av exempel 3: -Enligt genomgång i lektion 2 Genomgång (tavla och i programvara): -Beräkning av enkel linjär regression med hjälp av minstakvadratmetoden -Tolkning av regressionslinjen (lutningskoefficient och intercept); koppling till korrelation

Lektion 4 -Befästande av de förvärvade kunskaperna och begreppen från lektion 1–3 via statistisk problemlösning på nya data, i mindre grupper

-Datorlaboration i mindre grupper

Lektion 5 -Befästande av de förvärvade kunskaperna och begreppen från lektion 1–3 genom att presentera samt diskutera tolkningar av resultat med klasskamrater som analyserat andra datamaterial

-Presentationer och diskussioner av resultat och tolkningar i mindre grupper, med läraren som moderator -Uppföljning och diskussion i klass


22

Under den fjärde lektionen är huvudaktiviteten att eleverna får arbeta med da-

torlaboration i mindre grupper – helst två och två – fortfarande med verkliga

data från olika tillämpningsområden (bilaga 9), för att befästa den kunskap som

förvärvats under lektion 1 – 3 (tabell 3). Diskussion och återkoppling av denna

statistiska problemlösning i mindre grupper sker företrädesvis under den av-

slutande femte lektionen. Precis som i tidigare delar av lektionsserien är syftet

med aktiviteterna i de avslutande delarna både förståelse av statistiska begrepp

genom beräkning men också utveckling av elevernas statistiska tänkande i

form av transnumeration (Bakker, 2004; Pfannkuch, Rubick och Yoon, 2002;

Shoughnessy, 2007) och kritiskt förhållningssätt (Wild och Pfannkuch, 1999).

Både beräkning och tolkning är viktiga delar i statistical literacy (Gal, 2002;

Garfield och Ben-Zvi, 2007) varför det är viktigt att få med båda delarna i en

lektionsserie i statistik (figur 6). Nämnas kan också att huvudaktiviteten i lekt-

ion 5, som involverar presentation och tolkning av resultat för klasskamrater,

innefattar det tredje och sista steget i transnumeration (Pfannkuch, Rubick och

Yoon, 2002, se även figur 3 och relaterad text) – vilket innebär att lektionsse-

rien i sin helhet fångar upp hela denna process av statistiskt tänkande.

3.2.3 Lektionsserien – koppling till bilagor

I figur 7 visas kopplingen mellan de fem lektionerna i lektionsserien och bila-

gorna till denna uppsats. Bilaga 1 innehåller de förberedelser läraren behöver

göra och för att underlätta för läraren i förberedelserna bifogas tips på inläsning

och exempelkod för orientering i R (bilaga 2). Bilaga 3 innehåller inläsnings-

tips för eleverna och i figur 7 indikeras inför vilka lektioner dessa är lämpliga.

Bilaga 4 – 6 innehåller lärarhandledning för lektion 1 – 3, inklusive färdigpre-

parerad R kod för alla moment samt tips på hur begrepp kan förklaras, intro-

duceras och diskuteras. Bilaga 5 innehåller presentation av de exempel som

används. Bilaga 7 innehåller en formativ utvärdering i två delar, där den första

delen passar att göra som läxa mellan lektion två och tre, eller i slutet av lektion

2. Den andra delen passar bra att ha som läxa antingen inför lektion 4 eller

under lektionstid i slutet av lektion 3. Bilaga 8 innehåller lärarhandledning in-

för, under, och efter laborationen med tips på diskussionsfrågor och inramning

och bilaga 9 innehåller introduktion av dataseten till laborationen. De dataset

som används i lektionsserien är fritt tillgängliga att ladda ned via:

https://kau.app.box.com/v/MAGK30EkholmSelling2019.


23

Figur 7. Lektionsserien – koppling till bilagor

Lektion 1 Lektion 2 Lektion 3 Lektion 4 Lektion 5

8: Lärarhandledning, laboration 9: Introduktion data, laboration Online: Dataset i R format

1: Förberedelser 2: R kod, förberedelser 4: Lärarhandledning, lektioner 5: Presentation av exempel 6: R kod, lektioner

3: Läxa 1 3: Läxa 2

7: Utvärdering 1 3: Läxa 3

7: Utvärdering 2

LÄRARE

ELEVER


24


25

4 DISKUSSION

Nedan diskuteras mitt val av upplägg för lektionsserien i statistik för matema-

tikkurs 2B/2C i gymnasiet; jag diskuterar teorier i relation till aktiviteterna i

lektionsserien samt identifierar några utmaningar. Efter detta diskuteras, med

bas i teorier men också utifrån personliga reflektioner, huruvida lärandet om

statistiska beräkningar och statistiska tolkningar bör separeras eller inte, och

jag försöker mig också på några sammanfattande kommentarer.

4.1 Val av upplägg för lektionsserie

Statistiskt tänkande, inklusive transnumeration och statistical literacy, är del-

vis besläktade teorier och begrepp, som inte uppstår automatiskt hos eleverna

(eller lärarna) utan måste läras ut (Wild och Phannkuch, 1999; Pfannkuch, Ru-

bick och Yoon, 2002, Gal, 2002). Hur gör man då det? En utgångspunkt torde

vara att först definiera och exemplifiera huvudbeståndsdelarna i den statistiska

processen för eleverna och därefter, allt eftersom, reflektera kring det statist-

iska tänkandet i olika steg i processen. Ett sätt att lära ut statistical literacy

verkar vara att använda verkliga och engagerande exempel som underlag (Gor-

don och Nicholas, 2009; Merryman, 2006). Ett annat är att levandegöra data

till exempel genom att kontextualisera och diskutera var data kommer ifrån för

att ge eleverna en bättre förståelse för vad data står för, för att sedan låta ele-

verna via statistisk programvara dynamiskt interagera med data (Bakker,

2004). Det är i denna kommunikation transnumeration uppstår (Pfannkuch,

Rubick och Yoon, 2002; Lee et al., 2014), vilket är en viktig beståndsdel i

såväl statistiskt tänkande som statistical literacy.

I lektionsserien presenterad i denna uppsats sker inramning via presentation av

den generella statistiska processen, där speciellt det inledande exemplet disku-

teras och kontextualiseras utan tillgång till faktiska data och eleverna aktivt får

tänka till kring studiedesign och mätning av variabler, för att följa Bakkers

(2004) råd. Kopplingen mellan statistiskt problem och lösning diskuteras

också, tydligt satt i förbindelse till den generella statistiska processen. Vidare

bygger lektionsserien på tre verkliga och engagerande exempel från olika till-

lämpningsområden, men med samma huvudtyp av statistiskt problem – att be-

räkna och tolka samband i form av korrelation och regressionsanalys. I ana-

lyserna används R, en statistisk programvara, för att möjliggöra för eleverna

att dynamiskt interagera med data. Fokus ligger, förutom på beräkningarna,

även på tolkning och rimlighetsbedömning av analysresultat. Vidare växlar

undervisningsformen mellan undervisning i helklass, gruppövning i form av


26

datorlaboration; arbete och diskussioner i mindre grupper och i klass. Jag tän-

ker mig att denna variation bidrar till aktivt lärande och till en synergieffekt;

att med hjälp av olika typer av läraktiviteter ”så ett frö” gällande statistiskt

tänkande som även är högst användbart för eleverna i andra aspekter av livet.

4.1.1 Utmaningar i genomförandet av lektionsserien

En utmaning i genomförandet av lektionsserien för både lärare och elever kan

vara att serien bygger på att en ny programvara och ett nytt programmerings-

språk, R, ska användas. Å andra sidan ska denna lektionsserie inte primärt ses

som en programmeringsdel inom matematikämnet, utan R används som ett

statistiskt hjälpmedel – ett digitalt verktyg. Lektionsserien innehåller färdig-

preparerad kod för alla moment för att minska förarbetet för lärare och även

lärarhandledning med tips på förberedelser. R har valts som digitalt verktyg

eftersom det är ett känt programmeringsspråk och den mest använda statistiska

programvaran idag – R är också kostnadsfritt att ladda ned. Det är dock värt

att poängtera att lektionsseriens genomförande inte är avhängigt användandet

av R. Det går att ha samma upplägg och göra ungefär samma beräkningar även

i andra programvaror, såsom GeoGebra, Python och Microsoft Excel. Men det

ligger utanför ramarna för denna uppsats.

Vidare kan en utmaning vara att få igång diskussioner i klass samt i grupperna

under datorlaborationen. I lärarhandledningen rekommenderas därför använ-

dandet av EPA modellen (Mörk, 2015). Som hjälp till lärare har också tips på

öppna frågor och inledande förslag bifogats i läraranvisningarna respektive i R

koden.

En svårighet, som noterats av Bakker (2004), kan vara att genomföra lektions-

serien om elevernas uppmärksamhet riktas mot skärmen mer än mot läraren

och den pågående diskussionen. Samtidigt menar han på att statistiska pro-

gramvaror möjliggör dynamisk interaktion mellan användare/tolkare och data;

något som är svårt att göra för hand med verkliga data. Det är också viktigt att

komma ihåg att det är i denna kommunikation transnumeration, en viktig del

i både statistiskt tänkande och statistical literacy, agerar som katalysator

(Pfannkuch, Rubick och Yoon, 2002). Jag tycker själv, utifrån egen erfarenhet,

att begreppsförståelsen i statistikämnet gör sig bäst i symbios med dynamiskt

användande av statistisk programvara, inte som separata lärmoment; därför har

jag valt detta upplägg.

Slutligen kan nämnas att det kanske hade varit bättre planeringsmässigt om

alla fyra punkterna i centralt innehåll i statistik i matematikkurs 2B/2C (Skol-

verket, 2011b) hade inkluderats i denna lektionsserie. I mitt val i att inkludera

tre av fyra delar får jag dock medhåll av Shoughnessy (2007); pedagogiken


27

kring lärandet och elevers hanterande av sannolikheter skiljer sig från det jag

vill åstadkomma med denna lektionsserie. Därmed inte sagt att hantering och

förståelse av sannolikheter är mindre viktigt – det är en förutsättning.

4.2 Statistikämnet i skolan

I introduktionsdelen frågade jag om statistik är viktigt att lära sig i skolan. Det

har förhoppningsvis framgått i min uppsats att det är viktigt att lära sig statistik

i skolan och kanske då speciellt det som kallas för statistical literacy (Gal,

2002; Garfield och Ben-Zvi, 2007; Bakker, 2004). Begreppet innefattar vår

förmåga att tolka, kritiskt granska och kommunicera statistisk information

(Gal, 2002, Garfield och Ben-Zvi, 2007) och eftersom statistisk information av

olika slag ständigt finns omkring oss och kräver att vi tar ställning till den, är

det en förmåga som vi behöver i dagens samhälle. Denna förmåga består av

flera aspekter och kompetenser; inte endast matematiskt- och statistiskt kun-

nande utan också kontextuellt kunnande och kritiskt ifrågasättande. Vidare

”uppstår” den inte automatiskt, utan måste övas. Statistical literacy är med

andra ord en kunskap och kompetens som är synnerligen viktig att lära ut i

dessa tider av ”fake news” och ”alternativa fakta”.

Trots att det är viktigt med statistical literacy; verkar det, vad jag förstår, finnas

ett visst motstånd till statistikämnet bland såväl elever och lärare. För att an-

vända Isakssons ord (”Lärarpodden: didaktorn”, 2015): ”Den svenska skolan

har problem med att hantera statistik i undervisningen”. Enligt min erfarenhet

är han inte den enda som tycker så. Det finns även vissa indikationer på att

nästan fyra av fem ungdomar är osäkra när de ska avgöra om statistik i nyhets-

rapportering framställs på ett manipulativt sätt eller ej (Karlsson, 2019). Sam-

mantaget får detta mig att undra om detta kan ha att göra med lärarnas egen

förförståelse i ämnet och kunskaper i hur statistik bör undervisas. Det får mig

också att fundera över om det kan vara så att det saknas praktisk förankring i

dagens statistikundervisning i skolan och om det i så fall är det som gör att

eleverna upplever statistik som ”tråkigt” och svårt att förstå; med andra ord:

ska man skilja på statistisk beräkning och statistisk tolkning som Isaksson fö-

reslår (”Lärarpodden: didaktorn”, 2015)? Jag försöker i de två följande styck-

ena reflektera över frågorna.

4.2.1 Motstånd till statistikämnet hos lärare?

Jag har inga andra uppgifter på att det finns ett motstånd till statistikämnet

bland lärare än det jag hört av andra och själv upplevt inom universitetet. Det

finns i så fall säkert många tänkbara anledningar till detta motstånd, som i sin

tur samverkar på flera nivåer. Denna text ska därför på intet vis betraktas som


28

en fullständig genomgång av dessa, utan snarare som några av mina egna re-

flektioner vid skrivandet av denna uppsats. Kanske har Shoughnessy (2007)

rätt i att matematiklärare generellt saknar (eller tycker att de saknar) den ut-

bildning, begrepps- och ämnesdidaktiska kunskap som behövs för att under-

visa i statistik. Möjligen är detta, i sin tur, kopplat till statistikämnets tvärve-

tenskaplighet; tvärvetenskapligheten gör det kanske svårt för matematiklärare

att få en uppfattning och översikt av vad statistikämnet ”är” och försvårar för-

stås också för eleverna. Det är, till exempel, stora skillnader i pedagogiskt upp-

lägg och genomgångna metoder, på beräkning och användning av statistikpro-

gramvara, samt på fokus gällande tolkning och kontextualisering av resultat,

inom högskole- och universitetskurser i matematisk statistik, biostatistik och

epidemiologi, respektive samhällsstatistik och demografi. Inriktningen av den

eller de kurser i statistik en matematiklärare själv läst kan således komma att i

stor grad forma hens eget pedagogiska grepp och förståelse av ämnet. Ibland

kan det kanske vara så att denna förförståelse kanske inte är den optimala för

att lära ut statistik och då speciellt statistical literacy i skolan.

Kanske är motståndet också en konsekvens av att det helt enkelt forskats för

lite på lärares kunskap och undervisningsmetoder inom statistikdidaktik, som

Shoughnessy (2007) fört fram. Vi kanske helt enkelt vet för lite för att ”fixa

till problemet” och då lönar det sig inte att spekulera, beskylla eller leta synda-

bockar. Merryman (2006) pekar till exempel på att även om statistical literacy

explicit har förts in i Nya Zeelands läroplan, är det sparsamt utvärderat och hon

menar också på att det finns skäl att tro att det alltid inte undervisas. Men vi

vet i alla fall till exempel att Lee et al. (2014) i sin studie ger några rekommen-

dationer gällande utformning av statistisk utbildning för lärare för att öka lä-

rarnas egen förmåga till transnumeration, vilket, så klart, är en förutsättning

för att lärarna ska kunna lära ut det till elever. Vi vet också att Bakker (2004)

och Shoughnessy (2007) för fram argument för vikten av att explicit införa

statistical literacy och transnumeration i skolans läroplaner, och det finns sä-

kerligen många fler exempel. Dessa potentiella lösningar kan dock ta tid att

införliva, även om jag instämmer i att de är mycket viktiga aktioner.

Men vi har faktiskt också forskningsresultat som mer handfast visar hur en

lärare kan göra statistikundervisningen mer meningsfull för eleverna redan nu.

Till exempel visar Gordon och Nicholas (2009) samt Merryman (2006) på an-

vändbara pedagogiska grepp för att öka statistical literacy hos elever genom

användandet av engagerande exempel i undervisningen. Statistikmomenten i

matematikundervisningen i skolan lämpar sig också ypperligt för att göra be-

räkningar och grafer i digitala verktyg och programmering används således

med fördel vid statistisk problemlösning. Denna dynamiska interaktion mellan

data, kontext och användare främjar den del av statistiskt tänkande som kallas


29

för transnumeration (Bakker, 2004; Pfannkuch, Rubick och Yoon, 2002;

Shoughnessy, 2007).

4.2.2 Skilja på statistisk beräkning och statistisk tolkning?

I introduktionsdelen nämndes Isakssons åsikter att tolkning av grafer och be-

skrivande statistik förstås mycket lättare av eleverna när momentet faller inom

samhällsorienterande ämnen, jämfört med inom matematikämnet (”Lärarpod-

den: didaktorn”, 2015). Gordon och Nicholas (2009) beskriver också, i deras

undersökning om användandet av engagerande exempel i undervisningen, att

några av lärarna ville tona ned matematiken – beräkningarna – i statistikunder-

visningen i syfte att behålla engagemang. Som tidigare nämnts, är detta också

något jag själv erfarit på olika sätt. Förutom Isakssons samarbete med Statist-

iska centralbyrån (Statistiska centralbyrån (b)) finns även andra goda exempel

där verkliga data används som grund i undervisningen i skolan. Gapminder

(https://gapminder.org), ett interaktivt visualiseringsverktyg som hjälper oss

att förstå världen och våra fördomar med hjälp av dynamiska statistiska repre-

sentationer av data, används till exempel i större utsträckning i skolan, se till

exempel lärarhandledningen av Markstedt, Arevius och Gränström. Fokus i

dessa båda exempel är dock tolkningsdelen, inte beräkningsdelen.

Upplevs statistikämnet som svårt och tråkigt av eleverna eftersom fokus i ma-

tematikämnet och således även i den statistik som undervisas i skolan är be-

räkningar, medan den mer omvärldsförankrade tolkningen av grafer och be-

skrivande statistik överlämnas åt, till exempel, samhällsorienterande ämnen?

Är slutsatsen då att dessa två delar bör skiljas åt? Svaret är nej – tolkning och

beräkning ska inte separeras; både tidigare nämnda statistikdidaktiska mo-

deller och teorier, men även min egen erfarenhet och övertygelse, talar emot

det. Beräkning och tolkning är, båda två, viktiga delar för att lära ut och be-

härska statistiskt tänkande och statistical literacy och ska således snarare syn-

tetiseras och kopplas samman för eleverna, inte skiljas åt. För att behärska

statistical literacy behövs enligt Gal (2002) en synergi av till exempel mate-

matiskt och statistiskt kunnande, men också att elever kan kontextualisera – se

verkligheten bakom data – och tänka kritiskt. Vidare kan inte transnumeration,

en viktig del statistiskt tänkande och statistisk problemlösning, tränas och

”uppstå” bara genom att tolka beskrivande statistik och grafer; dynamisk in-

teraktion med data är en viktig del (Pfannkuch, Rubick och Yoon, 2002; Wild

och Phannkuch, 1999; Lee et al., 2014).


30

4.3 Avslutande kommentarer

Min tanke med lektionsserien presenterad i denna uppsats var att med hjälp av

användandet av statistikdidaktiska teorier och modeller, men också utifrån min

egen erfarenhet som statistiker och statistik- samt epidemiologilärare vid uni-

versitet, föra samman beräkning och tolkning av statistiska begrepp i syfte att

främja adekvat användande av statistisk information, vilket är nödvändigt i da-

gens samhälle. För att knyta an till ett av citaten i introduktionsdelen:

Man kan tänka att statistik är en rättighet för alla. Genom statistik kan vi få reda på mer om vårt samhälle och hur det sköts. Men man behöver kunna förstå och använda statistiken på rätt sätt.

Statistiska centralbyrån (b)

Under skrivandet av uppsatsen och lärarhandledningen har jag ett flertal

gånger tänkt att det bästa och roligaste för både lärare och elever nog vore att

ha ett ämnesöverskridande samarbete där frågeställningar med tillhörande

öppna data av relevans inom till exempel samhällskunskap, geografi, eller bi-

ologi analyseras statistiskt inom matematikämnet med hjälp av programvara,

och att resultaten kommuniceras utifrån både beräknings- och tolkningsper-

spektiv och förs tillbaka till tillämpningsämnet. Men det är kanske inte realist-

iskt?


31

REFERENSER

American Statistical Association. (https://www.amstat.org/ASA/We-are-

Statistics.aspx). (hämtad 2019-12-06).

Appleton, E. (2019). Civic statistics and statistical literacy. NYC community of

adult math instructors (CAMI). (http://nyccami.org/civic-statistics-and-

statistical-literacy/). (hämtad 2019-10-21).

Bakker, A. (2004). Design research in statistics education: on symbolizing and com-

puter tools. Utrecht, the Netherlands: CD Beta Press.

Brillinger. John Wilder Tukey (1915-2000). (https://www.stat.berke-

ley.edu/~brill/Papers/boas.pdf). (hämtad 2019-12-06).

Bryla, M. (2018). Data literacy: a critical skill for the 21st century. (Blogg:

https://www.tableau.com/about/blog/2018/9/data-literacy-critical-skill-21st-

century-94221). (hämtad 2019-10-21).

Dahmström, K. (2011). Från datainsamling till rapport: att göra en statistisk under-

sökning (5 uppl.). Lund: Studentlitteratur.

Estrella, S. (2018). Data representations in early statistics: data sense, meta-repre-

sentational competence and transnumeration i Leavy, A., Meletiou-

Mavrotheris, M. & Paparistodemou, E. (Eds.), Statistics in early childhood

and primary education (s. 239-256). Early mathematics learning and develop-

ment. Springer, Singapore.

Gal, I. (2002). Adults’ statistical literacy: Meanings, components, responsibilities.

International Statistical Review, 70(1), 1-25.

Garfield, J. & Ben-Zvi, D. (2007). How students learn statistics revisited: A current

review of research on teaching and learning statistics. International Statistical

Review, 75(3), 372-396.

Gordon, S. & Nicholas, J. (2009). Using examples to promote statistical literacy.

UniServe Science 2009 Conference proceedings: Motivating Science Under-

graduates: Ideas and Interventions.

Harford, T. (2016). How politicians poisoned statistics. Financial Times Magazine.

(https://www.ft.com/content/2e43b3e8-01c7-11e6-ac98-3c15a1aa2e62) (häm-

tad 2019-09-30).

Karlsson, M. (2019). Fake news är en rejäl utmaning för unga. Dagens analys.

(https://www.dagensanalys.se/2019/09/fake-news-ar-en-rejal-utmaning-for-

unga/). (hämtad 2019-10-04).

Lebied, M. (2018). Misleading statistics examples – Discover the potential for mis-

use of statistics and data in the digital age. (The datapine Blog:


32

https://www.datapine.com/blog/misleading-statistics-and-data). (hämtad

2019-09-30).

Lee, H. et al. (2014). Teachers’ use of transnumeration in solving statistical tasks

with dynamic statistical software. Statistics Education Research Journal,

13(1), 25-52.

Lärarpodden: didaktorn (2015). Avsnitt 15: Förbannad statistik. Sveriges utbild-

ningsradio (UR). (https://urskola.se/Produkter/190476-Didaktorn-Forbannad-

statistik). (hämtad 2019-09-27).

Markstedt, CJ., Arevius, M., & Gränström, O. Lärarhandledning till Factfulness:

Tips på hur du kan skapa lektioner med boken som grund. Stockholm: Natur

och Kultur. (https://www.gapminder.org/wp-content/uploads/Factfulness-

La%CC%88rarhandledning-Korr4-180921.pdf).

Merryman, L. (2006). Using media reports to develop statistical literacy in year 10

students. Proceedings of the Seventh International Conference on Teaching

Statistics. Voorburg, The Netherlands: International Statistical Institute.

(http://iase-web.org/documents/papers/icots7/8A3_MERR.pdf ).

Ministry of education, the New Zealand curriculum online. Mathematics and Statis-

tics: Achievement objectives. (https://nzcurriculum.tki.org.nz/The-New-Zea-

land-Curriculum/Mathematics-and-statistics/Achievement-objectives). (häm-

tad 2019-11-11).

Mörk, N. (2015). EPA – en nygammal metod. (https://www.lr.se/inspirat-

ion/lasa/bloggar/nicklas-mork/2015-08-29-epa---en-nygammal-metod). (häm-

tad 2019-11-07).

Nationalencyklopedin, statistik. (http://www.ne.se/uppslagsverk/encyklo-

pedi/lång/statistik). (hämtad 2019-09-27).

Pfannkuch, M., Rubick, A., & Yoon, C. (2002). Statistical thinking and transnumer-

ation i Barton, B. et al. (Eds.), Mathematics Education 567 in the South Pa-

cific. Proceedings of the 25th annual conference of the Mathematics Educa-

tion Research Group of Australasia, Auckland (s. 567-574).

Python (2019). Python programming language. Python software foundation,

(https://www.python.org/).

R Core Team (2019). R: A language and environment for statistical computing. R

Foundation for Statistical Computing. Vienna, Austria. (https://www.R-pro-

ject.org/).

Shoughnessy, J.M. (2007). Research on statistics learning and reasoning i F. K.

Lester & National Council of Teachers of Mathematics (Eds.), Second hand-


33

book of research on mathematics teaching and learning: A project of the na-

tional council of teachers of mathematics (s. 957-1009). Charlotte, NC: Na-

tional Council of Teachers of Mathematics Information Age Pub.

Skolverket (2011a). Läroplan för grundskolan och ämnesplaner för grundskolan.

Stockholm: Skolverket. (https://www.skolverket.se/publikationsserier/styrdo-

kument/2011/kursplan-i-matematik-for-grundskolan) (hämtad 2019-09-06).

Skolverket (2011b). Läroplan Gy11 och ämnesplaner för gymnasieskolan. Stock-

holm: Skolverket. (https://www.skolverket.se/undervisning/gymnasiesko-

lan/laroplan-program-och-amnen-i-gymnasieskolan) (hämtad 2019-09-05).

Statistiska centralbyrån (a). Vad är statistik? (https://www.scb.se/om-scb/latt-

last/vad-ar-statistik/). (hämtad 2019-09-27).

Statistiska centralbyrån (b). Sverige i siffror för lärare. (https://www.scb.se/hitta-sta-

tistik/sverige-i-siffror/sverige-i-siffror-for-larare/). (hämtad 2019-09-27).

Statistiska centralbyrån (c). Statistikundersökningen steg för steg.

(https://www.scb.se/dokumentation/statistikguiden/introduktion-till-sta-

tistik/statistikundersokningen-steg-for-steg/). (hämtad 2019-10-02).

UNESCO (2006). Understandings of literacy i Education for all: a global monitor-

ing report (s. 147-159). (http://www.unesco.org/education/GMR2006/

full/chapt6_eng.pdf). (hämtad 2019-10-21).

Wikipedia; data literacy. (https://en.wikipedia.org/wiki/Data_literacy). (hämtad

2019-10-21).

Wild, C., & Pfannkuch, M. (1999). Statistical Thinking in Empirical Enquiry. Inter-

national Statistical Review: 67, 3, 223-265.


34


35

BILAGA 1: FÖRBEREDELSER

1. Nedladdning av R

Inför lektionsserien behöver programvaran R laddas ned och detta gäller förstås både för lärare och elever. Nedladdning görs via https://cran.r-project.org/bin/win-dows/base/ och brukar vara problemfritt. Har man Mac, behöver man göra på ett lite annorlunda sätt: https://cran.r-project.org/bin/macosx/. I denna uppsats har R version 3.6.1 (R core team, 2019) använts, men koden till lektionsserien fungerar även för andra versioner av R.

2. Orientering i R

Det är bra att orientera sig i hur R är uppbyggt även om instruktionerna nedan och i kommande bilagor torde vara tillräckliga för att genomföra lektionsserien. En bra början är att läsa https://en.wikipedia.org/wiki/R_(programming_language) för en kortfattad allmän orientering. Vidare finns alltid en manual till den senaste versionen av R att ladda ned via https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf.

När R öppnas, öppnas automatiskt ett konsolfönster, se bildklipp 1. Konsolen kan användas som räknedosa och det går också att skriva kod direkt i konsolen. Det är dock smidigare att skriva kod i ett separat scriptfönster då dessa script lättare kan sparas, förändras, uppdateras och exekveras. Ett nytt tomt script öppnas via ”File” -> ”New script” och ett tidigare sparat script öppnas i samma meny under ”Open script…”. Via ”File” menyn kan script även sparas.

Bildklipp 1: Vy av R.

https://cran.r-project.org/bin/windows/base/

https://cran.r-project.org/bin/windows/base/

https://cran.r-project.org/bin/macosx/

https://en.wikipedia.org/wiki/R_(programming_language)

https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf


36

3. Orientering i lärarhandledningen som tillhör lektionsserien

Lärarhandledning finns i bilaga 4. Titta på de länkar och lästips som ges och på hur olika statistiska begrepp kan förklaras, samt koppla till presentation i lärobok; kanske behövs till exempel namnen på begrepp modifieras för att inte förvirra eleverna? Gå igenom lärarhandledningen simultant med att den färdigpreparerade R koden (bi-laga 6) körs (se 3.1).

3.1 Orientering i den färdigskrivna R koden som tillhör lektionsserien

För denna lektionsserie finns färdigskriven R kod för alla lektionsmoment. Koden finns i bilaga 2 respektive 6 och kan kopieras och klistras in i ett tomt R script och sedan exekveras i R. Den preparerade koden är försedd med förklarande och instru-erande kommentarer. Som en illustration av detta, visas en del av koden för det första scriptet (bilaga 2) i bildklipp 2. Koden för det första scriptet ingår i förberedel-sedelen för lektionsserien och är i första hand tänkt att användas av läraren som egen förberedelse. Det som gås igenom i scriptet kan också läggas in som en förbe-redande lektion i R programmering för eleverna innan påbörjandet av lektionsserien i statistik, vid behov.

Bildklipp 2: Vy av R där scriptet i bilaga 2 är öppet.

I R scriptet, under rubriken ”inledande kommentarer”, se bildklipp 2, står till exempel allmän information om hur kod exekveras i R, hur kod kan kommenteras med mera. Vidare visas hur R kan användas som räknedosa, där koden för de tre första beräk-ningarna exekverats och svaret syns i konsolfönstret.


37

Instruktionskoden i sin helhet finns i bilaga 2. För att testa göra hela kodsekvensen i R: kopiera koden i bilaga 2, klistra in den i ett nytt R script (som öppnas via ”File” -> ”New script” i R) och följ instruktionerna i koden.

3.2 Data som används i lektionsserien

De dataset som används i lektionsserien (se bilaga 5 och bilaga 9) baseras på verkliga öppna data som jag och andra statistiker modifierat och använt i statistikundervis-ning under ett antal år. De kan alltså användas fritt och laddas ned via:

https://kau.app.box.com/v/MAGK30EkholmSelling2019.

4. Generell felsökning

När man arbetar med programmering kan man ibland få felmeddelanden som är svåra att förstå. Detta är även fallet i R. Här kommer några saker att vara vaksam på, för att undvika fel och felmeddelanden.

• Kontrollera parenteser (…(måste följas av ))

• Observera att y = … skrivs som y <- (…), där <- läses ”tilldelas”

• Decimalavskiljare är . inte ,

• Vid inmatning av data måste vektorerna/kolumnerna vara av samma längd

• Vid inmatning av data, kom ihåg att skriva x <- c(…)

• Kolumn/variabelnamn måste vara unika (t.ex. y1, y2) och får ej innehålla

specialtecken som till exempel mellanslag

• R skiljer på versaler och gemena bokstäver i till exempel variabelnamn. Således är X1 ≠ x1 och Data ≠ data

• Var noga med att anropa rätt variabel i ett dataset; om variabeln ”x” i data-

setet ”data” ska anropas, anropa på formen data$x

• Vid inläsning av dataset, var noga med att ange rätt sökväg till filen

• Om felmeddelandet som fås kvarstår efter kontroll av ovan, är det en god idé att kopiera felmeddelandet och söka på det på Internet. Ofta är det så att fler har haft samma problem, löst det och lagt ut lösningen för andra att ta del av

https://kau.app.box.com/v/MAGK30EkholmSelling2019


38


39

BILAGA 2: R KOD, FÖRBEREDELSER

Denna bilaga är en del av lärarförberedelserna till lektionsserien, se bilaga

1 för mer detaljer.

########################

# INTRODUKTION R

########################

#########

#Inledande kommentarer

#########

#All kod i R exekveras genom att trycka ned Ctrl och R.

#Man kan exekvera en eller flera rader kod samtidigt.

#Mest pedagogiskt är att köra en rad åt gången.

#Hashtag (#) är markeringen för kommentar i R och det som

#står efter tecknet kommer inte att exekveras.

#Koden nedan kan förstås skrivas direkt i R konsolen, men

#det är smidigare i längden att använda sig av script (som

#görs nu).

#########

#Använd R som räknedosa, här är några exempel.

#########

#Addition

2+7

#Subtraktion

100-78

#Division

1000/33

#Kvadratroten av

sqrt(100)

#Upphöjt till 2 (2 kan förstås bytas ut mot annan exponent)

10^2

#Kombination av räknesätt

sqrt(100)+10^2


40

(2*(3+6))/2

##########

#Vektorer (kolumner/variabler i statistik).

##########

#Skapa en vektor med namnet "test" och tilldela den

#värdena 1,2 och 3.

#Symbolen <- utläses "tilldelas".

test <- c(1, 2, 3)

#För att se efter vad en vektor innehåller, skriv dess

#namn och exekvera.

test

#För att multiplicera en vektor med en konstant (t.ex.

#100); skapa först ett element med en konstant som är 100:

konstant <- 100

#Multiplicera vektorn test med konstanten och spara

#resultatet i en ny variabel "nytest".

nytest <- konstant*test

#Inspektera "nytest", blev det som tänkt?

nytest

#Sammanfoga vektorerna "test" och "nytest" i datasetet

#(dataframe) "data".

data <- data.frame(test, nytest)

#Inspektera datasetet

data

#För att anropa variabeln "test" i datasetet "data" skriv:

data$test


41

BILAGA 3: ELEVFÖRBEREDELSER, LEKTIONER

REPETITION AV STATISTISKA BEGREPP, INFÖR LEKTIONSSERIEN

• Repetition läges – och spridningsmått; symmetriska och icke-symmetriska fördelningar; standarddeviation och normalfördelning: https://www.youtube.com/watch?v=J7-1PBkewCc (7 minuter) https://www.youtube.com/watch?v=41fDd1P26-s (7 minuter) https://www.youtube.com/watch?v=MRqtXL2WX2M (4 minuter)

FÖRBEREDELSER INFÖR LEKTION 1

• https://www.scb.se/dokumentation/statistikguiden/introduktion-till-sta-tistik/statistik-beskriver-verkligheten/

• https://www.scb.se/dokumentation/statistikguiden/introduktion-till-sta-tistik/statistikundersokningen-steg-for-steg/

• https://www.youtube.com/watch?v=tpl0xbcE3N4 (4 minuter)

Efter att ha läst och tittat på ovan länkar; läs texten nedan (exempel 1) och fundera på hur man skulle kunna göra en statistisk undersökning som undersöker detta sam-band (sambandet ”att ständigt ha mobilen inom räckhåll” och ”depression och själv-mordsbenägenhet”). Detta ska vi sedan diskutera tillsammans på lektionen.


• Korrelation och kausalitet: https://www.youtube.com/watch?v=E1yWgziQTzs (16 minuter).


• Regressionsanalys: https://www.youtube.com/watch?v=zPG4NjIkCjc (5 minuter)

https://www.youtube.com/watch?v=0T0z8d0_aY4 (7 minuter)

https://www.youtube.com/watch?v=J7-1PBkewCc

https://www.youtube.com/watch?v=41fDd1P26-s

https://www.youtube.com/watch?v=MRqtXL2WX2M

https://www.scb.se/dokumentation/statistikguiden/introduktion-till-statistik/statistik-beskriver-verkligheten/

https://www.scb.se/dokumentation/statistikguiden/introduktion-till-statistik/statistik-beskriver-verkligheten/

https://www.scb.se/dokumentation/statistikguiden/introduktion-till-statistik/statistikundersokningen-steg-for-steg/

https://www.scb.se/dokumentation/statistikguiden/introduktion-till-statistik/statistikundersokningen-steg-for-steg/

https://www.youtube.com/watch?v=tpl0xbcE3N4

https://www.youtube.com/watch?v=E1yWgziQTzs

https://www.youtube.com/watch?v=zPG4NjIkCjc

https://www.youtube.com/watch?v=0T0z8d0_aY4


42


43

BILAGA 4: LÄRARHANDLEDNING, LEKTIONER

Denna lektionsserie är utformad för att möta tre av fyra punkter i centralt innehåll i statistik, i ämnesplanen för matematik 2B och 2C. Det mål som inte berörs mer än indirekt är det fjärde målet ”Egenskaper hos normalfördelat material och beräk-ningar på normalfördelning med digitala verktyg”. Mål, lärandeobjekt, innehåll, övningar, inbäddning och formativ bedömning för denna lektionsserie i statistik presenteras i tabell 2 och 3 i uppsatsen. Kopplingen mellan bilagorna och lektion-erna – flödet – presenteras i figur 7 i uppsatsen.

Läraren bör här uppmärksammas på att en av punkterna i centralt innehåll: ”Orien-tering och resonemang när det gäller korrelation och kausalitet” egentligen inte ex-plicit ingår som centralt innehåll i 2C. I uppsatsen och lärarhandledningen till lekt-ionsserien har jag dock valt att inkludera den som en punkt i både 2B och 2C, eftersom jag hävdar att den är viktig i relation till förståelse och tolkning av regressionsanalys och en viktig ingång till diskussioner gällande rimlighet av statistiska resultat och analyser gällande samband.

1. LEKTION 1

Mål

Orientering i och grundläggande förståelse av: -Processen och delarna i en statistisk undersökning -Statistiska samband

Aktiviteter

-Genomgång: delar i en statistisk undersökning -Diskussion av exempel 1 enligt EPA modellen -Genomgång: statistiskt samband

1.1 Introduktion och inramning med hjälp av exempel 1

En god idé vid introduktion och inramning av denna lektionsserie i statistik är att börja med ett aktuellt exempel, innan analyser påbörjas i R. Det finns förstås många möjliga exempel som tjänar syftet – att väcka intresse och få igång diskussionen – men för att visa idéen utgås här från exempel 1, se nästa sida.

Eleverna förväntas ha förberett sig enskilt inför denna lektion (se bilaga 3). Låt ele-verna läsa och diskutera exemplet i par och fundera över frågan: Anta att vi skulle göra en statistisk undersökning som undersöker detta (sambandet mellan ”att stän-digt ha mobilen inom räckhåll” och ”depression och självmordsbenägenhet”), hur skulle det kunna gå till? Notera: detta kan vara svårt för eleverna –det är inte me-ningen att de ska komma med ett färdigt svar (frågeställningen i sig är knepig); ex-emplet är valt för att det är aktuellt, engagerande och relativt lätt att greppa vid en första anblick. Se även tips på frågor i tabell 1.


44

1.2 Exempel 1 satt i relation till generella steg i en statistisk undersökning

I figur 1 beskrivs den generella processen i en statistisk undersökning att ha som grund för diskussionerna – denna kan till exempel presenteras innan diskussionerna i par och vara öppen under dessa diskussioner. Figur 1 är inte bara användbar här, utan genom hela lektionsserien inklusive laborationen (en annan variant presenteras i figur 1 i uppsatsen).

Figur 1. Ett vanligt sätt att beskriva stegen i en statistisk undersökning.

Fråga

•Frågeställning

•Hypotes

Metoder för att hitta svaret

•Vad är, och hur mäts, x och y? (förklarande- och responsvariabel)

•Följs personer över tid eller görs ett nedslag (enkät)?

•Finns data redan eller måste de samlas in?

Samla in information

•Ska vi undersöka "alla" eller "vissa"? (population/urval)

•Insamling av data (t.ex. register, journaler, nätet, enkät)

•Inmatning eller import av data till statistisk programvara

Svarar på frågan

•Statistisk analys av data med hjälp av programvara

•Tolkning av de statistiska resultaten

•Bedömning av rimlighet/felkällor


45

Diskutera tillsammans med eleverna i klass vad som behövs tas ställning till i de olika stegen i figur 1 om en statistisk undersökning skulle göras om sambandet i exempel 1 genom att till exempel be diskussionsparen komma med nyckelord eller frågor i relation till de olika delarna i figur 1 ovan; sammanställ på tavlan och syntetisera.

I tabell 1 ger exempel på möjligt innehåll och diskussionsfrågor i denna process. Tan-ken med exempel 1 är, förutom att rama in och engagera, att visa på att det kan vara svårt att få till ”den perfekta studien” och därigenom visa på att det är viktigt att 1) ha grundläggande förståelse för den statistiska processen för att 2) ha ett kritiskt förhållningssätt till tolkningar av (statistiska) undersökningar. Men också att ef-tersom det är svårt ibland att skapa ”den perfekta studien”, så går meningarna bland till exempel forskare isär, precis som i ovan exempel, även om de statistiska beräk-ningarna skulle vara korrekta.

Tabell 1. Exempel på möjligt innehåll och diskussionsfrågor, exempel 1.

Statistiskt steg, figur 1 Exempel på frågor och diskussionspunkter

Fråga Exempel på frågeformulering: Finns det ett samband mel-lan skärmtid och depression hos ungdomar? Detta (och artikeln) implicerar riktningen skärmtid -> de-pression (x= skärmtid, y=depression)

Metoder för att hitta svaret Skulle man kunna göra en enkätstudie som ställer frågor som: ”Under den senaste veckan, uppskatta hur många timmar per dag du tillbringar framför skärmar” och ”un-der den senaste veckan, hur deprimerad har du känt dig på en skala från 1-10”? Problem: kommer man ihåg hur många skärmtimmar man haft? Viktigt att definiera skärmtid? Förstår alla vad som menas med att känna sig deprimerad? (möjliga fel-källor i steg 4) Finns det andra relevanta frågor (sömn, motion, mat, har man känt sig deprimerad länge)? Varför?

Samla in information Hur kan vi samla in data till enkätundersökningen – post-enkäter till alla ungdomar i Sverige (dyrt! Hur få tag på adresser?); göra den i skolan eller klassen? Om vi använder oss av urval enligt ovan, kan vi då uttala oss om alla ungdomar i Sverige? (koppling till steg 4) Kan man lägga ut enkäten på nätet? Kommer alla som ser länken att svara? Vilka tror ni svarar/inte svarar? (koppling till steg 4)

Svarar på frågan Vad innebär egentligen statistisk analys av data? Vad har ni gjort hittills (grafer, lägesmått)? Vet alla vad data är? (koppling till steg 3) Bedömning av rimlighet/felkällor: om vi gör en enkätun-dersökning enligt ovan och ser ett samband; hur vet vi då att det verkligen är så att skärmtid ger depression och inte tvärtom (att deprimerade ungdomar har mer skärmtid)? Är det samma sak? Igen: vilka svarar/vilka svarar inte och hur påverkar de våra tolkningar?


46

1.3 Exempel 1 och statistiska samband (introduktion av korrelation)

Anta att klassen kommit fram till att skärmtid mäts som uppskattat antal timmar mobilanvändning den senaste veckan (x) och att depression uppskattas som depres-siva symptom under den senaste veckan, på en skala 1 till 10 (y). Båda mäts med hjälp av enkät. Anta vidare att 12 elever har svarat på enkäten och att deras resultat ser ut som dem presenterade i figur 2. Hur kan ett samband illustreras grafiskt? För-klara den grafiska representationen punktdiagram i figur 2 (varje punkt en elev – hens kombination av värde på x och y). Diskutera tillsammans om man kan se ett samband och hur det sambandet i så fall ser ut (positivt/negativt). Gäller det för alla elever (se till exempel eleven med x = 5 och y = 8 samt eleven med x = 22,5 och y = 3,5). Resultat på gruppnivå är inte samma sak som resultat på individnivå.

Figur 2. Exempel 1 och statistiskt samband - punktdiagram.

Förståelse av den grafiska representationen punktdiagram är nödvändig för att för-stå begrepp som korrelation och regressionsanalys i lektion 2 och 3. Ägna därför gärna tid åt att diskutera figur 2 i klass/i mindre grupper beroende på vad som fun-gerar bäst i just den aktuella klassen.


47

2. LEKTION 2

Mål

-Orientering i att använda programvara för att ta fram, beräkna och tolka olika represen-tationer av data (grundläggande grafer, läges- och spridningsmått samt korrelation) -Förståelse av kopplingen mellan korrelationmåttet och dess grafiska representation (punktdiagram) -Grundläggande förståelse för begreppet kausalitet i relation till kritisk granskning av statistiska resultat

Aktiviteter

Genomgång i programvara med hjälp av exempel 2: -Inmatning av data -Titta på data -Visualisering av data (lådagram, histogram, punktdiagram) -Beskrivande mått (median, medelvärde, standardavvikelse) Genomgång (tavla och i programvara): -Beräkning och tolkning av korrelation -Introduktion; kausalitet

Från och med nu är det tänkt att all undervisning i denna lektionsserie ska ske med hjälp av det digitala verktyget R. Tanken är att både lärare och elever använder programvaran vid genomgång. Läraren visar hur kod skrivs i R och eleverna följer läraren, för att sedan också prova själv och i grupp. I samband med att koden körs och resultat fås fram, tolkas och diskuteras resultaten. Vissa begrepp (se rubriker nedan) förklaras också mer detaljerat av läraren i relevanta avsnitt i R koden.

Till sin hjälp har läraren färdigpreparerad R kod som finns i bilaga 6, samt färdiga dataset (tillgängliga via: https://kau.app.box.com/v/MAGK30EkholmSelling2019). I bilaga 1 står hur koden klistras in i ett script i R och exekveras. Viktigt är att introdu-cera exempel 2 på ett tydligt och engagerande sätt innan analyserna påbörjas. Som hjälp till detta finns en beskrivning i bilaga 5.

Då den färdigpreparerade R koden är försedd med förklaringar, instruerande kom-mentarer och diskussionsfrågor kommer inte dessa aspekter att nämnas här. Nedan punktas däremot de förklaringar som behöver göras utöver det som står i R koden, i samband med aktuellt avsnitt i R koden. Kom ihåg att koppla körningen av R koden till de fyra generella stegen i statistiska undersökningar (se figur 1), där fokus i R ko-den ligger på det sista steget ”Försöker svara på frågan”. Detta steg är i R koden uppdelat i två: ”Lär-känna-data steg (deskriptiv statistik och visualisering)” och ”Stat-istisk metod/analys”.

2.1 Lägesmått med fokus på medelvärde och median

Detta torde vara repetition för eleverna, men viktigt att alla är med då beskrivande statistik alltid ingår som en första del i statistisk analys och så även i R koden för lektionerna. Måttens förhållande till varandra beroende på typ av fördelning belyses, se nedan. Se även länkar i bilaga 3 ”repetition av statistiska begrepp, inför lektions-serien”.



48

https://jaredkline.com/2019/02/12/dealing-with-skewness-in-machine-learning-data/

2.2 Spridningsmått, med fokus på standardavvikelse

Standardavvikelse används i denna lektionsserie som ett deskriptivt mått på variat-ion i data. Förstås har den andra viktiga tillämpningar, inte minst inom punkten ”Egenskaper hos normalfördelat material och beräkningar på normalfördelning med digitala verktyg” i läroplanen för matematik 2B/2C. I denna lektionsplan är det önsk-värt att begreppet har gåtts igenom och formeln introducerats. Detta kan knytas an till genom att till exempel belysa begreppet utifrån nedan figur. Se även länkar i bi-laga 3 ”repetition av statistiska begrepp, inför lektionsserien”. Viktigt i tolkningen av figuren nedan är att eleverna förstår att spridningen i ett material illustreras utifrån x-axeln inte y-axeln.

https://mathbitsnotebook.com/Algebra2/Statistics/STnormalDistribution.html

2.3 Grafiska representationer av data

De tre grafiska representationerna av data som gås igenom i denna lektionsserie är histogram, lådagram och punktdiagram, med fokus på tolkning av punktdiagram (som introduceras i lektion 1, se även 2.4). Både histogram och lådagram förväntas eleverna tidigare stött på i statistikundervisningen och de finns även representerade i länkar i bilaga 3 ”repetition av statistiska begrepp, inför lektionsserien”. Viktigt gäl-lande lådagram och histogram i denna lektionsserie är att de tjänar som olika gra-fiska, kompletterande, representationer av data (repetera gärna hur ett lådagram är uppbyggt!), och att det finns vissa förhållanden som gäller dem emellan, se till ex-empel illustration nedan.

https://jaredkline.com/2019/02/12/dealing-with-skewness-in-machine-learning-data/

https://mathbitsnotebook.com/Algebra2/Statistics/STnormalDistribution.html


49

https://ddttrh.info/relationship-between-and/relationship-between-box-plots-and-histo-grams-bar.php

2.4 Korrelation och kausalitet

Det är inte nödvändigt att kunna handräkna korrelationskoefficienter i denna lekt-ionsserie (eller i läromålen för matematik 2B/2C). Däremot står det i det centrala innehållet att statistikdelen i matematik 2B ska innehålla ”Orientering och resone-mang när det gäller korrelation och kausalitet”. En orientering i korrelation bör inne-hålla följande beskrivningar:

Att korrelationskoefficienten är ett mått på graden av linjärt samband mellan två variabler, x och y. Det kan vara bra för läraren att veta att det korrelationsmått som är vanligast, och som presenteras i läroböckerna för gymnasiet, egentligen heter Pe-arson’s korrelationskoefficient och kräver att både x och y ska vara kvantitativa (nu-meriska, helst kontinuerliga, variabler). Det går att beräkna samband och korrelation även för kategoriska/dikotoma variabler men det ingår inte här.

Att korrelationskoefficienten, betecknad r, kan anta följande värden: −𝟏 ≤ 𝒓 ≤ 𝟏. Ju närmare värdet 0 r är, desto lägre grad av samband mellan x och y. Vidare medför r > 0 en positiv lutning på en tänkt linje (diskuteras mer i relation till nästa begrepp) och r < 0 en negativ lutning.

Det kan vara bra att visa lite olika exempel inför klassen och hjälpa till vid tolkning, till exempel enligt figur på nästa sida. Det finns även mycket digitalt material, som till exempel denna video: https://www.youtube.com/watch?v=ugd4k3dC_8Y, som kortfattat och pedagogiskt förklarar korrelationskoefficienten, inklusive hur den tol-kas. Videon kan användas som lärarhandledning, visas inför klass, eller som instude-ring för eleverna.

https://ddttrh.info/relationship-between-and/relationship-between-box-plots-and-histograms-bar.php

https://ddttrh.info/relationship-between-and/relationship-between-box-plots-and-histograms-bar.php

https://www.youtube.com/watch?v=ugd4k3dC_8Y


50

https://www.myassignmenthelp.net/correlation-assignment-help

När det gäller korrelation och kausalitet är det viktigt att återknyta till diskussion-erna kring exempel 1 i diskussionen av exempel 2. Se även kommentarer i relation till R kod (bilaga 6). Som lärarinläsning rekommenderas Baker (2019): “Correlation is not causation: Learn how to avoid the 5 traps that even pros fall into”, tillgänglig via https://leanpub.com/correlationandcausation. Vid tidsbrist rekommenderas att titta på dessa två videos:

https://www.youtube.com/watch?v=U-_f8RQIIiw https://www.youtube.com/watch?v=HUti6vGctQM

3. LEKTION 3

Mål

-Användande av programvara för att ta fram, beräkna och tolka enkel linjär regression -Grundläggande förståelse av statistiska modeller, i synnerhet enkel linjär regression, in-klusive principen för minstakvadratmetoden -Förståelse av tolkning av regressionslinjen (lutningskoefficient och intercept) -Förståelse av kopplingen mellan korrelation och enkel linjär regression, samt mellan räta linjens ekvation och enkel linjär regression i relation till dess grafiska representation (punktdiagram)

Aktiviteter

Genomgång i programvara med hjälp av exempel 3: -Enligt genomgång i lektion 2 Genomgång (tavla och i programvara): -Beräkning av enkel linjär regression med hjälp av minstakvadratmetoden -Tolkning av regressionslinjen (lutningskoefficient och intercept); koppling till korrelation

https://www.myassignmenthelp.net/correlation-assignment-help

https://leanpub.com/correlationandcausation

https://www.youtube.com/watch?v=U-_f8RQIIiw

https://www.youtube.com/watch?v=HUti6vGctQM


51

All undervisning i lektion 3 sker med hjälp av R. I samband med att koden körs och resultat fås fram, tolkas och diskuteras resultaten. Vissa begrepp (se rubriker ne-dan) förklaras också mer detaljerat av läraren i relevanta avsnitt i R koden.

Till sin hjälp har läraren färdigpreparerad R kod som finns i bilaga 6, samt färdiga dataset i R format tillgängliga via: https://kau.app.box.com/v/MAGK30EkholmSel-ling2019). Viktigt är att introducera exempel 3 på ett tydligt och engagerande sätt innan analyserna påbörjas (se bilaga 5). Kom ihåg att koppla körningen av R koden till de fyra generella stegen i statistiska undersökningar (se figur 1), där fokus i R ko-den ligger på det sista steget ”Försöker svara på frågan”. Detta steg är i R koden uppdelat i två: ”Lär-känna-data steg (deskriptiv statistik och visualisering)” och ”Stat-istisk metod/analys”.

3.1 En statistisk modell: regressionsanalys (enkel linjär regression)

Nedan visas ett exempel på hur regressionsanalys inklusive principen för minstakvadratmetoden kan introduceras med hjälp av exempel 1 (lektion 1), om man vill rita på tavlan, men det görs mycket snyggare och mer pedagogiskt i följande länk: https://www.youtube.com/watch?v=JvS2triCgOY.

Det viktigaste här är att eleverna:

Kopplar räta linjens ekvation med formeln för enkel linjär regressionsanalys. Det vill säga att enkel linjär regression är en typ av statistisk modell av formen: y-hatt = b0 + b1x, som använder sig av räta linjens ekvation (y = kx + m) vid uträkningar av samband mellan en x- och en y-variabel; där x och y är mätvärden av insamlade data, med variation. Nämnas kan eventuellt att det i statistiska modeller av detta slag kan införas flera x-variabler samtidigt och att det då kallas för multipel linjär regression.

Förstår principen för minstakvadratmetoden, det vill säga att regressionslinjen inte ritas slumpmässigt givet ett antal mätpunkter i ett punktdiagram, utan i mitten av ”punktsvärmen”; eller mer korrekt: minstakvadratmetoden innebär att man mini-merar summan av kvadraterna på de i figuren ovan utritade vertikalavstånden. Tidi-gare nämnd video visar på ett pedagogiskt sätt hur b0 och b1 räknas ut enligt minstakvadratmetoden och kan användas antingen som lärarhandledning, visas för



https://www.youtube.com/watch?v=JvS2triCgOY


52

eleverna, eller förstås som bas för handräkning inför klass om man så vill: https://www.youtube.com/watch?v=JvS2triCgOY.

3.2 Tolkning av regressionslinjen

Det är inte nödvändigt att kunna handräkna skärningspunkt med y-axeln (eller inter-cept, som det kallas) och lutningskoefficient med hjälp av minstakvadratmetoden i denna lektionsserie (eller enligt centralt innehåll i matematik 2B/2C). Viktigast när det gäller regressionsanalysmomentet är också att eleverna kan tolka intercept och lutningskoefficient utifrån uträkningar gjorda i R i ord. Mer i detalj:

Att intercept (b0) tolkas som ett ”startvärde” för regressionslinjen; ett genomsnitt-ligt värde för y då x = 0; och att denna inte alltid har en vettig tolkning för alla data-material (ibland är det inte rimligt at x antar värdet 0).

Att lutningskoefficienten (b1) tolkas som ”när x ökar med en enhet, minskas/ökas y (beroende på om lutningen är positiv eller negativ) med i genomsnitt b1 enheter. ”I genomsnitt” är viktigt att få med i tolkningen, då regressionslinjen för varje givet värde på x representerar medelvärdet för y givet x; alla observerade data ligger inte på regressionslinjen – men regressionslinjen ligger ”i mitten av data” (minstakvadrat-metoden).

Det kan också nämnas att regressionsanalys kan användas för att prediktera, det vill säga förutsäga, nya observationer. Det är enkelt att visa genom att i en framtagen regressionsekvation (från exempel 3, skrivet i formen: y-hatt = b0 + b1x) välja ett värde på x som man vill predicera, sätta in det i ekvationen och räkna ut värdet för y-hatt – prediktionen av y.

3.3 Koppling mellan linjär regression och korrelation

Det finns matematiska likheter mellan korrelation och regressionsanalys – men fram-för allt är det meningen att eleverna i denna lektionsserie ska göra kopplingen att om korrelationen är > 0 kommer lutningskoefficienten på regressionslinjen vara po-sitiv, och tvärtom (se bilaga 7) och framför allt att båda kvantifierar statistiska sam-band.

Det är förstås viktigt att påpeka att i tolkning av regressionsanalyser gäller samma diskussion gällande kausalitet och rimlighet som för korrelation, se 2.4.

https://www.youtube.com/watch?v=JvS2triCgOY


53

BILAGA 5: PRESENTATION AV EXEMPEL

Exempel 1: Livet framför skärmen

(lektion 1)


54

Exempel 2: Samband mellan antalet honungsbin och giftermål?

(lektion 2)

Det har i nyhetsflödet diskuterats mycket kring bin – att bina är hotade och att det i längden hotar vår existens i och med att bina pollinerar de grödor som är livsviktiga för vår överlevnad.

Nu har man i USA också visat att det finns ett samband mellan antalet ho-nungsproducerade bin och andelen som gifter sig. Hotar minskningen av bin även vårt kärleksliv?

Kommentarer till lärare: Datasetet bygger på riktiga data (se ovan) och är hämtat från webb-sidan: https://tylervigen.com/page?page=2. Webbsidans poäng är att visa att korrelation inte alltid betyder kausalitet. Se även kommentarer i R kod (bilaga 5).

https://tylervigen.com/page?page=2


55

Exempel 3: Försäkringsdata – vad påverkar skadebeloppet vid brand?

(lektion 3)

Ett försäkringsbolag i USA vill se vad som påverkade skadebeloppet vid brän-

der av större fastigheter. De samlade in data från 20 bränder och de variabler

de samlade in data på var:

”damage” = skadebelopp (i datasetet uttryckt i 1000-tals dollar; 187 läses alltså som 187 000 dollar)

”fire” = storleken på branden på en skala från 1 till 10, där 10 är största möjliga brand

”firefighters” = antalet brandmän som var involverade i att bekämpa branden


56


57

BILAGA 6: R KOD, LEKTIONER

Denna bilaga är i första hand tänkt för lärare och innehåller all R kod som

behövs för att genomföra lektion 1 till 3, se bilaga 4 för mer detaljer.

##############################

# R kod, lektioner

##############################

##################

#LEKTION 2 (EXEMPEL 2)

##################

#########

#Inledande kommentarer

#########

#All kod i R exekveras genom att trycka ned Ctrl och R.

#Man kan exekvera en eller flera rader kod samtidigt.

#Mest pedagogiskt är att köra en rad åt gången.

#Hashtag (#) är markeringen för kommentar i R och det

#som står efter tecknet kommer inte att exekveras.

#########

#Datasteg (inmatning/inläsning)

#########

#Matar in data från grafen: "Honey producing bee

#colonies (US) correlates with marriage rate in Vermont"

#(tylervigen.com). Matar in de tre variablerna

#(som här döpts till "bin", "gifta", "år") som separata

#vektorer/kolumner.

bin <- c(2652, 2622, 2550, 2574, 2599, 2554, 2409, 2394,

2443, 2342, 2498)

gifta <- c(10, 10, 9.8, 9.8, 9.7, 9.4, 8.9, 8.6, 8.5,

7.9, 8.7)

år <- c(1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006,

2007, 2008, 2009)

#Om man vill kontrollera kolumnerna man matat in skriver

#man bara kolumnens namn.

bin

gifta

år


58

#De tre kolumnerna sammanbinds till ett dataset (här

#kallat "data1") för att möjliggöra analyser.

data1 <- data.frame(bin, gifta, år)

#Kontroll så att data1 ser korrekt ut.

data1

#Notera: för att anropa en variabel i data1 behöver vi

#skriva följande:

data1$bin

data1$gifta

data1$år

#Fråga: På vilket steg i flödesschemat i statistiska

#undersökningar är vi nu?

#########

#Lär-känna-data steg

#(deskriptiv statistik och visualisering)

#########

###

#Deskriptiv statistik

###

#Lägesmått (centralmått) för variablerna "bin" och

#"gifta". Koppla till data för att förklara.

#SE ÄVEN BILAGA 4, 2.1 FÖR EXEMPEL PÅ FÖRKLARINGAR

mean(data1$bin)

median(data1$bin)

mean(data1$gifta)

median(data1$gifta)

#Spridningsmått för variablerna "bin" och "gifta".

#Koppla till data för att förklara.

#Kommentera skillnader i sd mellan variablerna (skala!).


sd(data1$bin)

sd(data1$gifta)

###

#Visualisering

###

#Histogram och lådagram (boxplot) för ”bin och ”gifta”.

#Diskutera.



59

boxplot(bin,data=data1)

hist(bin, data=data1)

boxplot(gifta,data=data1)

hist(gifta, data=data1)

#Punktdiagram

#Problematisera: vad ska vara x och vad ska vara

#y variabel i plot!

#(Beror på påstående/frågeställning i detta fall).

#I plotfunktionen kommer den variabel som anges först

#sättas som x och den andra variabeln som y.

#Detta punktdiagram säger att om antalet bin ökar, ökar

#andelen gifta.

plot(data1$bin, data1$gifta)

#Och denna säger att om andelen giftermål ökar,

#ökar antalet bin.

plot(data1$gifta, data1$bin)

#De säger i stort samma sak i form av samband, men den

#tolkning vi gör är olika, eller hur?

#Fråga: På vilket steg i flödesschemat i statistiska


#########

#Statistisk metod/analys

#########

###

#Korrelation (Pearson - vanligaste metoden)

###

#Definiera korrelation: linjärt samband, -1<= r <=1

#(0 ingen korrelation)

#SE BILAGA 4, 2.4 FÖR EXEMPEL PÅ FÖRKLARINGAR

#I corfunktionen kommer den variabel som anges först

#vara x och den andra variabeln y; men det spelar ingen

roll hur man sätter dem i praktiken eftersom korrelat-

ionen blir densamma - visas nedan.

#Denna korrelation x=antalet bin, y=andelen gifta.

cor(data1$bin, data1$gifta, method = c("pearson"))

#Denna korrelation x=andelen gifta, y=antalet bin.

cor(data1$gifta, data1$bin, method = c("pearson"))


60

#Sammanfattning: Hög korrelation, vi kan grafiskt se att

#det är rimligt att korrelationen är hög.

#MEN: vad påverkar vad egentligen? Dvs. vad är orsak-

#verkan (relation mellan x och y)?

#Fråga: Är det rimligt att det finns ett samband mellan

#variablerna överhuvudtaget?

#Varför tror vi det? Vem påstår det? Även om vi utgår

#från att data är korrekt, vilka mekanismer kan koppla

#ihop antalet bin med giftermål?

#Kan det finnas någon annan variabel som förklarar det

#samband vi ser?


#År?

plot(data1$år, data1$bin)

plot(data1$år, data1$gifta)

#Både antalet bin och andelen giftermål sjunker över tid

#(förutom 2009).

#Sambandet mellan bin och giftermål beror alltså på år.

#Nedan finns en närmare förklaring vid behov.

#Om man vill se korrelationen mellan alla variabler i

#data1, t.ex. hur "bin" respektive "gifta" korrelerar

#till "år" kan man skriva så här:

cor(data1, method = c("pearson"))

#I matrisen ser man att det är en hög negativ

#korrelation mellan bin och år samt gifta och år (vilket

#man också ser i graferna ovan), därför ser det ut som

#att det finns ett samband mellan bin och gifta.

#VIKTIGT att koppla till originalfiguren (Tyler Vigen),

#se bilaga 5 och jämföra grafen där med det som tagits

#fram ovan.

##################

#LEKTION 3, EXEMPEL 3

##################

##DENNA FÖRSTA DEL BARA FÖR LÄRARE##

#Importering av dataset till R.

#Ibland behöver man importera data från andra filformat,

#om man tex önskar byta dataset i lektionsserien. Ett

#vanligt filformat är csv.

#I det här exemplet importeras datasetet "Fire" som är i

#csv format till R.


61

#Notera att SÖKVÄGEN MÅSTE ÄNDRAS och datasetets namn

#måste ändras.

#För att veta sökvägen till en fil, läs instruktionerna

#i http://www.dator.xyz/System/basic-computer-skills/201297.html

#Datasetet döps till "fire".

fire <- read.csv("C:/Users/Katarina/Desktop/Fire.csv",

header = TRUE, sep =";")

fire

#Ibland kan variabelnamnen se konstiga ut vid import

#till R. Då kan man ändra dem så här:

#Be R lista kolumnnamnen i datasetet.

colnames(fire)

#Ändring av variabelnamn kan göras på många olika sätt.

#Ett bassätt är att utgå från kolumnens position i

#matrisen enligt nedan.

names(fire)[1] <- "damage"

names(fire)[2] <- "fire"

names(fire)[3] <- "firefighters"

#Checka så att det blev rätt genom att...

colnames(fire)

fire

#Spara datasetet i R format. OBS: sökväg!

save(fire, file = ("C:/Users/Katarina/Desk-

top/fire.RData"))

#För att öppna den i R gör enligt nedan. OBS: sökväg!

load("C:/Users/Katarina/Desktop/fire.RData")

#I denna lektionsserie ingår inte att importera data

#eller att ändra variabelnamn. Men skulle det bli

#problem eller nya data ska användas gör enligt ovan.

######################################

##ALLMÄN DEL - BÖRJA GENOMGÅNGEN HÄR##

######################################

#########

#Datasteg (inmatning/inläsning)

#########

#Denna lektion ska färdig inmatat data i R-format

#öppnas.

http://www.dator.xyz/System/basic-computer-skills/201297.html


62

#OBS: Kom ihåg att ändra sökväg i koden nedan! Se:

#http://www.dator.xyz/System/basic-computer-skills/201297.html

load("C:/Users/Katarina/Desktop/fire.RData")

#För att titta på data skriver vi namnet på datasetet.

fire

#Notera också att det går att öppna dataset i en

#dataeditor. Dataseten i denna lektionsserie är små,

#men visa att det går att titta på dem via:

edit(fire)

#Notera att dataeditor fönstret MÅSTE STÄNGAS ned innan

#ytterligare kod kan exekveras.

#########

#Lär-känna-data steg

#(deskriptiv statistik och visualisering)

#########

#Koppla ihop lägesmått (medelvärde) med histogram;

#alla variabler, eller i alla fall för y-variabeln

#damage. Be eleverna själva ta fram medelvärdet för

#variablerna. Om tid finns, be eleverna

#titta på SD också (för damage) i relation till

#histogrammet, samt lådagram (se lektion 2).

hist(fire$damage)

mean(fire$damage)

sd(fire$damage)

hist(fire$firefighters)

mean(fire$firefighters)

hist(fire$fire)

mean(fire$fire)

#Titta på samband i punktdiagram. Be eleverna själva ta

#fram graferna.

#Finns samband? Positivt/negativt?

plot(fire$fire, fire$damage)

plot(fire$firefighters, fire$damage)

#########

#Statistisk metod/analys

#########

http://www.dator.xyz/System/basic-computer-skills/201297.html


63

###

#Korrelation (Pearson - vanligaste metoden)

###

#Be eleverna ta fram och tolka korrelationen mellan

#firefighters och damage.

cor(fire$firefighters, fire$damage, method = c("pear-

son"))

#Fråga: På vilket steg i flödesschemat i den statistiska


#Gå igenom regressionsanalys (enkel linjär regression).

#Statistisk modell SE BILAGA 4, 3.1 FÖR EXEMPEL PÅ

#FÖRKLARINGAR

#Bygger på funktionen "rät linje". En rät linje måste ha

#startpunkt (intercept)och lutning. Men i

#regressionsanalys drar man inte vilken rät linje som

#helst, den ska dras ”i mitten av punktsvärmen” - minsta

#kvadratmetoden.


#I R kan man få fram intercept och slope (startpunkt och

#lutning) med hjälp av följande kommando.

#lm står för linear model. Notera att y ska vara på

#vänstersidan av ~ och x på höger.

lm(fire$damage ~ fire$firefighters)

#Via kommandot ovan får vi fram startpunkt och lutning

#och kan plotta in regressionslinjen i grafen.

plot(fire$firefighters, fire$damage)

abline(-11.54, 42.73)

#Tolkning av intercept? Tolkning av slope? Går linjen "i

#mitten" av punkterna? Avstånd mellan punkter och linje?

#Koppla till korrelation: tex. positiv korrelation –

#positiv lutningskoefficent.

##Men är resultatet rimligt? Ju fler brandmän desto

##större skada?

##Finns det något som har samband med antal brandmän och

##också till skadestorlek? Rita.

#Storleken på branden? Påverkar den antalet brandmän?

#Påverkar den skadans storlek? Hur?

#Be eleverna kontrollera själv med hjälp av plot() och

cor() #funktionerna.


64


65

BILAGA 7: FORMATIVA UTVÄRDERINGAR

Del 1 (i slutet av lektion 2 eller som hemläxa inför lektion 3)

Fråga 1. Nedan ser du tre typer av fördelningar (om det hjälper kan du tänka dig att varje fördelning är ett histogram av data, med smala och tätsittande staplar).

a b c Para ihop figurerna ovan med följande påståenden:

a) Detta är en symmetrisk fördelning. b) Detta är en skev fördelning. c) I den här fördelningen är medelvärdet > medianen. d) I den här fördelningen är medelvärdet = medianen. e) I den här fördelningen är medelvärdet < medianen.

Fråga 2. Nedan ser du tre fördelningar, alla med samma medelvärde. De har olika standard-avvikelse. Rangordna dem från minst till störst där fördelningen med minst standar-davvikelse får värdet 1 och störst får värdet 3.


66

Fråga 3.

a b c Para ihop graferna ovan med följande påståenden:

a) När x ökar, ökar y. b) Korrelationskoefficienten kommer att vara ≈ 0. c) Sambandet mellan x och y är negativt. d) Korrelationskoefficienten kommer att vara > 0. e) När x ökar, minskar y. f) Korrelationskoefficienten kommer att vara < 0.

asdfaf


67

Del 2 (i slutet av lektion 3 eller som hemläxa inför lektion 4)

Fråga 1. Nedan finns en utskrift från R, där sambandet mellan storleken på branden (”fire”) och skadeomfattningen (”damage”) utreds; samma dataset som användes vid lekt-ion 3. I grafen plottas sambandet mellan de två variablerna och regressionslinjen rä-knas fram och infogas. Koefficienterna för regressionslinjen syns i utskriften under grafen.

a) Är sambandet positivt eller negativt? b) Vilket är troligast: att korrelationen är > 0 eller < 0? c) Beskriv tolkningen av lutningskoefficienten i ord. d) Beskriv tolkningen av intercept i ord. e) Verkar resultatet rimligt?

Call:

lm(formula = fire$damage ~ fire$fire)

Coefficients:

(Intercept) fire$fire

-57.4 124.0

2 4 6 8 10

200

400

600

800

1000

1200

fire$fire

fire

$dam

age


68

Facit

Fråga 1: a) a; b) b, c; c) b; d) a; e) c Fråga 2: Blå: 1; Mörklila: 2; Ljuslila: 3 Fråga 3: a) a; b) c; c) b; d) a; e) b; f) b

Fråga 1: a) positivt; b) > 0; c) När ”fire” (storleken på branden) ökar med en enhet, ökar ”damage” (skadebeloppet) med i genomsnitt 124 enheter (124,000 dollar); d) När storleken på branden är 0, är skadebeloppet negativt (-57,000 dollar). Orimligt med negativt skadebelopp, men intercept i detta fall betyder väl att det inte finns någon brand?; e) Positivt samband verkar rimligt, men intercept är ej tolkningsbart.


69

BILAGA 8: LÄRARHANDLEDNING, LABORATION

1. LEKTION 4

Mål

-Befästande av de förvärvade kunskaperna och begreppen från lektion 1–3 via statistisk problemlösning på nya data, i mindre grupper

Aktiviteter

-Datorlaboration i mindre grupper

1.1 Inför datorlaborationen

Det förutsätts att läraren är bekant med dataseten; dels via introduktionen till ele-verna i bilaga 9 men också själva dataseten, vilka alla är tillgängliga via: https://kau.app.box.com/v/MAGK30EkholmSelling2019, för att säkerställa att lära-ren förstår innehållet eftersom frågor på detta kan komma under laborationen.

Viktigt är också att säkerställa att eleverna har tillgång till R kod för de i lektions-serien tidigare genomgångna momenten; antingen via elevernas egna sparade koder från tidigare lektioner, eller också distribuerar läraren exempelkoden i bilaga 6. Me-ningen är inte att eleverna ska ”uppfinna hjulet” igen – de ska utgå från tidigare kod, eftersom huvudfokus inte är behärskandet av programmering i R utan statistisk ana-lys och tolkning.

Eleverna delas in i mindre grupper – helst två och två – och de fem dataseten i R format samt instruktioner i bilaga 9 delas ut till grupperna; en per grupp, med så jämn fördelning av de fem dataseten som möjligt. I en klass på 25-30 elever kommer följaktligen 5-6 personer analysera samma datamaterial.

Muntlig genomgång av instruktioner till datorlaborationen med utgångspunkt i elevinstruktionerna, bilaga 9:

o Analysera data i R utifrån de begrepp som gåtts igenom. Till er hjälp har ni exempelkod eller egen tidigare sparad kod.

o Spara R koden med analyserna ni kört på data. o Under lektion 5 ska ni sedan presentera frågeställning, data och ana-

lyser inför en grupp klasskamrater genom att köra R koden från da-torlaborationen. Kom ihåg att tolka resultaten!

1.2 Under datorlaborationen

Som tidigare nämnts, är det nödvändigt att läraren har koll på dataseten för att sä-kerställa att hen förstår innehållet, eftersom frågor på detta högst sannolikt kommer under laborationen. En del vanliga frågor brukar vara:

Hur tolkas variablerna och variabelvärdena? Självklart är det svårt att utifrån be-skrivningen i bilaga 9 förstå exakt hur variablerna är mätta, hur data är insamlat och testsituationer konstruerade etc. Det är avsiktligt – det vet vi sällan som konsumen-ter av statistik i dagspress och liknande – och det är ett sätt att få eleverna att an-vända sitt kreativa och kritiska tänkande i hur det kanske kan ha gjorts (det kommer



70

också att diskuteras under lektion 5). Om eleverna inte förstår ett ord, går det natur-ligtvis bra att söka upp det på Internet; vidare är det bra om eleverna kan tolka huruvida låga eller höga värden på en variabel är ”bra” eller ”dåligt”; hjälp dem an-nars med det.

Vad är x och vad är y (förklarande- respektive responsvariabel)? Detta är inte helt självklart och är en bra bas för diskussioner, men för att komma vidare rekommen-deras att utgå från hur frågan är uppbyggd i introduktionen till laborationen (x -> y; den första variabeln i frågeställningen antas vara x och den andra y).

Varför fungerar inte koden? Varför syns inte resultatet? Varför kan jag inte se data? Denna typ av frågor är mycket vanliga under datorlaborationer. Här hänvisas till tidigare text om generell felsökning i R (se bilaga 1).

Lärarens roll, utöver ovan, är att stimulera gruppdiskussionerna med frågor gällande tolkning av analyser; att beräkningarna kopplas till tolkningar – kom ihåg att det är en viktig komponent för att elevernas presentation av datorlaborationerna, med till-hörande diskussion, ska bli givande.

2. LEKTION 5

Mål

-Befästande av de förvärvade kunskaperna och begreppen från lektion 1–3 genom att pre-sentera samt diskutera tolkningar av resultat av sina egna analyser med klasskamrater som analyserat andra datamaterial

Aktiviteter

-Presentationer och diskussioner av resultat och tolkningar i mindre grupper, med läraren som moderator -Uppföljning och diskussion i klass

2.1 Format för presentation av datorlaborationer

Efter laborationen, under sista lektionen, är tanken att grupperna ska presentera sina resultat och tolkningar för varandra. Denna presentation och diskussion kan för-stås göras på många olika sätt. Ett förslag är att dela upp elevparen som arbetade med samma datamaterial under laborationen i lektion 4 och bilda 5-6 nya grupper i vilka eleverna, så långt som möjligt, har arbetat med separata dataset, och låta ele-verna i dessa grupper presentera inbördes för varandra. För att spara tid och behålla fokus föreslås att presentationerna i grupperna sker via exekvering den R kod de ar-betat med under laborationen och förklara analyser och tolkningar utifrån den.

Lärarens roll är att stimulera och vid behov moderera gruppdiskussionerna med frå-gor gällande tolkning av analyser – detta är en viktig komponent för att elevernas presentation av datorlaborationerna, med tillhörande diskussion, ska bli givande. I 2.2 visas tips på frågor kopplade till de olika dataseten.

2.2 Tips på frågor och diskussioner kopplade till de olika dataseten

Datasetet ”Milk” baseras på en länge omdebatterad frågeställning, den innehåller också, liksom ”global_warming” (nedan) en outlier (extremvärde). Faktum är att om outliern i Milk tas bort så försvinner sambandet (det beror på att antalet observat-ioner är så litet och outliern så extrem). Som bakgrund kan nämnas att detta är data


71

från en publicerad vetenskaplig artikel (som tyvärr inte längre är tillgänglig), och att den blev kritiserad för att outliern helt förändrade resultaten och tolkningen av sam-bandet och att författarna inte varit tydliga med det.

Datasetet ”mäklardata” innehåller, liksom ”global_warming” (nedan), ett större an-tal observationer (se ovan). Mäklardata innehåller även en orimlig tolkning av inter-cept och en viss indikation på att sambandet inte är linjärt (avmattning för höga tax-eringsvärden, rimligt?).

Datasetet ”Radidiots” baseras på en icke-relevant frågeställning (men upplevdes vara relevant då undersökningen gjordes – en viss koppling kan göras till exempel 1; skärmtid och depression). Vidare innehåller Radidiots exempel på ett samband som egentligen förklaras av en tredje variabel (likt exempel 2 och 3 i lektionsserien).

Datasetet ”global_warming” baseras på en relevant och debatterad fråga och inne-håller ett större antal observationer, det är alltså svårt att bilda sig en uppfattning av data utan statistisk programvara. Diskuteras kan dock att statistiska analyser inte blir svårare när datasetet är större – de görs och tolkas på samma sätt. Noteras kan att datasetet innehåller en outlier (extremvärde). Man kan diskutera hur denna påver-kar beräkningar och resultat (svaret är att det gör den inte; tar man bort denna ob-servation förändras inte resultaten – det har bland annat att göra med mängden ob-servationer som insamlats).

Datasetet ”alcohol_test” visar en koppling mellan före- och eftervärdena, men vad står det för egentligen? Kanske att om man i grunden har en bra reaktionsförmåga så fortsätter man ha det även efter intag av alkohol – trots att den försämras (enligt resultaten). Det är lite klurigt. Har eleverna noterat om det var någon som fick bättre reaktionsförmåga efter jämfört med före?

2.3 Uppföljning och diskussion i klass

Även här finns många sätt att följa upp frågorna i grupperna samt att runda av lekt-ionsserien. Ett sätt som rekommenderas är att lyssna in diskussionerna i de olika grupperna och koppla nyckelfrågor till en mer allmän nivå som innehåller repetition av begrepp och tolkningar över hela lektionsserien. En annan rekommendation är att återkoppla arbetet i laborationerna till delarna i den statistiska processen (som dis-kuterades i lektion 1); det går till exempel att tillsammans fundera över hur data till dataseten kan ha samlats in och hur variabler definierats, etc.

Det finns även så kallade självtester för statistical literacy som kan göras tillsammans i klass om det finns tid över, till exempel:

http://www.surveygizmo.com/s3/3111402/StatisticalLiteracy.

http://www.surveygizmo.com/s3/3111402/StatisticalLiteracy


72


73

BILAGA 9: INTRODUKTION DATA, LABORATION

Dataset 1: Finns det ett samband mellan att dricka mjölk och dödlighet i hjärt-kärl-sjukdomar? (om man dricker mjölk, får man då hjärt-kärlsjukdomar?)

Datasetet ”Milk” innehåller data från 13 länder och är insamlad på 1960-talet. Vari-abeln ”milk_consumption” är uttryckt i genomsnittligt antal liter mjölk per år, per invånare. Variabeln ”death_by_cardiovascular_disease” är uttryckt som antal döds-fall per 100,000 invånare. Första radens värde, 244,7, tolkas alltså som att dödlig-heten var 244,7/100 000 i Finland.

Uppgift:

• Analysera data i R utifrån de begrepp som gåtts igenom. Till er hjälp har ni exempelkod eller egen tidigare sparad kod.

• Spara R koden med analyserna ni kört på data.

• Presentera frågeställning, data och analyser inför klass genom att köra R ko-den från datorlaborationen. Kom ihåg att tolka resultaten!


74

Dataset 2: Finns det ett samband mellan taxeringspris och försäljningspris på vil-lor? (ökar taxeringsvärdet försäljningspriset?)

Datasetet ”Mäklardata” innehåller data på 321 villaförsäljningar i Uppsala och är in-samlad mellan åren 2007 och 2011. Variabeln ”selling_price” är försäljningspriset på huset och är uttryckt i 1000-tals kronor (1650 betyder alltså 1 650 000 kr). Variabeln ”tax_value” är husets taxeringsvärde vid försäljningen. Taxeringsvärde är värdet på ett hus som ligger till grund för fastighetsskatt och räknas bland annat utifrån husets läge och dess standard. Taxeringsvärdet är, liksom försäljningspriset, uttryckt i 1000-tals kronor.

Uppgift:





75

Dataset 3: Finns det ett samband mellan antalet radioapparater och antalet pati-enter som får psykiatrisk vård? (är radiolyssnande kopplat till psykisk sjukdom?)

Datasetet ”Radidiots” innehåller data från åren 1924 till 1939 (se variabeln ”YEAR”), det vill säga mellankrigstiden, från ett område i London. Variabeln ”RADIO” är antalet registrerade radioapparater i området och variabeln ”MENTAL” är antalet patienter som var inlagda för psykiatrisk vård, i området.

Uppgift:





76

Dataset 4: Finns det ett samband mellan koncentrationen av koldioxid i atmosfä-ren och jordens medeltemperatur? (ökar koldioxidutsläpp temperaturen?)

Datasetet ”global_warming” innehåller data från 160 mätningar för de senaste 160 000 åren (varje mätvärde representerar 1000 år) för koldioxidhalten i atmosfären (variabeln ”co_ppm”) och medeltemperatur i grader Celsius (variabeln ”temp_c”). Kortfattat kan man säga att dessa variabelvärden fåtts fram genom att man borrat i glaciärer på Grönland och glaciärer har, precis som träd, årsringar. I glaciärernas års-ringar finns luftbubblor och i luftbubblorna kan man mäta mängden koldioxid och också använda en metod för att för att få fram genomsnittlig temperatur på jorden under en specifik årsring, det vill säga under en specifik tidsmässig period.

Uppgift:



• Presentera frågeställning, data och analyser inför klass genom att köra R ko-den från datorlaborationen. Kom ihåg att tolka resultate


77

Dataset 5: Finns det ett samband mellan reaktionstid före och efter intag av alko-hol? (försämrar alkohol reaktionsförmågan?)

Datasetet ”alcohol_test” innehåller data från mätningar på 20 testpersoners resul-tat. Testet de gjorde var att i en bilsimulator testa sin reaktionstid vid inbromsning före och efter de druckit alkohol. Variabeln ”before” är reaktionstiden före (mätt i sekunder) variabeln ”after” är reaktionstiden, mätt på samma sätt, efter de druckit en viss mängd alkohol.

Uppgift:





78


79

statistik med r - diva portal1378839/fulltext02.pdf · statistik med r lektionsserie i statistik...

Documents