eindverslag flipp november 2012 (1086 kb)

Eindverslag FLiPP November 2012

Sharon Unsworth¹, Kees de Bot², Liv Persson¹ & Tineke Prins²

(¹Universiteit Utrecht en ²Universiteit Groningen)

Eindverslag FLiPP November 2012

In dit rapport wordt verslag gedaan over het Foreign Languages in Primary school Project (FLiPP). De

belangrijkste uitkomsten zullen hier worden gepresenteerd in relatie tot de onderzoeksvragen zoals ze

destijds in de projectaanvraag zijn geformuleerd. In de discussie zullen de bevindingen worden

gerelateerd aan recent onderzoek op het gebied van vroeg vreemdetalenonderwijs (vvto). In de

hoofdtekst zullen de uitkomsten worden gepresenteerd met een minimum aan statistiek. In de bijlage

wordt in meer detail ingegaan op de statistische verwerking van de data en de onderbouwing van de

gebruikte procedures.

Voor de interpretatie van de uitkomsten is relevant dat het onderzochte onderwijsveld op dit moment

heftig in beweging is. Het vvto heeft de laatste jaren een aanzienlijke groei doorgemaakt en op de

scholen waar dit onderwijs wordt gegeven hebben zich forse veranderingen voorgedaan. Opvallend

daarbij is de tendens op steeds meer scholen om al vroeg, in groep 1 met het onderwijs Engels te

beginnen. Per september 2012 zijn er bij het Europees Platform 850 vvto-scholen bekend. Een tweede

opvallend aspect is dat op veel scholen de leerkrachten door het volgen van cursussen en vooral door

het geven van het onderwijs zelf, hun Engelse taalvaardigheid hebben ontwikkeld. Een derde punt is dat

in de jaren waarin het onderzoek is uitgevoerd de ontwikkeling van leermiddelen specifiek voor dit

onderwijs een enorme vlucht heeft genomen waardoor er aanzienlijke veranderingen in de

onderwijsinhoud en –vormgeving hebben plaatsgevonden. Voor ons onderzoek betekent deze dynamiek

dat een deel van de scholen die aan het onderzoek hebben deelgenomen in zekere zin nu niet meer

dezelfde karakteristieken hebben, als bij de aanvang van het onderzoek. Dat is op zich een interessante

ontwikkeling, maar het maakt de interpretatie van de gegevens niet eenvoudig. In ons verslag zullen we

aangeven met welke veranderingen we rekening hebben te houden bij het trekken van conclusies.

Onderzoeksvragen

In de oorspronkelijke onderzoek aanvraag zijn de volgende onderzoeksvragen genoemd:

1. Hoe ontwikkelt de Engelse taalvaardigheid van de leerlingen zich over tijd?

2. Wat is de relatie tussen de ontwikkeling van de Engelse taalvaardigheid en de ontwikkeling van

het Nederlands als eerste taal en als tweede taal?

3. In hoeverre leidt vvto Engels tot de versterkte ontwikkeling van cognitieve en intellectuele

vaardigheden?

4. Wat zijn de effecten van meer taalaanbod, d.w.z. 15% van de onderwijstijd, in vergelijking met

een regulier programma?

5. Wat is de relatie tussen de ontwikkeling van de Engelse taalvaardigheid van de kinderen en het

taalvaardigheidsniveau van de leerkracht?

6. Wat zijn de effecten van vroeg (groep 1) en laat (groep 7) beginnen met onderwijs Engels?

Op basis van deze vragen is een onderzoeksdesign opgezet waarin drie factoren centraal stonden:

− aantal minuten Engels per week (t/m 60 minuten per week/60-120 minuten per week/120 en meer

minuten per week)

− taalbeheersingsniveau leerkracht (native/non-native en dan A/B/C niveau volgens CEFR1)

− beginmoment van aanbod Engels (vroeg i.e., groep 1 vs. laat i.e., groep 7)

In het design waren de groepen leerlingen zo verdeeld dat deze drie factoren zowel op zich als in

interactie bestudeerd konden worden. Zoals aangegeven zijn de leerlingen drie keer getest: aan het

begin van groep 1 (september-december 2010; de baseline), aan het einde van groep 1 (mei-juli 2011;

post-test I) en aan het einde van groep 2 (mei-juni 2012; post-test II). De resultaten van de scholen met

vvto zijn vergeleken met die van vergelijkbare scholen zonder vvto .

De deelnemende scholen

Ondanks aanzienlijke inspanningen is het niet gelukt het design zoals voorgesteld, gevuld te krijgen.

Hoewel voldoende scholen met allochtone leerlingen bereid waren aan het onderzoek mee te doen, was

de response van ouders op het verzoek tot deelname van hun kinderen zo gering dat onvoldoende

aantallen leerlingen met een allochtone achtergrond konden worden getest om over deze groep

gefundeerde uitspraken te kunnen doen. Ten tweede lukte het niet om in alle cellen van het design

vergelijkbare aantallen leerlingen te krijgen. Het bleek dus lastig te zijn om scholen te vinden die minder

dan 2 uur per week Engels geven met een native-speaker (moedertaalspreker) docent of scholen die 2

uur of meer Engels geven met een non-native speaker docent met een gemiddeld (B) niveau. Dit komt

deels door het feit dat scholen die veel tijd in vvto investeren vaak ook in een native-speaker docent

investeren. In totaal hebben 168 kinderen van 14 vvto-scholen en 26 kinderen van 2 controle scholen

deelgenomen aan het onderzoek.

Onderzoeksinstrumenten

In het onderzoek zijn verschillende instrumenten gebruikt om de onafhankelijke en afhankelijke

variabelen te meten, maar niet alle instrumenten zijn bij alle drie de meetmomenten meegenomen.

Voor de kennis van het Engels zijn een receptieve vocabulaire test (Peabody Picture Vocabulary Test

(PPVT-4; Dunn & Dunn 2007) en een receptieve grammatica test (Test of Reception of Grammar (TROG-

1 Het CEFR (Common European Framework of Reference) is een systeem om niveau van taalvaardigheid weer te

geven. Er zijn 6 niveaus: A1 (Basisgebruiker – Doorbraak) ,A2 (Basisgebruiker –Tussenstap), B1 (Onafhankelijke

gebruiker – Drempel), B2 (Onafhankelijker gebruiker – Uitzicht), C1 (Vaardige gebruiker – Effectieve operationele

vaardigheid) en C2 (Vaardige gebruiker – Beheersing).

2; Bishop 2003) gebruikt.2. Een onverwacht probleem deed zich voor bij de meting van de taalaanleg van

de leerlingen met behulp van de Young Learners Aptitude test (YLAT; Alexiou 2009). Door een fout in de

aangeleverde programmatuur bleek de registratie van de uitkomsten in de computer niet overeen te

komen met de scores zoals ze waren af te lezen op basis van de videoregistratie van de afnames. Door

het hoge percentage afwijkingen kon niet worden gegarandeerd dat deze test betrouwbaar was, en

daarom is besloten de uitkomsten niet verder in de analyses te betrekken. Dit betekent dat we de derde

hierboven genoemde onderzoeksvraag niet kunnen beantwoorden.

Voor de kennis van het Nederlands is gebruik gemaakt van de Nederlandse versie van de Peabody

Picture Vocabulary Test (PPVT-III-NL; Dunn, Dunn & Schlichting 2005) en van gegevens uit de Cito

leerlingvolgsystemen voor zover die op de deelnemende scholen werden afgenomen.

In dit onderzoek waren onafhankelijke variabelen de volgende:

- Taalvaardigheid leerkracht

- Aantal minuten Engels per week (gemiddeld over alle drie de testmomenten)

Daarnaast zijn de volgende controlevariabelen meegenomen in het onderzoek:

- Geslacht

- Leeftijd bij het begin van het testen

- Opleiding moeder, als indicatie van sociaal-economische status

- Buitenschools contact met Engels (op basis van vragenlijst aan ouders op alle drie de

testmomenten)

- Capaciteit werkgeheugen (in het Engels – non-word repetitie en geheugen voor getallen en in

het Nederlands – geheugen voor cijfers, allebei gemeten door Comprehensive Test of

Phonological Processing (CTOPP; Wagner, Torgesen,& Rashotte, 1999); niet-verbale geheugen,

gemeten door handbeweging deel van Kaufmann Assessment Battery for Children (REF))

- Non-verbale intelligentie (Raven’s progressive matrices (REF))

In de analyses is gekeken wat de impact is van de drie hoofdfactoren (aantal minuten Engels per week,

taalvaardigheid leerkracht en leeftijd bij begin Engels) op de afhankelijke variabelen (lexicale en

syntactische vaardigheid in het Engels en Nederlands). Daarna is onderzocht wat de invloed is van de

controle variabelen (geslacht, opleiding ouders, leeftijd, capaciteit werkgeheugen, intelligentie en

buitenschools contact met Engels).

Resultaten

2 Voor de communicatieve vaardigheden van de kinderen is gebruik gemaakt van de SOPA, een test gebaseerd op

interactie tussen kind en tester, maar uit ons eerste pilotonderzoek bleek dat de test onvoldoende discrimineerde

op het te testen taalvaardigheidsniveau, daarom is deze verder niet meegenomen.

Zoals aangegeven nemen we de oorspronkelijke onderzoeksvragen als startpunt voor onze analyses; we

bundelen deze op thematische wijze samen. Eerst bespreken we de ontwikkeling van de Engelse

taalvaardigheid en wat voor factoren hierop van invloed zijn, waarbij de twee hoofdfactoren aantal

minuten Engelse les per week en Engelse taalvaardigheid van de leerkracht een centrale rol spelen.

Daarna gaan we in op de Nederlandse taalvaardigheid van de vvto-kinderen. Vervolgens worden de

uitkomsten van de vvto -kinderen vergeleken met die van EIBO (Engels in het basisonderwijs, groep 7/8)

kinderen, en als laatste bespreken we heel kort de uitkomsten van de (weinige) anderstalige kinderen in

ons sample.

Engelse taalvaardigheid en de factoren die hierop van invloed zijn


2 Wat zijn de effecten van meer taalaanbod, d.w.z. tot maximaal 15% van de onderwijstijd, in

vergelijking met een regulier programma?

Voor deze analyse zijn de vvto-leerlingen opgesplitst in groepen op basis van hoeveel les Engels ze

krijgen per week: een uur of minder (“t/m 60 min”; n=57 ), meer dan een uur maar minder dan twee (“<

60 min tot 120 min”; n=65) of minstens twee uur (“120+ min”; n=39). In de Figuren 1 en 2 zijn

respectievelijk de gemiddelde ruwe scores voor de Engelse woordenschat en de Engelse grammatica

weergegeven voor de drie meetmomenten.

Figuur 1. Gemiddelde ruwe score op receptieve woordenschat in het Engels (error bars ± 1SD):

Aantal minuten Engels per week

Figuur 2. Gemiddelde ruwe score op receptieve grammatica in het Engels (error bars ± 1SD):

Aantal minuten Engels per week

De analyses laten zien dat er voor woordenschat én grammatica een significant effect is van tijd: de

leerlingen worden met de jaren beter. Ook is er een significant effect van aantal minuten Engels per

week. Gemiddeld over tijd scoren de leerlingen met 60 minuten of minder significant lager dan de

andere twee groepen die niet van elkaar verschillen. Een directe vergelijking tussen de ontwikkeling van

de lexicale en grammaticale vaardigheden is hier niet zinvol omdat de eenheden anders zijn. Op

woordenschat scoren de controle kinderen significant lager dan alle vvto-groepen behalve de groep met

t/m 60 minuten Engels per week; op grammatica verschilt de controlegroep van alle vvto-groepen.

We zien dat ook de controlegroep beter lijkt te worden met tijd. Dit is niet zo verrassend om de

volgende reden: ruwe scores worden hoger naarmate het kind ouder wordt, want de woordenschat van

een kind groeit met de leeftijd. Er zijn vele woorden in het Engels die op het Nederlands lijken, en omdat

de Nederlandse woordenschat van de controle kinderen met de jaren beter wordt, zal dit hen ook met

het Engels helpen. Dit geldt voor alle kinderen, d.w.z. een deel van de verbetering van de scores van de

vvto-kinderen tussen de baseline, post-test I en post-test II heeft te maken met het feit dat ze ouder

worden, en hun Nederlands dus beter wordt, en met het feit dat het Nederlands en het Engels

nauwverwante talen zijn waardoor veel woorden en constructies hetzelfde zijn.

De woordenschattoets wordt vaak voor tweetalige kinderen en tweede-taalleerders gebruikt

maar is vooral voor ééntalige Engelssprekende kinderen bedoeld en is dus ook voor deze groep

genormeerd. Zo kan dus iedere ruwe score in een leeftijdsequivalent getransformeerd worden. De

controle kinderen hebben een leeftijdsequivalent bij de baseline meting van 2 jaar en 3 maanden en bij

de tweede post-test wordt dit 2 jaar en 5 maanden. Voor de kinderen met 60 minuten of minder Engels

per week zijn de leeftijdsequivalenten 2 jaar en 2 maanden bij de baseline en 2 jaar en 6 maanden bij de

tweede post-test; de kinderen in de andere twee vvto groepen beginnen ook bij 2 jaar en 2 maanden en

eindigen op 2 jaar en 9 maanden. Als we ervan uitgaan dat de controle kinderen laten zien wat er

zonder Engels op school geleerd wordt, dan kunnen we hieruit opmaken dat kinderen met meer dan 60

minuten Engels per week in 2 jaar de tijd ongeveer hetzelfde leren als jonge eentalige Engelssprekende

kinderen in 5 maanden leren. Dat lijkt niet veel te zijn, maar is toch aanzienlijk omdat de vvto kinderen

veel minder Engels horen en gebruiken dan Engelse kinderen.

De onafhankelijke en controle variabelen bleken alleen een klein deel van de variantie

tussen de scores op woordenschat te verklaren: op post-test I werd 16% van de variantie verklaard door

taalvaardigheid docent (nl. of kinderen gedoceerd werden door een non-native speaker leerkracht van

gemiddelde niveau tegenover een native speaker leerkracht) en op post-test II werd 31% van de

variantie verklaard door de taalvaardigheid van de leerkrachten, werkgeheugen in het Engels en scores

op de baseline. Voor grammatica waren er zwakke maar significante correlaties tussen scores en

werkgeheugen (in het Engels en niet verbale), niet-verbale intelligentie, aantal minuten Engels per week,

taalvaardigheid van de docent en hoeveelheid Engels thuis. Alleen op post-test II werd er variantie (42%)

verklaard door een onafhankelijke variabele, nl. taalvaardigheid leerkracht (nl. of kinderen gedoceerd

werden door een non-native speaker leerkracht van gemiddelde niveau tegenover een native speaker

leerkracht), in combinatie met de scores van de kinderen op dezelfde toets op post-test I. Kortom, de

controle variabelen laten zwakke correlaties zien met de scores van de kinderen en verklaren weinig

variantie; alleen taalvaardigheid van de leerkracht en dan nog alleen het verschil tussen kinderen met

een leerkracht met Engels op CEFR/B niveau tegenover kinderen met een moedertaalspreker leerkracht

blijkt een significante voorspeller van uitkomsten op zowel grammatica als woordenschat te zijn.

5. Wat is de relatie tussen de ontwikkeling van de Engelse taalvaardigheid van de kinderen en het

taalvaardigheidsniveau van de leerkracht? Voor de beantwoording van deze vraag zijn de kinderen

opgedeeld in vier groepen: (i) kinderen met een native-speaker (NS) leerkracht (n = 41), (ii) kinderen met

een native-speaker leerkracht én een non-native-speaker (NNS) leerkracht van Engels op CEFR/A en/of

CEFR/B niveau (n=16), (iii) kinderen met een NNS leerkracht van Engels op CEFR/C niveau (n=43), en (iv)

kinderen met een NNS leerkracht van Engels op CEFR/B niveau (n=22). Omdat de groepen verschillen in

het aantal minuten dat er per week Engels gegeven wordt, wordt deze variabel meegenomen in de

analyse als co-variaat.


Taalvaardigheid van de leerkracht

Figuur 4. Gemiddelde ruwe score op receptieve grammatica in het Engels (error bars ± 1SD) in relatie tot

Taalvaardigheid van de leerkracht

Alle groepen worden beter met de tijd maar voor de kinderen met een non-native-speaker leerkracht

Engels op niveau CEFR/B is deze ontwikkeling langzamer dan bij de andere groepen. Gemiddeld over tijd

scoort deze groep ook significant lager dan de andere groepen (behalve de groep met een native-

speaker leerkracht op grammatica). Tussen de andere drie groepen zijn er geen significante verschillen.

Nederlandse taalvaardigheid


het Nederlands als eerste taal?

Voor de beantwoording van deze vraag is gebruik gemaakt van scores op de woordenschattoets

(PPVT/Nederlands) en de Cito leerlingvolgsysteemgegevens (en specifiek de gegevens van de toets Taal

voor kleuters). Voor de woordenschat is gekeken naar de genormeerde gegevens van deze test

waardoor kan worden gekeken in hoeverre de scores van de leerlingen binnen de leeftijdsnormen

vallen. De leerlingen op de vvto scholen zijn vergeleken met leerlingen op controle scholen. De

uitkomsten van de PPVT/Nederlands zijn weergegeven in Figuur 5. Deze gestandaardiseerde scores

werken zoals bijvoorbeeld IQ scores: een gemiddeld kind van de desbetreffende leeftijd scoort 100; alle

scores tussen 85 en 115 vallen binnen de leeftijdsnormen voor ééntalige Nederlandssprekende

kinderen. In Figuur 6 is aangegeven welk percentage leerlingen binnen deze normen vallen.

Figuur 5.

Gemiddelde gestandardiseerde scores op receptieve woordenschat in het Nederlands

Figuur 6. Percentage kinderen per groep die conform aan leeftijdsnormen scoren (85 en hoger) op receptieve woordenschat

test in het Nederlands

De data laten zien dat alle groepen bij de baseline en de tweede post-test gemiddeld een score van ten

minste 100 halen (Figuur 5) en dat bij de baseline meting slechts een klein aantal leerlingen onder de

norm scoorden en dat al kleine percentage is op post-test II nog kleiner (Figuur 6). Uit de data in Figuur 5

blijkt dat de leerlingen niet beter worden met de tijd, zoals te verwachten is bij genormeerde data, en

dat er geen significante verschillen zijn tussen de vvto groepen en de controle groep. Het is echter wel

zo dat de leerlingen die 120 en meer minuten per week Engels krijgen significant lager scoren dan de

groep > 60 tot 120 min groep, maar blijven wel binnen de leeftijdsnorm. Daarbij dient opgemerkt te

worden dat dit verschil niet kan liggen aan het feit dat deze kinderen meer Engels krijgen, want bij de

baseline meting, waar kinderen niet of nauwelijks Engels hebben gehad, zien we geen verschillen tussen

de vvto groepen (cf. Figuur 1 en 2). De gemiddeld lagere score bij de 120 en meer minuten groep ligt in

alle waarschijnlijkheid aan de feit dat de helft van de anderstalige kinderen in onze sample, d.w.z. de

kinderen die thuis een taal anders dan het Nederlands spreken, in deze groep zitten: uit eerder

onderzoek weten we dat meertalige kinderen vaak lager scoren op woordenschattoetsen dan hun

eentalige leeftijdsgenoten (zie bijv. Bialystok et al. 2010). De resultaten van deze kinderen worden

hieronder in meer detail besproken.

De Leerlingvolgsysteem (LVS) data van Cito bleken problematischer dan verwacht: niet alle

scholen hanteren het LVS van Cito, niet alle scholen nemen de toetsen van het Cito af, of maar een deel

ervan en er zijn verschillende edities van de toetsen in omloop. Hier is volstaan met een analyse waarin

gekeken is hoe de verdeling is van de scores van de vvto-leerlingen in relatie tot de landelijke verdeling.

De data zijn weergegeven in Tabel 1. De scores werken als volgt: A t/m E verwijst naar de percentuele

verdeling van de toetscores voor de totale populatie. Dus 25 % van alle kinderen in Nederland scoren op

A niveau, het hoogste niveau, 25% op het daarop volgende B niveau en zo verder. De toetsen en

afnamemoment worden weergegeven met M1, M2, E1 en E2, waar M (medio) verwijst naar het

afnemen van de toets in halverwege het schooljaar en E naar afname aan het einde, of van groep 1 of 2.

In Tabel 1 is voor de Taal voor kleuters toets aangegeven hoe de scores zich verdelen over de vvto -

leerlingen in dit onderzoek.3 De scores laten dus zien dat op de M1 test landelijk 25% van de leerlingen

een A scoren en in de hier onderzochte populatie 47%. M1 verwijst naar het aantal leerlingen in deze

categorie en M1% naar het percentage van de totale groep, in dit geval 77.

%

landelijk M1 M1% M2 M2% E1 E1% E2 E2%

A 25 36 47 20 28 31 40 13 23

B 25 20 26 20 28 27 35 24 43

C 25 18 23 18 25 17 22 13 23

D 15 3 4 12 16 0 0 3 5

E 10 0 0 2 3 2 3 3 5

Totaal 100 77 100 72 100 77 100 56 100

Tabel 1: verdeling LVS scores over toetsonderdelen en categorieën.

De gegevens in Tabel 1 laten zien dat voor alle taken de leerlingen hoger scoren dat het landelijk

gemiddelde, d.w.z dat de scores in de hoogste categorieën (afgezien van de de score A/E2) hoger zijn

dan de standaardverdeling. Hieruit kan geconcludeerd worden dat de LVS data overeenkomen met de

woordenschat toetsen en dat de leerlingen over het geheel eerder beter scoren dan lager in vergelijking

met de landelijke norm.

Vroeg (vvto) vs. laat (EIBO)

6. Wat zijn de effecten van vroeg (groep 1) en laat (groep 7) beginnen met onderwijs in het Engels?

3 De toets voor groep 1 bestaat uit de onderdelen woordenschat en kritisch luisteren. In groep 2 komen hier vaardigheden bij,

zoals klank en rijm en schriftoriëntatie.)

Deze vraag kan met de beschikbare data slechts tentatief worden beantwoord, namelijk door een

vergelijking te maken tussen de boven gerapporteerde data van vvto kinderen met vergelijkbare data

van kinderen die pas in groep 7 zijn begonnen met het op school leren van het Engels. Idealiter zouden

vvto-leerlingen aan het einde van groep 8 moeten worden vergeleken met leerlingen die alleen in groep

7 en 8 Engels hebben gekregen. Er zijn echter op dit moment nog weinig scholen waarvan de vvto-

leerlingen al in groep 8 zitten. Daarom is een vergelijking gemaakt tussen leerlingen in groep 7 die met

een jaar ertussen twee keer zijn getest en de hele groep vvto-leerlingen. Figuur 7 geeft de scores voor

de twee groepen leerlingen voor woordenschat en in Figuur 8 zien we de scores voor grammatica.


vvto vs. EIBO kinderen

Figuur 8. Gemiddelde ruwe score op receptieve grammatica in het Engels (error bars ± 1SD):

vvto vs. EIBO kinderen

De gegevens in Figuur 7 en 8 laten zien dat over de gemeten periode de leerlingen in de controlescholen

in groep 7/8 voor woordenschat meer vooruitgang vertonen dan de vvto leerlingen. Dit komt overeen

met eerder onderzoek (e.g., Muñoz 2006) dat laat zien dat oudere kinderen in het algemeen een

vreemde/tweede taal sneller leren dan jonge kinderen. De significant hogere scores voor de groep 7/8

kinderen komt door het feit dat het hier om ruwe scores gaat (zie discussie onder vraag 2 over het

Nederlands). Voor grammatica is het echter zo dat de leerlingen in de controlescholen in groep 7/8 zich

niet significant anders ontwikkelen dan de vvto-kinderen.

In hoeverre bij een vergelijking met vvto-leerlingen met 7 jaar onderwijs Engels een

vergelijkbaar verschil zou zijn gevonden is op dit moment moeilijk te zeggen. Dit is zeker een van de

vragen waar in vervolgonderzoek naar moet worden gekeken.

Voor de scores op woordenschat zijn er geen significante verschillen tussen de twee groepen maar voor

de scores grammatica scoren de vvto-kinderen significant hoger dan de EIBO-kinderen. Met verder

onderzoek zou de testbatterij uitgebreid kunnen worden om na te gaan in hoeverre deze verschillen

robuust zijn.

Anderstalige leerlingen in het vvto

Zoals eerder aangegeven is het niet gelukt om scholen met grotere aantallen niet-Nederlandstalige

leerlingen in het onderzoek te betrekken. Er bleken in de klassen die aan het onderzoek hebben

meegedaan echter wel een klein aantal leerlingen te zitten voor wie het Nederlands (of het Engels) niet

de thuistaal was en er is exploratief nagegaan in hoeverre deze leerlingen afwijken van Nederlandstalige

leerlingen die gematchte zijn qua leeftijd en sociaal-economische achtergrond. Het gaat slechts om 11

leerlingen; dus de uitkomsten zijn niet meer dan indicaties. In Figuur 9 zijn de gegevens voor het

Nederlands van deze leerlingen weergegeven.

Figuur 9. Gemiddelde gestandaardiseerde score op receptieve Nederlandse woordenschat door anderstaligen en

gematchtede Nederlandstaligen

De data in Figuur 9 laten zien dat de anderstalige kinderen gemiddeld conform de leeftijdsnorm scoren.

De verschillen tussen Nederlandse en anderstalige kinderen zijn niet significant maar de anderstaligen

scoren zoals op basis van eerder onderzoek te verwachten valt iets lager. In Figuur 10 zijn de gegevens

voor de Engelse woordenschat weergegeven en in Figuur 11 de gegevens over de Engelse grammatica.

Figuur 10. Gemiddelde ruwe scores op receptieve Engelse woordenschat door anderstaligen en gematchtede

Nederlandstaligen

Figuur 11. Gemiddelde ruwe scores op receptieve Engelse grammatica door anderstalige en gematchtede Nederlandstaligen

De statistische analyses laten zien dat de verschillen tussen de twee groepen leerlingen niet significant

zijn en dat ze zich op vergelijkbare wijze ontwikkelen.

Conclusies

De belangrijkste resultaten van het onderzoek zijn de volgende:

– De leerlingen ontwikkelen hun Engelse taalvaardigheid in de gemeten periode, ze gaan zowel voor

de woordenschat als voor de grammatica ieder jaar significant vooruit.

– Er is een significant effect van het aantal minuten Engelse les per week: 60 minuten of minder per

week leidt tot significant lagere scores voor Engels in vergelijking met de kinderen met meer dan 60

minuten maar minder dan 120, en de kinderen met 120 minuten of meer per week.

– De controle variabelen verklaren weinig variantie in de uitslagen.

– De taalvaardigheid van de leerkracht is een goede voorspeller van de uitslagen op woordenschat na

1 jaar en op de uitslagen op grammatica na 2 jaar: kinderen met een non-native-speaker leerkracht

van Engels op niveau CEFR/B scoren significant slechter dan kinderen met alleen een native-speaker

leerkracht. Tussen alle andere groepen zijn er geen verschillen, d.w.z., kinderen met een non-native-

speaker leerkracht van Engels op CEFR/C scoren niet significant anders dan kinderen met een native-

speaker leerkracht of kinderen met een native speaker leerkracht in combinatie met een non-native-

speaker leerkracht van Engels op niveau CEFR A en/of B.

– De Nederlandse woordenschat van de leerlingen ontwikkelt zich leeftijdsconform, slechts enkele

leerlingen scoren onder de leeftijdsnorm en dat aantal wordt in de loop van de tijd nog kleiner. De

leerlingvolgsysteem data ondersteunen dit beeld. Dit komt overeen met de indrukken van

leerkrachten in het SLO (Stichting Leerplanontwikkeling) onderzoek naar de stand van zaken in het

vvto en in scriptieonderzoek van Waninge (2011).

– Vvto-leerlingen met een niet-Nederlandse (en niet-Engelse) thuistaal scoren vergelijkbaar met

gematchte Nederlandstalige leerlingen. De aantallen zijn echter te klein om hier vergaande

conclusies aan te verbinden maar deze resultaten komen overeen met eerder onderzoek van

Goorhuis-Brouwer & De Bot (2010).

– Qua startmoment van het Engels laten de data zien dat in de loop van twee jaar de oudere

leerlingen meer vooruitgang maken dan jongere leerlingen, wat ook overeen komt met eerder

onderzoek (Nikolov 2009). Een echte vergelijking tussen vroeg/laat beginnen kan alleen worden

gemaakt als vvto-leerlingen in groep 8 kunnen worden vergeleken met leerlingen die pas in groep 7

met Engels begonnen zijn.

De bevindingen van het huidige onderzoek komen overeen met bevindingen elders in de wereld.

Nikolov (2009) rapporteert over vvto onderzoek in verschillende landen en concludeert dat de

ontwikkeling van het Engels niet ten koste gaat van de ontwikkeling van de eerste taal. Op basis van een

groot aantal onderzoekingen naar de effectiviteit en effecten van immersieonderwijs in Canada

concludeert Genesee (2007) dat alles er op wijst dat leerlingen in tweetalig onderwijs in verschillende

vormen geen negatieve effecten daarvan ondervinden, noch in wat ze leren, noch sociaal psychologisch.

Onderzoek in Spanje (Muñoz 2006) laat zien dat een vroege start met Engels niet noodzakelijkerwijs tot

een hogere taalvaardigheid van het Engels leidt en dat in het algemeen de oudere leerlingen (11/12

jaar) meer leren in dezelfde tijd dan 8/9 jarigen.

Slotopmerkingen

Zoals aangegeven is dit een effectmeting in een zich ontwikkelend gebied. Er zijn veel veranderingen en

verschillen tussen en binnen scholen en de situatie heeft zich nog niet gestabiliseerd. Scholen zijn actief

bezig om hun vvto programma’s te ontwikkelen, lerarenopleidingen zijn bezig met speciale programma’s

om leerkrachten voor vvto op te leiden en uitgevers werken aan specifieke lesmaterialen die de

komende periode meer ingevoerd zullen worden. Er wordt ook gewerkt aan een certificeringsysteem

waarin de kwaliteitszorg centraal staat. Het hier gerapporteerde onderzoek is een momentopname van

een veld dat heftig in beweging is. Het verdient aanbeveling om over een aantal jaar als er meer

stabiliteit is, dit onderzoek te herhalen om te kunnen vaststellen of het vvto in een rijpere fase van

ontwikkeling vergelijkbare resultaten zal opleveren.

In dit verslag is gepoogd de kern van het onderzoek weer te geven. De dissertatie van Persson (verwacht

in 2013) zal een uitgebreider verslag van het onderzoek bevatten.

In het onderzoek is één aspect om financiële en tijdsredenen vrijwel buiten beschouwing gelaten: wat

gebeurt er in de klas? De didactiek en het gedrag van leerkrachten en leerlingen in de leersituatie is niet

meegenomen, terwijl te verwachten is dat veel van de uitkomsten erdoor beïnvloed worden. Het niet

meenemen van deze variabele kan helder maken waarom uiteindelijk slechts een klein deel van de

variantie in de data verklaard kon worden. Ook is hier het uiteindelijke doel van vvto: Engelse

taalvaardigheid in het kader van internationalisering van het onderwijs niet meegenomen in het

onderzoek. Vervolgonderzoek zal meer daarop gericht moeten zijn.

References

Alexiou, T. (2009). Young Learners Aptitude Test. Swansy: University of Wales.

Bialystok, E., Luk, G., Peets, K.F., & Yang, S. (2010). Receptive vocabulary differences in monolingual and

bilingual children. Bilingualism: Language and Cognition 13(4), 525-531.

Bishop, D. (2003). Test for reception of grammar second edition (TROG)-2. New York: Pearson.

Dunn, L. M., & Dunn, D. M. (2007). Peabody picture vocabulary test (PPVT-4). Minneapolis, USA:

Pearson.

Dunn, L., Dunn, L., & Schlichting, L. (2005). Peabody picture vocabulary test-III-NL. Amsterdam: Pearson.

Genesee, F. (2007). French immersion and at -risk students: A review of research evidence. Canadian

Modern Language Review, 63(5), 655-687.

Goorhuis-Brouwer, S., & de Bot, K. (2010). Early English language teaching in the Netherlands: The

impact on first and second language acquisition. International Journal of Bilingualism, 14(3),

289-302.

Kaufman, A. (1983). Kaufman assessment battery for children. American Guidance Service.

Muñoz, C. (Ed.). (2006). Age and the rate of foreign language learning. Clevedon: Multilingual Matters.

Nikolov, M. (2009). The age factor and Early Language learning. Berlin: Walter de Gruyter.

Raven, J., Raven, J.C., & Court J.H. (2003) Manual for Raven’s Progressive Matrices and Vocabulary

Scales. San Antonio.

Wagner, R., Torgesen, J., & Rashotte, C. (1999). Comprehensive test of phonological processing (CTOPP)

Pro-Ed.

Waninge, F. (2011). Teachers perception of early foreign language teaching. Unpublished MA thesis,

University of Groningen.

Appendix: Uitleg statistische analyses

Engelse taalvaardigheid en de factoren die hierop van invloed zijn


4. Wat zijn de effecten van meer taalaanbod, d.w.z. tot maximaal 15% van de onderwijstijd, in

vergelijking met een regulier programma?

Om deze vraag te beantwoorden is er een MANOVA analyse uitgevoerd met tijd (baseline, post-test I,

post-test II) als binnen-persoonsvariabel en min/wk groep (geen Engels, t/m 60 min, > 60 tot 120 min,

120+ min) als tussen-persoonsvariabel. Voor woordenschat is er een hoofdeffect van tijd (F(2,523) =

60.9, p < .001, η2

p = .19), en een hoofdeffect van aantal minuten (F(3,523) = 7.29, p < .001, η

2p

= .04),

maar geen significante interactie tussen de twee (F(6,523) = 1.71, p = .12, η2

p = .02). De factor aantal

minuten verklaart dus 4% van de tussenpersoons-variantie en de factor tijd verklaart 19% van deze

variantie. Post-hoc (Bonferroni) toetsen laten zien dat er een significant verschil is tussen de controle

groep en de > 60 tot 120 min groep (MD = -4.38, p = .017) en tussen de controle groep en de 120+ min

groep (MD = -5.5, p = .004), maar geen significant verschil tussen de controle groep en de t/m 60 min

groep (MD = -.62, p = 1.0). De t/m 60 min groep verschilt significant van de > 60 tot 120 min groep (MD =

-3.76, p = .007) en van de 120+ min groep (MD = -4.87, p = .002), maar tussen deze laatste twee groepen

is er geen significant verschil (MD = -1.12, p = 1.0).

Voor grammatica is er een hoofdeffect van tijd (F(2,523) = 56.5, p < .001, η2

p = .18), een

hoofdeffect van aantal minuten (F(3,523) = 20.1, p < .001, η2p

= .11), en ook een significante interactie

tussen de twee (F(6,523) = 4.87, p < .001, η2

p = .05).

4 De factor aantal minuten verklaart dus 11% van de

tussenpersoons-variantie, de factor tijd verklaart 18% van deze variantie, en de interactie tussen de

twee 5%. Post-hoc (Bonferroni) toetsen laten zien dat er een significant verschil is tussen de controle

groep en alle drie de vvto groepen (t/m 60 min: MD .31, p = .021; > 60 tot 120 min groep: MD = -.72, p <

.001; 120+ min groep: MD = -.84, p < .001). De t/m 60 min groep verschilt significant van de > 60 tot 120

min groep (MD = -.41, p < .001) en van de 120+ min groep (MD = -.53, p < .001), en wederom is er tussen

deze laatste twee groepen geen significant verschil (MD = -.12, p = 1.0).

4 Voor deze analyse zijn de scores getransformeerd (square root) om problemen met normaliteit te voorkomen. In alle analyses

zijn zowel univariate als multivariate outliers verwijderd.

Omdat de variatie in de taalvaardigheid van de leerkracht niet hetzelfde is per min/wk groep is

het ook wenselijk om de gemiddelde taalvaardigheid van de leerkracht (gemiddeld over tijd en over

leerkrachten, op een schaal van 1 (Engels op CEFR/A1 niveau) tot 7 (native speaker)) mee te nemen in

de analyse als covariaat. Deze variabel is echter niet relevant voor de controle kinderen omdat zij geen

leerkracht Engels hebben. De hierboven uitgevoerde MANOVA analyse werd dus opnieuw uitgevoerd

met taalvaardigheid als covariaat maar zonder de controle kinderen. Zo wordt er in deze analyse eerst

voor het effect van de covariaat (taalvaardigheid van de leerkracht) gecontroleerd voordat er naar het

effect van de onafhankelijke variabelen (tijd, aantal minuten) gekeken wordt. De resultaten hiervan zijn

als volgt: net als hierboven is er voor woordenschat een hoofdeffect van tijd (F(2,448) = 101.9, p < .001,

η2

p = .32), een hoofdeffect van aantal minuten (F(2,448) = 5.45, p = .005, η

2p

= .02), en geen significante

interactie tussen de twee (F(4,448) = 1.48, p = .21, η2

p = .01); en er is ook een significante effect van de

covariaat (F(1,448) = 8.85, p = .003, η2

p = .02). Voor grammatica is er een hoofdeffect van tijd (F(2,448) =

88.3, p < .001, η2p

= .29), een hoofdeffect van aantal minuten (F(2,448) = 12.0, p < .001, η2p

= .05), en ook

een significante interactie tussen de twee (F(4,448) = 5.33, p < .001, η2

p = .05); er is ook een significante

effect van de covariaat (F(1,448) = 6.99, p = .008, η2

p = .02).

Om te kijken in hoeverre de onafhankelijke en controle variabelen de scores van de kinderen op

post-test I en post-test II kunnen voorspellen werd een regressieanalyse uitgevoerd.5 Als eerste stap

werd gekeken naar de volgende variabelen om vast te stellen welke significant met de uitkomsten op

woordenschat en grammatica op post-test I en post-test II correleren: leeftijd van kind (in maanden) op

baseline, geslacht, hoogste afgeronde opleiding van moeder (op een schaal van 1 (lager onderwijs) t/m 6

(wetenschappelijk onderwijs)) als indicatie van socio-economische status, aantal minuten

buitenschoolse contact met het Engels (bijvoorbeeld van TV, Engelstalige computerspelletjes etc.) op

het moment van testafname, capaciteit van werkgeheugen in het Engels (aparte scores voor non-word

repetitie én getallen, op post-test I en II), niet-verbale geheugen (post-test II), non-verbale intelligentie

(post-test II), aantal minuten Engelse les per week (gemiddelde over tijd), en taalvaardigheid van de

leerkracht. Voor deze laatste variabel werd er in deze analyse gebruik gemaakt van zogenaamde dummy

variabelen: de verschillende groepen van kinderen worden weergegeven met een 0 of 1 waarde voor

een combinatie van een aantal dummy variabelen, namelijk non-native-speaker leerkracht op CEFR

5 Omdat een aantal van deze mogelijke voorspellers, d.w.z. aantal minuten en taalvaardigheid van de leerkracht, op klas-niveau

variëren zou er op deze data het beste een multilevel regression model toegepast moeten worden. Het blijkt echter zo dat er in

deze dataset niet genoeg variantie op klas-niveau is om zo’n analyse te rechtvaardigen.

niveau B (NNS-B), non-native-speaker leerkracht op CEFR niveau C (NNS-C), en native-speaker leerkracht

plus non-native-speaker leerkracht op CEFR niveau A en/of B (NS + NNS-A/B). Kinderen met alleen een

native-speaker leerkrachten (NS) krijgen voor alle drie deze dummy variabelen een waarde van 0; dit

betekent dat de NS groep de vergelijkingsgroep is, d.w.z. de groep waarmee alle andere groepen

vergeleken wordt.

Een overzicht van de significant correlerende variabelen wordt per toets en per test-moment in

Tabel 1 aangegeven. Hierin worden de r-waardes weergegeven; deze geven de sterkte van de correlatie

tussen twee variabelen aan en kan als volgt worden geïnterpreteerd: .10 - .29 = zwakke correlatie, .30 -

.59 = gematigde correlatie en .60 en hoger = sterke correlatie. Alle andere variabelen lieten geen niet

significante correlaties zien.

Tabel 1. Overzicht van onafhankelijke en controle variabelen met significante correlaties met uitkomsten

Factor Woordenschat Grammatica

Post-test I Post-test II Post-test I Post-test II

Score op dezelfde toets baseline .16* .21** .25*** .14*

Score op dezelfde toets, post-test I --- .33*** --- .51***

Leeftijd .22** --- --- ---

Werkgeheugen in het Engels (non-word

repetitie) op dezelfde testmoment .16* .26*** .14* .27***

Werkgeheugen in het Engels (getallen) op

dezelfde testmoment --- --- .17* .19**

Werkgeheugen (handgebaren) --- .14* --- .16*

Non-verbale intelligentie --- --- .28***

Buitenschoolse Engels --- .23** .17* .22**

Aantal mins/wk --- --- --- .21**

Taalvaardigheid leerkracht:

dummy variabel NNS-B -.27** -.36*** -.20* -.31***


dummy variabel NS + NNS-A/B --- .18* --- .17*

Note: * p < .05, ** p < .01 en ** p < .001

De variabelen in Tabel 1 werden vervolgens in een regressieanalyse ingevoerd in de volgende blokken:

blok 1 = score(s) op dezelfde toets op eerdere testmoment(en), blok 2 = onveranderbare biografische

variabelen, i.e., leeftijd, geslacht, opleiding moeder, blok 3 = scores op werkgeheugen en non-verbale

intelligentie, blok 4 = buitenschoolse contact met Engels en blok 5 = aantal minuten Engelse les per

week en taalvaardigheid leerkracht. De resultaten van het (significante) model waarin de meeste

variantie verklaard wordt staan in Tabel 2 t/m 4. Voor scores op grammatica was er voor post-test I geen

significant model.

Tabel 2. Resultaten regressieanalyse: woordenschat, post-test I

Factor Unstandardised coefficients

Standardised

coefficients

B Std. error ß

(constant) 17.2 1.90

Score op dezelfde toets, baseline .15 .14 .10

Leeftijd .68 .35 .19†

Werkgeheugen in het Engels

(non-word repetitie) op dezelfde testmoment .62 .36 .17


dummy variabel NNS-B -7.27 2.48 -.28**

Note: adj. R2 = .16 (Fchange (1,96) = 8.59, p = .004); † p = .05, ** p < .01

Tabel 3. Resultaten regressieanalyse: woordenschat, post-test II


Standardised

coefficients

B Std. error ß

(constant) 5.12 5.82

Score op dezelfde toets, baseline .39 .18 .20*

Score op dezelfde toets, post-test I .22 .13 .16


(non-word repetitie) op dezelfde testmoment 1.17 .49 .21*

Werkgeheugen (handgebaren) .54 .47 .10

Non-verbale intelligentie

Buitenschoolse Engels .009 .006 .14


dummy variabel NNS-B -10.1 3.30 -.26**


dummy variabel NS + NNS-A/B 3.15 3.85 .08

Note: adj. R2 = .31 (Fchange(2,92) = 5.38, p = .006); * p < .05, ** p < .01

Tabel 4. Resultaten regressieanalyse: grammatica, post-test II


Standardised

coefficients

B Std. error ß

(constant) -.14 .70

Score op dezelfde toets, baseline -.02 .18 -.01

Score op dezelfde toets, post-test I .52 .13 .37***


(non-word repetitie) op dezelfde testmoment .06 .04 .15

Werkgeheugen in het Engels (getallen)

op dezelfde testmoment -.01 .06 -.01

Werkgeheugen (handgebaren) .04 .03 .11

Non-verbale intelligentie .04 .02 .16

Buitenschoolse Engels .00 .00 .07

Aantal mins/wk .00 .00 .12


dummy variabel NNS-B -.50 .25 -.18*


dummy variabel NS + NNS-A/B .22 .28 .07

Note (1): adj. R2 = .42 (Fchange(3,88) = 3.00, p = .035); * p < .05, *** p < .001

Note (2): grammatica scores zijn getransformeerd (square root) om problemen met normaliteit te voorkomen.

5. Wat is de relatie tussen de ontwikkeling van de Engelse taalvaardigheid van de kinderen en de

taalvaardigheidsniveau van de leerkracht?


post-test II) als binnen-persoonsvariabel en taalvaardigheidsgroep (kinderen met een native-speaker

leerkracht (NS), kinderen met een native-speaker leerkracht én een non-native-speaker leerkracht van

Engels op CEFR/A en/of CEFR/B niveau (NS & NNS-A/B), kinderen met een NNS leerkracht van Engels op

CEFR/C niveau (NNS-C), en kinderen met een NNS leerkracht van Engels op CEFR/B niveau (NNS-B)) als

tussen-persoonsvariabel, met aantal mins/wk Engelse les als covariaat. Voor woordenschat is er een

hoofdeffect van tijd (F(2,328) = 65.6, p < .001, η2

p = .29), een hoofdeffect van taalvaardigheid leerkracht

(F(3,328) = 5.08, p = .002, η2

p = .05), en een significante interactie tussen de twee (F(6,328) = 2.92, p =

.009, η2

p = .05); er is ook een significant effect van de covariaat (F(1,328) = 5.98, p = .015, η

2p

= .02). De

factor taalvaardigheid leerkracht verklaart dus 5% van de tussenpersoons-variantie, de factor tijd

verklaart 29% van deze variantie en de interactie tussen de twee een verder 5%. Post-hoc (Bonferroni)

toetsen laten zien dat er een significant verschil is tussen de NNS-B groep en alle andere drie groepen

(NNS-C: MD = -5.98, p = .003; NS: MD = -5.31, p = .018; NS & NNS-A/B: MD = -6.89, p = .008). Er zijn

verder geen significante verschillen. Voor grammatica is er een hoofdeffect van tijd (F(2,328) = 54.1, p <

.001, η2

p = .26), een hoofdeffect van taalvaardigheid leerkracht (F(3,328) = 3.70, p = .012, η

2p

= .03),

maar (net g)een significante interactie tussen de twee (F(6,328) = 2.04, p = .061, η2

p = .04); er is ook een

significante effect van de covariaat (F(1,328) = 10.9, p = .001, η2

p = .03). De factor aantal minuten

verklaart dus 4% van de tussenpersoons-variantie, en de factor tijd 26%. Post-hoc (Bonferroni) toetsen

laten zien dat er een significant verschil is tussen de NNS-B groep en de NNS-C groep (MD = -.39, p =

.017) en tussen de NNS-B groep en de NS & NNS-A/B groep (MD = -.45, p = .035). Er zijn verder geen

significante verschillen.

Nederlandse taalvaardigheid


het Nederlands als eerste taal?

Om deze vraag te beantwoorden is er een MANOVA analyse met de standaard scores uitgevoerd met

tijd (baseline, post-test I, post-test II) als binnen-persoonsvariabel en min/wk groep (geen Engels, t/m 60

min, > 60 tot 120 min, 120+ min) als tussen-persoonsvariabel. Er is geen significant hoofdeffect van tijd

(F(1,387) = .78, p = .38), maar wel een significant hoofdeffect van aantal mins/wk (F(3,387) = 3.10, p =

.027, η2

p = .03); er is geen significante interactie (F(3,387) = .48, p = .70). Post-hoc (Bonferroni) toetsen

laten zien dat er een significant verschil is tussen de > 60 tot 120 min groep en de 120+min groep (MD =

5.39, p = .024) en er zijn geen verdere significante verschillen tussen groepen.

Vroeg (vvto) vs. laat (EIBO)

6. Wat zijn de effecten bij vroeg (groep 1) en laat (groep 7) beginnen met onderwijs Engels?


post-test II) als binnen-persoonsvariabel en groep (vvto, EIBO) als tussen-persoonsvariabel. Voor

woordenschat is er een hoofdeffect van tijd (F(2,523) = 89.4, p < .001, η2

p = .26), een hoofdeffect van

groep (F(1,523) = 1512.96, p < .001, η2

p = .75), en een significante interactie tussen de twee (F(2,523) =

13.7, p < .001, η2

p = .05). De factor groep verklaart 75% van de tussenpersoons-variantie, de factor tijd

verklaart 26% van deze variantie en de interactie tussen de twee een verder 5%.

Anderstalige leerlingen in het vvto

Omdat het aantal anderstalige leerlingen zo klein is (n=11) is ervoor gekozen om bij deze analyse een

niet-parametrische toets te gebruiken, nl. de Mann-Whitney toets. Tussen de anderstalige leerlingen en

hun gematchede klasgenoten waren er geen significante verschillen voor Engelse woordenschat op alle

drie de testmomenten (baseline: U = 49.0, p = .94; post-test I: U = 44.5, p = .46; post-test II: U = 50.5, p =

.75); hetzelfde geldt voor Engelse grammatica (baseline: U = 33.5, p = .26; post-test I: U = 54.0, p = .94;

post-test II: U = 50.0, p = .73) en voor Nederlandse woordenschat baseline: U = 33.0, p = .07; post-test II:

U = 29.5, p = .07).

eindverslag flipp november 2012 (1086 kb)

Documents