samenvatting testtheorie en diagnostiek

Samenvatting_testtheorie_en_diagnostiek.pdf

Een samenvatting van het boek van Testtheorie

Rijksuniversiteit Groningen | Testtheorie en testgebruik

Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: [email protected]

http://www.studeersnel.nl

http://www.studeersnel.nl/rijksuniversiteit-groningen/testtheorie-en-testgebruik/samenvatting/een-samenvatting-van-het-boek-van-testtheorie-samenvatting-testtheorie-en-diagnostiek-pdf/11/7080/27520

http://www.studeersnel.nl/rijksuniversiteit-groningen/testtheorie-en-testgebruik/samenvatting/een-samenvatting-van-het-boek-van-testtheorie-samenvatting-testtheorie-en-diagnostiek-pdf/11/7080/27520

http://www.studeersnel.nl/rijksuniversiteit-groningen/psba206-testtheorie-en-testgebruik/11/7080

http://www.studeersnel.nl/click_banner.php?banner=YTo1OntzOjExOiJjYW1wYWduZV9pZCI7aTozMjtzOjY6InVuaV9pZCI7aToxMTtzOjY6InZha19pZCI7czo0OiI3MDgwIjtzOjY6InBhZ2luYSI7czoxODoiL2Rvd25sb2FkX2ZpbGUucGhwIjtzOjQ6ImxpbmsiO3M6NTE6Imh0dHA6Ly9tYWduZXQubWUvcHVibGljLyMvb3JnYW5pemF0aW9uLzQwNC90aW1lbGluZSI7fQ==

TESTTHEORIE

1 HISTORISCHE ONTWIKKELING VAN HET TESTEN

Testdiagnostiek is een vak van de 20ste

eeuw maar in het verleden zijn er genoeg voorbeelden

van vormen van testonderzoekingen. Eén voorbeeld is een Chinese keizer (2000 v. Chr.) die

om de 3 jaar zijn personeel liet toetsen voor een bevordering of ontslag. Dit soort pogingen

hadden meer een intuïtief oordeel dan een empirisch onderzocht resultaat.

1.1 Periode tot het verschijnen van de Binet-Simon-Test.

In 1974 kwam de eerste stimulans uit Frankrijk vanuit de psychiatrie. Een arts Pinel liet alle

krankzinnige vrij uit hun strafkerkers en beweerde dat ze geen misdadigers waren maar

gewoon ziek. Hierdoor ontstond een sterke interesse in geestelijke abnormaliteit en

zwakzinnigheid.

Ook Duitsland toonde interesse in geestelijke vermogens. Ebbinghaus probeerde

bijvoorbeeld psychische vermoeidheid te meten. Ook andere ontwikkelingen vonden plaats in

de testpsychologie maar ze kampten met het probleem dat hun de verschillen tussen

proefpersonen altijd toeschreven aan fouten in het experimenteer proces en niet aan de

werkelijke verschillen in bijvoorbeeld vaardigheden van de proefpersonen.

In 1879 richtte Wundt een labo op. In zijn onderzoek kende hij twee problemen. Ten eerste

bleef het beperkt tot enkel primaire sensorische en motorische functies. Ten tweede was het

doel het generaliseren van wetten terwijl de verschillen beschouwd werden als

experimenteerfouten.

In 1890 gebruikte Cattell het woord “test” daarbij waren de verschillen tussen de

proefpersonen interessant geworden. Ook Galton vond dit belangrijk maar daarnaast was er

standaardisatie nodig die het generaliseren en verglijken tussen onderzoeken mogelijk maakt.

Volgens hem moesten de onderzoeksresultaten ook uitgedrukt worden in statistische termen

(vb spreiding van het gemiddelde).

1.2 Periode tussen het verschijnen van de Binet-Simon-test en de W.O. I

In 1904 vroeg het ministerie van onderwijs van Frankrijk aan Binet een onderzoek om een

onderscheid te maken tussen luie en incapabele kinderen. Binet ontwikkelde een test met de

aandacht voor het geheugen, het begrip; het probleem oplossen en de verbeeldingskracht. Al

dit zette hij om in testopgaven en stelde voor om voor intelligentie één totaalscore te

gebruiken. In een tweede versie van zijn test gebruikt Binet een “mentale leeftijd” zo kreeg

men een indicatie van eventuele geestelijke groei.

Terman in Amerika ging nog een stap verder en vond dat de score van Binet om breuken te

vermijden moesten vermenigvuldigd worden met honderd. Zo kon met de verschillende

leeftijden makkelijker vergelijken en gaf het een indicatie van het intelligentieniveau van het

kind.

1.3 Van het begin van W.O I tot W.O II

Door de eerste W.O. ontstond er de noodzaak om veel mensen tegelijk te selecteren naar

gelang de functie die ze zouden kunnen bekleden in het leger. Individuele testprocedures

zouden te lang duren. Hierdoor ontstonden schriftelijke tests die ze in grote groepen konden

afnemen nl. Army Alpha test. Door de vele immigranten ontstond er voor de onderzoekers

een nieuw probleem namelijk de taal. Hierdoor ontstond de Army Beta test die niet taal

gebonden was.



In Europa bleef men meer bij de individuele diagnostiek daarbij blijkt niet alleen dat de wijze

waarop de proefpersoon een taak verricht van belang is maar ook de houding t.o.v. zijn eigen

prestaties.

In Amerika en Engeland probeerde men het testen minder subjectief te maken door het „vrije-

antwoordenexamen te vervangen voor meerkeuze-toetsen. Daarnaast waren het vanaf nu

meer specialisten die verantwoordelijk waren voor het testen dan de docent.

In deze periode veranderde ook de definitie van intelligentie van een één-factor iets naar

verschillende factoren (woordenrijkdom, redeneren, geheugen, verbaal,...).

In dit hoofdstuk wordt nog even kort ingegaan op het ontstaan van de persoonlijkheidstests.

Eerst waren er observatietests die niet gestandardiseerd, onbetrouwbaar en subjectief waren.

Vervolgens is men letterlijk de vragen van interviews gaan gebruiken om schriftelijke

persoonlijkheidvragenlijsten te construeren. Een laatste methode van die tijd was het ontstaan

van projectietesten zoals de inktvlekken van Rorschach (1929) en de Thematic Apperception

Test (TAT-test) van Morgan en Murrey (1935). De bedoeling was dat mensen die die

vlekken of foto‟s zagen daar een verhaal bij bedachten en daaruit bleek dan wat voor een

persoonlijkheid ze hadden.

1.4 Van het begin van W.O. II tot heden

Deze periode staat gekend voor de expansie op alle terreinen van het testen. De beste

psychologen op het terrein van selectie, testontwikkeling en psychiatrische-medische keuring

werden allemaal ingeschakeld om voor het leger iedereen te plaatsen naar de kwaliteiten van

de soldaten. 9.000.000 mensen werden getest met de Army General Classification Test

(AGCT).

Na de oorlog is deze trend van testen in de VS gebleven. Ook in het onderwijs en

personeelsselectie. In 1949 werd daarvoor het Educational Testing Service (ETS) opgericht.

Het testen nog sneller is gegaan is door de ontdekking van het rekenmachine en de computer.

Europa is steeds een beetje achtergebleven op het gebied van testen maar in de zestiger jaren

ging Europa volgen in Amerika‟s voetsporen op het gebied van testen.

In Nederland was het in de veertig en vijftiger jaren nog steeds intuïtief testen, ze testte meer

in de vorm van „verstehen‟. Er was hier geen ruimte voor objectiviteit of kwantitatieve

benadering. Hier gebruikte men nog steeds observatietests of projectietests.

Zelfs op school gebruikte men nog steeds de essay-examens. Maar medio jaren zestig begin

jaren zeventig deed hier de testtheorie zijn intrede. In deze periode ontstond het Centraal

Instituut voor ToetsOntwikkeling (CITO). In Nederland is er dan een vooruitgang gekend in

het kwalitatieve en kwantitatieve ontwikkelen van de testen.

Hiermee heeft de psychologische test definitief een wetenschappelijke plaats veroverd in de

Nederlandse psychologie.


Samenvatting hoofdstuk 2: Aard en toepassingen

Verschijningen:

In een verantwoorde en gepubliceerde test zal men de volgende onderdelen kunnen

tegenkomen:

1. Het noemen van het testmateriaal. Dit testmateriaal varieert sterk met de aard van de test.

Het zou bijvoorbeeld kunnen bestaan uit foto‟s, plaatjes of onvolledige zinnen. Soms is er

geen testmateriaal in strikte zin, zoals wanneer het bestaat uit vrije discussie.

2. Je treft ook de testformulieren aan. Op deze formulieren worden de antwoorden, reacties

of gedragsgegevens verzameld, die op hun beurt het materiaal vormen waaruit de

psychologische interpretatie of conclusies worden afgeleid.

3. Je treft ook de testhandleiding aan welke kan variëren tot heel uitgebreid of beknopte

richtlijnen. In een goede handleiding kan je verwachten dat de volgende vier onderwerpen

aan de orde komen:

Een exacte testinstructie wat al dat gene bevat wat betrekking heeft op de gang van

zaken tijdens het testonderzoek.

De verwerkingsprocedure die voornamelijk bestaat uit richtlijnen voor de scoring van

de opgaven.

De normtabellen. Deze zijn gemaakt zodat men de scores kan vergelijken met de

prestaties van meer of minder representatieve normgroepen.

Een bespreking van de wetenschappelijke kwaliteiten van de test. Bijvoorbeeld de

betrouwbaarheid van de test, een bespreking van de testbetekenis (welke

persoonlijkheidstrek of vaardigheid de test meet) en voor welke voorspellingen de test

gebruikt zou kunnen worden.

Een eerste omschrijving:

De bedoeling van het testonderzoek is het doen van een uitspraak, hetzij een voorspellende,

hetzij een classificerende, hetzij van beschrijvende aard, over het onderzochte individu. Het

gaat impliciet altijd om een vergelijking met andere mensen.

Bij een testonderzoek denken we aan een systematisch onderzoek van apart voor het testdoel

geselecteerde gedragingen. Deze gedragingen zijn gekozen omdat zij een typerende

steekproef vormen uit een geheel van gedragingen, die men niet allemaal in een enkele

testsessie kan onderzoeken.

Nu zouden we kunnen stellen dat de omschrijving van een psychologische test kan zijn: Een

systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven;

met de bedoeling inzicht te krijgen in een kenmerk van de onderzochte in vergelijking met

anderen.

Kenmerken:

Indien een psychologische test wel een juister beeld oplevert dan het voorwetenschappelijk

oordeel, of een verbetering en aanvulling hierop kan betekenen en de kosten of ethische

bezwaren niet prohibitief zijn, is het gebruik ervan gerechtvaardigd.

Ten tweede kenmerkt een test zich door efficiëntie. In het dagelijks leven doen zich talrijke

situaties voor, die indicaties bevatten voor het schatten van de intelligentie . Helaas moet men

wachten tot die situaties zich voordoen. In deze situaties is intelligentie eerder een bijproduct.

Omdat het hier niet bij uitstek om de bepaling van de intelligentie gaat , krijgt deze ook niet

altijd alle kansen om tot haar recht te komen. Daarom is deze schatting inexact en arbitrair.

Hiertegenover staat de intelligentietest die specifiek is samengesteld om een schatting hiervan

te maken. Je bent niet afhankelijk van het beschikbaar zijn van gelegenheden. Er is een

situatie gecreëerd en er zijn opgaven uitgezocht die de intelligentie optimaal naar voren laten

komen, bovendien zijn alle storende invloeden zoveel mogelijk weggewerkt.



Een ander kenmerk is standaardisatie. De testprestatie dient vergelijkbaar te zijn met de

prestaties die anderen hebben geleverd, alvorens er iets verstandigs over kan worden gezegd.

Bij voorwetenschappelijke oordelen maakt men ook gebruik van het vergelijken van prestaties

van verschillende mensen met elkaar. Om een vergelijking te maken moeten de betrokkenen

in gelijke omstandigheden hebben geopereerd. Bij het voorwetenschappelijke oordeel is

hiervan geen sprake.

Bij volledige afwezigheid van enige standaardisatie in de testsituatie is er eigenlijk niet meer

sprake van een „test‟, maar voor het overige houdt deze eis een ideaal in waar men zoveel

mogelijk naar streeft.

Weer een ander kenmerk is de normering van de testresultaten. Wil men de intelligentie van

persoon i vergelijken met die van persoon j met behulp van welke indicatie dan ook

(schoolprestaties, testprestaties) dan moet men in elk geval de grootte van de afstand tussen i

en j zo exact mogelijk schatten. Exactheid stelt de beoordelaar in staat ook kleinere

verschillen vast te stellen.

Zodra er een onderscheid moet worden gemaakt tussen mensen die qua intelligentie minder

verschillen, is er een gevoeliger instrument nodig dan de globale maatstaven die in het

lekenoordeel worden gehanteerd.

Ook zal men eerder kunnen generaliseren als de onderzochte populatie groot is dan wanneer

dit slechts een kleine groep is.

De beschikbaarheid van normen is niet slechts gemakkelijk en handig bij het interpreteren van

het resultaat, maar meestal is dit ook een noodzakelijke voorwaarde voor het gebruik van een

test.

Weer een andere eis is die van objectiviteit. Voor de testinterpretatie houdt dit in dat men mag

aannemen dat het hele testproces vrij is van aan de testleider gebonden invloeden. Het

resultaat van het onderzoek is onafhankelijk van de persoon van degene die de gegevens

verzamelt of uitwerkt. Hierdoor maakt het niet uit wie optreedt als beoordelaar en is er

openheid en reproduceerbaarheid van de test– en evaluatie procedure.

Het is duidelijk dat de subjectiviteit toeneemt en de objectiviteit afneemt als men zich verder

van het descriptieve niveau verwijdert, en meer overgaat tot verklaring en interpretatie. Indien

men verder wil gaan dan de objectief controleerbare gedragsaspecten zal een exact

voorgeschreven verwerkingsprocedure de objectiviteit bevorderen.

Weer een andere eis is die van betrouwbaarheid. Hier wordt er steeds van uitgegaan dat de

meting en de herhaling ervan onder dezelfde condities plaatsvinden. Hierdoor krijgt men in de

psychologie problemen die men in de fysica niet heeft; het is moeilijk en vaak onmogelijk om

twee onafhankelijke metingen te krijgen. Vaak leren proefpersonen bij van een eerste meting.

Een volgend belangrijk punt is de validiteit. Een goede test heeft een vaststaande

psychologische betekenis. Men weet naar welke eigenschap van de persoon die test verwijst.

Er is dus niet of nauwelijks verschil van mening mogelijk over de interpretatie, de betekenis

van de testprestatie. De betekenis van de testprestatie kan soms een enkelvoudige

persoonlijkheidstrek of een vaardigheid zijn, soms ook met een concept uit een meer

omvattende theorie samenvallen, maar steeds moet deze betekenis empirisch geverifieerd zijn.

Het praktisch voorspellend gebruik moet altijd op een in empirisch onderzoek daadwerkelijk

gebleken samenhang zijn gebaseerd.

Relatie tussen testen en meten:

De meest ruime opvatting over meten is voorgesteld door Stevens. In deze opvatting is meten

veel meer dan het leggen van een object langs een schaal met gelijke eenheden, zoals het in de

natuurwetenschappen vaak is omschreven. Volgens de hier bedoelde opvatting hebben we

met meten te maken zodra getallen kunnen worden toegekend aan objecten, personen of

groepen volgens welke regel dan ook. Alleen al categorisering en naamgeving is volgens deze

opvatting een vorm van meten. Dit eerste niveau van meten vindt plaats op de nominale


schaal. Aangezien getallen hier alleen dienen om categorieën of objecten te onderscheiden,

maakt het niet uit welke getallen men kiest, zolang ze maar verschillend zijn;

Een niveau hoger ligt de ordinale schaal. Bij het begrip rangorde waardoor deze schaal wordt

gekenmerkt, is er altijd sprake van een „meer of minder‟. Zo is het mogelijk een rangorde qua

intelligentie te vergelijken met een rangorde qua inkomen en de overeenstemming van de

rangordes uit te drukken in een kwantitatieve maat, bijvoorbeeld rangorde-

correlatiecoëfficiënt. De keuze van de getallen is derhalve vrij zolang zij maar de juiste

ordening blijven weerspiegelen.

Weer een niveau hoger ligt de intervalschaal. Hier liggen de verschillende posities niet slechts

op een rangorde van minder of meer, maar zijn bovendien nog de afstanden tussen de

verschillende posities van betekenis. Een voorbeeld is de temperatuurschaal. Er is bij de

intervalschaal geen sprake van een nulpunt. Bij een intervalschaal mag men wel optellen en

aftrekken, maar niet, juist vanwege de afwezigheid van dit nulpunt, de ene score door de

andere delen.

Het vierde niveau van meten is de ratioschaal. Niet alleen zijn de afstanden tussen de posities

gelijk zoals bij de interval schaal maar bovendien is hierbij een absoluut nulpunt gegeven,

waardoor rekenkundige bewerkingen zijn toegestaan.

De meeste toepassingen van de psychologie vergen overigens hoogstens een intervalschaal.

Het scoren van een intelligentietest of het vaststellen van de hoeveelheid agressieve of

gefrustreerde reacties in een projectietest, is nog geen meten. Men kan pas van meten spreken

als vanuit dit getelde aantal een conclusie volgt over de eigenschap in kwestie. Daarbij zijn

twee mogelijkheden te onderscheiden:

Een eigenschap kan direct worden gemeten. Dit doet zich voor wanneer deze eigenschap

van een zodanig karakter is, dat zij geheel bepaald wordt door de operaties die zijn

gevolgd om haar te beschrijven. Daarbij is de eigenschap volledig gekoppeld aan de wijze

waarop ze wordt geconstateerd. Het grootste probleem is hier de betrouwbaarheid. Men

kan een persoonlijkheidskenmerk wel definiëren als datgene wat een gegeven test meet,

maar dan moet dit wel op een betrouwbare wijze zijn gebeurd.

Ook is er een indirecte vorm van meten bij de psychologie. Hier moet men bepaalde

operaties verrichten waardoor men bepaalde trekken kan meten zoals neuroticisme,

aangepastheid. Deze begrippen zijn meer operationeel van karakter. Van indirect meten is

sprake als het gaat om eigenschappen die men niet direct kan waarnemen, maar die

abstract-theoretisch van aard zijn.

Definitie van een test

Een test is een systematische classificatie- of meetprocedure, waarbij het mogelijk wordt een

uitspraak te doen over één of meer emperisch-theoretisch gefundeerde eigenschappen van de

onderzochte of over specifiek niet-testgedrag, door uit te gaan van een objectieve verwerking

van reacies van hem/haar, in vergelijking tot die van anderen, op een aantal

gestandaardiseerde, zorgvuldig gekozen stimuli.

Toepassingsmogelijkheden

Er zijn drie vormen van toepassing:

1. Het doen van uitspraken over het individu: probeert met grotere precisie en meer kans

op succes een uitspraak te doen over het gedrag van de onderzochte. De beslissingen in

het kader, waarvan deze uitspraken zin hebben, kunnen zeer uiteenlopend zijn, en bepalen

ook telkens de soort en de gebruikswijze van de meest geschikte tests:

Een eerste mogelijkheid doet zich voor wanneer er sprake is van een criterium waaraan de

eisen waarvan men al of niet kan voldoen. B.v. een school of bedrijfsopleiding die men al

dan niet kan voltooien



Een tweede mogelijkheid is die waarbij er een keuzemogelijkheid is tussen ten minste

twee criteria, die onderling qua niveau of kwalitatief verschillend zijn. B.v. studierichting

keuze.

Voor sommige vragen is de absolute hoogte van verschillende scores in een testserie

minder belangrijk dan hun onderlinge verhouding. B.v. de sterke of zwakke punten van de

onderzochte of meer of minder geïnteresseerd

Ook kan een vergelijking worden gemaakt tussen de resultaten die een onderzochte op een

eerder of later tijdstip behaald.

Ook kan dit een beschrijving inhouden van een onderzochte persoon. Dit kan uit interne

rapportage bestaan waar een psycholoog een persoon observeert en hierover rapporteert.

Ook kan dit om externe rapportage gaan waarbij ouders zich tot een psycholoog wenden

met de vraag om een verklarende beschrijving van het gedrag vah hun kind in aanvulling

op of in plaats van een mondelinge bespreking.

Ook denken we aan de niet-directieve vorm van therapie, de counseling.

2. Het doen van uitspraken over groepen van mensen: Men kan hier verschillende sociale

klassen vergelijken. Het gaat hier in eerste instantie om het resultaat van vergelijkend

onderzoek zelf en is vooral geïnteresseerd in de grootte van het verschil. Vaak is dit een

voorstadium voor individueel onderzoek.

3. Het doen van uitspraken over situaties en methoden: Hier beoordeeld men vooral de

methoden (b.v. de behandeling, opleiding of beïnvloeding) en van verschillende situaties

(b.v. stress of leiderschap). Men gaat na welke procedure effectiever is en vergelijkt deze

met gebruik van een controle groep. Ook hier is het startpunt het groepsonderzoek. Een

voorbeeld is een schoolvorderingstoets waarbij de resultaten aan de prestaties van de

docent worden gekoppeld.

Averechtse diagnostiek: wanneer een test met een criterium correleert, kan men van deze

correlatie gebruik maken door voorspellingen te doen over de kansen op criteriumsucces,

bovendien werpt deze correlatie licht op het criterium zelf.( Hofstee)


H. 3 Indelingen, onderscheidingen en begrippen.

1. Indeling naar testgedrag.

Er is een belangrijk onderscheid dat uitgaat van het geteste gedrag. Namelijk dat tussen:

Tests voor prestatieniveau (het gaat om een voor de onderzochte persoon

maximale prestatie: er een duidelijke norm voor wat goed en wat fout is)

Tests voor gedragswijze (het gaat vooral om de vraag hoe iemand iets doet en

op welke wijze de prestatie of reactie plaatsvindt: hier is geen duidelijke

goed/foutsleutel beschikbaar(!))

Tests voor prestatieniveau:

1. Enkelvoudige algemene niveautests (het gaat hier slechts om een algemene

niveaubepaling van de intelligentie)

Individuele ontwikkelingstests afnemen vindt individueel plaats

Individuele intelligentietests voor volwassenen afnemen = individueel

Algemene collectieve intelligentietests afnemen vindt plaats in een groep

2. Veelvoudige algemene niveautests

(test = afzonderlijk betrouwbaar en onderling voldoende onafhankelijk)

Testbatterijen voor intelligentiefactoren gaan uit van alle of enkele van

Thurstones factoren(intelligentie= verbal, number, spatial etc.

Testbatterijen voor geschiktheden gaat meer over leergeschiktheid, een

maatschappelijke of een schooltaak.

3. Speciale niveautests

Tests voor speciale intelligentiefactoren

Tests voor speciale geschiktheden vooral de tests voor leergeschiktheden.

Tests voor speciale niet-intelligentiefactoren het gaat hier om de capaciteiten of

vaardigheden, waarvan de meting voor een maatschappelijke functie, of bij de

klinische diagnostiek van belang kan zijn

4. vorderingentests Bij sommige opleidingen gaat het niet om de kennis die ze vergaren, maar om het

bijbrengen van manuele of sociale vaardigheden.

Tests voor gedragswijze:

1. Observatietests (hier loopt de info steeds via een van de onderzochte

onafhankelijke persoon)

Individuele observatietests slechts 1 respondent wordt in het observatieproces

betrokken.

Groepsobservatietests het gaat om de observatie van een groep mensen, die

gezamenlijk een opdracht verrichten.

2. Somato-fysiologische methoden (lichamelijke kenmerken hebben een

voorspellende waarde op de psychologische kwaliteiten van de onderzochte)

Morfologisch onderzoek zoekt naar somatische kenmerken als indicatie voor

persoonlijkheidskenmerken

Fysiologisch onderzoek bijv. EEG, bloeddruk en volume meten.



3. Zelfbeoordelingen (vroeger nogal wantrouwend; nu als er een bepaald patroon

bestaat in de instemmingen en ontkenningen op de vragen, dan moet er een

gemeenschappelijke instelling of attitude zijn voor dit patroon)

Interessetests dienen om de beslissing voor school- of beroepskeuze te

vergemakkelijken.

Waarden- en attitudetests nagaan wat de meningen zijn.

Biografische vragenlijsten gesystematiseerde schriftelijk afgenomen

anamneses.

Persoonlijkheidsvragenlijsten meerdere soorten, ook zonder goede patronen.

4. Kwalitatieve prestatietests (van belang is dat de onderzochte geen idee heeft van

de bedoeling van de opdracht)

Niveautests voor gedragswijze het gaat om een prestatie die beoordeeld wordt

met een duidelijke norm voor wat goed en fout is.

o Experimentele tests afkomstig uit een experimenteel laboratorium

o Motoriektests bijv. met de vingers trommelen meten en

coördinatieproeven.

o Intelligentietests

o „Karakter‟ tests bijv. wilskracht meten

o Cognitieve stijl (wijze waarop men info wordt georganiseerd); perceptuele

stijl (hoe specifiek de waarnemingsgegevens, subjectief en selectief,

worden opgenomen en verwerkt)

Projectietests

o perceptietests Rorschachtest

o interpretatietests Thematic Apperception Test

o expressietests

o constructietests

o associatietests bijv. zin-aanvullingstest

o keuzetests

2. Indeling naar instructie en afneming.

Individuele test individuele relatie tussen de testleider en de onderzochte

(onderzochte kunnen stimuleren, vragen verduidelijken en beter kunnen observeren)

schriftelijk of via de computer, mondeling of een soort verrichtingstest.

Groepstest activiteiten van de groepsleider: geven van de instructies, het

surveilleren, geven van aanwijzingen tijdens het afnemen van de test en het inzamelen

van de voltooide testopgaven (zeer efficiënt!) meestal schriftelijk

Snelheidstest hoe snel de onderzochte kan werken

Niveautest hier varieert men de opgaven in moeilijkheidsgraad, van makkelijk tot

moeilijk om te zien hoe ver men komt.


3. Onderscheidingen op basis van de testvragen.

Het gaat bij het onderscheid tussen cultuurvrije en niet-cultuurvrije tests meer om een

continuüm dan om een tegenstelling. Een zuivere cultuurvrije test bestaan niet en dus

is het ook zinloos om naar de constructie van zo‟n test te streven. Natuurlijk zijn

verbale tests doorgaans cultuurgevoelig, maar dat houdt niet in dat non-verbale tests

dit niet zijn.

Om uitspraken te kunnen doen over de capaciteiten van de onderzochten, is het

noodzakelijk om ervan uit te gaan of ervoor te zorgen dat de vereiste „skills‟ volledig

worden beheerst. Er zijn 3 manieren om dit terug te brengen:

1. De „skill‟-verschillen zelf tot minimum te krijgen (instructie uitbreiden en/of meer

opgaven geven)

2. De interpretatie en de testscores beperken tot dat gedeelte van de populatie dat de

„skills‟ heeft (bijv. test doen voor kleuren zien, die niet zo goed de kleuren kunnen

onderscheiden niet mee laten doen).

3. Invloed van de „skill‟-verschillen vermindert door het ontwikkelen van „skill

reduced‟ tests.

Er zijn vrije-antwoordentests en keuze-antwoordentests.

Bij de vrije antwoorden moet men zelf het antwoord bedenken en formuleren.

Bij de keuze antwoorden zijn er bestaande antwoordmogelijkheden. Er zijn 3 soorten:

1. Kiezen

o (in)correcte-antwoordvorm 1 antwoord is goed

o meest/minst juiste antwoordvorm welke is het meest logisch

o verschillende antwoordenvorm welke antwoorden passen er het meest bij

o complexe vormen een gecombineerd antwoord (bijv. a en b wel maar c niet)

2. Rangschikken (de respondent moet de alternatieven plaatsen in een volgorde van

juistheid, toepasbaarheid of voorkeur)

3. Toeschrijven (= matching, een juiste combinatie maken van de gegevens)

Bij vrije-antwoordentests kan het zo zijn dat het begrijpen van de antwoorden moeilijk is, de

betrouwbaarheid lijdt eronder en het kan zo zijn dat de respondent het antwoord wel weet,

maar dat hij de vraag anders interpreteert.

Bij keuze-antwoordentests is er veel voorwerk. Men kan gaan gokken en bovendien kunnen er

alleen eenvoudige cognitieve vaardigheden worden gemeten.

Geen enkele vorm van testen dient overschat te worden, aan elke methode zit wel een nadeel.

PS. Zie voor duidelijke schema‟s blz. 38 en 44.



Hoofdstuk 4; afnemen en verwerken

In dit hoofdstuk wordt vooral aandacht geschonken aan het afnemen van de test. Naast de

meer conventionele vormen van testen worden de nieuwere testen per computer ook

uitgebreid behandeld. Verder wordt ook ingegaan op het proces dat ligt tussen het geven van

antwoorden door de respondenten en de uiteindelijke waardering die op basis van deze

antwoorden wordt toegekend. Scoringsmogelijkheden, verwerking van deze scores en de

verschillende normsystemen komen aan de orde.

4.1 Afnemen

Het afnemen van tests is complex, je moet met veel dingen rekening houden.

Een testsituatie kan een hoge mate van neutraliteit bezitten, of juist een hoge mate van

inzet van zowel proefleider als van de proefpersoon vereisen.

Ppn zelf verschillen in mate van coöperativiteit, motivatie, onbevangenheid en andere

relatie-beïnvloedende eigenschappen. (Ze kunnen ook al testervaring hebben)

Proefleiders kunne variëren in training, ervaring inzicht, sensitiviteit, etc. (vooral

belangrijk bij individuele tests)

Er bestaat een grote variëteit in instructietechniek en hoeveelheid oefening die door de

test wordt vereist

Bij een psychologische test is het heel belangrijk dat je prestaties van individuen kunt

vergelijken. Dat is pas mogelijk als je een gestandaardiseerde testsituatie creëert.

Enkele aspecten van standaardisatie;

Standaardisatie van testcondities

1. Goed uitgewerkte instructie

2. De eis je bij het testen daar zo goed mogelijk aan te houden

3. Het ontbreken van opvallende of specifieke omgevingsinvloeden.

De standaardisatie van testsituatie is zowel belangrijk bij individuele als groepstestsituaties.

Het is veel moeilijker om standaardisatie te verwezenlijken als men naast de

testsituatie, ook de situatie waarin de pp zich bevindt zoveel mogelijk constant wil

houden, omdat je wilt dat de test alleen meet wat het moet meten.

1. Bij het meten van fysieke eigenschappen is het controleren van de situatie

waarin de ppn verkeert geen probleem omdat deze zelf geen invloed heeft op

de uitslag.

2. Bij prestatie en gedrag ligt dit natuurlijk heel anders (denk bv aan

lichamelijke of geestelijke vermoeidheid, verwachtingen van de ppn etc.).

Een aantal van die factoren zijn wel te controleren maar je houdt er altijd een

tal over waarbij dat niet (of niet helemaal) kan.

Voorbeelden;

Verschillen tussen mensen ogv SES en daarmee gepaarde reacties op

prikkels als beloningen, interesse in het onderwerp

De manier waarop de proefleider hiermee omgaat

Angst voor een slechte testprestatie

o Positieve faalangst; bevorderend voor prestatie

o Negatieve faalangst; stoort de prestatie

Deze angstdimensies zijn volgens Hermans in sterke mate onafhankelijk van elkaar.

Dit motivatieprobleem ligt anders bij persoonlijkheidstests. Ook hierbij kun

je lukraak antwoorden of met opzet fouten maken, maar het is moeilijk om

van liegen of vervalsing te spreken. De onderzochte zal namelijk altijd een


idee hebben van de bedoeling waarmee bepaalde vragen gesteld worden, of

hoe de antwoorden geïnterpreteerd zullen worden (zoek voor meer info in

literatuur bij “faking”)

3. De variatie in het gedrag van de proefleider kan grotendeels gecontroleerd

worden. Hij/zij zorgt ervoor dat de test in kwestie en de instructie goed

beheerst wordt, verder kan een bepaalde ervaring verlangd worden ogv

testen.

Dat is moeilijker door psychologische mechanismen zoals vooroordelen,

sympathieën en antipathieën, de blijvende indruk van een eerste impressie,

en de neiging om „ideaaltypen‟ te ontdekken. Strikte zelfcontrole en

zelfcorrectie zijn noodzakelijk om het oordeel niet te laten vertroebelen.

Deze problematiek speelt vooral bij afname van de individuele test.

Hoe de problemen (gedeeltelijk) te ondervangen

Ontkenning; struisvogelpolitiek, deze doet gebruik en interpretatie van tests geen

recht.

Langs klinisch-intuïtieve weg de testsituatie in de evaluatie verwerken. Nadeel is dat

je te maken krijgt met subjectieve impressies en ideeën waarvan je dus geen

juistheidgarantie hebt (ook al voelt het wel zo). Of deze methode gebruikt kan

worden hangt af van de aard van de beslissing (gaat het om het voortbrengen van een

nieuwe hypothese (dan is dit een goede manier), of gaat het om beslissing met een

beslissend karakter (dan is het beter de volgende methode te gebruiken).

Door zoveel mogelijk vergelijkbaarheid en objectiviteit te bewaren. Dit kan het beste

worden bereikt door een zo normaal mogelijke relatie op te bouwen met een positief

stimulerend, vriendelijk “rapport”. Bij verwerking en berekening van de testscore zal

men “doen alsof” alle genoemde invloeden uit de interactiesfeer genegeerd worden.

De onbetrouwbaarheid zal afnemen, waardoor de vergelijkbaarheid toeneemt. We

nemen op de koop toe dat we door het principe van uitwisselbaarheid iets van het

unieke van de situatie opofferen.

Dit alles wil overigens niet zeggen dat je nooit een “common sense” interpretatie mag

maken.

4.2 Scoring

Als er in het scoringsproces meer subjectieve oordeelsvorming plaatsvindt, zal er een grotere

foutenmarge zijn in het resultaat van dit proces. Het is wenselijk voor een scoringssysteem dat

het zo objectief mogelijk is. Er is met het oog hierop een duidelijk verschil tussen de vrije

antwoordenvorm en de keuze antwoordenvorm.

4.2.1 Scoring bij de vrije antwoordenvorm

Bij veel tests kunnen geen geprecodeerde antwoordvormen gebruikt worden (bv bij

creativiteitstests, psychomotorische tests, projectietests etc.). Daarbij kiest men voor de vrije

antwoordvorm, waarbij men als nadelen hoge subjectiviteit en lage interbeoordelaar-

betrouwbaarheid heeft.

Een goed coderingssysteem is hiervoor de beste oplossing. Het systeem moet 1)

volledig, en 2) duidelijk en ondubbelzinnig zijn. Zonder betrouwbare gegevens (dus hier

zonder een voldoende interbeoordelaar-betrouwbaarheid) kun je geen zinvolle uitspraken of

predicties doen, en is validiteitsonderzoek tijdverspilling. Een vrije antwoordenvorm kán

natuurlijk wel betrouwbare gegevens opleveren (bv bij onafhankelijke beoordeling van

gezond verstand, bij Tat etc.).



Een gevaar is wel dat soms wordt vergeten dat betrouwbaarheid nog geen validiteit

inhoudt. Denk bv aan het gewicht van een tafel dat wordt gemeten met een meetlat. Elke

meting zal hetzelfde gemeten worden, maar wat je meet is niet het gewicht, maar de lengte

van de tafel.

Als advies wordt meegegeven de codering zoveel mogelijk van tevoren vast te stellen

(niet ad-hoc) en een zoveel mogelijk onafhankelijk persoon de codering uit te laten voeren.

4.2.2 Scoring van de keuze-antwoordenvorm

De voornaamste zorgen bij deze antwoordvorm zijn accuraatheid (correctiesysteem zo min

mogelijk fouten toestaan) en efficiëntie (tijd en kosten per gecorrigeerd formulier, met behoud

van nauwkeurigheid, zo laag mogelijk).

Drie mogelijkheden;

Handscoring; correctoren tellen aantal goede of foutgemaakte, en/of onvoltooide of

overgeslagen opgaven (dmv een goed ingevuld voorbeeld, een transparante sleutel of

een kartonnen sleutel (meestal een goedsleutel én en foutsleutel).

Problemen; scoring tweemaal moeten uitvoeren en de tijdsduur.

Zelfscoring; deze vorm kent verschillende versies. Bij de bekendste vorm wordt onder

het antwoordformulier een tweede vel geplaatst. Via een doordrukmethode wordt de

scoring van de persoon meteen op dit formulier geregistreerd zodat alleen de

verschillende scores opgeteld hoeven te worden. Deze methode is sneller en

efficiënter, alleen de kosten liggen weer iets hoger.

Machinale scoring; bij deze snelste methode van verwerking worden schrapkaarten

gebruikt waarop het juiste antwoord aangekruist kan worden, en die in een computer

verwerkt worden. Een andere mogelijkheid is respondenten via een beeldscherm dat is

aangesloten op een computer, de items presenteren zodat de antwoorden direct

verwerkt kunnen worden. Vooral bij de verwerking van grote aantallen gegevens is dit

een nuttige methode

4.2.3 Toevalscorrectie

Alleen bij de keuze-antwoordenvorm moeten we aan de toevalscorrectie denken. We maken

er gebruik van om te voorkomen dat de respondent door te gokken de score kan verbeteren.

Dit bezwaar vermindert als er meer keuzemogelijkheden zijn. Maar zoals heironder duidelijk

wordt, zijn de meeste van de hieronder genoemde bezwaren zo steekhoudend, dat het vaak

beter is de correctie niet te gebruiken, zelfs als een unanieme antwoordstrategie gebruikt

wordt (denk aan bezwaar 5 hieronder).

De meest gebruikte formule is:

1

A

XkXXc

Xc = gecorrigeerde score X = aantal goed k = aantal items

k – X = aantal fout A = aantal antwoordmogelijkheden

De gedachtegang is dat er bij het niet-weten van het goede antwoord wordt gegokt;

tegenover elk goed geraden antwoord staan (A – 1) fout gegokte antwoorden. Men moet het

totaal aantal goed dus verminderen met 1 / A – 1) maal het aantal fout. Bij een twee-keuze

item (A = 2) wordt de gecorrigeerde score dan Xc = 2X – k

Hetzelfde principe geldt voor een correctie waarbij een respondent voor een

onbeantwoorde vraag toch punten ontvangt. Als aantal 'fout' = Xf, dan geldt dat k – X – Xf

items onbeantwoord zijn gebleven. Naar verwachting zouden bij blind raden hiervan

(1 / A) (k – X – Xf) items goed zijn beantwoord. Dit aantal wordt opgeteld bij aantal 'goed':


A

XfXkXXc

Kritische kanttekeningen:

Deze formules gaan uit van de lang niet altijd reële vooronderstelling dat er een

scherp onderscheid is tussen wel en niet weten van een vragen. Er wordt dus geen

rekening gehouden met partiële kennis (reële giskans kan dus groter of kleiner zijn dan

de theoretische, blinde giskans). Denk bv aan het wegstrepen van antwoorden die

zeker niet kunnen volgens respondent. Deze correctie geldt dus alleen wanneer voor

de respondent alle antwoordmogelijkheden even plausibel lijken (dat gebeurt bijna

nooit).

De mogelijkheid bestaat dat iemand een fout antwoord geeft op basis van onjuiste info

of verkeerd inzicht. Het zou onrechtvaardig zijn om daar ook nog eens een keer extra

punten voor af te trekken.

De voor toeval gecorrigeerde scores suggereren ten onrechte een grotere spreiding

(denk aan 2-keuzevragen; 2 maal zo groot gewicht zonder effectiviteit te vergroten).

Een praktisch bezwaar is dat dit soort formules de scoring complex maakt en de kans

op fouten doet toenemen. Hoe simpeler de bewerking, hoe minder fouten naar

verwachting op zullen treden.

Nog een praktisch bezwaar heeft te maken met dat de gecorrigeerde score Xc een

lineaire functie is van X (af te leiden uit eerste formule):

11

A

kX

A

AXc

A / (A – 1) is dus een positief getal. Onder deze twee condities (lineariteit en een positieve

coëfficiënt) geldt dat de correlatie tussen X en Xc gelijk is aan één.

Consequenties:

1) Ordening van personen volgens Xc is dezelfde als die volgens X.

2) Correlatie van X en een andere testscore Y is identiek aan de correlatie tussen Xc en

Y, wat impliceert dat men met beiden score even goed een criteriumscore Y voorspelt.

3) De nauwkeurigheid (of betrouwbaarheid) van X en Xc is gelijk.

Dit alles is ook toepasbaar op tweede formule van hierboven.

4.2.4 Weging

De laatste vraag die zich voordoet is of men alle vragen even zwaar moet wegen. Je zou

zeggen dat je de vragen die het kenmerk van de test het best meten zwaarder telt dan de

vragen die het kenmerk minder goed meten. Dit brengt naast veel extra werk, niet veel

voordeel met zich mee omdat de hoge correlaties tussen de testitems ervoor zorgen dat de

verschillen tussen de gewichten niet zo groot zijn. Dan kun je je tijd beter besteden aan het

uitbreiden van je test.



4.3 Testen per computer

De respondent zit achter een beeldscherm en kan via knoppen op een toetsenbord of met een

muis reageren op de items of stimuli op het beeldscherm. Na de test verschijnt bv de testscore

op het beeldscherm of een vorm van diagnostiek of aanwijzing wat de volgende stap(pen) zal

zijn. In deze paragraaf zal worden stilgestaan bij mogelijkheden van, en problemen bij, het

afnemen van tests en het coderen van antwoorden. Hierbij zal een onderscheid gemaakt

worden tussen technologische bijdragen (afneming, opslag en administratie van items, en

administratie van testgegevens, en psychologische rapportage) en wetenschappelijke

bijdragen (inhoudelijke psychologische veranderingen of veranderingen op psychometrisch

terrein die veroorzaakt worden door, of samengaan met, het gebruik van een computer.

4.3.1 Technologische bijdragen en veranderingen

Het testen per computer zorgt voor veranderingen op administratief gebied; zowel het coderen

als het opslaan in een gegevensbestand van responses van respondenten verlopen

geautomatiseerd. Er is ook tijdswinst (tov conventionele testprocedures) door de mogelijkheid

tot vrijwel ogenblikkelijke terugkoppeling van resultaten aan psycholoog en respondent, en

snelle beschikbaarheid van gegevens voor rapportage.

Het veranderen, toevoegen of verwijderen van items wordt vanuit administratief

oogpunt een stuk makkelijker als de test in een computer is opgeslagen. Dit neemt natuurlijk

niet weg dat de validiteit en betrouwbaarheid daardoor ook kunnen veranderen.

Het is gemakkelijk om heel veel items in de computer op te slaan en een aselecte

steekproef gebruiken om verschillende tests te maken die wel hetzelfde meten.

Er zijn verschillende toepassingsgebieden bedacht voor deze technologie. Denk aan

databanken op scholen over individuele leerlingen met leerdoelen, en testscores, en

itemanalyse ed. Er worden nog steeds meer toepassingsgebieden gevonden.

Een andere technologische verandering betreft de vorm van de items en het type van

gegevens dat wordt verzameld. Het is nu bv mogelijk bewegende beelden te laten zien zodat

kan worden onderzocht hoe daar door respondenten op gereageerd wordt. Zo ontstaat dus een

nieuw type items dat niet op conventionele wijze realiseerbaar is. De variabelen snelheid en

nauwkeurigheid kunnen hiermee bv beter gemeten worden en bv betrokken worden bij

onderzoek naar verbale vaardigheid en een heel scala aan andere vaardigheden.

Technologische veranderingen kunnen dus duidelijk van wetenschappelijk belang zijn.

4.3.2 Wetenschappelijke bijdragen en veranderingen

Mogelijkheden hier worden vooral gezien ogv het meten van individuele verschillen in

ruimtelijk-visueel redeneren, geheugen en aandacht. Verder zou het bepalen van individuele

verschillen in leerpotentieel wellicht beter mogelijk zijn mbv computergestuurde

testprocedures. Zonder computers zou dit moeilijk meetbaar zijn. Denk bv aan een taak

waarbij twee dingen tegelijk gemeten worden, bv reactietijd en aantal fouten, of concentratie

richten op geluiden die de ene keer in linkeroor aangeboden worden en andere keer aan

rechteroor. Toepassingsgebied is bv bediening machines of vlieg- of treinverkeer.

Kanttekeningen bij meten van aandacht;

Vermeende instabiliteit van aandacht bij een bepaald individu

Vermenging van individuele verschillen in vaardigheid bij uitvoering van een taak en

individuele verschillen in aandacht. Het isoleren van eigenschappen is lastig en een

complicerende factor in onderzoek naar verschillen in aandacht.

Naast bijdragen zijn er ook problemen ontstaan door gebruik van de computer bij testen:

testangst en ervaring met computer. Na enige tijd oefenen met de computer kan dat

waarschijnlijk wel overwonnen worden, maar men moet rekening blijven houden met angst

voor machines.


Verder is er onderzoek gedaan naar uiteenlopende invloeden van conventionele tests

en computergestuurde tests op het testgedrag van respondenten (bv verschillen in scores op

een vorderingstoets onderzoeken). Uit dergelijke onderzoeken kwam dat zowel voor

persoonlijkheidstests als voor capaciteitentests de verschillen in testprestatie onder

computergestuurd en conventioneel testen meestal niet groot zullen zijn. De verschillen die

soms echter gevonden worden zijn toch dusdanig dat de normen behorend bij een

conventionele test volgens sommigen niet zonder meer overgenomen mogen worden voor de

computergestuurde versie. Het is bij een computerversie bv niet mogelijk een item zomaar

over te slaan (zonder een toets in te drukken), of later nog eens terug te gaan naar een eerder

beantwoorde vraag. Hierdoor ontstaat wellicht een andere verdeling van itemscores.

4.3.3 Adaptief testen

Hier wordt de bijdrage van de computer aan de psychometrie besproken; het adaptieve testen,

ofwel, het testen op maat. Hierbij krijgt iedere respondent een test voorgelegd die op zijn of

haar niveau is toegesneden. Verschillende respondenten krijgen dus verschillende tests van

dezelfde eigenschap gepresenteerd. Omdat iedereen verschillende tests heeft gekregen, en de

scores van de verschillende respondenten toch vergelijkbaar gemaakt moeten worden, is het

nodig dat de hele verzameling items, opgeslagen in een itembank, voldoet aan de eisen van de

item-respons-theorie (theorie over analyse van itemscores, zie h. 6).

Waarom is het gebruik van adaptieve tests optimaal? Binnen de item-respons-theorie

kan worden aangetoond dat de meting van een eigenschap van een persoon met een bepaald

item de grootste nauwkeurigheid heeft als de moeilijkheid van het item en de 'attribuutwaarde'

van de persoon, beide gemeten op dezelfde schaal, samenvallen (middelmatige moeilijkheid

van item; subjectieve kans op positief antwoord op item is 0.5.

Wat je nodig hebt is dus de attribuutwaarde van een persoon. Maar als je deze weet

hoef je niet meer te meten. De oplossing hierbij is eerst 1 of enkele items die voor de

populatie een gemiddelde moeilijkheid hebben aanbieden. Met deze responses wordt een

schatting gemaakt van de waarde die de persoon toekent op de schaal van het attribuut. Op

basis hiervan worden de volgende items aangeboden enz. De schatting wordt dus bij iedere

stap in het proces nauwkeuriger; de moeilijkheid en de attribuutwaarde komen steeds beter

overeen. De testsessie is ten einde als bv de schatting een bevredigende nauwkeurigheid heeft

bereikt.

Een verschil met KTT is dat hierbij iedereen dezelfde test krijgt gepresenteerd. Een

persoon krijgt dus niet die items voorgelegd die optimaal geschikt zijn. Veel items uit een

standaardtest zullen een subjectieve succeskans die sterk afwijkt van 0.5. Voor personen met

extreme attribuutwaarden is een standaardtest dus een slecht meetinstrument. Adaptief testen

lost dit soort problemen op.

Er is een vuistregel opgesteld (door Weiss, 1985) die zegt dat een adaptieve test die

ongeveer de helft is van een standaardtest, ongeveer met dezelfde nauwkeurigheid meet als

een standaardtest. Verder worden hier drie toepassingsgebieden van adaptief testen genoemd;

Bepalen of iemand geslaagd is.

Bepalen of iemands prestatie binnen de grenen van een bepaald interval ligt.

Bepalen of iemand in een specifiek leerstofgebied vooruitgang heeft geboekt.

Na Amerika is in Nederland het adaptief testen nu ook populairder aan het worden.

4.4 Bewerkte scores en normen

In deze paragraaf gaan we het hebben over wat de score betekent en hoe we deze moeten

interpreteren.

De basisscore noemen we ruwe score welke van aard kan verschillen (aantal goed,

aantal fout, aantal mislukte pogingen etc.). De ruwe score op zich zegt niet veel. Je moet altijd



meer info hebben. We kunnen drie soorten bewerkte scores onderscheiden waar we het deze

paragraaf over gaan hebben;

Vergelijking met een absolute standaard (bv. je hebt 5 fout, maar van de hoeveel?).

Gebaseerd op deling door leeftijd, schoolklas e.d. (bv. goede of slechte prestatie

gezien je leeftijd of opleiding?).

Gebaseerd op relatieve positie in vergelijkingsgroep (bv. hoe hebben anderen het

gemaakt?).

Er is duidelijk verschil tussen een bewerkte score en een norm. Niet iedere bewerkte score

heeft een normkarakter. Verschillende bewerkingen zijn onafhankelijk van prestaties van

anderen, terwijl afhankelijkheid juist voorwaarde is om te spreken van testnormen. Andere

bewerkingen blijven beperkt tot een toevallige groep (examenkandidaten, sollicitanten etc.),

en ook dan is er nog geen sprake van normen (gaat al wel om vergelijking).

Een norm is een referentiekader voor de evaluatie van de ruwe scores dat is gebaseerd

op kenmerken van de distributie (geschat op basis van een representatieve steekproef) van de

ruwe scores in een populatie. Normen zijn dus afhankelijk van de normeringssteekproef (om

distributiekenmerken vast te stellen), en bij het handhaven ervan treffen we een vergelijking

van de score met de scoreverdeling binnen de referentiegroep. Je kunt dus meteen de prestatie

van een individu waarderen (inschatten), en toevalligheden (van een individu) hebben geen

invloed meer, en men is niet meer afhankelijk van het niveau van de rest van de groep.

Soms heb je geen norm nodig, dan volstaat een eenvoudigere vorm van bewerkte

scores. Dan is bv de rangschikking (plaats tov anderen) in de groep voldoende (bv bij

sollicitatie). Soms heb je zelfs genoeg aan ruwe scores als je alleen geïnteresseerd bent in

samenhang tussen testen criteriumscores (omzetting is dan niet noodzakelijk).

De overgang van vergelijking binnen een onderzochte groep naar 'gebruiken van'

normen is vloeiend (hoe groter de groep, hoe meer norm weerspiegeld wordt).

Twee dingen zijn van belang; 1) Bij normerings- of testonderzoek dienen de kenmerken van

de onderzochte groep vermeld te worden (om te weten of normsteekproef geschikt is), en

2) normen dienen niet als te absoluut gezien te worden (denk aan dat met een verandering van

de populatie, de normeis ook verandert).

4.4.1 Vergelijking met een absolute standaard

Het gaat dus om de vraag hoe goed de prestatie van een persoon is in vergelijking met een

absolute maatstaf. Deze maatstaf kan subjectief en arbitrair zijn (1 fout, half punt minder-

regeling), of gebaseerd zijn op analyse van het te meten gebied van kennis, inzicht of

vaardigheden. Dit noemt men (vooral als vraagstuk in het onderwijs gezien) 'criterion-

referenced versus norm-referenced measurement', of 'absoluut tegenover normatief meten'.

Absoluut meten werd gezien als nieuwe dimensie omdat het geen onderlinge vergelijking

inhoudt. Hierbij wordt een zware wissel getrokken op de formulering van de doelen van het

proces dat men bij de onderzochte wil evalueren (leerproces, aanpassingsproces, training).

Verder wordt gekeken naar of de mate waarin die doelen zijn verwezenlijkt op een

betrouwbare manier te meten valt (is dit niet zo, dan krijgt absoluut meten een arbitrair

karakter).

Als het juist wel gaat om die vergelijking tussen de onderzochten (dus het constateren

van verschillen) dan is gebruik van een normering waarbij deze onderlinge verschillen

gemaximaliseerd (zoals bij KTT) worden het beste, en is een vorm van absoluut meten minder

geschikt.

4.4.2 Verhoudingsnormen

Bij deze vorm van scorebewerking worden testscores gedeeld door een andere variabele

(leeftijd, klasse) en daardoor onafhankelijk gemaakt van de betreffende variabele. Het


bekendste voorbeeld is het IQ aan de hand waarvan deze paragraaf verder ingericht is. IQ

werd gemeten als het quotiënt van de mentale leeftijd (ML) en de chronologische leeftijd

(CL) (echte leeftijd in jaren), maal 100

100CL

MLIQ

Er worden vragen voorgelegd die bij een bepaalde leeftijd horen. Dat begint bij een leeftijd

waarvan men verwacht dat het kind alle vragen van onder die leeftijd goed zal beantwoorden.

De basale leeftijd (bl) van een kind is de leeftijd (die bij het niveau van de vragen hoort)

waarbij er nog geen vragen fout beantwoord worden. Het aantal fouten zal toenemen

naarmate het niveau van de vragen met de leeftijd (die bij het niveau van de vragen hoort)

toeneemt. Ieder goed beantwoorde vraag (g) telt verder voor ¼ jaar. Dus:

4

gblML

Kritische kanttekeningen

1. Zuiverheid van begrippen. Het lijkt alsof twee exact vergelijkbare leeftijdsmaten

worden vergeleken, maar ML is een testscore gebaseerd op goedgemaakte opgaven, en

CL is dat niet. Het is dan dus ook zinloos deze twee op elkaar te delen. Het gaat niet

om vergelijking van twee maten van dezelfde persoon, maar om een vergelijking met

prestaties van anderen. Verder zal na het 15de

levensjaar de ML niet meer toenemen,

terwijl de verstandelijke bagage e.d. natuurlijk wel toe blijft nemen. Testscores boven

de 15 jaar zouden dus geen verschillen meer opleveren tussen verschillende leeftijden.

Dus een 20-jarige zou de gemiddelde ML van een 15-jarige hebben. We hebben hier

dus te maken met normen. De selectie van de vragen had immers plaats op basis van

een percentage correcte antwoorden in een normpopulatie.

2. De waarde van het begrip IQ zou in haar constante karakter te liggen. Het IQ vertoont

in haar ontwikkeling juist veel schommelingen. 1) De test bevat vragen die evenzeer

van scholing en vorming als van intelligentie afhankelijk zijn. 2) De psychologische

groei wordt beïnvloed door lichamelijke en fysiologische groeifactoren (veel

verschillen tussen kinderen). 3) Wijzigingen in leermogelijkheden en motivatie, en

emotionele bereidheid van kinderen om hiervan gebruik te maken kunnen zorgen voor

belangrijke wijzigingen in hun relatieve positie tov leeftijdsgenoten, en dus hun IQ.

Doordat met ten onrechte twee dingen in één getal wil combineren (prestatie van het

kind in vergelijking met leeftijdgenoten, en plaats die het kind inneemt binnen eigen

leeftijdsgroep) ontstaan 'ongerijmdheden'.

3. In normale gevallen blijft men bij het berekenen van het IQ boven de hoogste leeftijd

waar beneden de test nog onderscheid maakt nog delen door deze topleeftijd. De

intellectuele prestaties van mensen lopen echter terug met toename van de leeftijd. Als

je ouder wordt blijf je dus wel delen door een steeds hoger wordend getal, terwijl je

mentale capaciteiten achteruit gaan.

4. Veel testen voldeden niet aan een evenredig toenemende spreiding bij hogere

leeftijden. Een jaar achterstand op 6-jarige leeftijd is immers twee keer zo 'erg' als een

jaar achterstand op 12-jarige leeftijd. Wanneer men deelt door een steeds groter

worden noemer (toenemende leeftijd), moet spreiding van de prestatie op hogere

leeftijden steeds groter worden om de breuk constant te houden.

Ondanks de bezwaren van het begrip IQ is het wel zinvol als ontwikkelingsbegrip.. Er kan

gekeken worden of een kind in zijn/haar ontwikkeling 'voor' of 'achter' is door dat af te leiden

uit een vergelijking van zijn leeftijd met die van de categorie kinderen die dezelfde

testprestatie leveren.



4.4.3 Vergelijking en normen gebaseerd op een rangorde

De eenvoudigste vorm van interindividuele vergelijking is de rangordening. Deze bewerkte

score is het rangnummer: score 1 voor de eerste positie, score 2 voor de tweede positie, etc. Er

is geen norm, de rangscores zijn direct gebonden aan de groep en groepsgrootte. Zonder

kennis van de groepsgrootte en buiten de bewuste groep hebben ze dan ook geen betekenis.

Bij percentiele scores is kennis van de groepsgrootte niet noodzakelijk. Percentielen

zijn die 99 punten die een frequentieverdeling verdelen in 100 even grote groepen. P50

betekent bv dat 50% van de scores onder p50 ligt (bij p50 heet dat mediaan). Een probleem

bij deze aanpak is dat een relatief grote groep vaak dezelfde score heeft. Je kunt dan dus niet

differentiëren in percentielscores. De percentielscore wordt nu berekend dmv lineaire

interpolatie; stel dat 28% van de respondenten een ruwe score heeft van 61 of lager en dat

34% een ruwe score heeft van 62 of lager, dan heeft 6% een ruwe score gelijk aan 62 en de

percentielscore die hier bijhoort bereken je als volgt: 28 + 0.5 (34 – 28) = 31. Je hebt dan geen

last meer van afhankelijkheid van absolute groepsgrootte. Er is nog wel en directe

afhankelijkheid van niveau, spreiding en toevallige kenmerken van de groep. Bij gebruik van

percentiele normen bestaat dit bezwaar niet. Hier wordt een schatting gemaakt van de

verdeling in de (beoogde) populatie. De frequentiepolygoon is een vloeiende kromme waarbij

de onregelmatigheden door de steekproef zijn „rechtgetrokken‟. Het makkelijkst is om ipv een

rekenkundige afleiding te maken, een grafiek te tekenen met op de x-as (abscis) de ruwe

scores en op de y-as (ordinaat) de percentiele scores.

Nadelen percentiele scores (directe consequentie werken met ordinale schaal);

1. Met percentielscores mogen eigenlijk geen deelbewerkingen uitgevoerd worden

zoals bij het berekenen van gemiddelden. Je mag alleen de rangcorrelatie

gebruiken.

2. Het heeft geen zin de frequentieverdelingen van percentiele en ruwe score

eenheden te vergelijken (voor illustratie zie plaatje p. 90). Verder bestaan er

decielen die de frequentieverdeling in 10 gelijke groepen verdelen, en vigintielen

die de verdeling in 20 gelijke groepen indelen.

Als men een snelle indicatie wil hebben van de relatieve positie van de onderzochte in een

groep of in de populatie, dan zijn rangordescores en –normen goed bruikbaar itt gebruik

hiervan voor wetenschappelijk onderzoek.

4.4.4 Vergelijking en normen gebaseerd op gemiddelde spreiding

De bewerkte scores in deze categorie worden standaardscores genoemd, of bij een

(representatie van een) populatie, standaardnormen.

1. Hier vallen de lineaire standaardscores (z-scores) onder. De testprestaties worden

uitgedrukt in het aantal standaarddeviatie-eenheden (sd) dat de scores van het gemiddelde

verwijderd liggen volgens de volgende formule;

Sx

z

waarin z = standaardscore, X = ruwe score, Xgem. = gemiddelde,

Sx = de standaarddeviatie, volgens de formule

Sx = )(1

n²

Om kleine of negatieve getallen tegen te gaan wordt het gemiddelde gesteld op 100 of 50 en

de spreiding op 20 of 10. De vorm van de verdeling blijft zo wel in stand. Als de verdeling


door bv specifieke karakteristieken van de populatie scheef wordt, mag je niet meer zeggen

dat bv 16% van de scores hoger is dan z=1. Standaardscores behouden dus (op gemiddelde en

sd na) dezelfde verdelingskenmerken als de originele scores. De wijzigingen zijn lineair van

aard (net als de wijziging van seconden naar minuten); lineaire standaardscores.

2. Als de transformaties niet lineair van aard zijn noemen we ze genormaliseerde

standaardscores. Er ontstaat hierbij een normaalverdeling. De constructie van de

genormaliseerde standaardscores gaat als volgt; Men zoekt uit welke ruwe scores de

percentages markeren die horen bij de standaardscore eenheden in een normaalverdeling.

De ruwe scores worden vervolgens omgezet in genormaliseerde standaardscores. We

moeten wel in het oog houden dat dit geen rechtvaardiging is voor het zogenaamd

normaal verdeeld zijn van intelligentie. Bij het testen van een eigenschap als intelligentie

ligt de situatie geheel anders dan bij de direct meetbare eigenschappen lengte en gewicht.

De vorm van de intelligentieverdeling is nooit los te denken van de test waarmee die

intelligentie gemeten wordt (te makkelijke items zullen zorgen voor een scheefheid naar

links van de verdeling, te moeilijke items zullen zorgen voor een scheefheid naar rechts).

Door enkele kunstmatige ingrepen (items weglaten of invoegen) is de verdeling dan

normaal te maken.

Deze omzetting in genormaliseerde standaardscores wordt gerechtvaardigd door het

gemak en de bruikbaarheid ervan. Doordat bij gebruik van deze scores intervalschaal

verondersteld wordt (met gelijke eenheden), onderscheiden deze standaardscores zich van

andere categorieën.

Tot de categorie van genormaliseerde standaardscores behoren de volgende (meest

voorkomende) vormen;

1) De T-scores waarbij een gemiddelde aangenomen wordt van 50 en een spreiding

van 10 (verdeling ligt dus praktisch tussen 20 en 80).

2) De stanines; „stan‟dard scores from „nine‟ eenheden; gebruikt om zoveel mogelijk

testinformatie in een kolom te verwerken. Deze scores komen niet exact overeen

met een bepaalde ruwe score (bij T-scores is dat wel zo), maar ze

vertegenwoordigen een breedte van 0.5 Sx. Het gemiddelde van de 5de stanine

komt overeen met het gemiddelde van de verdeling. Toekenning van de stanines

aan de verschillende verdelingssegmenten geschiedt volgens op normaalverdeling

gebaseerde tabel; stanine 1 t/m 9, 4%, 7%, 12%, 17%, 20%, 17%, 12%, 7%, 4%.

3) Het deviatie-IQ; gaat om standaardnormen met een gemiddelde van 100.

Testprestaties per leeftijdsklasse worden verwerkt tot genormaliseerde

standaardscores. Testprestatie van een persoon wordt vergeleken met de tot diens

leeftijd behorende normaalverdeling.

Scores in de WAIS per leeftijd; gemiddelde=100, sd=15

P.93; overzicht van verschillende bewerkte scores (zoals behandeld in dit hoofdstuk) voor

snelle onderlinge vergelijking van de diverse scores.



Vooraf: mijn samenvatting bevat heel veel formules. Ik verwijs dan naar het boek, want ik

weet niet goed waar al die tekens hier op word te vinden zijn en dan wordt het allemaal te

onduidelijk.

Hoofdstuk 5 Betrouwbaarheid

Betrouwbaarheid wil in het kort zeggen: herhaalbaarheid van metingen, dus in hoe verre,

wanneer een test onder gelijkblijvende condities tweemaal of vaker aan dezelfde persoon

wordt voorgelegd, varieert de verkregen testscore dan over deze testsessies?

5.1 herhaalbaarheid van metingen

Het herhaald voorleggen van dezelfde test levert vaak dezelfde score, een hogere score of een

lagere score op, omdat (respectievelijk):

- men zich herinnert wat hij vorige keer geantwoord heeft

- men leert bij

- men leert zich verkeerde trucjes aan

Een zinvolle herhaling wordt dus bemoeilijkt door geheugen- en leerprocessen. Ook spelen

allerlei kenmerken van de testomgeving en testprocedure mee, die van invloed zijn op de

testscores. Herhaalbaarheid van metingen moeten we ons dus hypothetisch voorstellen.

Er zijn dus invloeden op de testprestatie werkzaam die onvoorspelbaar of onsystematisch

varieren over herhaalde afnemingen van een test. Maar over een groot aantal herhaalde

metingen bij dezelfde persoon heffen voor- en nadelen mekaar op.

Herhaalbaarheid van metingen kan worden beoordeeld indien we een persoon vele malen

dezelfde test onder gelijkblijvende condities kunnen voorleggen. De afnemingen dienen

onafhankelijk van elkaar te zijn. In deze situatie zijn er bij verschillende afnemingen factoren

werkzaam die de testprestatie op een onvoorspelbare wijze beïnvloeden.

5.2 De klassieke testtheorie

In de klassieke testtheorie wordt iemands testscore opgesplitst in een constant of systematisch

deel en een toevallig of niet-systematisch deel. De geobserveerde testscore van persoon i

behaald tijdens replicatie j van een specifieke test geven we aan met Xij. De opsplitsing van

Xij in een systematisch deel T en een toevallig deel E.

Xij = Ti + Eij [5.1]

Het toevallige deel Eij varieert bij replicaties op een onvoorspelbare wijze. De beide score

componenten zijn gedefinieerd als:

[5.2] en [5.3]

T = de betrouwbare score en E = de meetfout.

Omdat positieve en negatieve invloeden uiteindelijk tegen elkaar wegvallen is de gemiddelde

meetfout gelijk aan nul. [5.4]

Voor een specifieke persoon i geldt dat over onafhankelijke replicaties de spreiding van de

geobserveerde scores gelijk is aan de spreiding van de meetfouten. [5.5] en [5.6]

Voor een willekeurig persoon i luidt het klassieke testmodel:


[5.7] [5.8] [5.9] [5.10] [5.11] [5.12] [5.13] [5.14][5.15] [5.16]

De betrouwbaarheid [5.15] en de standaardmeetfout [5.16] spelen in de klassieke testtheorie

een centrale rol. Ze worden gebruikt om een schatting te krijgen van de nauwkeurigheid van

een meting met behulp van een specifieke test/ om een indruk te krijgen van de mate waarin

de testscores bij een onafhankelijke replicatie van de meting anders zouden kunnen uitvallen.

De splitsing van betrouwbaar en toevallig deel van de geobserveerde score kan ook gemaakt

worden in een bedoeld en onbedoeld deel. Het onbedoelde deel bevat ook de meetfouten.

Het is van groot belang in te zien dat een test met een hoge betrouwbaarheid niet noodzakelijk

in belangrijke mate datgene meet wat men bedoelt te meten.

5.3 Bepaling van de betrouwbaarheid

Het schatten van betrouwbaarheid kent twee benaderingen:

- 2 testafnemingen: 2 verschillende maar equivalente tests: paralleltests

2 dezelfde tests: test-hertest methode

- 1 testafneming: splitsing in 2 halve tests: splitsingsmethode

covarianties tussen alle items: interne-consistentie-methode

De parallelmethode

We noemen 2 tests parallel als voor iedere persoon i uit een specifieke populatie geldt dat

[5.17] en [5.18]

Voor 2 paralleltests g en h geldt dat

[5.19]

In de praktijk kan de betrouwbaarheid van een testscore dus worden bepaald door van de test

een parallelversie te construeren en voor beide tests in een bepaalde groep de scores te

verzamelen. De correlatie tussen deze scores geeft een schatting van de betrouwbaarheid.

Empirisch controleerbare eigenschappen zijn de volgende

Gemiddelde Tg = Gemiddelde Th

[5.20] [5.21][5.22][5.23]

De eigenschap van parallelle tests dat ze met iedere willekeurige variabele Y dezelfde

correlatie hebben, verschaft de testconstructeur een belangrijk middel om te controleren of

zijn testversies al dan niet aan de eis van parallellie voldoen.

Indien 2 testversies parallel zijn, dan moeten de volgende 3 eigenschappen gelden voor de

ruwe scores Xg en Xh: [5.20] [5.18] [5.21] waarbij Y een willekeurige variabele is. Van

deze eigenschappen is de laatste veruit de belangrijkste. Aan de eerste 2 is eenvoudig te

voldoen door de testscores te standaardiseren.

De test-hertestmethode

De procedure volgens welke de test-hertest-methode wordt uitgevoerd komt er eenvoudig op

neer dat dezelfde test met een behoorlijke tussentijd tweemaal aan dezelfde groep van

personen wordt voorgelegd. De correlatie tussen beide verkregen ruwe scores is in de

populatie gelijk aan de betrouwbaarheid van de test, mits beide afnemingen als onafhankelijke

replicaties kunnen worden beschouwd. Indien we de ruwe scores, verkregen op tijdstippen 1

en 2, aanduiden met X1 en X2, dan geldt [5.24]



Bij zich weinig wijzigende eigenschappen geeft de test-hertestmethode een goede indruk van

de betrouwbaarheid volgens de parallelvorm-methode. Zodra er veranderingen optreden in de

gemeten eigenschap is dat echter niet meer het geval. Die veranderingen zijn het gevolg van

het feit dat men voor de tweede maal dezelfde test maakt. Wanneer deze veranderingen voor

alle mensen even sterk zou zijn dan zou men in termen van testscores bij iedereen dezelfde

verandering kunnen verwachten, maar het probleem is dat mensen verschillen in de mate

waarin zij leren. Ook kun je te maken hebben met het afnemen van de beschikbare groep van

respondenten naarmate het tijdsinterval tussen de 2 testen groter wordt. Hieruit volgt dat X1

en X2 vaak niet als onafhankelijke replicaties kunnen worden beschouwd. Derhalve zal

r(X1,X2) in veel gevallen in de populatie te laag of te hoog uitvallen.

De splitsingsmethode

Een test wordt opgedeeld in 2 even lange helften die in het ideale geval parallel zijn. Achteraf

wordt per testhelft een ruwe score bepaald. Indien beide scores werkelijk parallel zijn, dan is

hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test.

Ten slotte wordt een correctie uitgevoerd op de verkregen betrouwbaarheid teneinde de

betrouwbaarheid van de gehele test te kunnen bepalen.

[5.25] en [5.26]

waarbij rxx‟ = de betrouwbaarheid van de score op de oorspronkelijke test

en rkk = de betrouwbaarheid van de score op de test na verlenging of verkorting

K = verlengings- verkortingsfactor.

Een evenwichtige spreiding van gemakkelijke en moeilijke items over beide testhelften is het

beste. Een selectie van items volgens even en oneven rangnummers lijkt dit probleem

nagenoeg op te lossen. Ook is het aan te raden om in verschillende versies items te kiezen die

inhoudelijk veel op elkaar lijken.

De interne-consistentie-methode

Deze methode is gebaseerd op de inwisselbaarheid van individuele items in een test. Alle

covarianties tussen de items worden berekend, alsmede de variantie van de ruwe score X.

Tezamen met het aantal items, k, worden deze resultaten ingevuld in een van de vele

coëfficiënten van interne consistentie. Deze coëfficiënten worden dan gebruikt als schattingen

van de betrouwbaarheid.

Aantonen dat alfa ondergrens is voor betrouwbaarheid :[5.27] , [5.28] [5.29] [5.30] [5.31]

[5.32] [5.33] [5.34] [5.35] hieruit volgt: [5.36]

Hieruit volgt dat alfa praktisch gezien altijd een systematische onderschatting levert van de

betrouwbaarheid. De formules voor alfa zijn [5.37] en [5.38].

Een alfa waarde van 0.90 kan karakteristiek zijn voor een lange test met lage inter-item-

correlaties, maar ook voor een korte test met hoge inter-item-correlaties. Een toenemende

waarde van alfa brengt daarentegen wel tot uitdrukking dat de systematiek van de meting

steeds meer de overhand krijgt ten opzichte van toevallige scorecomponenten in de

testprestatie. Ook kan alfa een hoge waarde hebben terwijl de test in sterke mate heterogeen

is. Binnen een specifieke deelgroep correleren de items hoog, maar items uit verschillende

deelgroepen correleren laag. We prefereren alfa dus als ondergrens van de betrouwbaarheid.

Alternatief voor alfa is lambda-2 [5.39] met [5.40].


5.4 speciale onderwerpen

De standaardmeetfout [5.16] wordt gebruikt om de nauwkeurigheid van de schatting van

iemands betrouwbare score T te bepalen. Deze schatting beschouwen we als een lineair

regressieprobleem. We gebruiken hierbij de formules:

[5.41] [5.42] [5.43] [5.44] [5.45][5.46]

De tweede schatting gebruikt dus meer relevante informatie dan de eerste en is derhalve

nauwkeuriger.

Bij testlengte geldt dat de betrouwbaarheidswinst kleiner wordt naarmate meer items aan de

test worden toegevoegd en dat het om praktische redenen vaak weinig zin heeft om een test

met een geringe betrouwbaarheid te verlengen teneinde de betrouwbaarheid te vergroten.

[5.47]. Testverlenging heeft vooral zin als de aanvangsbetrouwbaarheid niet al te laag is (0.60

a 0.80) en het aantal items in de test niet al te groot is (hooguit 10 a 20).

De betrouwbaarheidsindex [5.48] heeft als belang dat het de bovengrens aangeeft voor de

correlatie van testscore X met een willekeurige variabele Y. Voor deze Y geldt dat [5.49].

Een test met een hoge betrouwbaarheid kan een hoge validiteit hebben, terwijl een test met

een lage betrouwbaarheid ook een geringe validiteit zal hebben.

De validiteitswinst is geringer dan de betrouwbaarheidswinst bij [5.50].

Voor zover de validiteitcoëfficiënt toch toeneemt is dat te danken aan het terugdringen van

meetfouten die de samenhang van X en Y enigszins vertroebelen.

Formules [5.51] [5.52] [5.53] volgen uit [5.50]

Uit [5.54] volgt dat een geringe betrouwbaarheid een grote meetfout impliceert en ook

verschilscores zullen dus vooral uit meetfouten bestaan. De betrouwbaarheid van

verschilscores is eveneens gering als de samenhang van X1 en X2 sterk is. Een hoge

covariantie tussen X1 en X2 impliceert dat hun betrouwbare scores veel op elkaar lijken, met

als gevolg dat het verschil X1-X2 wederom vooruit uit meetfouten bestaat. Men moet streven

naar zo onafhankelijk mogelijke tests. Hoe lager hun testscores correleren, hoe beter. Ook

moeten de testscores beide zo betrouwbaar mogelijk zijn.

Er bestaat een sterk positief verband tussen de variantie van de betrouwbare score T en de

betrouwbaarheid. [5.55]

Indien bij vaste meetfoutenvariantie de variantie van T afneemt, geldt dit eveneens voor de

betrouwbaarheid. Men dient een test dus alleen toe te passen in de populatie waarvoor hij is

ontwikkeld.

In geval van een totaalscore die is gebaseerd op heterogene testdelen kan de betrouwbaarheid

het beste worden bepaald door middel van de gestratificeerde alfacoëfficiënt. [5.56]

De test-hertest-methode geeft een indruk van de generaliseerbaarheid van de meting in de tijd,

terwijl de paralleltest-methode aangeeft in hoeverre metingen verkregen met de ene testversie

generaliseerbaar zijn naar op hetzelfde moment verkregen meetwaarden van de andere

parallelle testversie.

In zijn generaliseerbaarheidtheorie gaat Cronbach er vanuit dat de testgebruiker altijd

generalisering van de testresultaten beoogt. Het totaal aantal condities waarnaar men wenst te

generaliseren wordt het universum genoemd. In plaats van over de betrouwbare score spreken



we nu over de universumscore, de gemiddelde testprestatie berekend over het universum van

condities.

Afhankelijk van de definitie van het universum varieert de universumscore, maar ook de

betrouwbaarheid van de meting. Deze betrouwbaarheid wordt nu generaliseerbaarheid

genoemd.

De foutenterm E, bestaat niet alleen uit toevallige invloeden op de testprestatie. De

samenstelling van deze foutenterm varieert met de definitie van het universum en daarmee

varieert tevens de generaliseerbaarheidcoëfficiënt.


Samenvatting H6 : Nieuwe ontwikkelingen in testtheorie en testconstructie.

-De verzamelnaam item-response-theorie verenigt een klasse van verwante testmodellen

waaronder de modellen van Lord,Rasch en Birnbaum.

6.1 Principes en begrippen van de item-response-theorie:

Het gaat in dit hoofdstuk vooral om item-response-modellen voor dichotoom gescoorde items.

Dichotome itemscores geven bijvoorbeeld aan of het antwoord „goed‟ of „fout‟ is en ook

bijvoorbeeld of iemand het met een uitspraak „eens‟ of „oneens‟ is.

Aangezien de kansen op een positief en een negatief antwoord complementair zijn richten we

ons voornamelijk op de eerste kans, die we ook wel succeskans noemen. Binnen de item-

response-theorie wordt de succeskans opgevat als een functie van de te meten psychologische

eigenschap.Wiskundig gezien is de succeskans een functie van de schaal waarop de

meetwaarden Q liggen en deze schaal kan worden opgevat als een meetlat voor de

psychologische eigenschap die men wil meten. De vorm en de locatie van de functie wordt

bepaald door de kenmerken van het item. Zo‟n soort functie wordt dan ook wel item-

karakteristieke-functie of item-karakteristieke-curve genoemd. ( zie figuur 6.1, blz 134).

Figuur 6.1 is een item-karakteristieke-functie van item g .

Over de vorm van de itemkarakteristieke functie valt een aantal dingen te zeggen.

De succeskans is een monotoon niet-dalende functie. Monotoon niet-dalend betekend dat de

functie stijgt of op sommige plaatsen constant is.

Ook valt het op dat de helling van de functie niet overal even sterk is. Ook bevat de functie

een kritisch gebied wat betekend dat personen met verschillende meetwaarden in dit gebied

wat betreft hun succeskans op het item goed te onderscheiden zijn.

6.2 Enkele modellen uit de item-response-theorie:

De modellen die nu zullen worden besproken gaan allemaal uit van een monotoon niet-dalend

verband tussen de succeskans op een item en de schaal waarop de psychologische eigenschap

gemeten wordt. De modellen verschillen in de keuze van de specifieke wiskundige functie

voor de item-karakteristieke-curve.

6.2.1 Het Model volgens Rasch:

Het Rasch-model is het strengste van alle item-response- modellen die behandeld zullen

worden.De functie van het Rasch-model wordt weer gegeven in figuur 6.2 blz 138. De meting

volgens het Rasch-model vindt plaats op een schaal waarop verschuivingen ( translaties) van

de verschillende waarden met eenzelfde constante hoeveelheid zijn toegestaan.

Een zeer belangrijke eigenschap volgens het Rasch-model is dat de meetwaarden

populatieonafhankelijk zijn.Wanneer het Rasch-model geldt mag je personen met elkaar

vergelijken ook al hebben deze personen verschillende tests gemaakt van een verschillend

moeilijkheidsniveau. ( voor verdere formules zie boek)

6.2.2 De modellen volgens BirnBaum:

De twee modellen van Birnbaum zijn minder streng dan het model volgens Rasch. Allebei de

modellen kan men opvatten als een veralgemenisering van het model van Rasch of anders

gezegd , het Rasch-model is een speciaal geval van de twee birnbaum-modellen . Wanneer het

Rasch-model een adequate verklaring geeft van het testgedrag , ook de minder strenge

modellen van Birnbaum bruikbaar zijn voor de gegevens. Het is niet altijd zo dat als de



modellen van birnbaum een adequate verklaring geven voor testgedrag dat men dan ook het

rasch-model mag gebruiken.

Het strengste model van de twee Birnbaum-modellen is het model met twee itemparameters.

De functie van het model met de twee item-paramters wordt weergegeven in figuur 6.3

De items in een test die aan de eisen van dit Birnbaum-model voldoen hebben in de regel een

verschillend discriminerend vermogen. De items hoeven niet allemaal van dezelfde kwaliteit

te zijn, wat wel het geval is in het Rasch-model. Een overeenkomst van dit model met het

Rasch-model is dat voor lage Q-waarden de succeskans tot nul nadert.

Populatieonafhankelijk meten van personen is bij het Birnbaum-model problematisch.

Meting van de persoon is wel onafhankelijk van de item-moeilijkheid maar niet van het

discriminerend vermogen. Om de Q-waarden te bepalen is het nodig dat eerst de

discriminatie-parameters bepaald worden. Deze discriminatieparameters spelen bij het Rasch-

model geen rol aangezien ze identiek zijn voor alle items.

Wanneer men een minder streng testmodel kiest gaat dit gepaard met verlies aan

meeteigenschappen.Door middel van het Birnbaum-model kunnen alleen de personen

populatie-onafhankelijk worden gemeten maar niet de items.In het Rash-model kan dit laatste

wel.

Het tweede en minder strenge model van Birnbaum is het model met drie parameters. Deze

functie wordt weergegeven in figuur 6.4. Meetwaarden bij dit model zijn

populatieonafhankelijk te bepalen wanneer de populatieafhankelijke itemkenmerken bekend

zijn.

Verder wordt er in het boek niet echt diep ingegaan op het model van Birnbaum met drie

parameters .

6.2.3 De modellen volgens Mokken:

Mokken heeft twee item-response-modellen gepresenteerd die belangrijke verschillen

vertonen met de modellen volgens Rasch en Birnbaum.

Het minst restrictieve model volgens Mokken(= het model van monotone homogeniteit)

Mokken gaat ervan uit dat over veel psychologische begrippen zo weinig kennis dat het

gebruik van de relatief restrictieve Rasch en Birnbaum-modellen niet door dergelijke kennis

gerechtvaardigd kan worden. Dit is de rede dat Mokken in eerste instantie uit gaat van een

model waarin het antwoordgedrag van respondenten niet wordt beperkt door de keuze van een

specifieke response-formule. De enige restrictie die aan de item-karakteristieke-functies wordt

opgelegd, is dat zij monotoon niet-dalend zijn. Verder moet het antwoordgedrag op alle items

een afspiegeling zijn van dezelfde psychologische eigenschap. De enige restrictie op het

antwoordgedrag is dat een toenemende meetwaarde gepaard gaat met een toenemende of

constante succeskans. De modellen volgens Rasch en Birnbaum zijn speciale gevallen van het

eerste model van Mokken. In de Rasch-en Birnbaum-modellen wordt de item-karakteristieke

curve door een specifieke functie vastgelegd en dit gebeurt in het eerste Mokken-model niet.

Bij het eerste model stellen we zonder verder bewijs ervoor vast dat de ordening van personen

populatie-onafhankelijk is.

Het tweede model volgens Mokken is het model van dubbele monotonie. Dit model leid wel

tot populatie-onafhankelijke ordeningen van zowel personenals van items. Het model van

dubbele monotonie is een speciaal geval van het eerste model volgens Mokken(= model van

monotone homogeniteit).Bij dit model wordt er eveneens vanuit gegaan dat de item-

karakteristieke-functies monotoon niet-dalend zijn. Bovendien mogen de functies elkaar niet

snijden! De discriminatieparameter en de pseudokansniveauparamter spelen in het tweede

model geen rol , de moelijkheidsparamter daarentegen wel.


6.3 Meten met item-response-modellen:

De toepassing van de testtheorie op de testgegevens leid uiteindelijk tot het afbeelden van

personen en eventueel, items op een schaal. De item-response-theorie heeft hierbij de

volgende eigenschappen:

Ten eerste volgt de item-response-theorie de schaaleigenschappen uit het specifieke item-

response-model.

Ten tweede vindt meting volgens de modellen van Rasch en Birnbaum plaats op een

metrische schaal ( = interval-, verschil- en rationivau) , terwijl de modellen volgens Mokken

ordeningen van meetwaarden toelaten.

Ten derde kunnen met behulp van de modellen van Rasch en Birnbaum personen en items op

dezelfde schaal worden afgebeeld . De modellen volgens Mokken laten, vanwege het ordinale

karakter van de meting , geen gezamenlijke ordening van personen en items toe , maar wel

van personen en items apart.

Tenslotte is de meting volgens item-response-modellen in specifieke gevallen populatie-

onafhankelijk. In het Rasch-model is de meting van zowel personen als items populatie-

onafhankelijk. In de Birnbaum-modellen is alleen de meting van personen populatie-

onafhankelijk. In het model van monotone homogeniteit is de ordening van personen

populatie-onafhankelijk, terwijl het model van dubbele monotonie populatie-onafhankelijke

ordening van zowel personen als items toelaat.

6.3.1 Betekenis en gebruik van metrische schalen:

In deze paragraaf gaat het om het vraagstuk of meting van psychologische eigenschappen op

metrisch niveau voor de praktijk van het testen handig of nuttig is. Misschien is het handig

om dit aan de hand van een voorbeeldje duidelijk te maken.

We willen de intelligentie van proefpersonen meten,als een persoon i een meetwaarde heeft

van 1 en een persoon j heeft een meetwaarde van 2 mogen we dan concluderen dat j tweemaal

zoveel van de eigenschap bezit als i ???

Antwoord : nee, zulke interpretaties over psychologische eigenschappen zijn onverantwoord;

Als men over intelligentie wil spreken in termen van hoeveelheden moet men zeer

nauwkeurig weten waar intelligentie voor staat / wat het precies inhoud.

Eggen en Kelderman bespreken diverse bewerkingen van meetwaarden die ertoe dienen om

de schaal van een handige interpretatie te voorzien.

De eerste bewering is bedoeld om de schaal te relateren aan een specifieke normgroep.Bij

deze bewerking krijgt de schaal een gemiddelde en een spreiding die karakteristiek zijn voor

de normgroep, zodat een specifieke score direct te interpreteren valt.

De tweede bewerking is bedoeld om meetwaarden te relateren aan een of meer

referentiepunten die onafhankelijk zijn van een groep of populatie en die een zinvolle

inhoudelijke interpretatie mogelijk maken.Een voorbeeld hiervan is een drempelwaarde die

het minimale niveau aangeeft voor deelname aan een bepaalde cursus.

Naast deze twee bewerkingen kan men de meetwaarden ook omzetten in percentielscores of

in succeskansen ( odds) of men kan de schaal van de item-response-theorie omzetten in een

schaal van de klassieke testtheorie. Voordelen van de laatste bewerking zijn dat de ordening

volgens T nu volgt uit de theorie en niet hoeft te worden aangenomen. Een ander voordeel is

dat testgebruikers over het algemeen gezien beter bekend zijn met de betrouwbare score-

schaal.

6.3.2 Nauwkeurigheid van de meting:

Of men nu volgens de klassieke testtheorie of volgens de item-response-theorie meet , het

belangrijkste is steeds dat scores van personen van elkaar of van een normscore kunnen

worden onderscheiden. Wat betreft de betrouwbaarheid van de meting is de benadering van

de item-response-theorie op te vatten als een verfijning van de klassieke benadering. In de



klassieke testtheorie wordt de nauwkeurigheid van de meting ( = de ruwe score X als

schatting voor de betrouwbare score T ) meestal uitgedrukt in de standaardmeetfout( zie H5 ).

Daarbij wordt ervan uitgegaan dat deze , voor een bepaalde test, constante standaardmeetfout

op ieder scoreniveau gebruikt kan worden.

6.4.1 De itembank en de equivalering van scores en itemkenmerken:

In de context van de onderwijsevaluatie voert Van der Linden een aantal bezwaren tegen het

gebruik van standaardtestmethoden en-toetsingsmethoden.

Ten eerste noemt hij de mogelijk geringe representativiteit van een standaardtest voor een

inhoudelijke kennis- of vaardigheidsdomein, ookwel het probleem van inhoudvaliditeit (H 7).

Ten tweede is er het probleem dat standaardtests standaardpopulaties veronderstellen.

Ten derde noemt Van der Linden de individualisering van het leerproces, die vaak zal

uitlopen in uiteenlopende beheersingsniveaus van de studiestof.

Door de vele bezwaren is het duidelijk dat de standaardtest in de genoemde gevallen

vervangen moet worden door een groot domein van items waaruit naar behoefte tests kunnen

worden samengesteld. Zo‟n domein wordt ook wel een itembank genoemd.

De itembank en de item-response-theorie hebben beiden de populatie-onafhankelijkheid van

metingen gemeen. Doordat de itembank deze eigenschap ook bezit is het onder andere

mogelijk om alle items uit een bank op dezelfde schaal af te beelden mits natuurlijk wordt

voldaan aan de eisen van het gekozen item-response-model. Het afbeelden van items op een

schaal en het daarbij toekennen van meetwaarden noemt men kalibreren.

Voor de constructie van tests is het van groot belang hoe de items in de itembank worden

opgeslagen.Millmann en Arter onderscheiden twee classificatiemethoden.

Ten eerste kunnen items worden opgeslagen naar onderwerp of plaats in het curriculum.

Ten tweede is er de mogelijkheid om ieder item vergezeld door 1 of meer sleutelwoorden in

de bank onder te brengen.

Het tweede systeem heeft ten opzichte van het eerste systeem een grotere flexibiliteit.

6.4.2 Testconstructie op basis van een itembank:

Vooral selectie van de juiste items uit de itembank voor een specifieke toepassing is lastig.

Er van uitgaande dat de test nauwkeurig moet meten , kunnen aan de te selecteren items en

ook aan de uiteindelijke test een aantal eisen gesteld worden.

Men kan in verband met de testtijd voor het aantal te selecteren items een bovengrens

vaststellen ( zodat de test niet te lang wordt ). Ook kunnen er eisen worden gesteld aan de

samenstelling van de test qua onderwerp. Als je bijvoorbeeld een rekentest hebt moet je

beslissen hoeveel optelsommen en aftreksommen je er in stopt, hoeveel

vermenigvuldigingssommen, hoeveel breuken etc.

Het is niet gemakkelijk om in de itembank items bij elkaar te zoeken die aan alle criteria van

je test voldoen.

Gegeven de eisen die men aan de test stelt , moet men de kleinst mogelijke deelverzameling

van items uit de itembank selecteren waarvan de testinformatiecurve voor alle waarden van Q

gelijk is aan of groter is dan de doelinformatiecurve ( zie figuur 6.8)


6.4.3 Adaptieve tests:

Een adaptieve test is een test die zo goed mogelijk aan het niveau van een specifieke

respondent is aangepast.

In de itembank moeten naast andere informatie over de items, in elk geval ook de

itemparameters zijn opgeslagen. Samen met de tussentijdse schattingen van

persoonsparameter Q van een specifieke respondent., zijn de itemparameters nodig om op

basis van iemands response het volgende item te selecteren.Om zinvolle schattingen van de

persoonsparameter te kunnen verkrijgen, is het nodig dat het antwoord gedrag van de

respondenten waaruit de adaptieve test wordt samengesteld voldoet aan de eisen van het item-

response-model.Is de discrepantie tussen het model en het empirisch waargenomen gedrag te

groot dan kan men de itembank niet gebruiken voor het construeren van adaptieve testen.Het

is dan handig om de itembank in te delen in verschillende deelbanken die ieder op zichzelf

weer gericht zijn op testgedrag dat met behulp van een item-response-model kan worden

beschreven.Per deelbank kunnen dan adaptieve tests worden geconstrueerd.

Adaptief testen heeft een aantal voordelen t.o.v testen met behulp van een standaardtest. Ten

eerste wordt er bij adaptief testen per respondent een zeer nauwkeurige meting verricht. Ten

tweede krijgen respondenten een test voorgeschoteld die is aangepast aan hun eigen nivea.

Ten derde is de testprocedure geautomatiseerd en daardoor objectief. Ten vierde is de testtijd

relatief kort en kunnen de resultaten sneller teruggekoppeld worden. Ten vijfde kunnen

testpresentaties die verkregen zijn met behulp van verschillende testen met elkaar vergeleken

worden.

Helaas kleeft er ook een groot nadeel aan testconstructie op basis van een itembank. Het is

namelijk niet makkelijk om een grote itembank te construeren waarvan alle items testgedrag

oproepen dat met behulp van een van de item-response-modellen beschreven kan worden.

6.4.4 Vraagonzuiverheid:

Zolang met behulp van een test personen uit dezelfde populatie vergeleken worden en de

psychometrische eigenschappen van de meting bekend zijn , kan de toepassing van een test op

een verantwoorde manier gebeuren. Problemen kunnen zich voordoen wanneer met behulp

van een test personen uit verschillende populaties met elkaar moeten worden vergeleken.Het

is dan de vraag of personen uit een specifieke populatie systematisch worden bevooroordeeld

of benadeeld worden doordat de test in diverse populaties op verschillende manieren

fuctioneert.

Vraagonzuiverheid wordt in de item-response-theorie al volgt gedefinieerd:

Er zijn 2 populaties van respondenten. Meestal vertegenwoordigt een van deze populaties een

meerderheidsgroep en de andere een minderheidsgroep. Er is sprake van een goed

functionerend of zuiver item als de item-karakteristieke-functie van een specifiek item in

beide groepen identiek is. De achterliggende gedachten bij deze definitie is dat twee personen

met dezelfde Q waarde maar uit verschillende populaties afkomstig, dezelfde succes kans op

een specifiek item moeten hebben. Hebben personen met dezelfde Q waarde toch

verschillende succeskans, dan betekend dat, dat er minstens twee eigenschappen in het spel

zijn die de testprestatie bepalen.

Kok bespreekt drie strategieën voor het onderzoek naar de verklaring van vraagonzuiverheid.

De eerste strategie:

Nadat er statistisch is gebleken dat er sprake is van partijdigheid , wordt er geprobeerd om

eigenaardigeheden in de onzuivere items te vinden waardoor deze zich onderscheiden van de

overige items ( = ad hoc strategie ).



De tweede strategie:

Bij de tweede strategie wordt er een verband gelegd tussen eigenschappen van personen

enerzijds en kritische kenmerken van items in vergelijking met onpartijdige items anderzijds.

De derde strategie:

De derde strategie is het experimentele onderzoek naar oorzaken van vraagonzuiverheid. Kok

beschrijft hierbij een toets waarin items uit een rekentoets werden gemanipuleerd door

moeilijke woorden te vervangen door makkelijkere woorden. Bij de gewijzigde versie ging

men er van uit dat deze minder partijdig zou zijn t.o.v Turkse en Marokkaanse kinderen.

6.4.5 Afwijkende scorepatronen:

Wanneer bekend is dat het gedrag van leden van een specifieke populatie beschreven kan

worden met behulp van een item-response-model , dan bevat de Q waarde alle informatie over

deze personen die met deze test te verkrijgen is. Toch kan het gebeuren dat sommige

individuen uit de populatie in hun testgedrag afwijken van de meerderheid. Dit afwijkende

gedrag kan er voor zorgen dat er een patroon van item-scores onstaat dat niet waarschijnlijk is

voor iemands Q waarde en voor de itemkenmerken.In een dergelijke situatie moet je

concluderen dat de Q waarde niet alle informatie over het individu bevat en de additionele

informatie te verkrijgen is op basis van de afwijkendheid van het scorepatroon. ( zie blz 168

voor een drietal voorbeelden van situaties waarin afwijkende patronen te verwachten zijn ).


HOOFDSTUK 7 VALIDITEIT EN BETEKENIS

Validiteit → juistheid, nuttigheid accuraatheid in gebruik

→ Mate waarin de test zijn doel beantwoordt

→ Bedoeling v/d test dient in ogenschouw te worden genomen

Begrip validiteit heeft betrekking op de vraag of die sprong van testgedrag naar iets anders

verantwoord is. Proces van verzamelen van evidentie van deze rechtvaardiging heet

validerings- of validatie proces. De mate waarin die rechtvaardiging kan worden gevonden

wordt aangegeven door de term validiteit.

1. Predictieve validiteit → (voorspellend), selectie, beroepsadvisering, enz.

2. Begripsvaliditeit → (van belang in het kader meten, eigenschap)

Onderzochte in psychologische termen begrijpen en beschrijven

Validiteit van test geeft aan in hoeverre deze aan zijn doel beantwoordt, waarom vaststelling

van deze validiteit moet worden gebaseerd op de relatie tussen de test en andere variabelen of

tests die alle zijn op te vaten als operationaliseringen van hypothetische begrippen.

Vier Soorten Validiteit:

1. predictive validity (verschil deze en eerder genoemde, deze alleen toekomst, komt veel

voor in de praktijk)

Heeft betrekking op relatie tussen testprestaties en op een later tijdstip verkregen

criterium prestaties.

Schatting die wordt verkregen door na te gaan in welke maten de voorspellingen, gedaan

op basis van testprestatie, worden bevestigd door gegevens of observaties verzameld op

een later tijdstip.

2. concurrent validity

Deze vorm van validiteit wordt beoordeeld door na te gaan hoezeer test resultaten

corresponderen met gelijktijdig beschikbare criteriumgegevens. Deze vorm komt ook vrij

veel voor.

V.b. valideren van test door testresultaten van leerlingen te vergelijken met gelijktijdige,

b.v. door leraar uitgevoerde prestatiebeoordelingen

3. content validity (inhoudsvaliditeit)

Nadruk op subjectief oordelen

Goede betrouwbaarheid impliceert nog geen goede inhoudsvaliditeit

Definitie: sterkte van samenhang tussen testscore en de totaalscore op het gehele

itemdomein.



Bepalen van samenhang tussenscores op twee equivalente tests. Hiervan wordt schatting

verkregen door te beoordelen hoezeer de inhoud van de test

4. construct

7.4 Betekenis en begripsvaliditeit

Betekenisanalyse tracht een antwoord te vinden op de vraag wat de test meet, welk

psychologisch begrip het testgedrag zinvol zou kunnen verklaren.

7.4.1 Het proces van betekenisanalyse en begripsvalidering

1e fase begripsvalidering: voorlopige hypothetische verklaring

Hierbij van belang:

fase creatief van aard (idee krijgen)

voorspelling ondubbelzinnig verklaren

je kunt nooit definitief bewijzen een theoretische betekenis

alternatieve hypothese mogelijk verwerpen evenzeer belangrijk

Het gaat er in betekenisanalyse dus om het vinden en bevestigen van een theorie of een

theoretisch begrip als verklaring voor het testgedrag.

Dit gebeurt aan de hand van trekvaliditeit (verklaring aan een persoonlijkheidstrek), of

Nomologische validiteit waarbij een hele theorie ter sprake komt. Trekvaliditeit wordt in

psychologie voornamelijk gebruikt, omdat eisen die door de nomologische gesteld zijn nog

niet zijn voldaan.

Eenmaal trek- of nomologische netwerk als verklaring gekozen start de begripsvalidering.

Er kunnen nu twee soorten voorspellingen worden gedaan:

1. confirmerende voorspelling

2. discriminerende voorspelling

7.4.2. Op zoek naar de betekenis

Vaak zijn de betekenis en de „theorie‟ vaag, onhelder, of geheel afwezig.

Daarom>>> betekenisanalyse langs 2 wegen:

1. Structuuronderzoek 2 suggesties: > psychologische analyse van de inhoud van de vragen en opdrachten

> Analyse van de meer formele kenmerken van de test

2. Relatieonderzoek

Hier gaat het om het reflatieonderzoek als bron voor ideeën, niet ter toetsing van de `

hypothesen.


4 vormen waarin de gegevens zich kunnen voordoen:

spreiding en norm

experimenten

factoranalytisch onderzoek

predicties (wat de test kan voorspellen)

7.4.3. Alternatieve verklaringen

De waarde van het verwerpen der alternatieven is niet altijd even groot.

Het hangt af van de stringentie van de experimentele opzet, en van de plausibiliteit van de

alternatieve verklaringen.

3-tal alternatieven waarvan het altijd verstandig is ze te controleren:

test voor prestatieniveau of gedragswijze > correlatie met intelligentie?

Sociale wenselijkheid: individuele of algemene

Het nagaan of het test gedrag gemakkelijk toegankelijk is voor een of meer antwoord

tendenties

7.5 Nogmaals betrouwbaarheid en validiteit

Betrouwbaarheidsschatting resulteert in een betrouwbaarheidsinterval voor de betrouwbare

score op de test.

Dit is een indicatie van de nauwkeurigheid van de meting. Los van de nauwkeurigheid staat

de vraag wat de test meet. Dit is validiteit.



Hst 8 De bijdrage van de test in het beslissingsproces

8.1 taxonomie van beslissingen

Een beslissing over mensen bevat 3 elementen:

-Een individu waarvoor de beslissing geldt

-twee of meer behandelingen (treatments) waartussen met m.b.t de beslissing moet kiezen

-de informatie die dient als basis voor de beslissing

Beslissingsstrategie: (kan diverse malen worden herhaald voordat er een beslissing wordt

genomen.

Informatieinformatieverwerking volgens regelsnader onderzoektest interview med.

ond. uitwerkingInformatieetc………

Definitieve beslissing

behandeling A

behandeling B

behandeling C

afwijzing

Enkele indelingsprincipes m.b.t beslissingen over mensen.

Onderscheiding tussen individuele en institutionele beslissingen. Een individuele beslissing

wordt voor èènmaal genomen en het rendement verschilt per individu (want de waarde

verschilt per individu). Vb: schoolkeuze, beroepskeuze.

Bij institutionele beslissingen staat men tegenover een groot aantal gelijksoortige

beslissingen. Er is een vaste serie van beslissingsregels voor een verscheidenheid van gevallen

(institutionele beslissingsstrategie). Vb: toelatingsprocedure voor een school.

Een tweede onderscheiding heeft betrekking op de onderlinge relatie van de te kiezen

alternatieven. De alternatieven kunnen kwantitatief van elkaar verschillen, maar wel in èèn

dimensie of in elkaars verlengde liggen. Vb verschillende schooltypen die uitsluitend wat

betreft het niveau en niet qua aard van elkaar verschillen. Wanneer info op deze manier „in

èèn dimensie‟ ligt noem je haar univariaat.

Beslissingen genomen op basis van multivariate informatie: alternatieven die qua aard, en niet

uitsluitend qua niveau, verschillend zijn. Vb keuze tussen studie psychologie of economie.

Binnen de beslissing op basis van univariate informatie kan je nog beslissingen onderscheiden

waarbij het gaat om positieve (dichotomie: wel/niet) of negatieve (indelen in twee of meer

klassen)keuze.

-----------------------------------------------------------------------------------------------------------------

institutionele individuele

beslissingen beslissingen univariate dichotomie -selectie -ja/nee keuze

informatie niet/wel -plaatsing -niveaukeuze

klassen (niveauverschillen)

multivariate informatie -plaatsing -soortkeuze

(kwalitatieve verschillen)

Bij plaatsingsbeslissingen is er een onderscheid tussen variabele(adaptive) en vaste (fixed)

treatments. Bij een vaste treatment gaat men uit van èèn of meer van tevoren vastgelegde

behandelingen, waartussen men een keuze kan doen. Bij variabele treatments bestaat er een

mogelijkheid om, bijvoorbeeld, de opleiding of behandeling zelf weer te modificeren en

zodanig vorm te geven, dat ze optimaal worden aangepast aan het individu.


Er kan ook een onderscheid worden gemaakt op de vraag of de beslissingen in een enkele fase

worden genomen (‘single-stage’ of ‘non-sequential decisions’), of dat het hele

beslissingsproces in verschillende fasen verloopt („sequential decisions’) vb: voorselectie.

8.2 Enkelvoudige selectie-c.q. afwijzingsmodel

Van enkelvoudige selectie is sprake indien individuen worden onderzocht ten aanzien van een

enkel criterium, waarbij er slechts twee mogelijkheden zijn: onderzochte voldoet niet of

onderzochte voldoet wel aan de eisen. Het gaat hierbij om institutionele beslissingen, waarbij

wordt uitgegaan van univariate informatie.

8.2.1 Het gebruik van een enkele test

De effectiviteit van de selectie hangt van meer factoren af dan van alleen de validiteit van de

test. Bij een afwijzingsmodel is het belangrijk de correlatie te weten met het criterium.

Zie voor onderstaande; figuur 8.3 in boek (pag.226)

-Taylor en Russell (1939): selectieratio (percentage kandidaten dat wordt aangenomen)

(B+D)/(A+B+C+D)= 0.84

-Wiegersma (1963): toevalskans/base rate (percentage geschikten wanneer men niet zou

selecteren maar volgens toeval zou aannemen)

(A+B)/(A+B+C+D)= 0.76

-Succesratio (indicatie van effectiviteit van de selectie)

Is afhankelijk van de validiteit van de test. (Hoe hoger de correlatie tussen test en criterium,

hoe voller de kwadranten van B en C zullen worden en hoe leger A en D)

Ook wordt de succesratio beïnvloed door de toevalskans. (Als de som A+B in verhouding

groter zou worden, zou dit ook het geval zijn met de verhouding van B en (B+D))

De derde factor die de succesratio beïnvloedt is de selectieratio. (Hoe meer personen we

afwijzen, hoe groter de breuk B/(B+D) zou worden. (zie fig. 8.4.4)

In de praktijk van het beslissen en voor de evaluatie van de uiteindelijke waarde van de

beslissing zijn er nog een aantal kanttekeningen:

-Er speelt een rol in het beslissingsproces hoeveel kandidaten moeten worden aangenomen.

Eveneens speelt mee naar welke succesratio men streeft, of hoeveel risico men wilt lopen om

een ongeschikte persoon aan te nemen.

-Het optimaliseringsprobleem. Verder dient men bij iedere beslissing het belang van de

verhouding van twee categoriën tegen elkaar af te wegen. Door de selectieratio te variëren,

varieert men tevens de verhouding tussen de groep en van positieve en negatieve missers; hoe

minder positieve, hoe meer negatieve missers en omgekeerd. Een negatieve misser kan

ernstige problemen geven, bijv. bij het aannemen van een ongeschikte kandidaat voor een

zeer dure opleiding, bijvoorbeeld tot piloot. Hier zal men liever meer positieve missers op de

koop toe nemen. De situatie andersom is ook denkbaar. Ook kan er een situatie zijn waarin

zowel de groep van positieve als de groep van negatieve missers zo klein mogelijk gehouden

moet worden. Het verschuiven van de aftestgrens op de predictorvariabele zorgt dus voor een

vermindering van het aantal missers van het ene type, maar vergroot tegelijk het aantal

missers van het andere type. Het vaststellen van een optimale kritische testscore of aftestgrens

is dus niet eenvoudig. Men kan zeggen dat de aftestgrens optimaal is als de daarbijhorende

opbrengst of utiliteit van de selectieprocedure optimaal is of, omgekeerd, als het verlies van

de procedure minimaal is.

-Ook heeft eenzelfde validiteit niet steeds dezelfde waarde voor de beslissing. Als de

toevalskans dicht bij 1 komt te liggen heeft het vrijwel geen zin meer om te testen, omdat de

succesratio toch weinig kan worden opgevoerd en selectie met de test bovendien zal leiden tot

het afwijzen van een relatief groot aantal geschikten. Omgekeerd geldt dit ook.



-Hetzelfde geldt ook voor de invloed van de selectieratio op de selectie-uitkomst.

Selectie bij een zeer lage toevalskans. Voorbeeld: „Mogen studenten worden afgewezen voor

het doctoraal examen op basis van magere stageresultaten?‟ Het aantal brokkenmakende

afgestudeerde psychologen, ingenieurs,artsen is zeer gering dus de toevalskans is zo laag, dat

er zelfs bij een veel meer valide voorspeller dan stageresultaten er toch altijd te veel ten

onrechte afgewezen kandidaten zouden blijven.

De absolute waarde van de validiteit van een test heeft op zich weinig betekenis. Ook andere

factoren, zoals de toevalskans en selectieratio moeten in rekening worden gebracht.

Van welke factoren is de utiliteit van een testprocedure bij een gegeven toevalskans

afhankelijk?

Cronbach en Gleser (1965) netto-utiliteit per onderzochte:

∆U= Su r xu ∑ (X‟) – C

∆U= netto utiliteitswinst per onderzochte

Su = Standaarddeviatie van de utiliteit in de ongeselecteerde populatie

Rxu = correlatie tussen predictor en utiliteit in de ongeselecteerde populatie

∑(X‟)= ordinaat van de normaalverdeling van X bij aftestgrens X‟(bij gegeven selectieratio)

C= gemiddelde kosten van de procedure per onderzochte

De factoren in de formule:

Ten eerste de spreiding in utiliteitsscores of, vanwege de positieve monotome relatie, in

criteriumscores. Ten tweede de correlatie tussen test en criterium of tussen test en utiliteit. In

de derde plaats is de selectieratio van invloed op de utiliteit. Uiteindelijk de factor kosten

testonderzoek, men kan uit de formule berekenen of de kosten van het testprogramma

opwegen tegen het uiteindelijk rendement van de selectieprocedure.

8.2.2 Het gebruik van meer dan een test

Meestal een hoge validiteit bij gebruik van meerdere tests. Het best is een serie tests die allen

zo hoog mogelijk correleren met de criteriumprestatie, maar onderling een zo laag mogelijke

correlatie vertonen.

Gewenste beslissingen kunnen op twee manieren worden bereikt:

Ten eerste via een statistisch proces van wegen van testscores en eventueel berekenen van

succeskansen. Ten tweede via een intuïtief, niet statistische proces van weging en

voorspelling.

De statistische methode is superieur aan de intuïtieve methode. In een intuïtieve combinatie

van gegevens spelen allerlei vooroordelen, stereotypen en ongeverifieerde veronderstellingen

een rol naast ervaring en kennis van de vakliteratuur.

Sommige omstandigheden vereisen de procedure van de veelvoudige minimumscore.

(„multiple cut-off procedure‟). Hierbij wordt voor iedere test afzonderlijk een kritische score

vastgesteld, beneden welke geen kandidaten mogen worden aangenomen. Iedere kandidaat

die testscores heeft hoger dan of gelijk aan de minimumtestscores wordt aangenomen. Dit is

een eenvoudige methode. Een testcombinatie volgens de veelvoudige

minimumscoreprocedure heet conjunctief , en die volgens de gewogen samenstelling

compensatorisch.

Er is een combinatie van beide methoden mogelijk; binnen bepaalde minimumgrenzen is de

relatie compensatorisch (fig. 8.5)

De gewogen samenstelling heeft als voordeel dat ze extra informatie geeft buiten de vraag van

aannemen of afwijzen. Soms is de veelvoudige minimumscore echter adequater, waarin het

gaat om „alles of niets‟- eisen.


8.2.3 Selectie in een of meer fasen

Deze trapsgewijze selectie is in de meeste gevallen superieur aan de eenmalige selectie,

aangezien meestal veel tijd en geld bespaard kunnen worden zonder dat er meer foutieve

beslissingen vallen. Het is vooral handig een onderzoek met veel personen. Het voordeel van

de procedure is een grote besparing aan onderzoekstijd. Deze procedure is ook zeer geschikt

voor programmering en voor besturing door de computer.

8.3 Plaatsbeslissingen

8.3.1 Plaatsing met betrekking tot niveauverschillen

De besliskunde is zeer relevant voor institutionele beslissingen maar ook voor de straks

besproken individuele beslissingen. Het enige verschil is dat bij institutionele beslissingen de

waarde van uitkomsten van beslissingen door de organisatie wordt bepaald en constant is voor

vele beslissingen, en dat bij individuele beslissingen de waarde voor het individu wordt

bepaald en dus per individu kan verschillen.

Een individu wordt zodanig geplaatst dat hij of zij het meeste‟rendement‟oplevert. Soms is

het goed mogelijk volgens een exacte en rationele procedure te werk te gaan. Maar vaak is dit

niet mogelijk. Er zijn vaak een beperkt aantal plaatsen per functie bijvoorbeeld. Vaak worden

er dus beslissingen op „gevoel‟genomen, men volgt eigenlijk niet een exacte procedure maar

een ad-hoc strategie.

8.3.2 Plaatsing met betrekking tot kwalitatieve verschillen

Een belangrijk verschil met plaatsing waarbij het om kwantitatieve verschillen gaat, betreft de

aard van de informatie die men voor de bepaling van kansen moet gebruiken. Er is een andere

test nodig. Centraal staat nu de mogelijkheid tot differentiële predictie. Op basis van de

testprestaties moet niet alleen een schatting kunnen worden gemaakt van de kansen voor beide

richtingen, maar men moet ook de testprestaties tussen beide richtingen kunnen differentiëren.

Dat betekent dat een hoge correlatie tussen beide criteria niet voldoende is, de test moet zich

nu niet richten op wat criteria verenigt, maar meer op wat men scheidt.

Op basis hiervan zijn differentiële geschiktheidstesten ontstaan. Bij deze differentiële

predictie is voor een test niet alleen de correlatie met de afzonderlijke criteria, maar ook de

differentiële validiteit van belang. Deze differentiële validiteit is de correlatie tussen de

predictscore X, en het verschil van twee criteriumscores, (Y1-Y2).

r (X, Y1-Y2)= S(Y1) r (X,Y1) – S(Y2) r (X,Y2)/ S(Y1-Y2)

8.4 Individuele beslissingen

Het gaat hier om beslissingen die worden genomen voor of door individuen, die er een eigen

waardensysteem op na houden, waardoor dit soort beslissingen veelal een uniek en

persoonlijk karakter heeft. Bij individuele beslissingen hebben we ook met beide elementen

„kans‟ en „waarde‟ te maken. Het verschil met institutionele beslissingen is dat de evaluatie

van de resultaten van beslissingen een individuele en ook per individu variërende zaak is. Ook

hebben we bij individuele beslissingen kwantitatief en kwalitatief verschillende alternatieven.

Decisiesituatie:

Een individu heeft de keuze voor beslissing van het accepteren van functie K. Zijn kans om in

deze functie te slagen is 0.60; de kans op falen 0.40. Stel dat men na overwegen tot een

waardetoekenning komt, waarbij het falen in de functie driemaal zo ernstig is als het succes

hebben in de functie. Beslissingsproces geformaliseerd:

Rk= 0.60 x 1 + 0.40 x (-3) = -0.60

Verwachte rendement is negatief dus hij kan beter beslissen de functie K niet te accepteren.

Een ander, die de functie K zoveel sterker ambieert dat de waarde van succes in K tweemaal

zo groot wordt geschat als het psychologische en economische „verlies‟ bij het falen in K, kan



zelfs bij een nog kleinere kans op succes in K, bijvoorbeeld 0.45, toch terecht beslissen de

functie te aanvaarden. In zaak geval wordt de berekening namelijk:

Rk= o.45 x 2 + 0.55 x (-1) = 0.35

Het psychologische advieswerk dient niet beperkt te worden tot het berekenen van kansen en

het vinden van waarderingscijfers. In de eerste plaats is de exacte kansbepaling meestal niet

zo eenvoudig als hier wordt gesuggereerd. In de tweede plaats is het evaluatieproces van de

diverse alternatieven uitkomsten een allesbehalve eenvoudig proces. In de derde plaats

moeten binnen een keuze veelal meer mogelijkheden, variaties en „schadeposten‟ zijn.

8.5 Open vraag

Voor een beantwoording van een open vraag is de beste weg die van het testen in fasen. In

een eerste fasen kan het grote aantal mogelijkheden worden gereduceerd tot een meer

beperkte keuze of een bepaalde veronderstelling. In een tweede fase kan deze hypothese

worden getoetst of kan met betrekking tot dit beperkte aantal mogelijkheden worden beslist.

Een polaire relatie tussen bandwijdte en zuiverheid: hoe meer informatie tegelijk, hoe minder

zuiver, en omgekeerd. Bij het testen wordt steeds getracht een compromis te vinden tussen de

veelheid van informatie (bandwijdte) en de accuratesse van de informatie (zuiverheid). Bij

een hypothesevorming of een inperking van de keuzemogelijkheden (eerste fase) dient juist

de breedte, het bereik van de test op de voorgrond te staan. Voldoende zuiverheid is niet meer

te handhaven indien de reikwijdte van de test veel groter moet worden. Ideaal geacht worden

tests met een geringe bandwijdte en grote zuiverheid (intelligentietests). In de sfeer van een

grote bandwijdte en een lage zuiverheid liggen in de eerst plaats diagnostische methoden als

het interview en het autobiografische opstel, en daarnaast typische open-vraaginstrumenten

als observatietests en projectietests en ten slotte de kwalitatieve analyse van op zichzelf

objectieve tests.

Er moet veel onderzoek verricht worden voordat deze brede-band techniek echt als een

zuivere nauwe-bandtest bruikbaar zou worden. Een eerste vereiste is betrouwbaarheid van de

testgegevens, door standaardiseren van de procedure afnemen, een voldoende objectief

verwerkingssysteem en voldoende spreiding. Er moet meer exacte differentiatie van normen

voor specifieke populaties beschikbaar zijn. Ook moeten beoordeelde kenmerken een

omschreven plaats krijgen in een trektheorie of een theorie rondom een psychologisch

construct, opdat men te weten komt welke psychologische betekenis aan die kenmerken mag

worden toegekend.

Bij een open vraag is de brede-bandtechniek aangewezen en zelf onmisbaar. Er is dan wel een

tweede, gericht toetsingsonderzoek te volgen om een definitieve uitspraak te kunnen doen.

Bij gebruik van specifieke brede-bandtest zijn veel minder strakke regels te geven dan voor

een selectie-of plaatsingsbeslissing. Wel dienen de volgende richtlijnen in het oog te worden

gehouden:

Bij het ontwikkelen van hypothesen dient zoveel mogelijk aangesloten te worden bij

resultaten die in de literatuur of volgens eigen ervaring in vergelijkbare situaties zijn

gevonden.

In de hypothesevorming wordt altijd gebruik gemaakt van impliciete en expliciete theorieën.

Wil men succes hebben, moet men zich onthouden van allerlei duistere, neologistische en

metafysische theorieën.

Ook doet men er goed aan af te zien van het gebruik van projectietests.

Brede-bandprocedures kunnen enerzijds niet voor definitieve beslissingen gebruikt worden,

maar anderzijds in een eerste stadium van een onderzoek ter beantwoording van open vragen

een belangrijke en onmisbare bijdrage kunnen leveren.


Hoofdstuk 9: Ethiek van het testen.

Er is al sinds de ontwikkeling van tests veel kritiek op het gebruik ervan, vaak wordt er in de

kritieken ten onrechte geen onderscheid gemaakt tussen testgebruik in de praktijk en

principiële mogelijkheden van tests. Er is een voorstel gedaan om sollicitanten via trainingen

in het beantwoorden van testopgaven, meer kans te geven te worden aangenomen. Dit idee

heeft twee nadelen:

1. De kans is groot dat men aangenomen wordt in een functie waarvoor men niet is

gekwalificeerd en waarin men vroeg of laat vastloopt.

2. De opdrachtgever wordt misleidt, de testscore verbetert maar de geschiktheid van

de sollicitant niet.

De kritiek tegen testen moet met wel serieus nemen omdat:

1. In kritiek zit veel waars.

2. De weerstand tegen testen is een realiteit, waarmee rekening gehouden moet

worden.

3. psychologen hebben het er voor een deel zelf naar gemaakt door veel te

pretenderen met de tests en vervolgens veel misconcepties doen ontstaan, en

misbruik van de testgegevens toegelaten, etc.

Oorzaak van de negatieve houding t.o.v. tests:

Een testonderzoek heeft de weg tot een opleiding, een baan of promotie

afgesneden.

Een dieper liggende oorzaak kan zijn dat er een algemeen onbehagen

ontstaat met een toenemende bureaucratisering en vertechnisering van de

maatschappij, die de mens zelf nog weinig controle overlaat.

9.1. Levensbeschouwelijke en menselijke bezwaren.

Men stelt zich op het standpunt dat de mens in feite niet „te meten‟ is met instrumenten als

tests, dat het wezen van de mens op deze wijze nooit te vatten is, en dat een test aan het

unieke en meest essentiële van de mens voorbijgaat. De vraag wordt gesteld of het testen

mensen niet tot onpersoonlijke objecten reduceert en of de menselijke waardigheid bij de

superieure machtsrol van de testpsycholoog, of bij de soms frustrerende, soms misleidende,

soms infantiel aandoende testopdrachten wel voldoende worden gehonoreerd. Voor een deel

gaat het bezwaar om de relatie en rollen tussen onderzoeker en onderzochte, en voor een deel

over het probleem van getest worden als zodanig.

Er is een groot dilemma waarin een keuze moet worden gemaakt of de psycholoog bij

institutionele selectie gericht moet zijn op zorg voor de cliënt of voor het instituut. De keuze

is moeilijk te maken, maar een principiële verwerping zou in principe gebaseerd moeten zijn

op een of meer van de volgende premissen:

Er zijn geen verschillen in vakbekwaamheid, respectievelijk geschiktheid

om zich deze vakbekwaamheid eigen te maken;

Het is onjuist een keuze te doen tussen sollicitanten op basis van

vakbekwaamheid en aanleg tot goede prestaties;

Het bestaan van een geformaliseerd, vastliggend normensysteem voor de

beoordeling van een arbeidsprestatie is niet acceptabel.

IN de herziene NIP-ethiek probeert men een en/ en situatie te creëren door zowel voor de

belangen van de cliënt als de belangen van het instituut te zorgen. De psycholoog is in dienst

van beide partijen.

9.2 Technische en methodologische bezwaren.



Er moet onderscheid gemaakt worden tussen de praktische functie van een test en het principe

van de test als zodanig. Voor vele tests is aangetoond dat de betrouwbaarheid en validiteit

ontoereikend zijn, toch zijn er ook veel test waarvan dan niet bewezen is dat ze niet

betrouwbaar en valide zijn, er ook nog niet aangetoond is dat ze dat wel zijn. Een veilig

standpunt is dan ook: „een test is onbruikbaar tot het tegendeel blijkt‟.

Een laatste methodologisch bezwaar is dat tests door hun beperkte karakter, de

ondernemende, creatieve en exceptionele kandidaat weren, en de fantasie- en initiatiefloze

conformist belonen.

9.3 Misbruik

Volgende problemen hebben een specifiek ethisch karakter, en hebben te maken met misbruik

of onaanvaardbare condities of consequenties.

9.3.1 Vertrouwen.

Een schending van het vertrouwen wordt gezien als een van de belangrijkste bronnen van

ongenoegen en terughoudendheid tegenover tests, de vraag is dus of testresultaten wel genoeg

binnenskamers blijven. Hier moet onderscheid gemaakt worden tussen de research situatie en

de praktijksituatie. In de research situatie hoeft er geen probleem op te treden indien de

anonimiteit gewaarborgd blijft. Bij de praktijksituatie zijn er twee gevaren te onderscheiden:

1. niet-psychologen krijgen inzage in de testgegevens

2. een uit handen gegeven rapport loopt met recht uit de hand

Een andere zaak is de geheimhouding voor de onderzochte zelf, er bestaat een gevaar voor

misinterpretatie en verkeerde effecten. De cliënt heeft volgens de NIP-ethiek recht op

nabespreking van de resultaten, hetgeen meer moet zijn dan alleen inzage in de gegevens.

9.3.2 Misleiding.

Hierbij gaat het erom dat de onderzochte niet weet wat de test meet, en zich dus niet kan

wapenen. De onderzochte heeft het recht precies te weten wat er in het onderzoek/ de test

gemeten gaat worden. Ook heeft hij/ zij het recht om op elk moment te stoppen indien

gewenst.

9.3.3 Binnendringen in het privé-leven.

Het recht op privacy is „heilig‟. In principe is het met een test binnendringen van het privé-

leven wel mogelijk, alleen geldt dit niet alleen voor tests maar ook voor bijvoorbeeld het

belastingformulier, curriculum vitae en een interview. In plaats van pleiten voor absolute

privacy is een redelijke mate van privacy reëler. Enkele redenen om een afweging te maken

tussen privacy en onderzoek zijn:

Het is van belang wetenschappelijk inzicht te krijgen in het menselijk

gedrag en de menselijke motieven, onze gezamenlijke

verantwoordelijkheid om onszelf en onze wereld te leren kennen moet even

serieus genomen worden als het recht op „privacy‟.

De wenselijkheid of soms noodzaak uit (bepaalde sectoren van) de

maatschappij sommige personen te weren.

De wenselijkheid om in een maatschappij een optimale benutting van

kwaliteiten, capaciteiten en kennis te bereiken.

Privacy dus niet tot elke prijs, er moet een goed evenwicht gevonden worden tussen privacy

en andere uiteenlopende belangen.

9.3.4 Discriminatie.

Er is een discussie over de vraag of psychologische tests tot discriminatie van (allochtone)

minderheidsgroepen bijdraagt. Er zijn een aantal klachten als het hierom gaat:


1. De tests zouden niet goed zijn gestandaardiseerd voor minoriteitsgroepen: de

instructie wordt bijvoorbeeld niet begrepen, de kandidaten zijn niet gewend aan het

testproces of ze zijn niet vertrouwd met het werken onder tijdscondities.

2. Tests meten capaciteiten, prestaties en vooral kennis die bevoorrechte groepen

beter hebben kunnen ontwikkelen of verwerven.

3. Er worden tests en testcombinaties gebruikt die gebaseerd zijn op validatie-

onderzoek op beperkte (meestal blanke midden-) groepen, waarvan de resultaten

dan gegeneraliseerd worden naar andere populaties.

De reactie van de verdedigers van testonderzoek is dat de test juist objectief registrerend is, de

test stelt objectief wetenschappelijk vast wat iemand kan en kent. Met behulp van de tests zal

discriminatie op basis van uiterlijk of ras juist worden tegen gegaan, omdat beoordeling nu

daadwerkelijk op iemands capaciteiten wordt gebaseerd.

Belangrijk om te onthouden is dat tests als zodanig nooit discriminerend zijn, twee dingen

kunnen echter wel discriminerend zijn:

1. de interpretatie van de testscores

2. het gebruik van de test

Op het gebied van selectie van mensen kan discriminatie wel een rol spelen, en zijn twee

strategieën voor selectie:

1. de strategie die gericht is op maximalisering van de doelmatigheid:

Deze strategie is gericht op het selecteren van de personen met de grootste kansen

op succes in de functie en dus op maximalisering van de validiteit.

Wanneer doet zich binnen deze gedachtegang discriminatie voor?

NIET: wanneer een zelfde score op de selectietest voor alle onderzochten ( om

het even of ze nu uit meerderheids- dan wel uit minderheidsgroepen afkomstig

zijn) samengaat met een zelfde score op de prestatie uit de functie.

WEL: indien de ene groep met een zelfde testscore een systematisch hogere

criteriumscore correspondeert dan in de andere groep en hiermee bij selectie

geen rekening wordt gehouden.

Van belang is dat het begrip discriminatie hier wordt gebruikt om aan te geven dat

een zelfde caesuurscore op de selectietest voor de ene (gediscrimineerde) groep

overeenkomt met een hogere criteriumscore dan voor de andere (bevoorrechte)

groep.

Er zitten nog twee addertjes onder het gras als we denken dat „discriminatie‟ nu

psychometrisch is gedefinieerd:

Een deel van het probleem is gewoon verschoven naar het criterium, dus

dan zal er alsnog discriminatie optreden.

Maximalisering van de validiteit stelt ons ook voor directe vragen, zoals of

de toegevoegde variabelen de validiteit kunnen verbeteren.

Binnen het model van de maximalisering van de doelmatigheid zijn in dit verband

nog twee benaderingen te onderscheiden:

Het ongekwalificeerde individualisme: binnen deze benadering is alles wat

de validiteit verhoogt acceptabel.

Het gekwalificeerde individualisme: de directe discriminatie van vrouwen,

minderheden of sociaal-economisch zwakkeren dan resultaat van

ongekwalificeerde individualisme wordt niet acceptabel geacht. Directe

discriminatie wordt vermeden, maar indirecte discriminatie komt nog

steeds voor.



2. de strategie die gericht is op maximalisatie of verhoging van gelijke kansen om te

worden aangenomen:

De meest extreme strategie is hier de indienstneming op grond van loting. Helaas

gaat de doelmatigheid hier verloren. Er zijn nog wel een aantal strategieën met een

zekere mate van doelmatigheid, die toch gelijke kansen nastreven:

het principe van gewogen loting

Het gecorrigeerd individualisme: hierbij worden alle predictoren

gecorrigeerd voor hun samenhang met de mogelijke discriminerende

variabelen

van iedere categorie waarvan is bepaald dat discriminatie moet worden

tegengegaan een bepaald percentage aan te nemen

Men is het erover eens dat de doeleinden van maximale doelmatigheid en maximaal gelijke

kansen met elkaar conflicteren. Er is dus geen perfecte objectieve oplossing voor het

probleem van discriminatie


samenvatting testtheorie en diagnostiek

Documents